De computer spreekt tegen
Is spraaktechnologie
gehandicapt?
Herbert Blankesteijn
De computer kan spreken, zowel namens als tot het baasje. Ook kan hij
luisteren - om te doen wat de baas wil, of om te noteren wat hij zegt. Dit is
nuttig bij diverse handicaps, en voorkomt ook handicaps. Maar lezen, tikken of
klikken is vaak handiger.
De beroemde Britse
natuurkundige Stephen Hawking is door een spierziekte zodanig gehandicapt, dat
hij nauwelijks meer kan bewegen en niet kan spreken. Toch kan hij zich
verstaanbaar maken. Met zijn laatste restjes beweging kan hij tekst in een
computer invoeren, waarna deze wordt uitgesproken door een programma voor spraaksynthese.
Dat levert merkwaardige
toestanden op. Als Hawking een lezing houdt, zit hij zwijgend en in een
verkreukelde houding in zijn rolstoel, terwijl de computer zijn tekst
voordraagt - met een Amerikaans accent. De BBC heeft een documentaire serie over
moderne natuurkunde gemaakt (in Nederland uitgezonden door Teleac/NOT) waarbij
volgens de makers het commentaar was ingesproken door Hawking. Inderdaad klonk
bij de beelden de bekende mechanische, maar redelijk verstaanbare computerstem.
In hoeverre was dat de stem van Stephen Hawking zelf? Iedereen die dezelfde
software installeert kan zijn computer zo laten klinken. Nu gaf de inhoud van
de teksten weinig reden om aan de oprechtheid van de BBC te twijfelen. Maar het
is onwaarschijnlijk dat Hawking in een spreekcel aanwezig is geweest, zoals hij
zijn eigen lezingen bijwoont. Hij zou zich kunnen beperken tot het mailen van
een tekstbestand en het adres van zijn softwareleverancier.
Wie, gehandicapt of niet, met
spraaksynthese wil kennismaken, kan dat op verschillende manieren doen. In de
eerste plaats heeft het geplaagde Lernout & Hauspie een demonstratie op
internet. Op http://www.lhsl.com/realspeak/demo.cfm kan iedereen, na een keus
te hebben gemaakt uit acht talen, een korte boodschap intypen. Deze wordt dan
in een geluidsbestand omgezet en dit wordt gestuurd naar de pc van de
aanvrager. De kwaliteit is zeer goed; de praktische toepasbaarheid gering, maar
het is dan ook een demonstratie. Of deze demo bij het verschijnen van dit stuk
nog werkt, is niet zeker, gezien de situatie van het bedrijf.
Wie een account heeft bij het
internetbedrijf Xoip (www.xoip.nl; sinds 1 augustus moet daarvoor worden
betaald) kan onder andere via de telefoon zijn e-mail laten voorlezen. Dat kon
tot voor kort ook met de e-maillezer van Van Dale op www.emaillezer.nl. Maar
hoewel het bestand van deze laatste toepassing nog verkrijgbaar is, is het
volgens de site bruikbaar tot mei 2001 en zal het waarschijnlijk niet meer
werken. Bezitters van de Grote Van Dale op cd-rom (f. 350,-) kunnen trefwoorden
door een soortgelijk programma laten uitspreken.
Vervolgens is er het
programma ReadPlease (www.readplease.com). Dit gratis programma leest tekst die
tevoren is geselecteerd met de muis of met de knoppen van het toetsenbord. Het
grote nadeel van ReadPlease is het feit dat er alleen Engelstalige stemmen
beschikbaar zijn - hoewel dit bij surfen op internet juist weer een voordeel
kan zijn.
ReadPlease beweert dat het
laten voorlezen van schermtekst een goede manier is om vermoeidheid en RSI te
voorkomen. Dat is natuurlijk onzin. Lange lappen tekst laten voorlezen door een
robot kost afschuwelijk veel tijd en levert ergernis en hoofdpijn op. Net
als bij de genoemde voorbeelden zijn de vier meegeleverde
computerstemmen niet natuurlijk genoeg om lang naar te luisteren. Geen wonder
dat de blindenbibliotheek Le Sage ten Broek nog steeds zweert bij vrijwilligers
die boeken inspreken, ook al is van de meeste boeken een digitale versie
beschikbaar.
Spraaksynthese is in slechts
enkele gevallen zinvol, en er is niet één ideale oplossing. Wie niet kan
spreken, heeft een stem nodig die in ieder geval de eigen taal beheerst. In de
therapeutische praktijk bestaan apparaten met ingeblikte, echte stemmen, die
bij het indrukken van een knop een of enkele vooraf opgenomen woorden spreken.
Dit kan nuttig zijn bij afasie en verwante problemen. Gaan de behoeften de
omvang van een reisvocabulaire te boven, dan is er een computerachtig apparaat
nodig waarin woorden of zinnen kunnen worden getikt, en zal een computerstem
het werk moeten doen, met alle gebreken die daar nu nog bij horen.
Voor
slechtzienden die een boek willen 'lezen' is het ouderwetse cassettebandje
wellicht nog steeds het prettigste. Maar bij het lezen van snel veranderende
teksten op het computerscherm is dat niet mogelijk. Er is dan een samenstel van
hulpmiddelen nodig, waar spraaksynthese een deel van kan zijn. Bij het surfen
op internet bijvoorbeeld gebruiken veel slechtzienden een browser die alleen
tekst op het scherm zet, en plaatjes en dergelijke wegfiltert. Het laten
voorlezen van de inhoud van de pagina door een spraaksynthesizer is dan
redelijk te doen (al zullen sommige blinden kiezen voor een brailleleesregel,
en sommige slechtzienden voor software die een deel van het beeld vergroot).
Maar als er veel advertenties op de pagina staan, of als veel informatie in
grafische bestanden wordt gepresenteerd, loopt het met deze methode spaak.
Daarom moet de site meewerken door een versie met hoofdzakelijk tekst te bieden
aan diegenen die dat nodig hebben. Het ministerie van Volksgezondheid, Welzijn
en Sport streeft er in het project 'Drempels Weg' (www.drempelsweg.nl) naar dat
organisaties hun sites geschikt maken voor mensen met een visuele handicap.
Hoe
dan ook is er altijd, naast de eigenlijke spraaksynthesizer, software nodig die
de slechtziende gebruiker helpt de juiste onderdelen op het scherm te
selecteren. ReadPlease bijvoorbeeld gaat ervan uit dat je zelf de tekst
selecteert die je voorgelezen wilt hebben, maar zo eenvoudig is dat voor een
blinde natuurlijk niet. Computertoepassingen die spraaksynthese combineren met
de juiste software en apparatuur voor een bepaalde handicap, heten screenreaders
en worden in Nederland geleverd door het bedrijf rdgKompagne
(www.rdgkompagne.nl). De nieuwste versie van Windows, Windows XP, heeft
mogelijkheden voor spraaksynthese ingebouwd, inclusief een kant-en-klare stem, Microsoft
Sam. Ook deze is makkelijk herkenbaar als computerstem.
In de commerciële software
die op dit moment op de markt is, domineren de pseudo-menselijke stemmen, nog
vrij mechanisch maar wel met enige intonatie. Deze intonatie volgt eenvoudige
regels voor klemtonen en daalt in toonhoogte als een zin eindigt. Dat
suggereert enig begrip en vergemakkelijkt het luisteren. Inmiddels schrijdt de
techniek voort. Er wordt al geëxperimenteerd met emoties in kunstmatige spraak
(http://tcts.fpms.ac.be/synthesis/mbrola.html). In augustus 2001 heeft AT&T
bekend gemaakt over software te beschikken waarmee elke willekeurige stem op de
computer kan worden gereproduceerd. Daarvoor is tien tot veertig uur aan
opnamen van de betreffende stem nodig, maar dan kan de computer met deze stem
alles zeggen wat via het toetsenbord (of met andere middelen) kan worden
ingevoerd.
Dit is niet zo krankzinnig
als het lijkt. Een toegewijde liefhebber heeft zoiets in het verleden al
gepresteerd, op basis van analoge technieken, met de stemmen van Beatrix en
nieuwslezer Donald de Marcas. Ruim tien jaar geleden werd hetzelfde op digitale
wijze door Nederlandse onderzoekers gedaan met Philip Bloemendal. Zo bezien
heeft het tamelijk lang geduurd voor de techniek algemeen beschikbaar kwam.
>>>begin
kadertekst
Stephen Hawking heeft met
piraterij van zijn stem al te maken, en wel door toedoen van MC Hawking.
Dit is een rap-artiest, of wie weet een groep, die in alle anonimiteit de
computerstem van Stephen Hawking rapteksten in de mond legt, en deze op muziek
zet. Het resultaat is als mp3-bestanden verkrijgbaar op de site
www.mchawking.com:
"E" stands for energy, yo that's me,
I'm a brilliant scientist and a dope MC.
Before you step to me I'd think twice G,
I'm the Lord of Chaos, King of Entropy.
(...)
There ain't another motherfucker hard like me,
I'm a universal constant, I'm a singularity.
Onnnodig te zeggen dat
Hawking zelf hier part noch deel aan heeft. Overigens schijnt hij de grap er
wel van te kunnen inzien en heeft hij de makers een 'thumbs up' gegeven.
einde kadertekst<<<
Het
complement van spraaksynthese is spraakherkenning. Spraakherkenning heeft twee
varianten: enerzijds spraakbesturing, dus het spreken van opdrachten als
'Opslaan' en 'Wissen', en anderzijds dicteren. Spraakbesturing is makkelijker
voor de pc, omdat het te herkennen vocabulaire beperkt is. Hiervan bestaat een
gratis voorbeeld. Op www.speech.philips.com/fsbrowser kan iedereen de FreeSpeech
Browser downloaden (10 MB; ca. drie
kwartier downloadtijd). Dit programma moet computeraars in staat stellen over
internet te surfen met gebruikmaking van de stem in plaats van de muis. De
commando's zijn in het Engels, waarbij de links op een pagina desgewenst worden
genummerd. Het spreken van een nummer activeert dan de bijbehorende link. De FreeSpeech
Browser is een lokkertje voor het complete product, FreeSpeech,
software voor spraakherkenning inclusief dicteren, waarmee Philips concurreert
met andere makers als Lernout & Hauspie (VoiceXpress en Dragon
NaturallySpeaking).
Spraakherkenning
is een voor de hand liggende mogelijkheid bij handicaps, bijvoorbeeld van de
handen. En behalve aan ontbrekende ledematen denken we dan onmiddellijk aan
RSI. Ook bij preventie van RSI zou spraakherkenning goede diensten kunnen
bewijzen.
Helaas
is spraakherkenning in verschillende opzichten moeilijk. Bij spraakbesturing
als met de FreeSpeech Browser moet de gebruiker de commando's uit het hoofd
leren, of hij moet steeds weer de menu's raadplegen. De commando's zijn niet
altijd even vanzelfsprekend. Bij VoiceXpress, een Belgisch programma, moet je
bijvoorbeeld niet zeggen: 'Bestand', maar: 'Bestand menu', en niet: 'vijf
regels omhoog', maar: 'vijf lijnen naar boven'. Zeg je het verkeerd, dan
luistert de computer niet. Hij begrijpt niet, maar vergelijkt.
Als
het gaat om dicteren, is het de pc die moet leren, maar het is de gebruiker die
daar de moeite voor moet doen. Het is een moeizaam proces, waarbij door de
computer verkeerd begrepen woorden moeten worden herhaald en gecorrigeerd. Het
is niet het soort werk waar je op zit te wachten als je al een handicap hebt.
Bovendien zijn de mensen die dit moeten leren soms ouderen, die niet vertrouwd
zijn met Windows. Tot overmaat van ramp doet vooral het dicteren een groot
beroep op de 'systeembronnen', dat wil zeggen de harde schijf, het werkgeheugen
en de processor. De 64 MB werkgeheugen waarmee pc's nu nog standaard worden
uitgerust is ten enenmale onvoldoende. Daar staat tegenover dat computers die
wel aan de eisen voldoen, met tenminste128 MB geheugen, binnenkort de norm
zullen zijn.
Bij
rdgKompagne is Janneke den Draak buitengewoon enthousiast over
spraakherkenning. Zij adviseert en traint op het gebied van spraakherkenning.
NaturallySpeaking is volgens haar het beste pakket, 'als je zoveel mogelijk je
handen vrij wilt houden. VoiceXpress is meer gelikt en heeft meer ingebouwde
commando's. Je kunt bijvoorbeeld met één commando de volgende alinea rood
kleuren.' Den Draak zegt inmiddels met spraakherkenning het equivalent te halen
van 300 aanslagen per minuut. Zou ze mensen dan niet aanraden het toetsenbord
helemaal te vergeten? Zouden kinderen niet meteen aan de spraakherkenning
moeten? 'Nee. Er blijven omstandigheden dat het toetsenbord of de muis handiger
zijn. Bij het geven van commando's bijvoorbeeld, en als je werkt in bestanden
met een bijzondere structuur, bijvoorbeeld als er veel namen en adressen in
staan, en andere woorden die niet in een standaard woordenlijst voorkomen.'
Spraaktechnologie
is bezig volwassen te worden. Dat betekent dat in technisch opzicht de
perfectie in zicht komt, en dat de apparatuur
om ervan gebruik te maken binnen het bereik is gekomen van het grote
publiek. Het betekent ook dat de beperkingen duidelijk worden. Met goed
werkende spraaksynthese en goed werkende spraakherkenning kan de computer die
alle informatie in audio uitwisselt, in principe worden gebouwd. Maar het
toekomstbeeld uit '2001, A Space Odyssey' en uit talrijke pr-video's van
computerbedrijven, zal niet bewaarheid worden. Lezen gaat nu eenmaal sneller
dan luisteren en je kunt nog eens iets overslaan. Tikken en klikken is
betrouwbaarder dan commanderen, zeker als de computer nooit is gedrild. En
zwijgende communicatie is stukken handiger op kantoor, waar al genoeg wordt
gekwekt.
En
tenslotte, voor diegenen die van spraaktechnologie heil verwachten inzake RSI:
in april 2001 hebben vier studentes logopedie aan de Hanzehogeschool in
Groningen een onderzoek gepubliceerd naar de effecten van spraaksoftware.
RSI-patiënten en gehandicapten die hier intensief gebruik van maken lopen een
verhoogde kans op een overgevoelige keel, heesheid en het volledig wegvallen
van de stem, zo was de conclusie. Spreken is zilver; en misschien is dat mooi
genoeg.