In dialoog met de pc - Gehandicapten verleggen de grenzen van pc-gebruik

De computer spreekt tegen

Is spraaktechnologie gehandicapt?

Herbert Blankesteijn

De computer kan spreken, zowel namens als tot het baasje. Ook kan hij luisteren - om te doen wat de baas wil, of om te noteren wat hij zegt. Dit is nuttig bij diverse handicaps, en voorkomt ook handicaps. Maar lezen, tikken of klikken is vaak handiger.

De beroemde Britse natuurkundige Stephen Hawking is door een spierziekte zodanig gehandicapt, dat hij nauwelijks meer kan bewegen en niet kan spreken. Toch kan hij zich verstaanbaar maken. Met zijn laatste restjes beweging kan hij tekst in een computer invoeren, waarna deze wordt uitgesproken door een programma voor spraaksynthese.

Dat levert merkwaardige toestanden op. Als Hawking een lezing houdt, zit hij zwijgend en in een verkreukelde houding in zijn rolstoel, terwijl de computer zijn tekst voordraagt - met een Amerikaans accent. De BBC heeft een documentaire serie over moderne natuurkunde gemaakt (in Nederland uitgezonden door Teleac/NOT) waarbij volgens de makers het commentaar was ingesproken door Hawking. Inderdaad klonk bij de beelden de bekende mechanische, maar redelijk verstaanbare computerstem. In hoeverre was dat de stem van Stephen Hawking zelf? Iedereen die dezelfde software installeert kan zijn computer zo laten klinken. Nu gaf de inhoud van de teksten weinig reden om aan de oprechtheid van de BBC te twijfelen. Maar het is onwaarschijnlijk dat Hawking in een spreekcel aanwezig is geweest, zoals hij zijn eigen lezingen bijwoont. Hij zou zich kunnen beperken tot het mailen van een tekstbestand en het adres van zijn softwareleverancier.

Wie, gehandicapt of niet, met spraaksynthese wil kennismaken, kan dat op verschillende manieren doen. In de eerste plaats heeft het geplaagde Lernout & Hauspie een demonstratie op internet. Op http://www.lhsl.com/realspeak/demo.cfm kan iedereen, na een keus te hebben gemaakt uit acht talen, een korte boodschap intypen. Deze wordt dan in een geluidsbestand omgezet en dit wordt gestuurd naar de pc van de aanvrager. De kwaliteit is zeer goed; de praktische toepasbaarheid gering, maar het is dan ook een demonstratie. Of deze demo bij het verschijnen van dit stuk nog werkt, is niet zeker, gezien de situatie van het bedrijf.

Wie een account heeft bij het internetbedrijf Xoip (www.xoip.nl; sinds 1 augustus moet daarvoor worden betaald) kan onder andere via de telefoon zijn e-mail laten voorlezen. Dat kon tot voor kort ook met de e-maillezer van Van Dale op www.emaillezer.nl. Maar hoewel het bestand van deze laatste toepassing nog verkrijgbaar is, is het volgens de site bruikbaar tot mei 2001 en zal het waarschijnlijk niet meer werken. Bezitters van de Grote Van Dale op cd-rom (f. 350,-) kunnen trefwoorden door een soortgelijk programma laten uitspreken.

Vervolgens is er het programma ReadPlease (www.readplease.com). Dit gratis programma leest tekst die tevoren is geselecteerd met de muis of met de knoppen van het toetsenbord. Het grote nadeel van ReadPlease is het feit dat er alleen Engelstalige stemmen beschikbaar zijn - hoewel dit bij surfen op internet juist weer een voordeel kan zijn.

ReadPlease beweert dat het laten voorlezen van schermtekst een goede manier is om vermoeidheid en RSI te voorkomen. Dat is natuurlijk onzin. Lange lappen tekst laten voorlezen door een robot kost afschuwelijk veel tijd en levert ergernis en hoofdpijn op. Net als bij de genoemde voorbeelden zijn de vier meegeleverde computerstemmen niet natuurlijk genoeg om lang naar te luisteren. Geen wonder dat de blindenbibliotheek Le Sage ten Broek nog steeds zweert bij vrijwilligers die boeken inspreken, ook al is van de meeste boeken een digitale versie beschikbaar.

Spraaksynthese is in slechts enkele gevallen zinvol, en er is niet één ideale oplossing. Wie niet kan spreken, heeft een stem nodig die in ieder geval de eigen taal beheerst. In de therapeutische praktijk bestaan apparaten met ingeblikte, echte stemmen, die bij het indrukken van een knop een of enkele vooraf opgenomen woorden spreken. Dit kan nuttig zijn bij afasie en verwante problemen. Gaan de behoeften de omvang van een reisvocabulaire te boven, dan is er een computerachtig apparaat nodig waarin woorden of zinnen kunnen worden getikt, en zal een computerstem het werk moeten doen, met alle gebreken die daar nu nog bij horen.

Voor slechtzienden die een boek willen 'lezen' is het ouderwetse cassettebandje wellicht nog steeds het prettigste. Maar bij het lezen van snel veranderende teksten op het computerscherm is dat niet mogelijk. Er is dan een samenstel van hulpmiddelen nodig, waar spraaksynthese een deel van kan zijn. Bij het surfen op internet bijvoorbeeld gebruiken veel slechtzienden een browser die alleen tekst op het scherm zet, en plaatjes en dergelijke wegfiltert. Het laten voorlezen van de inhoud van de pagina door een spraaksynthesizer is dan redelijk te doen (al zullen sommige blinden kiezen voor een brailleleesregel, en sommige slechtzienden voor software die een deel van het beeld vergroot). Maar als er veel advertenties op de pagina staan, of als veel informatie in grafische bestanden wordt gepresenteerd, loopt het met deze methode spaak. Daarom moet de site meewerken door een versie met hoofdzakelijk tekst te bieden aan diegenen die dat nodig hebben. Het ministerie van Volksgezondheid, Welzijn en Sport streeft er in het project 'Drempels Weg' (www.drempelsweg.nl) naar dat organisaties hun sites geschikt maken voor mensen met een visuele handicap.

Hoe dan ook is er altijd, naast de eigenlijke spraaksynthesizer, software nodig die de slechtziende gebruiker helpt de juiste onderdelen op het scherm te selecteren. ReadPlease bijvoorbeeld gaat ervan uit dat je zelf de tekst selecteert die je voorgelezen wilt hebben, maar zo eenvoudig is dat voor een blinde natuurlijk niet. Computertoepassingen die spraaksynthese combineren met de juiste software en apparatuur voor een bepaalde handicap, heten screenreaders en worden in Nederland geleverd door het bedrijf rdgKompagne (www.rdgkompagne.nl). De nieuwste versie van Windows, Windows XP, heeft mogelijkheden voor spraaksynthese ingebouwd, inclusief een kant-en-klare stem, Microsoft Sam. Ook deze is makkelijk herkenbaar als computerstem.

In de commerciële software die op dit moment op de markt is, domineren de pseudo-menselijke stemmen, nog vrij mechanisch maar wel met enige intonatie. Deze intonatie volgt eenvoudige regels voor klemtonen en daalt in toonhoogte als een zin eindigt. Dat suggereert enig begrip en vergemakkelijkt het luisteren. Inmiddels schrijdt de techniek voort. Er wordt al geëxperimenteerd met emoties in kunstmatige spraak (http://tcts.fpms.ac.be/synthesis/mbrola.html). In augustus 2001 heeft AT&T bekend gemaakt over software te beschikken waarmee elke willekeurige stem op de computer kan worden gereproduceerd. Daarvoor is tien tot veertig uur aan opnamen van de betreffende stem nodig, maar dan kan de computer met deze stem alles zeggen wat via het toetsenbord (of met andere middelen) kan worden ingevoerd.

Dit is niet zo krankzinnig als het lijkt. Een toegewijde liefhebber heeft zoiets in het verleden al gepresteerd, op basis van analoge technieken, met de stemmen van Beatrix en nieuwslezer Donald de Marcas. Ruim tien jaar geleden werd hetzelfde op digitale wijze door Nederlandse onderzoekers gedaan met Philip Bloemendal. Zo bezien heeft het tamelijk lang geduurd voor de techniek algemeen beschikbaar kwam.

>>>begin kadertekst

Stephen Hawking heeft met piraterij van zijn stem al te maken, en wel door toedoen van MC Hawking. Dit is een rap-artiest, of wie weet een groep, die in alle anonimiteit de computerstem van Stephen Hawking rapteksten in de mond legt, en deze op muziek zet. Het resultaat is als mp3-bestanden verkrijgbaar op de site www.mchawking.com:

"E" stands for energy, yo that's me,
I'm a brilliant scientist and a dope MC.
Before you step to me I'd think twice G,
I'm the Lord of Chaos, King of Entropy.
(...)

There ain't another motherfucker hard like me,
I'm a universal constant, I'm a singularity.

Onnnodig te zeggen dat Hawking zelf hier part noch deel aan heeft. Overigens schijnt hij de grap er wel van te kunnen inzien en heeft hij de makers een 'thumbs up' gegeven.

einde kadertekst<<<

Het complement van spraaksynthese is spraakherkenning. Spraakherkenning heeft twee varianten: enerzijds spraakbesturing, dus het spreken van opdrachten als 'Opslaan' en 'Wissen', en anderzijds dicteren. Spraakbesturing is makkelijker voor de pc, omdat het te herkennen vocabulaire beperkt is. Hiervan bestaat een gratis voorbeeld. Op www.speech.philips.com/fsbrowser kan iedereen de FreeSpeech Browser downloaden (10 MB; ca. drie kwartier downloadtijd). Dit programma moet computeraars in staat stellen over internet te surfen met gebruikmaking van de stem in plaats van de muis. De commando's zijn in het Engels, waarbij de links op een pagina desgewenst worden genummerd. Het spreken van een nummer activeert dan de bijbehorende link. De FreeSpeech Browser is een lokkertje voor het complete product, FreeSpeech, software voor spraakherkenning inclusief dicteren, waarmee Philips concurreert met andere makers als Lernout & Hauspie (VoiceXpress en Dragon NaturallySpeaking).

Spraakherkenning is een voor de hand liggende mogelijkheid bij handicaps, bijvoorbeeld van de handen. En behalve aan ontbrekende ledematen denken we dan onmiddellijk aan RSI. Ook bij preventie van RSI zou spraakherkenning goede diensten kunnen bewijzen.

Helaas is spraakherkenning in verschillende opzichten moeilijk. Bij spraakbesturing als met de FreeSpeech Browser moet de gebruiker de commando's uit het hoofd leren, of hij moet steeds weer de menu's raadplegen. De commando's zijn niet altijd even vanzelfsprekend. Bij VoiceXpress, een Belgisch programma, moet je bijvoorbeeld niet zeggen: 'Bestand', maar: 'Bestand menu', en niet: 'vijf regels omhoog', maar: 'vijf lijnen naar boven'. Zeg je het verkeerd, dan luistert de computer niet. Hij begrijpt niet, maar vergelijkt.

Als het gaat om dicteren, is het de pc die moet leren, maar het is de gebruiker die daar de moeite voor moet doen. Het is een moeizaam proces, waarbij door de computer verkeerd begrepen woorden moeten worden herhaald en gecorrigeerd. Het is niet het soort werk waar je op zit te wachten als je al een handicap hebt. Bovendien zijn de mensen die dit moeten leren soms ouderen, die niet vertrouwd zijn met Windows. Tot overmaat van ramp doet vooral het dicteren een groot beroep op de 'systeembronnen', dat wil zeggen de harde schijf, het werkgeheugen en de processor. De 64 MB werkgeheugen waarmee pc's nu nog standaard worden uitgerust is ten enenmale onvoldoende. Daar staat tegenover dat computers die wel aan de eisen voldoen, met tenminste128 MB geheugen, binnenkort de norm zullen zijn.

Bij rdgKompagne is Janneke den Draak buitengewoon enthousiast over spraakherkenning. Zij adviseert en traint op het gebied van spraakherkenning. NaturallySpeaking is volgens haar het beste pakket, 'als je zoveel mogelijk je handen vrij wilt houden. VoiceXpress is meer gelikt en heeft meer ingebouwde commando's. Je kunt bijvoorbeeld met één commando de volgende alinea rood kleuren.' Den Draak zegt inmiddels met spraakherkenning het equivalent te halen van 300 aanslagen per minuut. Zou ze mensen dan niet aanraden het toetsenbord helemaal te vergeten? Zouden kinderen niet meteen aan de spraakherkenning moeten? 'Nee. Er blijven omstandigheden dat het toetsenbord of de muis handiger zijn. Bij het geven van commando's bijvoorbeeld, en als je werkt in bestanden met een bijzondere structuur, bijvoorbeeld als er veel namen en adressen in staan, en andere woorden die niet in een standaard woordenlijst voorkomen.'

Spraaktechnologie is bezig volwassen te worden. Dat betekent dat in technisch opzicht de perfectie in zicht komt, en dat de apparatuur om ervan gebruik te maken binnen het bereik is gekomen van het grote publiek. Het betekent ook dat de beperkingen duidelijk worden. Met goed werkende spraaksynthese en goed werkende spraakherkenning kan de computer die alle informatie in audio uitwisselt, in principe worden gebouwd. Maar het toekomstbeeld uit '2001, A Space Odyssey' en uit talrijke pr-video's van computerbedrijven, zal niet bewaarheid worden. Lezen gaat nu eenmaal sneller dan luisteren en je kunt nog eens iets overslaan. Tikken en klikken is betrouwbaarder dan commanderen, zeker als de computer nooit is gedrild. En zwijgende communicatie is stukken handiger op kantoor, waar al genoeg wordt gekwekt.

En tenslotte, voor diegenen die van spraaktechnologie heil verwachten inzake RSI: in april 2001 hebben vier studentes logopedie aan de Hanzehogeschool in Groningen een onderzoek gepubliceerd naar de effecten van spraaksoftware. RSI-patiënten en gehandicapten die hier intensief gebruik van maken lopen een verhoogde kans op een overgevoelige keel, heesheid en het volledig wegvallen van de stem, zo was de conclusie. Spreken is zilver; en misschien is dat mooi genoeg.