037 020713 Pc kan niet luisteren en moet niet praten

037 020713 Pc praat en luistert slecht

Herbert Blankesteijn

Het verhaal over spraaktechnologie lijkt op dat van de handschriftherkenning (zie vorige Beet). Al vijftien jaar lang geven onderzoeksinstellingen en bedrijven demonstraties van sprekende en luisterende computers. Elke keer is de boodschap: 'Nu hebben we het eindelijk onder de knie.' Waarom converseren we dan nog niet met onze computer, zoals zo vaak is voorspeld?

Bijvoorbeeld omdat de computer niet de intelligentie heeft om zelfstandig te reageren op willekeurige mededelingen. De onzinnige foutmeldingen die Windows geeft wanneer er iets raars gebeurt zijn daarvan een prima illustratie. Apple is hierin overigens geen haar beter. 'Chatbots' die in schermteksten een menselijk wezen imiteren, doen dat met voorgeprogrammeerde reacties (inclusief opzettelijke tikfouten), die makkelijk zijn te ontmaskeren met onzinvragen.

Het voorlezen van teksten daarentegen is voor een computer niet moeilijk meer. De moderne technieken daarvoor zijn in de jaren '80 ontwikkeld. Bij de primitieve benadering, die intussen is verlaten, werd aan elke letter een klank gekoppeld. Een tekst werd 'voorgelezen' door de klanken van alle letters achter elkaar te zetten. Het resultaat was soms verstaanbaar, maar meestal niet om aan te horen. Intonatie bestond niet.

Vandaag wordt computerspraak veel slimmer gesynthetiseerd, namelijk uit 'difonen'. Een 'a' waar een 'b' op volgt klinkt anders dan een 'a' waar een 'g' na komt. Dus wordt elke 'a' samengesteld uit twee gedeelten: een eerste helft die past bij de voorafgaande letter, en een tweede helft die hoort bij de letter erna. Difonen kunnen worden verkregen door een spreker woorden, desnoods onzinwoorden, te laten uitspreken net zolang tot alle klankcombinaties zijn voorbijgekomen. Daarna kunnen de difonen worden losgesneden en kan elke tekst via de computer worden uitgesproken met de stem van de betreffende spreker. Taalkundige trucs zorgen voor intonatie: een eenvoudige regel is bijvoorbeeld dat de toonhoogte omlaag gaat bij het einde van een zin, en omhoog bij een vraagteken.

In Windows XP zit een dergelijke vorm van spraaksynthese, met de stem van 'Microsoft Sam'. Een gratis programma dat teksten kan voorlezen is ReadPlease (c). ReadPlease beweert dat je spanning kunt voorkomen als je teksten niet leest, maar ze door de computer laat voorlezen. Het tegendeel is het geval. Het voorlezen klinkt nog steeds onnatuurlijk, en kost veel meer tijd dan zelf lezen. Computerspraak is nog niet goed genoeg.

Praten tegen de computer kan twee doelen dienen: commando's geven en teksten dicteren. Het herkennen van commando's is voor de computer makkelijk, omdat het een beperkt vocabulaire betreft ('Openen,' 'Opslaan,' 'Afdrukken,' etc.). Maar voor mensen is het niet per se makkelijk om zo te werken. Je kunt sneller klikken met de muis, of een toetsencombinatie indrukken, dan je 'Bestand - Opslaan' kunt zeggen. Stemcommando's zijn dus meer iets voor RSI-patiënten en gehandicapten.

Spraakherkenning bij het schrijven van teksten heeft soortgelijke bezwaren. Het correct noteren van gedicteerde tekst lukt de pc alleen na veel oefenen en corrigeren, en daar heeft niemand zin in. Teksten corrigeren met de stem is een moeizaam proces, met rare commando's als 'Vijf lijnen naar boven', 'De volgende vier woorden vet maken'. Met toetsen en muis kan dat intuïtiever en sneller. Voor het maken van een lay-out geldt net zoiets.

Een opmerkelijke demonstratie van de stand van zaken bij spraakherkenning heeft de BBC kort geleden gegeven in sportprogramma's. Deze werden live ondertiteld door het programma ViaVoice van IBM. NewScientist van 22 juni geeft de nodige voorbeelden (p.100) van de tragikomische miskleunen van dat systeem.

Het is twijfelachtig of spraakherkenning zo zal verbeteren dat het moeizame leerproces kan vervallen. Waarschijnlijk blijft typen handiger, vooral omdat allerlei commando's met de toetsen sneller worden gegeven. Zeker is dat op drukke kantoren gekwebbel tussen pc's en hun gebruikers kan worden gemist als kiespijn. Dat staat los van de kwaliteit van spraakherkenning. Spraaktechnologie zal daarom beperkt blijven tot de niche van hulpmiddelen voor gehandicapten.