037 020713 Pc praat en
luistert slecht
Herbert Blankesteijn
Het verhaal over
spraaktechnologie lijkt op dat van de handschriftherkenning (zie vorige Beet).
Al vijftien jaar lang geven onderzoeksinstellingen en bedrijven demonstraties
van sprekende en luisterende computers. Elke keer is de boodschap: 'Nu hebben
we het eindelijk onder de knie.' Waarom converseren we dan nog niet met onze
computer, zoals zo vaak is voorspeld?
Bijvoorbeeld omdat de
computer niet de intelligentie heeft om zelfstandig te reageren op willekeurige
mededelingen. De onzinnige foutmeldingen die Windows geeft wanneer er iets
raars gebeurt zijn daarvan een prima illustratie. Apple is hierin overigens
geen haar beter. 'Chatbots' die in schermteksten een menselijk wezen imiteren,
doen dat met voorgeprogrammeerde reacties (inclusief opzettelijke tikfouten),
die makkelijk zijn te ontmaskeren met onzinvragen.
Het voorlezen van teksten
daarentegen is voor een computer niet moeilijk meer. De moderne technieken
daarvoor zijn in de jaren '80 ontwikkeld. Bij de primitieve benadering, die
intussen is verlaten, werd aan elke letter een klank gekoppeld. Een tekst werd
'voorgelezen' door de klanken van alle letters achter elkaar te zetten. Het
resultaat was soms verstaanbaar, maar meestal niet om aan te horen. Intonatie
bestond niet.
Vandaag wordt computerspraak
veel slimmer gesynthetiseerd, namelijk uit 'difonen'. Een 'a' waar een 'b' op
volgt klinkt anders dan een 'a' waar een 'g' na komt. Dus wordt elke 'a'
samengesteld uit twee gedeelten: een eerste helft die past bij de voorafgaande
letter, en een tweede helft die hoort bij de letter erna. Difonen kunnen worden
verkregen door een spreker woorden, desnoods onzinwoorden, te laten uitspreken
net zolang tot alle klankcombinaties zijn voorbijgekomen. Daarna kunnen de
difonen worden losgesneden en kan elke tekst via de computer worden
uitgesproken met de stem van de betreffende spreker. Taalkundige trucs zorgen
voor intonatie: een eenvoudige regel is bijvoorbeeld dat de toonhoogte omlaag
gaat bij het einde van een zin, en omhoog bij een vraagteken.
In Windows XP zit een
dergelijke vorm van spraaksynthese, met de stem van 'Microsoft Sam'. Een gratis
programma dat teksten kan voorlezen is ReadPlease (c). ReadPlease beweert dat
je spanning kunt voorkomen als je teksten niet leest, maar ze door de computer
laat voorlezen. Het tegendeel is het geval. Het voorlezen klinkt nog steeds
onnatuurlijk, en kost veel meer tijd dan zelf lezen. Computerspraak is nog niet
goed genoeg.
Praten tegen de computer kan
twee doelen dienen: commando's geven en
teksten dicteren. Het herkennen van commando's is voor de computer makkelijk,
omdat het een beperkt vocabulaire betreft ('Openen,' 'Opslaan,' 'Afdrukken,'
etc.). Maar voor mensen is het niet per se makkelijk om zo te werken. Je
kunt sneller klikken met de muis, of een toetsencombinatie indrukken, dan je
'Bestand - Opslaan' kunt zeggen. Stemcommando's zijn dus meer iets voor
RSI-patiënten en gehandicapten.
Spraakherkenning bij het
schrijven van teksten heeft soortgelijke bezwaren. Het correct noteren van
gedicteerde tekst lukt de pc alleen na veel oefenen en corrigeren, en daar
heeft niemand zin in. Teksten corrigeren met de stem is een moeizaam proces,
met rare commando's als 'Vijf lijnen naar boven', 'De volgende vier woorden vet
maken'. Met toetsen en muis kan dat intuïtiever en sneller. Voor het maken van
een lay-out geldt net zoiets.
Een opmerkelijke demonstratie
van de stand van zaken bij spraakherkenning heeft de BBC kort geleden gegeven
in sportprogramma's. Deze werden live ondertiteld door het programma ViaVoice
van IBM. NewScientist van 22 juni geeft de nodige voorbeelden
(p.100) van de tragikomische miskleunen van dat systeem.
Het is twijfelachtig of
spraakherkenning zo zal verbeteren dat het moeizame leerproces kan vervallen.
Waarschijnlijk blijft typen handiger, vooral omdat allerlei commando's met de
toetsen sneller worden gegeven. Zeker is dat op drukke kantoren gekwebbel
tussen pc's en hun gebruikers kan worden gemist als kiespijn. Dat staat los van
de kwaliteit van spraakherkenning. Spraaktechnologie zal daarom beperkt blijven
tot de niche van hulpmiddelen voor gehandicapten.