Dicteren aan de computer
Herbert Blankesteijn

Een deel van dit artikel is niet geschreven, maar ingesproken. Tijdens het spreken is het in tekst omgezet, niet door een secretaresse, maar door de computer zelf.
Spraakherkenning door de computer is ongeveer tien jaar lang een belofte geweest, maar lijkt nu eindelijk commercieel bruikbaar te zijn geworden. Er is een viertal softwarepakketten op de markt, waarvan FreeSpeech van Philips en Voice Xpress van de Belgische firma Lernout & Hauspie door computerbladen om beurten als beste worden beoordeeld.

Het probleem waardoor spraakherkenning zolang een belofte is gebleven, is het herkennen van normale spraak. Bij normale spraak staan de woorden niet los van elkaar, maar worden ze met elkaar verbonden, wat we het beste merken, wanneer we naar buitenlandse spraak luisteren. Voor de computer is het nog moeilijker dan voor een ongeoefende luisteraar om uit die brij van geluid losse woorden te destilleren. Mede dankzij de toegenomen snelheid van computers zijn softwaremakers nu in staat de herkenning vrij goed te laten verlopen. Daardoor is het nu mogelijk de computer toe te spreken in normale spraak, en is het in theorie niet meer nodig tussen elke twee woorden een pauze in acht te nemen.

Daarvoor moet wel aan een aantal eisen zijn voldaan. Er mag bijvoorbeeld niet al te veel omgevingslawaai zijn. De stem van de gebruiker moet voor de computer duidelijk klinken, en een machine is op dat gebied minder tolerant dan een mens. Als mens heb je bijvoorbeeld veel houvast aan de richting waaruit het geluid komt, aan de lipbewegingen van een gesprekspartner en aan de inhoud van het voorafgaande deel van het gesprek. Al deze informatie mist de computer. De verhouding tussen achtergrondgeluid en spraak wordt bij installatie van een spraakherkenner gemeten. De gebruiker kan dit verbeteren door de microfoon in een zo goed mogelijke positie voor de mond te houden: dicht bij, maar niet recht ervoor - want dan wordt het geblaas van de ademhaling hinderlijk. Ook kan de zoemende computerkast ver weg worden gezet. Microfoons ver van de mond, bijvoorbeeld ingebouwd in een beeldscherm, zijn onbruikbaar. Bij spraakherkenningssoftware worden geschikte microfoons meegeleverd, bevestigd aan een headset.

Een andere eis is dat de spreker van zichzelf redelijk verstaanbaar is. Een accent of spraakgebrek kan een probleem zijn. Ook dit wordt bij installatie gecontroleerd. Een aanstaande gebruiker moet een aantal standaardteksten inspreken, die door de pc worden verwerkt. Voordeel hierbij is dat de computer weet wat er komt. Hieruit ontstaat een profiel, dat elke keer wordt opgeroepen dat dezelfde gebruiker zich meldt. Spraakherkenners kunnen verschillende profielen opslaan.

Het is belangrijk twee soorten spraakherkenning te onderscheiden. De eerste is spraakbesturing. Daarbij wordt het klikken van de muis vervangen door gesproken commando's. Dit is voor de computer relatief makkelijk. Er hoeft maar een klein aantal commando's van elkaar te worden onderscheiden, en dit gaat dan ook zelden verkeerd. Met de genoemde softwarepakketten kunnen vrijwel alle handelingen met de muis worden geëlimineerd. Zelfs Engelstalige commando's in Engelse softwareversies werken zonder enig probleem. Een uitkomst voor mensen met een muisarm.

Iets heel anders is het dicteren van tekst. Kleine, subtiele verschillen moeten daarbij juist worden geïnterpreteerd, terwijl er soms niet twee, maar wel vijf mogelijkheden zijn. De kans op fouten is daarbij veel groter. Bij dicteren is het dan ook altijd nodig de software te trainen. Als er fouten worden gemaakt, moet de juiste versie er expliciet worden ingestampt. Tot komst vooral in het begin veel extra tijd om hommel verbloemen

(Hier heeft de auteur de spraakherkenning maar uitgezet.)

'Dat kost vooral in het begin veel extra tijd,' had er moeten staan. 'Om hommel verbloemen' was het resultaat van het wegsmijten van de headset. Leren werken met spraakherkenning is niet eenvoudig. Om te beginnen worden de ingeslepen muishandelingen vervangen door gesproken commando's, en die moet je dus leren. Soms zijn die zeer vanzelfsprekend, zoals 'Start [naam programma]', soms zijn ze wat gekunsteld, zoals 'Verander naar [naam programma]' om een tweede actief programma op het scherm naar voren te halen, en soms zijn ze lachwekkend, zoals 'Ga twee lijnen naar beneden' als de cursor twee regels omlaag moet (deze commando's komen uit het Vlaamse Voice Xpress). Hoe dan ook, de gebruiker staat opeens aan het begin van een lange leercurve en voelt zich weer als de eerste de beste beginneling, met alle irritatie van dien. Sommige gesproken commando's zijn objectief veel moeilijker dan de corresponderende muishandeling. Om de cursor op een willekeurige plaats op het scherm neer te zetten volstaat het met de muis die plaats aan de wijzen. Om hetzelfde met spraakbesturing te doen, moet je het aantal regels omhoog of omlaag tellen, en daarna het aantal posities of woorden dat de cursor nog in horizontale richting moet afleggen. Gelukkig blijft normaal gesproken de muis beschikbaar en is niemand verplicht de microfoon te gebruiken.

De eerste emoties bij het gebruiken van de dicteerfunctie zijn verbazing en blijdschap. 140 woorden per minuut is wel even wat anders dan 140 aanslagen per minuut. En in een woord dat juist is herkend, staan per definitie geen tikfouten. Spraakherkenning belooft veel meer snelheid bij het 'schrijven'. Maar als de eerste fouten de kop opsteken piep je wel anders. Het trainen van woorden houdt behoorlijk op. En hoe elimineer je een spatie te veel, hoe voeg je een spatie in waar hij is weggelaten? Spraakcommando's blijken veel trager dan even klikken met de muis, ook als je ze niet hoeft op te zoeken.

Daar komt nog bij dat de spraakherkenner niet altijd begrijpt dat een mededeling bedoeld is als commando, zodat keurig in de tekst wordt ingevoegd: 'Gaan naar het eind van de regel' (bedoeld is: ga naar het eind van de regel). Wanneer dit bij herhaling verkeerd gaat, wordt ook een godslasterlijke verzuchting onverstoorbaar opgeschreven. Woorden die het ene moment onmiddellijk herkend worden blijken even later een onoverkomelijk probleem te vormen (in casu 'Verbinding', waarmee in dit geval Internet moest worden geactiveerd).

Tussen de bedrijven door blijkt de spraakherkenning een zware belasting voor het systeem. 64 MB werkgeheugen is het minimum waarbij de zaak wordt geacht te werken. Zoals wel vaker bij de minima die voor software worden voorgeschreven, is dit meer bedoeld om kopers niet af te schrikken (die geheugenuitbreiding kopen ze daarna óók nog wel, zal de gedachte wel zijn) dan als correcte weergave van de feiten. Voice Xpress werkt uitermate traag op een pc met 64 MB en loopt al spoedig vast, terwijl in andere recensies juist concurrent FreeSpeech wordt beschreven als een programma dat makkelijk crasht. Ook de tekstverwerker (Microsoft Word 97) geeft de geest in de nabijheid van Voice Xpress. Het e-mailprogramma heeft er dan al verschillende weigeringen op zitten. Advies daarom: begin er niet aan als er niet minstens 96 MB werkgeheugen in de pc zit. Dat komt trouwens niet alleen de snelheid ten goede; ook de herkenning zal erdoor opknappen. Ook zijn er honderden MB's nodig op de harde schijf - spraakherkenners zijn echte veelvraten.

Het moet gezegd, niet hoeven tikken en klikken is een verademing. Maar naast het leren van de gesproken commando's en het trainen van de herkenningssoftware heeft de gebruiker dan een derde leerervaring voor de boeg. Om de een of andere reden is het sprekend componeren van een verhaal heel iets anders dan typend schrijven. Het valt ongetwijfeld te leren, maar het is niet gezegd dat het iedereen even goed zal bevallen. Het zou kunnen schelen als je opgroeit met spraakherkenning. Dat moet nog worden aangetoond, maar als dat waar is zitten we wel met een complete generatie die op dit gebied is gehandicapt.

Tenslotte is het nog verre van duidelijk of werken met spraakbestuurde computers overal gewenst is. Weliswaar is geaccepteerd dat kantoorwerkers voortdurend in telefoons zitten te praten, maar of het in de kantoortuin makkelijk zal worden verdragen als er brieven en rapporten worden ingesproken wanneer men eens niet belt, is niet zeker. Hoe meer mensen dit doen, hoe meer achtergrondgeluid er is en hoe slechter de spraakherkenning voor iedereen werkt.

Kader: Surfen met de stem

Iedereen kan gratis experimenteren met spraakbesturing. Philips heeft het programma FreeSpeech Browser vrijgegeven, bij wijze van reclamespot voor de complete FreeSpeech software voor spraakbesturing en dicteren. FreeSpeech Browser laat u het internetprogramma Internet Explorer, waarmee u over internet surft, met de stem besturen. Het is te downloaden op http://www.speech.philips.com/fsbrowser. Pas wel op; het gaat om 10 MB!

Een nadeel van FSB is dat het alleen in het Engels werkt. Maar een lijst met de juiste commando's zit in het Help-bestand en laat aan duidelijkheid niets te wensen over. Een ernstig accent uwerzijds zou wel een probleem kunnen zijn.

Met FSB zijn de menukeuzes uit de knoppenbalk van IE te bedienen, u kunt vensters openen en en sluiten, naar beneden of naar boven manoeuvreren op een pagina, en met de stem 'klikken' op links. Dit laatste doet u door het woord of de woorden te zeggen die op het scherm in het blauw zijn gezet, vooraf gegaan door 'Go to', of door 'Go to <nummer>' te zeggen. In de instellingen van FSB kunt u ervoor kiezen alle links op een pagina van een nummer te laten voorzien, zodat u kunt volstaan met het noemen van het nummer.

Wij hebben FSB op verschillende manieren geprobeerd en het viel niet mee. Verschillende pc's die aan de vereisten voldeden, verschillende microfoons waaronder een die door Philips zelf wordt geleverd, en geen enkele combinatie werkte goed. Behalve dan tijdens een demonstratie van Philips zelf, waarbij schrijver dezes ook de stem leverde - aan de Engelse dictie kan het dus in elk geval niet hebben gelegen. Het voornaamste probleem was dat de nummers en woorden verkeerd werden verstaan, zodat er een verkeerde pagina werd opgeroepen. Aan het geluidsniveau of aan achtergrondlawaai lag dit zeer zeker niet, terwijl het installatieprogramma ook niet had geklaagd over de geluidskwaliteit.

Een ander nadeel van FSB is het feit dat het even duurt voordat een opdracht wordt verwerkt (het 'verstaan' kost rekentijd) en dat vooral het nummeren van de links een tijdrovende aangelegenheid is. Soms, zoals bij Altavista, zijn er honderden links op één pagina! Surfen met de stem, als het al goed werkt, zal dus in elk geval langzamer gaan dan met de muis. Als u geïnteresseerd bent in spraakbesturing, probeer FSB dan toch; u kunt het altijd weer deïnstalleren.