Dicteren aan de computer
Herbert Blankesteijn
Een deel van dit artikel is niet geschreven, maar ingesproken. Tijdens het
spreken is het in tekst omgezet, niet door een secretaresse, maar door de
computer zelf.
Spraakherkenning door de computer is ongeveer tien jaar lang een belofte
geweest, maar lijkt nu eindelijk commercieel bruikbaar te zijn geworden. Er is een viertal softwarepakketten op de
markt, waarvan FreeSpeech van Philips en Voice Xpress van de Belgische firma
Lernout & Hauspie door computerbladen om beurten als beste worden
beoordeeld.
Het probleem waardoor spraakherkenning zolang een belofte is gebleven, is het
herkennen van normale spraak. Bij normale spraak staan de woorden niet los van
elkaar, maar worden ze met elkaar verbonden, wat we het beste merken, wanneer
we naar buitenlandse spraak luisteren. Voor de computer is het nog moeilijker
dan voor een ongeoefende luisteraar om uit die brij van geluid losse woorden te
destilleren. Mede dankzij de toegenomen snelheid van computers zijn
softwaremakers nu in staat de herkenning vrij goed te laten verlopen. Daardoor is het nu mogelijk de computer toe
te spreken in normale spraak, en is het in theorie niet meer nodig tussen elke
twee woorden een pauze in acht te nemen.
Daarvoor moet wel aan een
aantal eisen zijn voldaan. Er mag bijvoorbeeld niet al te veel omgevingslawaai
zijn. De stem van de gebruiker moet voor de computer duidelijk klinken, en een
machine is op dat gebied minder tolerant dan een mens. Als mens heb je
bijvoorbeeld veel houvast aan de richting waaruit het geluid komt, aan de
lipbewegingen van een gesprekspartner en aan de inhoud van het voorafgaande deel
van het gesprek. Al deze informatie mist de computer. De verhouding tussen
achtergrondgeluid en spraak wordt bij installatie van een spraakherkenner
gemeten. De gebruiker kan dit verbeteren door de microfoon in een zo goed
mogelijke positie voor de mond te houden: dicht bij, maar niet recht ervoor -
want dan wordt het geblaas van de ademhaling hinderlijk. Ook kan de zoemende
computerkast ver weg worden gezet. Microfoons ver van de mond, bijvoorbeeld
ingebouwd in een beeldscherm, zijn onbruikbaar. Bij spraakherkenningssoftware
worden geschikte microfoons meegeleverd, bevestigd aan een headset.
Een andere eis is dat de
spreker van zichzelf redelijk verstaanbaar is. Een accent of spraakgebrek kan
een probleem zijn. Ook dit wordt bij installatie gecontroleerd. Een aanstaande
gebruiker moet een aantal standaardteksten inspreken, die door de pc worden
verwerkt. Voordeel hierbij is dat de computer weet wat er komt. Hieruit
ontstaat een profiel, dat elke keer wordt opgeroepen dat dezelfde gebruiker
zich meldt. Spraakherkenners kunnen verschillende profielen opslaan.
Het is belangrijk twee soorten spraakherkenning te onderscheiden. De eerste is
spraakbesturing. Daarbij wordt het klikken van de muis vervangen door gesproken
commando's. Dit is voor de computer
relatief makkelijk. Er hoeft maar een klein aantal commando's van elkaar te
worden onderscheiden, en dit gaat dan ook zelden verkeerd. Met de genoemde
softwarepakketten kunnen vrijwel alle handelingen met de muis worden
geėlimineerd. Zelfs Engelstalige commando's
in Engelse softwareversies werken zonder enig probleem. Een uitkomst voor
mensen met een muisarm.
Iets heel anders is het dicteren van tekst. Kleine, subtiele verschillen moeten
daarbij juist worden geļnterpreteerd, terwijl er soms niet twee, maar wel vijf
mogelijkheden zijn. De kans op fouten is daarbij veel groter. Bij dicteren is
het dan ook altijd nodig de software te trainen. Als er fouten worden gemaakt, moet de juiste versie er expliciet
worden ingestampt. Tot komst vooral in
het begin veel extra tijd om hommel verbloemen
(Hier heeft de auteur de spraakherkenning maar
uitgezet.)
'Dat kost vooral in het begin
veel extra tijd,' had er moeten staan. 'Om hommel verbloemen' was het resultaat
van het wegsmijten van de headset.
Leren werken met spraakherkenning is niet eenvoudig. Om te beginnen worden de
ingeslepen muishandelingen vervangen door gesproken commando's, en die moet je
dus leren. Soms zijn die zeer vanzelfsprekend, zoals 'Start [naam programma]',
soms zijn ze wat gekunsteld, zoals 'Verander naar [naam programma]' om een
tweede actief programma op het scherm naar voren te halen, en soms zijn ze
lachwekkend, zoals 'Ga twee lijnen naar beneden' als de cursor twee regels
omlaag moet (deze commando's komen uit het Vlaamse Voice Xpress). Hoe dan ook,
de gebruiker staat opeens aan het begin van een lange leercurve en voelt zich
weer als de eerste de beste beginneling, met alle irritatie van dien. Sommige
gesproken commando's zijn objectief veel moeilijker dan de corresponderende
muishandeling. Om de cursor op een willekeurige plaats op het scherm neer te
zetten volstaat het met de muis die plaats aan de wijzen. Om hetzelfde met
spraakbesturing te doen, moet je het aantal regels omhoog of omlaag tellen, en
daarna het aantal posities of woorden dat de cursor nog in horizontale richting
moet afleggen. Gelukkig blijft normaal gesproken de muis beschikbaar en is
niemand verplicht de microfoon te gebruiken.
De eerste emoties bij het
gebruiken van de dicteerfunctie zijn verbazing en blijdschap. 140 woorden per minuut is wel even wat
anders dan 140 aanslagen per minuut.
En in een woord dat juist is herkend, staan per definitie geen tikfouten.
Spraakherkenning belooft veel meer snelheid bij het 'schrijven'. Maar als de
eerste fouten de kop opsteken piep je wel anders. Het trainen van woorden houdt
behoorlijk op. En hoe elimineer je een spatie te veel, hoe voeg je een spatie
in waar hij is weggelaten? Spraakcommando's blijken veel trager dan even
klikken met de muis, ook als je ze niet hoeft op te zoeken.
Daar komt nog bij dat de
spraakherkenner niet altijd begrijpt dat een mededeling bedoeld is als
commando, zodat keurig in de tekst wordt ingevoegd: 'Gaan naar het eind van de
regel' (bedoeld is: ga naar het eind
van de regel). Wanneer dit bij herhaling verkeerd gaat, wordt ook een
godslasterlijke verzuchting onverstoorbaar opgeschreven. Woorden die het ene
moment onmiddellijk herkend worden blijken even later een onoverkomelijk
probleem te vormen (in casu 'Verbinding', waarmee in dit geval Internet moest
worden geactiveerd).
Tussen de bedrijven door
blijkt de spraakherkenning een zware belasting voor het systeem. 64 MB
werkgeheugen is het minimum waarbij de zaak wordt geacht te werken. Zoals wel
vaker bij de minima die voor software worden voorgeschreven, is dit meer
bedoeld om kopers niet af te schrikken (die geheugenuitbreiding kopen ze daarna
óók nog wel, zal de gedachte wel zijn) dan als correcte weergave van de feiten.
Voice Xpress werkt uitermate traag op een pc met 64 MB en loopt al spoedig vast,
terwijl in andere recensies juist concurrent FreeSpeech wordt beschreven als
een programma dat makkelijk crasht.
Ook de tekstverwerker (Microsoft Word 97) geeft de geest in de nabijheid van
Voice Xpress. Het e-mailprogramma heeft er dan al verschillende weigeringen op
zitten. Advies daarom: begin er niet aan als er niet minstens 96 MB
werkgeheugen in de pc zit. Dat komt trouwens niet alleen de snelheid ten goede;
ook de herkenning zal erdoor opknappen. Ook zijn er honderden MB's nodig op de
harde schijf - spraakherkenners zijn echte veelvraten.
Het moet gezegd, niet hoeven
tikken en klikken is een verademing. Maar naast het leren van de gesproken
commando's en het trainen van de herkenningssoftware heeft de gebruiker dan een
derde leerervaring voor de boeg. Om de een of andere reden is het sprekend
componeren van een verhaal heel iets anders dan typend schrijven. Het valt
ongetwijfeld te leren, maar het is niet gezegd dat het iedereen even goed zal
bevallen. Het zou kunnen schelen als je opgroeit met spraakherkenning. Dat moet
nog worden aangetoond, maar als dat waar is zitten we wel met een complete
generatie die op dit gebied is gehandicapt.
Tenslotte is het nog verre
van duidelijk of werken met spraakbestuurde computers overal gewenst is.
Weliswaar is geaccepteerd dat kantoorwerkers voortdurend in telefoons zitten te
praten, maar of het in de kantoortuin makkelijk zal worden verdragen als er
brieven en rapporten worden ingesproken wanneer men eens niet belt, is niet
zeker. Hoe meer mensen dit doen, hoe meer achtergrondgeluid er is en hoe
slechter de spraakherkenning voor iedereen werkt.
Iedereen kan gratis experimenteren
met spraakbesturing. Philips heeft het programma FreeSpeech Browser
vrijgegeven, bij wijze van reclamespot voor de complete FreeSpeech software
voor spraakbesturing en dicteren. FreeSpeech Browser laat u het internetprogramma
Internet Explorer, waarmee u over internet surft, met de stem besturen. Het is
te downloaden op http://www.speech.philips.com/fsbrowser. Pas wel op; het gaat
om 10 MB!
Een nadeel van FSB is dat het alleen
in het Engels werkt. Maar een lijst met de juiste commando's zit in het
Help-bestand en laat aan duidelijkheid niets te wensen over. Een ernstig accent
uwerzijds zou wel een probleem kunnen zijn.
Met FSB zijn de menukeuzes uit de
knoppenbalk van IE te bedienen, u kunt vensters openen en en sluiten, naar
beneden of naar boven manoeuvreren op een pagina, en met de stem 'klikken' op
links. Dit laatste doet u door het woord of de woorden te zeggen die op het
scherm in het blauw zijn gezet, vooraf gegaan door 'Go to', of door 'Go to
<nummer>' te zeggen. In de instellingen van FSB kunt u ervoor kiezen alle
links op een pagina van een nummer te laten voorzien, zodat u kunt volstaan met
het noemen van het nummer.
Wij hebben FSB op verschillende
manieren geprobeerd en het viel niet mee. Verschillende pc's die aan de
vereisten voldeden, verschillende microfoons waaronder een die door Philips
zelf wordt geleverd, en geen enkele combinatie werkte goed. Behalve dan tijdens
een demonstratie van Philips zelf, waarbij schrijver dezes ook de stem leverde
- aan de Engelse dictie kan het dus in elk geval niet hebben gelegen. Het
voornaamste probleem was dat de nummers en woorden verkeerd werden verstaan,
zodat er een verkeerde pagina werd opgeroepen. Aan het geluidsniveau of aan
achtergrondlawaai lag dit zeer zeker niet, terwijl het installatieprogramma ook
niet had geklaagd over de geluidskwaliteit.
Een ander nadeel van FSB is het feit
dat het even duurt voordat een opdracht wordt verwerkt (het 'verstaan' kost
rekentijd) en dat vooral het nummeren van de links een tijdrovende
aangelegenheid is. Soms, zoals bij Altavista, zijn er honderden links op één
pagina! Surfen met de stem, als het al goed werkt, zal dus in elk geval
langzamer gaan dan met de muis. Als u geļnteresseerd bent in spraakbesturing,
probeer FSB dan toch; u kunt het altijd weer deļnstalleren.