Een handtekening in elk opstel
Herbert Blankesteijn
Het is al meer dan 15 jaar geleden dat voor het eerst de computer werd
ingezet bij het identificeren van auteurs van stukken tekst. De meest relevante
vraag die Beet zich van destijds herinnert is: is Shakespeare werkelijk de
auteur van dit-en-dit stuk dat aan hem wordt toegeschreven? Voor het
beantwoorden van die vraag werd een analyse gemaakt van gebruikte woorden,
zinslengte en dat soort kenmerken. Recentelijk hebben taalwetenschappers met
dergelijke instrumentarium voor NRC Handelsblad onderzocht of Marek van der
Jagt een pseudoniem is van Arnon Grunberg (het antwoord was bevestigend).
Wetenschappers uit een andere hoek - computergeleerden - melden nu, dat
dergelijk vorswerk kan worden gedaan met zeer eenvoudige middelen, namelijk een
pc en een huis-, tuin- en keukencompressieprogramma zoals WinZip
(www.winzip.com - over dergelijke software ging een van de eerste
afleveringen van Beet).
Zipsoftware zoekt in bestanden naar veel voorkomende patronen als
woorden of lettergrepen. Deze worden vervangen door kortere codes, waarna het
resultaat, samen met een overzicht van de gebruikte codes, in een nieuw bestand
wordt opgeborgen. Als het zoeken en coderen voldoende efficient gebeurt, is het
nieuwe bestand aanzienlijk kleiner dan het oorspronkelijke.
Niet elk bestand laat zich goed comprimeren. Een foto met veel detail en
lichtnuances kent niet veel herhalingen; teksten doen dat wel. Maar in de ene
tekst worden andere groepen letters herhaald dan in de andere. Welke, dat hangt
bijvoorbeeld af van de auteur en de taal. De kracht van de ziptechniek is, dat
de codes (de 'afkortingen') worden aangepast aan de tekst in kwestie.
Dat betekent dat er iets misgaat wanneer je aan een al gecomprimeerde
tekst een tekst van een andere soort toevoegt. Plak een hoofdstuk uit de Max
Havelaar in Alice in Wonderland en de compressie is opeens minder efficiënt.
Neem in plaats van Multatuli een fragment James Joyce, en de invloed op het
compressieresultaat is minder - want nu zijn er twee Engelse auteurs - maar
mogelijk nog altijd merkbaar door verschillen in stijl.
De drie Romeinse geleerden, Loreto, Benedetto en Caglioti, hebben
bedacht dat je zo, zonder naar een tekst te kijken, de taal kunt bepalen waarin
hij is geschreven. Voeg de onbekende tekst toe aan lappen tekst waarvan de taal
wel bekend is, en die zelf al eerder zijn gecomprimeerd. Kijk dan van welke
bekende tekst de compressie het minste is veranderd. Dat is waarschijnlijk de
juiste taal. Dit werkt natuurlijk alleen wanneer de taal in kwestie in het
vergelijkingsmateriaal is vertegenwoordigd.
De Italianen hebben het Unix-programma gzip losgelaten op onbekende
teksten die soms maar 20 tekens lang waren. In alle gevallen kon de taal worden
geïdentificeerd. Auteurs identificeren is moeilijker. De verschillen zijn
geringer, en bovendien zijn er veel meer auteurs dan talen. In een groep van
elf auteurs en 90 teksten kon de juiste schrijver in 93 procent van de gevallen
worden gevonden. Ook het in kaart brengen van verwantschap tussen Europese
talen, op basis van vijftig vertalingen van de Universele Verklaring van de
Rechten van de Mens, lukte goed.
Loreto zegt dat de techniek geschikt is voor websites, om snel te
bepalen wat de taal is van een bezoeker. Die moet dan een korte tekst intikken.
Volgens Loreto is zijn methode sneller dan de gebruikelijke, die met
woordenlijsten werkt. Ook ziet hij toepassing in bibliotheken, om teksten te
rangschikken op onderwerp, en bij het analyseren van DNA-volgordes. Beet denkt
zelf aan gebruik op school: wellicht kan met deze methode het gebruik van
gedownloade werkstukken een halt worden toegeroepen. Daar bestaat al software
voor, maar die is duur en misschien ligt hier de sleutel tot een freeware
versie. Wie voelt zich geroepen?