Een handtekening in elk opstel

Herbert Blankesteijn

Het is al meer dan 15 jaar geleden dat voor het eerst de computer werd ingezet bij het identificeren van auteurs van stukken tekst. De meest relevante vraag die Beet zich van destijds herinnert is: is Shakespeare werkelijk de auteur van dit-en-dit stuk dat aan hem wordt toegeschreven? Voor het beantwoorden van die vraag werd een analyse gemaakt van gebruikte woorden, zinslengte en dat soort kenmerken. Recentelijk hebben taalwetenschappers met dergelijke instrumentarium voor NRC Handelsblad onderzocht of Marek van der Jagt een pseudoniem is van Arnon Grunberg (het antwoord was bevestigend).

Wetenschappers uit een andere hoek - computergeleerden - melden nu, dat dergelijk vorswerk kan worden gedaan met zeer eenvoudige middelen, namelijk een pc en een huis-, tuin- en keukencompressieprogramma zoals WinZip (www.winzip.com - over dergelijke software ging een van de eerste afleveringen van Beet).

Zipsoftware zoekt in bestanden naar veel voorkomende patronen als woorden of lettergrepen. Deze worden vervangen door kortere codes, waarna het resultaat, samen met een overzicht van de gebruikte codes, in een nieuw bestand wordt opgeborgen. Als het zoeken en coderen voldoende efficient gebeurt, is het nieuwe bestand aanzienlijk kleiner dan het oorspronkelijke.

Niet elk bestand laat zich goed comprimeren. Een foto met veel detail en lichtnuances kent niet veel herhalingen; teksten doen dat wel. Maar in de ene tekst worden andere groepen letters herhaald dan in de andere. Welke, dat hangt bijvoorbeeld af van de auteur en de taal. De kracht van de ziptechniek is, dat de codes (de 'afkortingen') worden aangepast aan de tekst in kwestie.

Dat betekent dat er iets misgaat wanneer je aan een al gecomprimeerde tekst een tekst van een andere soort toevoegt. Plak een hoofdstuk uit de Max Havelaar in Alice in Wonderland en de compressie is opeens minder efficiënt. Neem in plaats van Multatuli een fragment James Joyce, en de invloed op het compressieresultaat is minder - want nu zijn er twee Engelse auteurs - maar mogelijk nog altijd merkbaar door verschillen in stijl.

De drie Romeinse geleerden, Loreto, Benedetto en Caglioti, hebben bedacht dat je zo, zonder naar een tekst te kijken, de taal kunt bepalen waarin hij is geschreven. Voeg de onbekende tekst toe aan lappen tekst waarvan de taal wel bekend is, en die zelf al eerder zijn gecomprimeerd. Kijk dan van welke bekende tekst de compressie het minste is veranderd. Dat is waarschijnlijk de juiste taal. Dit werkt natuurlijk alleen wanneer de taal in kwestie in het vergelijkingsmateriaal is vertegenwoordigd.

De Italianen hebben het Unix-programma gzip losgelaten op onbekende teksten die soms maar 20 tekens lang waren. In alle gevallen kon de taal worden geïdentificeerd. Auteurs identificeren is moeilijker. De verschillen zijn geringer, en bovendien zijn er veel meer auteurs dan talen. In een groep van elf auteurs en 90 teksten kon de juiste schrijver in 93 procent van de gevallen worden gevonden. Ook het in kaart brengen van verwantschap tussen Europese talen, op basis van vijftig vertalingen van de Universele Verklaring van de Rechten van de Mens, lukte goed.

Loreto zegt dat de techniek geschikt is voor websites, om snel te bepalen wat de taal is van een bezoeker. Die moet dan een korte tekst intikken. Volgens Loreto is zijn methode sneller dan de gebruikelijke, die met woordenlijsten werkt. Ook ziet hij toepassing in bibliotheken, om teksten te rangschikken op onderwerp, en bij het analyseren van DNA-volgordes. Beet denkt zelf aan gebruik op school: wellicht kan met deze methode het gebruik van gedownloade werkstukken een halt worden toegeroepen. Daar bestaat al software voor, maar die is duur en misschien ligt hier de sleutel tot een freeware versie. Wie voelt zich geroepen?