Kijk, dit zoek ik

Herbert Blankesteijn

Plaatjes zoeken op internet is helemaal niet moeilijk. Ga naar Google, kies 'images' en tik in wat je zoekt, bijvoorbeeld 'margriet'. Er verschijnen dan bloemen van deze soort, portretten van dames die blijkbaar zo heten, en ook een foto van prinses Margriet.

Het werkt, maar perfect is anders. De vraag preciseren door behalve 'margriet' ook 'bloem' of 'vrouw' in te typen, maakt het resultaat alleen maar slechter. Dat komt doordat in feite wordt gezocht op tekst. En wie een fotoalbum op een site zet, zet vaak wel in de bestandsnaam 'margriet', maar voegt er niet aan toe dat het een bloem betreft, of een vrouw, want dat zie je zo ook wel.

Helaas ziet de computer dat niet. En hetzelfde geldt voor zoeken naar muziek. De bekende muziekzoekprogramma's als Kazaa en eDonkey zoeken alleen op bestandsnamen en op de teksten die in 'tags' van muziekbestanden zijn opgenomen. Zelfs het selecteren van één genre is teveel gevraagd.

Computers zoeken op tekst omdat ze tot voor kort niet anders konden. Tekstbestanden, zelfs grote, zijn relatief klein en makkelijk te doorzoeken, mede doordat ze lineair zijn: de letters staan in feite in een lange rij achter elkaar. Muziekbestanden zijn in de eerste plaats veel groter, en de meest voorkomende audiofiles zijn bovendien gecomprimeerd om schijfruimte te besparen. De patronen die een mens met zijn oren moeiteloos herkent zijn in een mp3-bestand niet zomaar terug te vinden.

Maar de techniek is inmiddels zover voortgeschreden dat het herkennen van muziek mogelijk is, en zelfs commercieel wordt toegepast. Philips bijvoorbeeld heeft een techniek ontwikkeld om muziek te herkennen via een soort vingerafdruk. Deze vingerafdruk ontstaat door de muziek te decoderen en in 33 frequentiebanden de energie van het geluid te meten. Dit levert voldoende informatie op om liedjes te identificeren. Voor een hedendaagse computer is dit geen al te zwaar werk.

Sterker, de techniek werkt zo goed dat hij bruikbaar is via de mobiele telefoon. Het Haagse bedrijf Golden Bytes biedt de techniek van Philips commercieel aan in de dienst 'Music DNA'. Wie een liedje op de radio hoort en wil weten hoe het heet, belt snel 0900-0759 en houdt de telefoon bij de luidspreker. Het moet een gsm-telefoon zijn, want het antwoord komt via sms (en kost 70 cent). Het feit dat het via de telefoon werkt, en dat drie seconden muziek meestal voldoende is voor herkenning, geeft aan hoe robuust de techniek is. Zelfs het toevoegen van echo is geen probleem. De enige beperking is de grootte van de database met bekende liedjes. Golden Bytes heeft nu 250.000 nummers. Dat is genoeg voor de meeste hits uit de popmuziek, inclusief de nodige gouwe ouwe. Maar niet-commerciële muziek maakt weinig kans. Golde Bytes laat bewust de klassieke muziek links liggen.

Het is niet de enige vergelijkbare dienst, en niet de enige techniek in zijn soort. Het telefoniebedrijf O2 heeft een dergelijke dienst op basis van techniek van de Duitse Fraunhofer-Gesellschaft. Het Britse Shazam levert een eigen techniek aan Orange, Vodafone, T-Mobile en O2 in het Verenigd Koninkrijk. Vodafone biedt de service ook al aan in Japan en in Duitsland. Vodafone heeft 1,6 miljoen liedjes in het bestand en rekent 49 cent.

Of een dergelijke mogelijkheid te zijner tijd zal worden opgenomen in uitwisselprogramma's als Kazaa en Emule is de vraag. Als de bedrijven achter deze programma's niet willen betalen voor de betreffende technieken zullen ze die zelf moeten ontwikkelen en dat lijkt teveel gevraagd.

Als je het juiste telefoonnummer niet bij de hand hebt, je telefoon niet kan vinden of om een andere reden te laat bent, kun je alleen het liedje nog maar neuriën of fluiten. Verwacht niet dat dat een goede herkenning oplevert. Mensen die zingen of fluiten doen dat meestal vals en maken fouten in het ritme. Arjan van den Berg en Sven Groot hebben in 2003 tijdens hun opleiding Informatica een herkenningsprogramma gemaakt voor gefloten muziek, waarbij alleen gebruik werd gemaakt van veranderingen in toonhoogte - niet bijvoorbeeld van toonhoogteverschillen en ook niet van de duur van de noten. Hun programma werkte, maar niet met honderd procent betrouwbaarheid. Bovendien zou, voor toepassing, er een database moeten zijn met bijpassende informatie over de leidende melodie van een groot aantal stukken. Dat is iets heel anders dan de liedjes zelf, die bij de techniek van Philips de grondstof zijn. Zo'n database met melodie-informatie zou speciaal gemaakt moeten worden.

De opdracht 'Kijk, dit zoek ik' kun je ook geven als het om beeld gaat. Voor dat probleem heeft de informaticus Thijs Westerveld een oplossing gemaakt. Westerveld werkt aan het Centrum voor Wiskunde en Informatica in Amsterdam en is in november op zijn onderzoek gepromoveerd aan de Univeristeit Twente.

De methode van Westerveld werkt letterlijk aan de hand van een voorbeeld. Dat voorbeeld wordt wiskundig ontleed in abstracte vlakken en patronen, dus van herkenning van objecten is geen sprake. Zoeken in een voorraad beschikbaar beeldmateriaal bestaat er dan uit, dat een programma kijkt welke andere afbeeldingen elementen bevatten die ook in het voorbeeldplaatje zitten. Die maken dan grote kans te 'lijken op' het voorbeeld.

Althans, een relatief goede kans. In tests blijkt de methode van Westerveld beter te presteren dan het gemiddelde van concurrerende technieken, maar Westerveld zelf vindt dat álle technieken het nog slecht doen. Een groot nadeel is dat het analyseren van grote aantallen plaatjes nog veel rekenkracht kost. Het zal volgens Westerveld voorlopig moeten komen van de combinatie van beeldanalyse en zoeken op tekst.

Wat dat laatste betreft kan recent onderzoek van het Xerox Research Centre Europe in Grenoble een bijdrage leveren. Researchers daar hebben een methode ontwikkeld om trefwoorden te koppelen aan foto's. Het gaat om lerende software die elke foto die moet worden benoemd vergelijkt met een 'visueel woordenboek'. Aan alle beelden uit het visuele woordenboek zijn woorden gekoppeld, dus de beelden die het beste passen leveren woorden op die het beste passen. Zo kan een database zijn eigen foto's van tekstuele informatie voorzien, zodat het analyseren van de plaatjes niet meer door een voorbijkomende zoekmachine hoeft te worden gedaan. Die kan dan, traditiegetrouw en snel, zoeken op tekst.

Overigens denkt Xerox de methode pas op termijn te gaan toepassen, en dan nog binnen het bedrijf. Dus waar het zoeken naar voorbeelden op het gebied van muziek al werkt, blijkt het op het gebied van beelden nog niet rijp voor de praktijk. We zullen het nog een tijdje moeten verdragen dat we foto's van prinsessen voorgeschoteld krijgen als we eigenlijk margrieten zoeken.