Digitale foto's met onderschrift

Herbert Blankesteijn

Wat doe je met digitale foto's wanneer ze eenmaal uit de camera komen? In eerste instantie, nemen we aan, sla je ze op op een harde schijf van een pc. De bestandsnaam wordt een nummer dat ze in de digitale camera hebben gekregen. Probleem is dat je later niet meer weet wat er op welke foto staat. Margaret Fleck, een onderzoekster van Hewlett-Packard in Palo Alto, wil dit probleem bestrijden door gesprekken over de foto's af te luisteren.

Gelukkig is er nog een ander probleem: de volgende serie foto's die de camera op de inmiddels lege kaart zet, krijgen dezelfde nummers als bestandsnaam. Dat noodzaakt de eigenaar om voor elke reeks een nieuwe map te maken op de harddisk. En dan neem je als vanzelf in de naam van die map informatie op over de datum en het onderwerp van die foto's. Zo worden foto's al iets makkelijker vindbaar.

Beet ordent foto's in mappen die eerst een nummer krijgen volgens het systeem jjmmdd (twee cijfers elk voor jaar, maand en dag) zodat de mappen altijd in de juiste volgorde op het scherm verschijnen. Daarna volgen een paar woorden over de reis, het project of het evenement waar de foto's over gaan. Bij het zoeken van een foto is het verder mogelijk in Verkenner te kiezen voor Beeld - Miniatuurweergaven, zodat je een overzicht hebt van alle foto's in het klein.

Maar Fleck heeft grotendeels gelijk. Het is lastig een foto te vinden met behulp van zoektermen, zeker als je een behoorlijke verzameling hebt. Eigenlijk moet je elke foto een bestandsnaam geven die de prent beschrijft. Omdat dat veel werk is, doet niemand dat.

Het plan van Margaret Fleck is, software laten luisteren naar de verhalen die mensen vertellen terwijl ze elkaar de foto's tonen. Daar spraakherkenning op loslaten zodat tekst ontstaat. Sleutelwoorden daaruit worden dan gekoppeld aan de bijbehorende foto's.

Het is een gewaagd idee en een mijnenveld van problemen. Spraakherkenning van een vaste stem die netjes gearticuleerd in een microfoon spreekt is moeilijk genoeg. Fleck wil spraak herkennen van mensen die spontaan - dus snel en grammaticaal slordig - converseren zonder zich iets van een microfoon aan te trekken.

Dan mag je blij zijn als je de helft van de woorden juist herkent. Het is dan ook de bedoeling dat de software die Fleck voor ogen heeft voortdurend blijft luisteren, ook als de foto's een tweede, een derde en een volgende keer worden bekeken en besproken (zodat je het ook over de koffie kunt hebben zonder dat die als relevante zoekterm wordt genoteerd). De software moet informatie blijven verzamelen als de foto's later op een andere computer nog eens worden geopend. Dat stelt hoge eisen aan de software, en aan de communicatie tussen verschillende apparaten. De computerfabrikant Hewlett-Packard wil graag dat de computers van de toekomst, die zoveel sneller zullen zijn dan de huidige, iets te doen hebben.

Fleck heeft proeven gedaan en vindt de resultaten bemoedigend. Er werd geluid opgenomen met een microfoon van 100 dollar, telkens gedurende 30 seconden nadat de muis of de toetsen werden gebruikt. Zo werden afdwalende gesprekken meteen afgekapt. 60% van de woorden werd verkeerd herkend, maar Fleck kon er toch een demonstratie op baseren. Ze maakt duidelijk dat er een vocabulaire van nieuwsuitzendingen werd gebruikt. Een vocabulaire voor reisverhalen gecombineerd met individuele aanpassingen (namen!) zou al een grote sprong voorwaarts opleveren. Fleck noemt de privacy van de aanwezigen als een onderwerp dat aandacht moet krijgen.

Beet heeft moeite geloven in automatische indexering van foto's op deze manier. Zowel de noodzaak als de mogelijkheid is twijfelachtig. Net als spraakherkenning zelf blijft dit vermoedelijk decennialang op de drempel van de grote doorbraak. Wie zich zelf een oordeel wil vormen leze het verslag van Margaret Fleck [LINK: http://www.hpl.hp.com/techreports/2004/HPL-2004-44.html].