Smngprst
Hrbrt Blnkstn
Lezers willen korte stukken
en veel wit op de pagina. Veel bladen geven ze hun zin (Natuur en Techniek, de
Ingenieur, Intermediair), en sites op internet doen dat nog sterker. Korter,
korter! Auteurs daarentegen pakken het liefste stevig uit. Het is meer moeite
iets kort op te schrijven, en bovendien krijg je meestal per woord betaald.
Graag zou ik u een gecomprimeerd
stuk aanbieden. Een computerprogramma zou als een norse redacteur mijn lijvige
verhandeling inkorten, maar het verhaal zou zich voor u ontvouwen in zijn
oorspronkelijke glorie. De beste compressieprogramma's voor de computer brengen
een tekst terug tot een kwart van de omvang, en kunnen dus een gegeven ruimte
viermaal gebruiken. Een computer kan uit zo'n gecomprimeerd bestand het
origineel precies reconstrueren. (In zekere zin gebeurt dat daadwerkelijk met
dit stukje, want bij verzending via modems vindt vaak automatisch compressie
plaats.)
Een internetbedrijf, ZeoSync,
heeft laatst een compressiemethode aangekondigd die bestanden van welke aard
ook honderd keer zo klein maakt. Niet voor de drukpers, maar voor
bezitters van computers en voor gebruikers van internet zou dat een revolutie
betekenen. Harde schijven die opeens honderd keer zoveel waard zijn;
downloadtijden teruggebracht tot een flits.
Honderd keer, dat kan ik ook.
Sla een 24-bits kleurenfoto op in 8-bits grijswaarden en je wint een factor
65.000. Enige probleem is, dat je die kleuren nooit meer terugkrijgt. Je kunt
de maten van het plaatje kleiner maken, maar ook die bewerking is onomkeerbaar.
Dit is compressie met verlies, en het is natuurlijk een flauw voorbeeld.
Serieuze manieren om plaatjes te comprimeren, bijvoorbeeld tot jpg-bestanden,
gaan ook altijd met verlies gepaard. Plaatjes in jpg-vorm hebben vage
blokstructuren rond diagonale lijnen, die je op contrastrijke afbeeldingen kunt
zien. Bij compressie van muziek tot mp3-bestanden missen geluidsfreaks wat hoge
tonen. Compressie van video tot mpg-bestanden zorgt voor blokkige beelden in
snel bewegende passages. De oorspronkelijke, ongecomprimeerde informatie is
weg, tenzij natuurlijk het origineel als apart bestand is bewaard. Verlies van
informatie moet je accepteren als je een factor tien of meer wilt winnen.
Huiskamervraag
1: Wie kent spectaculaire voorbeelden van verliesvrije compressie. Geen flauwe
voorbeelden graag: een zip van een tekst met alleen maar a's, of een gif van
een wit vlak, dat weten we wel.
ZeoSync beweert dat zijn
methode verliesvrij is. Dat is een vrij sterk verhaal. ZeoSync zegt bovendien
dat dit zelfs het geval is als de oorspronkelijke data 'praktisch willekeurig'
zijn.
Willekeurig?
Door op wiskundige wijze naar herhalingen te zoeken, zoals de lettercombinaties
'een' en 'ing', kan een computer een tekst als deze tot ongeveer een kwart
samenpersen zonder verlies aan informatie. Maar tekst is niet willekeurig;
sommige letters zoeken elkaar op. Een willekeurige, onvoorspelbare reeks
getallen, zoals de decimale ontwikkeling van het getal pi, is hooguit een
factor twee kleiner te krijgen (mijn geboortedatum, geschreven als ddmmjj, komt
in de eerste vijf miljoen decimalen negen keer voor). Een tekening van zwarte
lijnen op een witte achtergrond is zonder verlies met een factor honderd te
verkleinen, maar alleen dank zij de verpletterende hoeveelheid herhaling.
Huiskamervraag
2: Ik heb protesten ontvangen: pi is niet willekeurig! Nee, ik kan 3,1415...
(10 miljoen cijfertjes) comprimeren door te zeggen 'pi'. Of ik kan een
rekenmethode geven (meestal een oneindige reeks). Maar dat is wat anders. Wie
kan de cijferreeks van de decimale ontwikkeling verliesvrij comprimeren tot
10%, zonder gebruik te maken van de wetenschap dat het 'pi' is? Download de
reeks op http://www.verbose.net/Pi.html en laat zien!
Je
kunt dit stukje van ruim 600 woorden samenvatten in zes woorden ('Zeosync
kletst uit zijn dikke nek'), maar niet op zo'n manier dat je daaruit het
origineel exact kunt herleiden. Kan niet. Wat ZeoSync beweert is pertinent
onzin, tenzij ze iets heel anders bedoelen.
Misschien
moeten die persberichten wat uitvoeriger.
Deze
column verschijnt ook in het weekblad Intermediair