In mijn boek 'De AI Revolutie' onderzoek ik hoe deze golf van AI-gegenereerde media zowel onze digitale als fysieke wereld zou kunnen beïnvloeden. Onlangs deed een bericht op X me afvragen hoe wijdverspreid synthetische media nu al zijn op het internet.
De X-post bevatte een zoekopdracht naar afbeeldingen van een babypauw, waarvan een groot deel duidelijk door AI waren gegenereerd. Het onderschrift luidde: "Google está muerto", wat volgens mij vertaald kan worden als "Google is dood".
Tijd voor eigen onderzoek
Hoewel ik betwijfel of AI-gegenereerde afbeeldingen louter Google zullen doden, wordt duidelijk dat we de digitale wereld bijna net zozeer vervuilen als onze fysieke wereld. Maar in welke mate doen we dat? En gaat het alleen om babypauwen? En wat kunnen we doen om dat te stoppen?
Met een paar vrije uurtjes begon ik te coderen op 9 oktober 2024. Ik schraapte en analyseerde duizenden Google-zoekresultaten naar baby- en volwassen dieren, met behulp van Playwright, een Python-bibliotheek voor web scraping/webtesting. Ik deed dat in verschillende talen (Nederlands, Engels, Frans, Duits, Italiaans, Portugees, Russisch en Spaans).
Duizenden afbeeldingen heb ik handmatig ingedeeld in drie categorieën: ‘nep’ (door AI gegenereerd), ‘echt’ en ‘onbekend’. Ik maakte gebruik van Streamlit-app. Dankzij rapid prototyping, mogelijk gemaakt door LLM-gedreven codering, duurt het maken van zulke tools nu slechts enkele seconden.
De resultaten waren veelzeggend, vooral met babydieren: van de 1.100 afbeeldingen waren er 159 (bijna 15 procent) door AI gegenereerd, 916 (83 procent) was echt en 25 (ruim 2 procent) vielen in de categorie "onbekend".
Voor ‘gewone’ dieren waren de percentages nep veel geringer, slechts 20 (3 procent) van de 674; ruim 95 procent authentiek en minder dan 2 procent onduidelijk. Dus AI-gegenereerde uitingen sluipen vooral nichecategorieën binnen.
De statistieken
Het aantal synthetische afbeeldingen bij het zoeken naar reguliere zoektermen zoals ‘kat’ of ‘eekhoorn’ in het Engels:
Het aantal synthetische afbeeldingen dat wordt gebruikt bij het zoeken naar babyzoektermen zoals ‘babykat’ of ‘babykoala’ in het Engels:
Soorten als de jak, eekhoorn, beer en zeehond hebben een significant hoger percentage mogelijk door AI gegenereerde resultaten, meer dan 20 procent ‘Nep’ of ‘Onduidelijk’. Interessant is dat pauwen geen hoog percentage laten zien, maar dit kan een gevolg zijn van correcties die worden toegepast na meldingen en onderzoek.
Qua taal zijn er weinig verschillen, ofschoon de ‘nepresultaten’ in het Nederlands en Spaans het grootst zijn.
Verschuiving naar synthetisch tijdperk
De vraag is: zal dit percentage gegenereerde beelden blijven toenemen? Of zullen de pogingen om de resultaten in evenwicht te brengen succes hebben? De tijd zal het leren! Maar het lijkt erop dat we een nieuwe onlinewereld binnengaan, een synthetische wereld.
AI-gegenereerde media hebben het potentieel om bijvoorbeeld de politiek aanzienlijk te beïnvloeden met desinformatie en nepnieuws. Met geavanceerder AI wordt onderscheid tussen nep (‘deepfakes’) en echt moeilijker voor foto’s, video en zelfs audio. Dit maakt manipulatie van publieke perceptie eenvoudiger.
Tegen de tijd dat de waarheid de vervalsing inhaalt, is de schade vaak al aangericht, waardoor mensen sceptischer en onzekerder worden over echt en namaak. Dit beïnvloedt ook de perceptie van traditionele mediabronnen. Wie kun je nog vertrouwen?
Wat kunnen we eraan doen?
Zowel de modellen voor het genereren van beeld en geluid als de detectiemodellen voor het traceren van namaak verbeteren. Er ontstaat een wapenwedloop: het verbeteren van detectie stimuleert juist de verbetering van AI die wordt gebruikt om te misleiden. Nieuwere AI-modellen zoals Flux AI worden steeds geavanceerder, waardoor het moeilijker wordt om nepafbeeldingen te benchmarken en te detecteren.
Ik weet niet zeker wat hier de oplossing is, maar ik ben er vrij zeker van dat het niet meer generatieve AI is, maar waarschijnlijk minder generatieve AI in termen van modelgrootte en -hoeveelheid. . Dit is nog maar het begin van het synthetische tijdperk en ik ben van plan om te blijven volgen hoe dit zich ontwikkelt.
Om een duidelijker beeld te krijgen, zouden we dit proces kunnen uitbreiden en automatiseren, met afbeeldingen van meer zoekmachines (zoals Bing, Yandex en DuckDuckGo) met meer categorieën
*) Maarten Sukel is AI-onderzoeker aan de UvA en publiceert via The AI Factory en schreef het boek De AI Revolutie. Een versie van dit artikel verscheen eerst op LinkedIn
**) Photo by Brooke Cagle on Unsplash