Twee toonaangevende spelers in kunstmatige intelligentie in San Francisco hebben het publiek uitgedaagd om vragen te bedenken waarmee de capaciteiten van grote taalmodellen (LLM's) zoals Google Gemini en OpenAI's o1 getest kunnen worden.
Scale AI, dat gespecialiseerd is in het voorbereiden van de enorme hoeveelheden gegevens waarop de LLM's worden getraind, heeft samen met het Center for AI Safety (CAIS) het initiatief Humanity's Last Exam gelanceerd. Ze geven prijzen van 5.000 dollar (4.500 euro) voor degenen die de beste 50 vragen voor de test bedenken.
Het doel van Scale en CAIS is om te testen hoe nabij we zijn met het bereiken van “AI-systemen op expertniveau", met behulp van de “grootste, breedste coalitie van experts in de geschiedenis”.
Zeer geleerd of intelligent?
Waarom? De toonaangevende LLM's zijn al goed in gevestigde testen op het gebied van intelligentie, wiskunde en rechten, maar hoe zinvol is dit. In veel gevallen hebben ze de antwoorden waarschijnlijk geleerd door de gigantische hoeveelheden gegevens waarop ze worden getraind, waaronder heel veel van internet.
Data zijn fundamenteel voor de paradigmaverschuiving van conventioneel computergebruik naar AI, van ‘vertellen’ naar ‘aantonen’ wat deze machines moeten doen. Hiervoor zijn goede datasets voor training van de modellen nodig, maar ook goede testen. Ontwikkelaars doen dit meestal met gegevens die nog niet gebruikt zijn voor training, in het jargon bekend als ‘testdatasets’.
Als LLM's nu al niet in staat zijn om het antwoord op gevestigde tests zoals advocatuurexamens te leren, dan zal dat binnenkort waarschijnlijk wel het geval zijn. De AI-analysesite Epoch schat dat in 2028 AI's alles zullen hebben gelezen wat ooit door mensen is geschreven.
Echte ervaringen opdoen zoals Tesla
Een even belangrijke uitdaging is hoe we AI's kunnen blijven beoordelen als die grens eenmaal is overschreden. Natuurlijk breidt het internet zich voortdurend uit, met miljoenen nieuwe items die dagelijks worden toegevoegd. Zou dat deze problemen kunnen oplossen?
Misschien, maar dit leidt tot een ander verraderlijk probleem, dat ‘model collapse’ wordt genoemd. Naarmate het internet steeds meer wordt overspoeld met AI-gegenereerd materiaal dat terugkeert in toekomstige AI-trainingssets, kan dit ervoor zorgen dat AI's steeds slechter gaan presteren.
Om dit probleem op te lossen, verzamelen veel ontwikkelaars al gegevens van de menselijke interacties met hun AI's, en voegen daar nieuwe gegevens aan toe voor training en testen. Sommige specialisten stellen dat AI's ook ‘belichaamd’ moeten worden: rondlopen in de echte wereld en hun eigen ervaringen opdoen, zoals mensen dat doen.
Dit klinkt misschien vergezocht, totdat je je realiseert dat Tesla dit al jaren doet met zijn auto's. Ook kun je menselijke ‘wearables’, zoals de populaire slimme bril van Ray-Ban van Meta gebruiken om enorme hoeveelheden video- en audiogegevens over menselijk gedrag en interactie te verzamelen.
Beperkte testen
Maar zelfs als zulke producten in de toekomst voldoende trainingsgegevens garanderen, is er nog steeds het raadsel hoe intelligentie gedefinieerd en gemeten moet worden - in het bijzonder kunstmatige algemene intelligentie (AGI), waarmee een AI wordt bedoeld die de menselijke intelligentie evenaart of overtreft.
Traditionele menselijke IQ-testen zijn al lang omstreden omdat ze de veelzijdige aard van intelligentie, die alles omvat van taal en wiskunde tot empathie en richtingsgevoel, niet goed weergeven.
Er is een analoog probleem met de testen die voor AI's worden gebruikt. Er zijn veel beproefde testen voor taken zoals het samenvatten van tekst, tekstbegrip, het trekken van de juiste conclusies uit informatie en het herkennen van menselijke houdingen en gebaren.
Sommige testen worden afgeschaft, meestal omdat de AI's het er zo goed op doen, maar ze zijn zo taakspecifiek dat ze een zeer beperkte maatstaf voor intelligentie zijn. De schaak-AI Stockfish ligt bijvoorbeeld in het Elo-systeem ver voor op Magnus Carlsen, de hoogst scorende menselijke speler aller tijden. Toch is Stockfish niet in staat om andere taken uit te voeren, zoals het begrijpen van taal. Het zou evident verkeerd zijn om zijn schaakcapaciteiten te verwarren met een bredere intelligentie.
Maar nu AI's breder intelligent gedrag vertonen, ligt er de uitdaging om nieuwe maatstaven te bedenken om hun vooruitgang te vergelijken en te meten. Een opmerkelijke benadering komt van de Franse Google-ingenieur François Chollet. Hij stelt dat echte intelligentie ligt in het vermogen om aan te passen en te generaliseren naar nieuwe, ongeziene situaties.
In 2019 kwam hij met het ‘abstraction and reasoning corpus’ (ARC), een verzameling puzzels in de vorm van eenvoudige visuele rasters ontworpen om het vermogen van een AI te testen om abstracte regels af te leiden en toe te passen.
In tegenstelling tot eerdere benchmarks die visuele objectherkenning testen door een AI te trainen op miljoenen afbeeldingen, elk met informatie over de objecten erin, geeft ARC de AI van tevoren minimale voorbeelden. De AI moet de logica van de puzzel achterhalen en kan niet zomaar alle mogelijke antwoorden leren.
Hoewel de ARC-tests voor mensen vrij eenvoudig zijn op te lossen, is er een prijs van 600.000 dollar voor het eerste AI-systeem dat een score van 85 procent haalt. Op het moment van schrijven zijn we daar nog ver van verwijderd. Twee recente toonaangevende LLM's, OpenAI's o1 en Anthropic's Sonnet 3.5, scoren beide 21 procent in het openbare ARC klassement (bekend als de ARC-AGI-Pub).
Een andere recente poging met OpenAI's GPT-4o scoorde 50 procent, maar enigszins controversieel omdat de aanpak duizenden mogelijke oplossingen genereerde voordat het beste antwoord voor de test kwam. Zelfs dan is dit nog geruststellend ver verwijderd van het winnen van de prijs - of het evenaren van menselijke prestaties van meer dan 90 procent.
Hoewel ARC nog steeds een van de meest geloofwaardige pogingen is om echte intelligentie in AI te testen, laat het Scale/CAIS initiatief zien dat de zoektocht naar overtuigende alternatieven doorgaat. (Al zullen we sommige van de prijswinnende vragen misschien nooit te zien krijgen. Ze worden niet gepubliceerd op het internet om te voorkomen dat de AI's een kijkje nemen in de examenopgaven!)
We moeten weten wanneer machines in de buurt komen van het menselijk niveau van redeneren, met alle veiligheids-, ethische en morele vragen van dien. Op dat moment zitten we waarschijnlijk met een nog moeilijkere examenvraag: hoe kunnen we testen of er sprake is van een superintelligentie?
Dat is een nog breinbrekender taak waar we voor staan…
*) Andrew Rogoyski is Innovation Director van het Surrey Institute of People-Centred AI van de University of Surrey. Dit artikel verscheen eerst bij The Conversation
**) Bovenste foto: Egor Myznik on Unsplash
Foto Tesla: Roberto Nickson on Unsplash