Een snelle zoektocht op internet levert talloze video's op over de ongelukken van zelfrijdende auto's, die vaak een glimlach of een schaterlach teweegbrengen. Maar waarom vinden we deze gedragingen grappig? Misschien omdat ze in schril contrast staan met de wijze waarop wij achter het stuur soortgelijke situaties zouden aanpakken.
Alledaagse situaties die voor ons triviaal lijken, kunnen voor zelfrijdende auto's een grote uitdaging vormen. Ze zijn ontworpen met behulp van technische methoden die fundamenteel verschillen van de werking van het menselijk brein werkt. Recente ontwikkelingen op het gebied van AI openen echter nieuwe mogelijkheden.
Van sensoren naar actie
Nieuwe AI-systemen met taalcapaciteiten - zoals de technologie achter chatbots zoals ChatGPT - zouden de sleutel kunnen zijn om zelfrijdende auto's meer als menselijke bestuurders te laten redeneren en gedragen.
Onderzoek naar autonoom rijden kwam eind 2010 in een stroomversnelling met de komst van diepe neurale netwerken (DNN's), een vorm van kunstmatige intelligentie (AI) waarbij gegevens worden verwerkt op een manier die is geïnspireerd op het menselijk brein. Hierdoor kunnen beelden en video's van verkeersscenario's worden verwerkt om ‘kritieke elementen’, zoals obstakels, snel te identificeren.
Om deze te detecteren moet met een 3D-box de grootte, oriëntatie en positie van de obstakels worden berekend. Dit proces, toegepast op bijvoorbeeld voertuigen, voetgangers en fietsers, creëert een representatie op basis van klassen en ruimtelijke eigenschappen, inclusief afstand en snelheid ten opzichte van de zelfrijdende auto.
Dit is de basis van de meest gebruikte technische benadering van autonoom rijden, bekend als ‘sense-think-act’ (zintuig-denk-actie); sensorgegevens verwerkt door het DNN, vervolgens gebruikt om trajecten van obstakels te voorspellen. Tot slot plannen de systemen de volgende acties van de auto.
Hoewel deze aanpak voordelen biedt zoals eenvoudig debuggen, heeft dit ‘sense-think-act’ raamwerk een kritieke beperking: het verschilt fundamenteel van de hersenmechanismen achter menselijk rijden.
Lessen uit het brein
Het is een wetenschappelijke uitdaging om intuïtie die is afgeleid van het menselijk brein toe te passen op zelfrijdende voertuigen. Toch zijn er verschillende onderzoekpogingen om inspiratie te halen uit neuro- en cognitieve wetenschappen en psychologie om autonoom rijden te verbeteren.
Een al lang bestaande theorie toont dat ‘voelen’ en ‘handelen’ geen opeenvolgende maar nauw met elkaar verbonden processen zijn. Mensen nemen hun omgeving waar in termen van hun vermogen om ernaar te handelen.
Wanneer een bestuurder zich bijvoorbeeld voorbereidt om linksaf te slaan op een kruispunt, concentreert hij zich op specifieke delen van de omgeving en obstakels die relevant zijn voor de bocht. De zintuig-denk-actie benadering verwerkt daarentegen het hele scenario, onafhankelijk van de huidige actie-intenties.
Mensen beter in uitzonderlijke scenario’s
Een ander cruciaal verschil met menselijk denkwerk is dat DNN's voornamelijk vertrouwen op de gegevens waarop ze getraind zijn. Wanneer ze worden blootgesteld aan een kleine ongebruikelijke variatie van een scenario, kunnen ze falen of belangrijke informatie missen.
Zulke zeldzame, ondervertegenwoordigde scenario's, bekend als ‘long-tail cases’, vormen een grote uitdaging. De huidige oplossingen bestaan uit het creëren van steeds grotere trainingsdatasets. Echter, de complexiteit en variabiliteit van echte situaties maken het onmogelijk om alle mogelijkheden te bestrijken.
Als gevolg daarvan hebben datagestuurde benaderingen zoals zintuig-denk-actie moeite om te generaliseren naar ongeziene situaties. Mensen daarentegen blinken uit in het omgaan met nieuwe situaties.
Dankzij onze algemene kennis van de wereld zijn we in staat om nieuwe scenario's te beoordelen met behulp van ‘gezond verstand’: een mix van praktische kennis, redeneren en een intuïtief begrip van menselijk gedrag, opgebouwd uit een leven van ervaringen.
In feite is autorijden voor mensen een andere vorm van sociale interactie, en gezond verstand is de sleutel tot het interpreteren van het gedrag van weggebruikers (andere bestuurders, voetgangers, fietsers). Dit vermogen stelt ons in staat om in onverwachte situaties goede oordelen te vellen en beslissingen te nemen.
Gezond verstand kopiëren
Het kopiëren van gezond verstand in DNN's is de afgelopen tien jaar een grote uitdaging geweest, waarvoor wetenschappers opriepen tot een radicale verandering van aanpak. Recente AI-ontwikkelingen bieden eindelijk een oplossing.
Grote taalmodellen (LLM's) - de technologie achter bots zoals ChatGPT - hebben aangetoond dat ze opmerkelijk goed zijn in het begrijpen en genereren van menselijke taal. Hun indrukwekkende vaardigheden komen voort uit training op enorme hoeveelheden informatie in verschillende domeinen, waardoor ze een vorm van gezond verstand hebben ontwikkeld die vergelijkbaar is met dat van ons.
Recentelijk hebben multimodale LLM's(die kunnen reageren op verzoeken van gebruikers in tekst, beeld en video, zoals GPT-4o en GPT-4o-mini, taal gecombineerd met beeld, waarbij uitgebreide kennis van de wereld geïntegreerd is met het vermogen om te redeneren over visuele input.
Deze modellen kunnen complexe ongeziene scenario's begrijpen, uitleg geven in natuurlijke taal en passende acties aanbevelen. Dit is een veelbelovende oplossing voor het probleem van ‘de lange staart’. In de robotica zijn vision-language-action models (VLAMs) in opkomst, die linguïstische en visuele verwerking combineren met acties van de robot. VLAM's laten indrukwekkende eerste resultaten zien bij het besturen van robotarmen door middel van taalinstructies.
Bij autonoom rijden richt het eerste onderzoek zich op het gebruik van modellen om rijcommentaar en uitleg te geven over motorische beslissingen. Een model kan bijvoorbeeld aangeven: "Er is een fietser voor me, die begint af te remmen", wat inzicht geeft in de besluitvorming, maar ook de transparantie verbetert. Het bedrijf Wayve heeft veelbelovende eerste resultaten laten zien bij het commercieel toepassen van taalgestuurde zelfrijdende auto's.
De toekomst van autorijden
Hoewel LLM's ‘lange-staartsituaties’ kunnen aanpakken, brengen ze nieuwe uitdagingen met zich mee. Het beoordelen van hun betrouwbaarheid en veiligheid is complexer dan bij modulaire benaderingen zoals zintuig-denk-actie. Elk onderdeel van een autonoom voertuig, inclusief geïntegreerde LLM's, moet worden geverifieerd, waarvoor nieuwe testmethoden nodig zijn.
Bovendien zijn multimodale LLM's groot en veeleisend qua computercapaciteit, wat leidt tot een hoge latentie of vertraging in reactie en communicatie. Zelfrijdende auto's moeten real-time werken en de huidige modellen kunnen niet snel genoeg reageren. Het uitvoeren van LLM's vereist veel rekenkracht en geheugen, waarvoor de huidige hardware van voertuigen niet volstaat.
Onderzoek richt zich op het optimaliseren van LLM's voor gebruik in voertuigen. Het zal nog een paar jaar duren voordat we commerciële zelfrijdende voertuigen met gezond verstand redeneringen op straat zien.
De toekomst van autonoom rijden is echter rooskleurig. Met AI-modellen met taalcapaciteiten hebben we een solide alternatief voor het zintuig-denk-actie-paradigma, dat zijn grenzen nadert.
LLM’s vormen de sleutel menselijk redeneren en gedragen door voertuigen. Deze vooruitgang is cruciaal, aangezien elk jaar ongeveer 1,2 miljoen mensen sterven door verkeersongevallen; de belangrijkste doodsoorzaak voor kinderen en jonge volwassenen in de leeftijd van 5-29 jaar. Dus autonome voertuigen met een menselijk vermogen tot redeneren zou talloze levens kunnen redden.
*) Alice Plebe is onderzoeker in machineleren aan het Department of Computer Science van het University College London (UCL). Dit artikel verscheen in een Engelstalige versie bij The Conversation.
**) Beelden uit promotiefilmpje Waymo