De machtige Hollywood-agent van Scarlett Johansson, medevoorzitter van Creative Artists Agency Bryan Lourd, leidt de confrontatie met Sam Altman. OpenAI had Johansson al sinds september 2023 zonder succes het hof gemaakt om een nieuwe assistent in te spreken.
Altman stuurde deze maand nog een sms naar Lourd met de vraag of Johansson het aanbod wilde heroverwegen. Hij wilde de actrice iets laten zien waaraan hij had gewerkt, zo. Echter, de gevraagde ontmoeting kwam er niet.
Op 13 mei 2023 presenteerde OpenAI van GTP-4o, uitgerust met nieuwe spraakassistenten voor de Chat GPT-tool, waaronder de vrouwelijke stem Sky. Johansson en Lourd waren "geschokt" en "boos". Een van de vijf stemmen die GTP-4o gebruikt, Sky genaamd, klonk griezelig veel als de actrice in haar rol als de AI Samantha in de film Her uit 2013 - over een man die verliefd wordt op een virtuele assistent.
De discussie werd nog aangewakkerd door OpenAI oprichter en CEO Sam Altman, die de vergelijking tussen Sky en Samantha/Johansson uitspeelde door "Her" te twitteren op de dag van de lancering van GPT-4o.
OpenAI postte later op X dat het bezig was met het pauzeren van het gebruik van Sky en creëerde een webpagina op 19 mei, waarin werd uitgelegd dat er een andere actrice was gebruikt. Het bedrijf licht toe hoe de stemmen gekozen zijn.
Toen Lourd vertelde Altman dat Sky hoogstwaarschijnlijk was getraind op de stem van Johansson, en eiste een verontschuldiging en verwijdering van de stem. “Dachten ze echt dat de stem als Johansson klonk? Was ze gek?”, zo beschrijft Wall Street Journal de reactie van Altman. Zo begon de meest dramatische episode in de botsing tussen Hollywood en de exploderende kunstmatige intelligentie.
Op 15 mei stuurde Lourd een brief met de eis aan OpenAI vroegen te stoppen met het gebruik van de stem en openheid te geven over de herkomst ervan. Het techbedrijf gaf via advocaten de naam van de voice-over casting regisseurs met wie ze hadden samengewerkt, maar niet de naam van de ingehuurde acteur, aldus de mensen.
Dirk Visser en verklaring Scarlett
Lourd stuurde een tweede brief op 19 mei, inmiddels gesteund door de machtige Hollywood-vakbond Screen Actors Guild en de actrice maakte de zaak de volgende dag openbaar. In de verklaring stelt Johansson:
“"Afgelopen september kreeg ik een aanbod van Sam Altman, die me wilde inhuren om het huidige ChatGPT 4.0-systeem in te spreken. Hij vertelde me dat hij het gevoel had dat ik, door het systeem in te spreken, de kloof tussen techbedrijven en creatieven kon overbruggen en consumenten kon helpen zich op hun gemak te voelen bij de ingrijpende verandering op het gebied van mensen en A.I. Hij zei dat hij dacht dat mijn stem geruststellend zou zijn voor mensen. Na veel wikken en wegen en om persoonlijke redenen sloeg ik het aanbod af. Negen maanden later merkten mijn vrienden, familie en het grote publiek allemaal op hoeveel het nieuwste systeem met de naam 'Sky' op mij leek.
Toen ik de uitgebrachte demo hoorde, was ik geschokt, boos en vol ongeloof dat Altman een stem zou nastreven die zo griezelig veel op de mijne klonk dat mijn beste vrienden en de pers het verschil niet konden horen. Altman insinueerde zelfs dat de gelijkenis opzettelijk was en tweette een enkel woord, 'her' - een verwijzing naar de film waarin ik de stem vertolkte van een chatsysteem, Samantha, die een intieme relatie aangaat met een mens.
Twee dagen voordat de ChatGPT 4.0-demo werd uitgebracht, nam Altman contact op met mijn agent en vroeg me het te heroverwegen. Voordat we verbinding konden maken, was het systeem er al. Als gevolg van hun acties was ik gedwongen om een advocaat in te huren, die twee brieven schreef aan de Altman en OpenAI, waarin ze uiteenzetten wat ze hadden gedaan en hen vroegen om het exacte proces te beschrijven waarmee ze de 'Sky'-stem hadden gecreëerd. Daarop ging OpenAI schoorvoetend akkoord met het verwijderen van de 'Sky'-stem.
In een tijd waarin we allemaal worstelen met deepfakes en de bescherming van onze eigen gelijkenis, ons eigen werk, onze eigen identiteit, geloof ik dat dit vragen zijn die absolute duidelijkheid verdienen. Ik kijk uit naar een oplossing in de vorm van transparantie en de goedkeuring van passende wetgeving om ervoor te zorgen dat individuele rechten worden beschermd."
Boeiend is dat op Netkwesties eerder Dirk Visser betoogde dat de nabootsing van stijl met AI (in Nederland) een wetsovertreding kan zijn. De vraag is nu of dit ook voor stemmen geldt. En dan de grote vraag: waar ligt de grens voor ‘precies als’? En genieten enkel acteurs dan bescherming of alle acht miljard wereldburgers?
Terug naar Aristoteles
David Reid, die professor in ‘AI and Spatial Computing’ is aan de Liverpool Hope University, schreef daarover een aardig artikel op The Conversation, dat we hieronder deels vertalen:
Meer dan 2000 jaar geleden bedacht de Griekse filosoof Aristoteles de beginselen van retorica; hoe logica in de tekst van een betoog of toespraak, de behoeften en het begrip van het publiek, alsmede en de autoriteit van de spreker strategisch gebruikt konden worden om anderen te overtuigen.
In plaats van alleen te vertrouwen op de logica van argumentatie en in de spreker, weten politici en acteurs al lang dat niets zo effectief is als de inzet van emotie om de harten en dus de geesten van een publiek te winnen.
De nieuwe GPT-versie lijkt hiervoor bij uitstek geschikt. Terwijl de meesten dit zien als een fantastische doorbraak waar velen baat bij kunnen hebben, kijken anderen er met argwaan tegenaan. Het noemen van de film Her bij de GPT-4o lancering heeft geholpen in de acceptatie bij het grote publiek.
In tegenstelling tot andere grote taalmodellen (LLM's) is GTP-4o (of omni) vanaf de grond opgebouwd om niet alleen tekst, maar ook beeld en geluid op een uniforme manier te begrijpen. Dit is echte multimodaliteit die veel verder gaat dan de mogelijkheden van traditionele LLM's. Het kan nuances in spraak herkennen, zoals emotie, ademhaling en omgevingsgeluid (vogelzang!) en dit integreren met wat het ziet.
Dit multimodale model reageert met dezelfde snelheid als normale menselijke spraak, gemiddeld 320 milliseconden, en kan worden onderbroken. Het resultaat is angstaanjagend natuurlijk en verandert de toon en emotionele intensiteit op de juiste manier. Het kan zelfs zingen, flirterig zijn. Geen wonder dat sommige acteurs zich zorgen maken.
Het is echt een nieuwe manier om met AI om te gaan. Het vertegenwoordigt een subtiele verschuiving in onze relatie met technologie en biedt een fundamenteel nieuw soort natuurlijk klinkende interface. Die noemen we EAI of empathische AI.
De snelheid van deze opmars maakt overheden en opsporingsdiensten ongerust, vanwege de inzet als wapen door schurkenstaten of criminelen. Met audio-deepfakes in opkomst wordt het steeds moeilijker om te detecteren wat echt is en wat niet. Zelfs vrienden van Johansson dachten dat zij het was.
Aristoteles ontdekte dat overtuigingskracht meer nog dan om inhoud om manieren van overdracht draait. Dat speelt mee bij onze onbewuste vooroordelen, zoals een interessant Brits rapport over accentvooroordelen benadrukt. Sommige accenten zijn geloofwaardiger, gezaghebbender of zelfs betrouwbaarder dan andere. Precies om deze reden gebruiken mensen die in callcenters werken nu AI om hun stem te "verwestersen". In het geval van GTP-4o is hoe het dingen zegt misschien wel net zo belangrijk als wat het zegt.
Als deze AI de behoeften van het publiek begrijpt en in staat is om logisch te redeneren, dan is dit het laatste stukje dat misschien nodig is voor geloofwaardige communicatie; zoals Aristoteles 2000 jaar geleden al aangaf.
Misschien hebben we dan een AI gecreëerd die de potentie heeft om een bovenmenselijke meester te worden in retoriek en met overtuigingskracht die het vermogen van het publiek om te weerstaan te boven gaat.