Het is een ongeschreven wet: als beslissingen worden uitbesteed aan systemen, dan probeert men daar misbruik van te maken. Zo manipuleren bots het online publieke debat op Facebook en Twitter door berichten met een bepaalde boodschap actief te verspreiden. Nepaccounts zijn dag en nacht actief met berichten liken en delen, volledig geautomatiseerd.
Of denk aan buitenlandse mogendheden die zich middels zogenaamde trollen mengen in online discussies over nieuwsgebeurtenissen. Expert in conflict- en veiligheidsrecht Eric Myjer waarschuwde in NRC (Opinie, 19 februari 2021) dat de Russische overheid zich niet alleen mengt in nationale verkiezingen in de VS en het VK, maar hoogstwaarschijnlijk ook in Nederland de publieke discussie in aanloop naar de Tweede Kamerverkiezingen probeerde te beïnvloeden.
In de strijd om de publieke opinie profileren kwaliteitsmedia zich als een bastion van betrouwbare informatie. Het moederbedrijf van NRC schreef recent: ‘In tijden van onzekerheid gaan mensen nog meer op zoek naar accurate informatie en onafhankelijke journalistiek.’ Het verbaast niet dat gedurende de coronacrisis NRC, de Volkskrant en Trouw recordcijfers aan (digitale) abonnees en websitebezoekers rapporteerden.
'Meest gelezen' rubriek testen
Als gedachte-experiment vroeg ik mij af of kranten en tijdschriften wel bestand zijn tegen digitale inmenging? Zijn algoritmes die webpagina’s gebruiken om lezersgedrag te analyseren te beïnvloeden door webverkeer te simuleren? Vanuit nieuwsgierigheid nam ik de proef op de som en onderzocht of de ‘Meest gelezen’ rubriek op de websites van Nederlandse kranten en tijdschriften te manipuleren zijn.
Door 20 minicomputers vanaf een onlineserver met automatische software-scripts samen te stellen die via willekeurige plekken op de wereld een specifiek artikel heel vaak te laten bezoeken, lukte het om op meerdere nieuwswebpagina’swebsites het algoritme dat de populariteit van online artikelen bepaalt om de tuin te leiden. De truc die ik uithaalde lijkt op het project van de Duitse kunstenaar Simon Weckert die door het voorttrekken van 99 mobiele telefoons in een handkar over een lege weg een file wist te creëren op Google Maps.
De kunstgreep werkte relatief makkelijk: bezoek met veel verschillende IP-adressen (het thuisadres van een computer) een artikel naar keuze en accepteer de cookies die op de webpagina verschijnen. Een cookie functioneert als een digitale vingerafdruk van een websitebezoeker. Op basis van geaggregeerde cookiegegevens stellen websites lezersstatistieken samen en bepalen kranten welke artikelen online het meeste worden gelezen.
Het automatisch bezoeken van websites en het accepteren van cookies is gemakkelijk te automatiseren. Modules voor programmeertaal Python (specifiek Selenium) zijn in staat een internetbrowser onder de motorkap aan te sturen, waardoor er geen venster van een internetbrowser nodig is om een webpagina te bezoeken. Dit heeft als voordeel dat tekst en afbeeldingen niet geladen hoeven te worden.
Dit achterwege laten van een grafische gebruikersomgeving maakt het mogelijk om geautomatiseerd iedere seconde een website te bezoeken, cookies te accepteren, klik- en scrollgedrag te simuleren, telkens met een ander IP-adres. Afhankelijk van de capaciteit van de VPN-service die je gebruikt om de IP-adressen te laten rouleren, en afhankelijk van het budget wat je hieraan wilt besteden, kun je dit proces opschalen van 10 bezoeken aan een artikel per seconde minuut (vanaf je eigen computer) naar honderden of duizenden bezoeken per seconden minuut (vanaf een onlineserver met meer rekenkracht).
Vermakelijke uitkomsten
Zo lukte het om enkele dagen voor de Tweede Kamerverkiezingen in maart 2021 met 10 minuten aan geautomatiseerd webverkeer eerdergenoemd artikel Pas op voor buitenlandse inmenging bij verkiezingen van Eric Myjer in de ‘Meest gelezen’ rubriek van nrc.nl te plaatsen.
Later in maart, in aanloop naar het debat over het mislukte formatieproces van Rutte IV, was een middag lang het recept voor een Indiase dahl-maaltijd het meest gelezen artikel op volkskrant.nl. Ook de lijst met populaire artikelen op ad.nl en groene.nl bleek vatbaar voor manipulatie. De hiaten zijn ondertussen bekend bij de it-afdelingen van de desbetreffende media.
De redacties van de mediabedrijven reageerden allen constructief. Door de richtlijnen voor ethisch hacken van het Openbaar Ministerie op in acht te te volgennemen, heb ik geprobeerd duidelijk te maken dat ik geen kwaadwillende bedoelingen had met de inmenging. Zo heb ik proportioneel gehandeld (niet meer gemanipuleerd dan noodzakelijk) en is de opmars van de artikelen in de lijsten met populaire stukken nauwkeurig gedocumenteerd door middel van schermafbeeldingen.
Het hiaat in het populariteitsalgoritme van NRC is ondertussen gedicht. De Volkskrant en AD (beiden DPG Media) en de Groene Amsterdammer volgen snel. Een mogelijke oplossing, om bots van menselijk webverkeer te onderscheiden, is om de lijst met populaire artikelen enkel te baseren op abonnees die op de website zijn ingelogd.
‘Beste gelezen’ werkt manipulatief
Toch blijft het bestaan van de rubriek discutabel, want de rubriek stuurt het gedrag van online krantenlezers met niet te verwaarlozen commerciële motieven. Omdat de rubriek prominent in beeld staat op de startpagina’s van online media en verschijnt naast vele artikelen die online worden gelezen, heeft de lijst met populaire nieuwsitems grote invloed op welke artikelen lezers aanklikken en daarna gaan lezen.
Een artikel in de top-5 wordt meer gelezen juist omdat het in de top-5 staat. Deze dynamiek is vergelijkbaar met het sturende karakter van zoekmachines. Of het gaat om een zoekmachine of een lijst die populaire artikelen rangschikt, 90% van de clicks belanden op de eerste 5 zoekresultaten. Volgens de wetten van de digitale tijd geldt: the winners take it all.
Zo heeft het algoritme dat de lijst van populaire artikelen op een webpagina samenstelt in zekere zin een rol als debatleider. Maar als deze belangrijke rol van debatleider wordt overgelaten aan een simpel telalgoritme, niet in staat om menselijk van geautomatiseerd webverkeer te onderscheiden, is het manipuleren van de ‘meest gelezen’ lijst laaghangend fruit voor inmenging in de publieke opinie.
De inmenging beperkte zich tot de rankschikking van nieuwsitems van de krant of het nieuwstijdschrift zelf. Maar stel je voor dat maandenlange een week lang berichtgeving over immigratie, vaccinatiecampagnes of artikelen over een bepaalde politieke partij de lijst met populaire artikelen domineert, terwijl de Tweede Kamerverkiezingen in aantocht zijn. Het zou ongetwijfeld invloed hebben op de opvattingen van online lezers.
Ook lezers moeten kritisch zijn
Zowel lezers als kranten moeten daarom hun houding jegens de ‘Meest gelezen’ rubriek aanpassen. Lezers moeten zich realiseren dat de rubriek geen objectieve weergave is van de meest gelezen artikelen onder mede-lezers. Vergelijkbaar met de samenstelling van de voorpagina en krantenkoppen, moet er bewustzijn onder lezers groeien dat de manier waarop de website en het populariteitsalgoritme van een krant functioneert een redactionele keuze is.
Waarom staat die rubriek naast ieder artikel dat ik lees? Op welke manier stelt de krant de ‘Meest gelezen’ rubriek samen? Zijn het de hoeveelheid bezoekers, het aantal seconden leestijd, de hoeveelheid muisbewegingen of een samenstelling van deze variabelen die bepalen hoe populair een artikel is?
Zelfs als het populariteitsalgoritme naar behoren functioneert, geeft de lijst een vertekend beeld van populair nieuws door het winners take it all-effect. Het is onmogelijk om met een continu zichtbaar scorebord een eerlijke lijst van populaire artikelen samen te stellen. Lezers moeten zich er bewust van zijn dat de digitale methoden die media gebruiken om lezers nieuws te brengen niet neutraal zijn.
Stoppen?
Kranten en nieuwstijdschriften moeten stoppen de ‘Meest gelezen’ rubriek aan lezers op te dringen. Media die pretenderen onafhankelijk en betrouwbaar te zijn, moeten er ook zorg voor dragen dat de discussie over nieuws op een zo onafhankelijk mogelijke manier tot stand komt. Kranten moeten bij zichzelf te rade gaan of de rubriek momenteel ook een commerciële commercieel doel dient.
Is het daadwerkelijk nodig om bij ieder artikel de ‘Meest gelezen’ rubriek te plaatsen om lezers te informeren over nieuws dat ‘populair’ is onder mede-lezers? Of heeft de rubriek ook als doel om de kijktijd van lezers te maximaliseren? Waarom krijgt de rubriek niet een onopvallende plek op de startpagina voor lezers die daar behoefte aan hebben en houdt de rubriek zich verder gedeisd op andere webpagina’s van de krant?
Daarnaast moet de naam van de rubriek worden aangepast. De naam ‘Meest gelezen’ of ‘Best gelezen’ wekt de schijn van objectiviteit. Deze namen zijn niet alleen misleidend door het winners take it all-effect, ook zijn is de ‘gemeten populariteit’ alleen gebaseerd op online leesgedrag. De mening van lezers van de papieren krant lijkt er niet toe te doen. Bovendien gaan kranten, met de valse belofte van het ‘beste’ en het ‘meeste’, mee in de trend om sensatie te commercialiseren. Een meer neutrale naam als ‘Anderen lazen ook’ of ‘Veel gelezen door abonnees’ zou beter passen bij de rubriek.
Dat de hedendaagse analytics-verslaving ook diep is doorgedrongen in de journalistiek blijkt uit het NRC-artikel ‘Hoe machtig is uw klik?’. Leescijfers blijken een niet geringe rol te spelen op de redacties van Nederlandse en Vlaamse kranten. Weliswaar zijn statistieken niet één-op-één leidend in de totstandkoming van nieuws, maar tegenvallend lezersbereik heeft wel een rol gespeeld bij het ontslag van een journalist bij het mediahuis DPG. Maar wie kan garanderen dat andere analysemethoden van kranten wel naar behoren functioneren?
Neem het internet en algoritmes niet voor lief. Halfslachtige analytics is als het bouwen van een huis op drijfzand. Ondoordachte digitalisering maakt het vervolgens ook nog manipuleerbaar.
*) Jurriaan Parie is een onafhankelijke datawetenschapper en was tot voorkort verbonden aan de onderzoeksgroep Information Systems van de ETH Zürich