Barend Mons (op de foto boven) is hoogleraar Biosemantiek aan het Leids Universitair Medisch Centrum (LUMC) en Anwar Osseyran, hoogleraar Data Analytics en Computer Science aan de Amsterdam Business School van de Universiteit van Amsterdam. Mons is initiator van Global Open Fair (Go Fair) voor nieuwe vormen en normen voor wetenschappelijke publicatie met data, een Europees initiatief. (Foto: Harry Meijer)
Dit artikel verscheen eerst in juni 2018 in Surf Magazine. U kunt zich gratis abonneren.
Er wordt gesproken van een ‘datarevolutie’ of ‘vierde industriële revolutie’. maar Barend Mons geeft aan dat er eerder sprake is van een sprong in de evolutie. ‘Als je in mijn vakgebied, de biologie, een stekker in een apparaat stopt, komen er petabytes aan data uit. In de moleculaire genetica verdubbelen we de hoeveelheid data elke zes maanden. 90 procent van de bestaande data is in de laatste twee jaar gegenereerd. Dat volume is indrukwekkend.’
Waar Mons vooral de onderzoekskant vertegenwoordigt, kijkt Anwar Osseyran naar de computertechnologie: ‘De datarevolutie is in een stroomversnelling geraakt doordat technologiebedrijven zoals Google, Yahoo en Amazon algoritmes en methodieken hebben ontwikkeld’, zegt hij. ‘Die hebben de verwerking van zeer grote hoeveelheden data veel makkelijker en betaalbaarder gemaakt. Een tweede element is de koppeling tussen data en machine learning. De beschikbaarheid van grote hoeveelheden data en de mogelijkheid die data ook machinaal te verwerken, hebben gezorgd voor een doorbraak van machine learning in applicaties.’
Een andere grote ontwikkeling is dat het onderzoek steeds meer discipline-overstijgend is. ‘We kijken bij genetisch onderzoek niet alleen naar genetische data’, zegt Mons. ‘Als we onderzoek doen naar depressie, willen we bijvoorbeeld ook data uit de zorg, van Facebook en de meteorologie gebruiken.
Maar al die disciplines hebben hun eigen silo’s, terminologie, instrumenten en regels. We zijn nog niet klaar om computers onze voornaamste onderzoeksassistent te laten worden.’
Nachtmerrie
Daarmee komen we meteen op het grote probleem: de menselijke factor. ‘De meeste onderzoekers, misschien wel 80 procent, slaan hun data op een manier op die voor computers totaal onlogisch is’, zegt Mons. ‘En het principe van publiceren via artikelen, met een link naar de achterliggende data die vaak niet eens meer toegankelijk zijn, is een nachtmerrie. Wij publiceren en communiceren onze wetenschap nog net zo als in de 18e eeuw. Dat moet veranderen: data moeten waar mogelijk vanaf het ontstaan ‘machine-readable’ zijn. Daar staat het GO Fair-initiatief voor.’
De onderzoekswereld ontwikkelt steeds meer apparaten die gigantische hoeveelheden data kunnen genereren: in de elementaire fysica, het astronomisch onderzoek, de life sciences. ‘Maar we verkeren in een crisis omdat we niet beschikken over de mensen die met die data kunnen omgaan’, zegt Mons. ‘Daar zit een enorm knelpunt. De rekenkracht en de opslagmogelijkheden zijn er, maar we hebben een groot probleem op het gebied van human capital. In ons recente rapport voor de Europese Commissie stellen wij dat we 500.000 ‘data stewards’ moeten opleiden – alleen al in Europa.’
Osseyran vult aan dat er ook grenzen zijn aan de opslagmogelijkheden: ‘Technologisch kun je heel veel data opslaan, maar de opslag van grote hoeveelheden data is duur. Je moet goed nadenken wat je opslaat en wat niet. Het tweede is: als je data gaat opslaan, moet je een data-stewardshipplan hebben, zodat je de data efficiënt kunt gebruiken.’
Uitgevers moeten veranderen
Data stewards en data-stewardshipplannen zijn essentieel om de datarevolutie in goede banen te leiden. ‘Je moet eigenlijk geen onderzoek financieren zonder een goed data-stewardshipplan’, stelt Mons. ‘Als we kijken naar Europees onderzoek, geven we daar 200 miljard euro per jaar aan uit. We verwachten dat het gemiddelde data-stewardshipplan 5 procent zal bedragen van de totale onderzoekskosten. Maar dat zijn geen nieuwe kosten, dat zijn besparingen! We verliezen nu veel geld, volgens een recent rapport van PwC 11,4 miljard euro per jaar, omdat onze data niet Fair (findable, accessible, interoperable and re-usable) zijn opgeslagen.’
De beide heren zien in deze discussie een grote rol voor de uitgevers: die zijn deel van het probleem, maar ze moeten een deel van de oplossing worden. ‘Alle fondsen en geldverstrekkers in Europa gaan in toenemende mate bij elk onderzoek een data-stewardshipplan vereisen. Bovendien moeten de uitgevers die de publicaties én de data gaan plaatsen, voldoen aan eisen voor open access, een permanente link naar de data en een transparante kostenstructuur.’
Personal Health Train
Mons schetst Mons een beeld van de toekomst waarbij de problemen (en kosten) van datatransport worden omzeild: ‘Tot nu toe brengen onderzoekers de data die ze willen onderzoeken, fysiek bij elkaar. Nu zie je een omslag naar distributed learning. Vaak lopen de data in de petabytes, maar past het algoritme waarmee we rekenen in een hoekje van je smartphone. Dan is het heel inefficiënt om grote hoeveelheden data heen en weer te sturen. Wat we nu doen, is de algoritmes de data laten bezoeken waar ze staan. Dat is ook het principe van het Internet of Fair Data and Services.’
Die gedistribueerde aanpak lost ook een ander probleem op: ‘De algemene verordening gegevensbescherming (AVG) gebiedt dat we niets met data mogen doen zonder toestemming van de eigenaar van de data, bij ons meestal de patiënt’, zegt Mons. ‘Het gaat dan vaak om honderdduizenden eigenaren. Wij hebben daar iets voor bedacht, dat noemen we de Personal Health Train.
De treintjes zijn de algoritmes, de stations bevatten de data en wat rekenkracht. Het treintje vraagt bij elk station om toestemming om naar binnen te gaan met een bepaalde vraag, rekent aan de data en gaat door. De data worden dus niet verplaatst of gekopieerd maar blijven op hun station. Patiënten geven toestemming aan hun patiëntenvereniging voor deze werkwijze. Zo is de privacy gewaarborgd en kunnen we toch onderzoek doen.’
Life sciences en Surf
Welke rol moet netwerkorganisatie voor de wetenschap Surf hierin spelen? Osseyran, bestuurslid van Surf: ‘We moeten anticiperen op nieuwe manieren van opslag, technology scouting, nieuwe technologieën voor data processing en data analytics, machine learning en artificial intelligence. We kijken ook naar manieren om algoritmes naar de data te brengen om datatransport te vermijden en de privacy te waarborgen. Verder werken we mee met de opensciencewereld en met de implementatie van de Fair-principes.’
Mons benadrukt samenwerking: ‘Surf weet alles van ICT-infrastructuur, wij weten alles van de onderzoeksdomeinen. Daarom denken we aan een federatieve infrastructuur. Daarbij zorgt Surf voor de ‘zware’ infrastructuur, de domeinen vullen dat aan met domeinspecifieke infrastructurele diensten. Voor de levenswetenschappen is dat belegd bij het Dutch Tech Centre for the Life Sciences. Dat vraagt dus om een structurele samenwerking.’
Osseyran sluit zich hierbij aan: ‘De term federatie is heel belangrijk voor ons. Wij zien een rol voor Surf in het organiseren van de community’s. Daarom is het heel belangrijk dat wij binnen Surf ook mensen hebben die de talen van die onderzoeksgemeenschappen spreken. Bovendien moeten wij als Surf identificeren wat generiek is in de vragen van de community’s; dat zijn zaken die we centraal kunnen ontwikkelen en aanbieden om de kosten te verlagen.’