Door data te integreren kunnen we onze kennis vergroten
In wetenschappelijk onderzoek worden iedere dag enorme hoeveelheden data geproduceerd. Die zouden we nog veel meer kunnen benutten dan we op dit moment doen, zegt Katy Wolstencroft, assistent-professor in (bio)informatica. Maar dan moeten we de data wel beter beheren en integreren.
Wat is data-integratie en waarom is het zo belangrijk?
‘Er is een hele hoop data beschikbaar, en om onze kennis echt te vergroten zouden we die allemaal moeten kunnen gebruiken. Mensen kunnen dat maar tot op zekere hoogte: we kunnen artikelen lezen en voortbouwen op de conclusies daarvan. Maar dat is slechts een klein stukje van de puzzel. Om alle data te kunnen gebruiken, hebben we de hulp van computers nodig. Door bestaande datasets te combineren, kunnen we veel nieuwe kennis verwerven. Maar om allerlei technische redenen is het niet zo makkelijk om data uit verschillende soorten onderzoeken samen te brengen. Er is data-integratie nodig om dat mogelijk te maken.’
Hoe pakken we dat aan?
‘Een belangrijke stap is zorgen dat data FAIR is. FAIR staat voor Findable, Accessible, Interoperable en Reusable. We moeten datasets publiceren in een formaat dat mensen én computers kunnen begrijpen. Daarom moeten we heel systematisch zijn in hoe we dingen classificeren en beschrijven. Zodra data FAIR is, kunnen we computers gebruiken om de data te koppelen en er patronen in te ontdekken. Zo kan data veel verschillende vragen helpen beantwoorden, niet alleen de specifieke onderzoeksvraag waarvoor de data oorspronkelijk is verzameld.’
Is het project FAIRDOM, waarbij u betrokken bent, daar ook op gericht?
‘Ja, FAIRDOM is een platform waar systeembiologie-onderzoekers hun data en wiskundige modellen delen - met de hele wereld, of alleen met andere onderzoekers. Het platform helpt onderzoekers de data beter te structureren en annoteren. Wij begeleiden de onderzoekers in hun databeheer en bieden ze hulpmiddelen om hun gegevens FAIR te maken. Zo hebben we bijvoorbeeld de tool RightField ontwikkeld, waarmee je semantische annotaties in spreadsheets kunt embedden.’
Moeten die onderzoekers dan op een heel nieuwe manier met data leren omgaan?
‘Nee, we moeten realistisch zijn over hoeveel tijd mensen erin kunnen steken. Voor de meeste biologen is databeheer niet een van hun grootste interesses, dus we moeten ervoor zorgen dat het zo min mogelijk tijd kost en zo eenvoudig mogelijk is om de data te standaardiseren. Daarom ontwikkelen we allerlei hulpmiddelen die maar een klein beetje meer inspanning vragen, in plaats van dat we mensen vertellen dat ze op een heel nieuwe manier moeten gaan werken.’
Onlangs riepen een paar van de belangrijkste wetenschappelijke tijdschriften onderzoekers op om de principes van FAIR te gaan hanteren. Het lijkt erop dat FAIR, dat hier in Leiden is ontstaan, in rap tempo een wereldwijde standaard wordt.
‘Ja, ik ben erg blij met de manier waarop het zich verspreidt, van de Europese Commissie helemaal naar beneden, via instituten en individuele onderzoekers. Sommige financieringsinstanties eisen nu ook dat onderzoekers FAIR opnemen in hun projectvoorstellen, wat geweldig is. Ik hoop dat het beschikbaar maken van data voor onze collectieve kennis in de toekomst deel zal uitmaken van de workflow van elke onderzoeker. Dan zouden we veel meer en sneller kunnen leren.’
U bent ook betrokken bij een ander project: Making Sense of Illustrated Handwritten Archives. Wat houdt dat in?
‘Naturalis heeft, net als veel andere musea, zalen vol met archiefmateriaal: collecties van veldnotities en samples van de laatste paar eeuwen. Het doel van het Making Sense-project is het ontwikkelen van methoden om automatisch de data uit deze archiven naar boven te halen. Dit project gaat dus ook over data-integratie. We werken met archiefdata over de biodiversiteit van het Indonesië uit de vroege 19e eeuw. Veel van die data is gedigitaliseerd, er zijn scans van honderden pagina's beschikbaar. Maar de handschriften zijn moeilijk leesbaar en de teksten zijn in verschillende talen geschreven. Dat maakt de bestaande methoden voor het automatisch ontsluiten van data ongeschikt. Ook het koppelen van de teksten en de samples is ingewikkeld, omdat het er zo veel zijn. Wat we uiteindelijk doen, is methoden ontwikkelen om de data toegankelijker te maken voor onderzoekers.’
Hoe gaan jullie daarbij te werk?
‘We werken samen met een onderzoeksgroep aan de Rijksuniversiteit Groningen, die een adaptief leersysteem heeft ontwikkeld om de handschriften te lezen. Hier in Leiden hebben we een semantisch model gebouwd, om te beschrijven wat voor informatie we in elk handgeschreven rapport willen vinden en hoe we die informatie kunnen linken aan de illustraties en de samples. In plaats van elke pagina te transcriberen, zoeken we naar de belangrijkste concepten. Zoals de naam en eigenschappen van de plant- of diersoort, waar deze gevonden is, door wie, hoeveel, enzovoorts. We gebruiken beeldherkenning en lay-outanalyse om te leren waar op de pagina’s die dingen verschijnen.’
U bent begonnen met biochemie. Hoe bent u in de informatica terechtgekomen?
‘Eigenlijk min of meer per ongeluk. Toen ik mijn diploma had gehaald, wilde ik forensisch wetenschapper worden. Maar ik wist het niet helemaal zeker, en in de tussentijd vond ik een baan als onderzoeksassistent in de bioinformatica. Het leek me ook goed daar een beetje ervaring in op te doen. Destijds begon de bioinformatica pas net groot te worden. Door ontwikkelingen in genoomsequencing explodeerde de hoeveelheid beschikbare data. Een spannende tijd, want er opende zich een heel nieuw veld. Dus hoewel ik bij toeval in dit vakgebied beland ben, realiseerde ik me al gauw dat ik erin wilde blijven. En dat heb ik gedaan.’
Katy Wolstencroft is assistant professor aan het Leiden Institute of Advanced Computer Science (LIACS), waar ze onderzoek doet naar semantische data-integratie, voornamelijk in systeembiologie. Ze studeerde biochemie (bachelor) aan de Universiteit van Leeds en bioinformatica (MSc en PhD) aan de University of Manchester. Wolstencroft was postdoc en onderzoeksfellow aan de School of Computer Science aan de University of Manchester, en was visiting research fellow aan de Vrije Universiteit van Amsterdam.
In deze serie interviews komen onderzoekers van het Leiden Centre of Data Science (LCDS) aan het woord. LCDS is een netwerk van onderzoekers uit verschillende wetenschappelijke disciplines, die gebruik maken van innovatieve methodes voor het omgaan met grote hoeveelheden data. Het doel van samenwerking tussen deze onderzoekers is het vinden van slimme oplossingen voor wetenschappelijke en maatschappelijke kwesties.