Universiteit Leiden Universiteit Leiden

Nederlands English

Leiden gastheer voor eerste kenniscafé over text and data mining

Met computers grote hoeveelheden teksten, afbeeldingen of andere data doorzoeken en analyseren: daarover gaat text and data mining. Op 29 februari discussieerden bezoekers tijdens een Knowledge Cafe in het Academiegebouw over de vraag: Waarom komt deze techniek in Europa niet van de grond?

Initiatiefnemer van het kenniscafé is FutureTDM, een door de Europese Unie gefinancierd project rondom text and data mining. Die organiseert dit jaar een reeks bijeenkomsten; het Leiden Centre of Data Science (LCDS) is medeorganisator van deze eerste editie. Ongeveer twintig wetenschappers en vertegenwoordigers van wetenschappelijke bibliotheken zijn aanwezig.

Context

LCDS-directeur Jaap van den Herik opent de discussie. Text and data mining is interessant voor wetenschappers uit allerlei disciplines, licht hij vooraf toe, maar lang niet iedereen heeft er voldoende kennis over. Als voorbeeld van wat de techniek behelst noemt hij tekstanalyse. ‘Dat kan op het niveau van woorden en zinnen, maar je kan de computer ook laten zoeken naar motieven.’ Bijvoorbeeld het Bijbelse thema van de zondvloed. ‘Niet-christelijke boeken uit dezelfde tijd als de Bijbel noemen de zondvloed ook. Maar wat heel opmerkelijk is: als je in de andere teksten zoekt naar de geboorte van Christus vind je daar niets over. Die staat alléén beschreven in de Bijbel. Op die manier kun je de context van verschijnselen onderzoeken.’

Grote hoeveelheden data

Text mining is bij uitstek geschikt om nog veel grotere hoeveelheden data te bestuderen dan in dit voorbeeld, aldus Van den Herik. ‘De kracht zit vooral in de combinatie van allerlei soorten gegevens.’ 

Biodiversiteit en ebola

Bij het LCDS werken wiskundigen en informatici aan technieken die dit onderzoek mogelijk maken. Natuur- en sterrenkundigen doen er big data-onderzoek en er zijn allerlei samenwerkingen met wetenschappers uit andere disciplines. Zo is er een gezamenlijk project met Naturalis om biodiversiteit te beschermen. En Leidse wetenschappers hielpen mee met het in kaart brengen van de verspreiding van ebola in 2014 op basis van big data, waaronder meer gegevens afkomstig van mobiele telefoons. 

Enorme vlucht

Text and data mining is huge op het moment, vindt ook Susan Reilly, voorzitter van de koepelorganisatie van Europese onderzoeksbibliotheken LIBER en een van de initiators van FutureTDM. ‘In de Verenigde Staten en Japan neemt het al een enorme vlucht, maar Europa blijft achter. Wij willen achterhalen waarom dat zo is en oplossingen voor het probleem aandragen.’ 

Auteursrecht

Eén van de obstakels is evident, vertelt Reilly: het Europese auteursrecht is veel strenger dan het Amerikaanse. Wetenschappers kunnen vaak niet publiceren over de resultaten van hun data mining-onderzoek, doordat de brongegevens waarop ze zich baseren auteursrechtelijk beschermd zijn. Reilly: ‘De Europese Commissie heeft zich uitgesproken voor text and data mining en er wordt gesproken over een wettelijke uitzondering in het auteursrecht om het mogelijk te maken.’ Een belangrijke vraag die daarbij openstaat is wie daarvan gebruik zouden mogen maken: alleen wetenschappers, of ook commerciële partijen als bijvoorbeeld farmaceutische bedrijven? 

Obstakels

Onder meer daarover discussiëren de deelnemers van het kenniscafé. Ook Van den Herik signaleert op de universiteit een reeks obstakels die de techniek in de weg staan. ‘Onderzoekers hebben er te weinig kennis over; die moet omhoog. We hebben niet voldoende high performance computing-apparatuur op de universiteit. En veel collecties zijn niet ontsloten; de ruwe data moeten eerst geschikt gemaakt worden voor gebruik.’ Maar, voegt hij toe, deze eerste FutureTDM-bijeenkomst vindt niet toevallig in Leiden plaats, ‘Nederland loopt binnen Europa zeker voorop in big data-onderzoek.’