Universiteit Leiden Universiteit Leiden

Nederlands English

Universiteit Leiden start universiteitsbreed onderzoeksprogramma Data Science

De Universiteit Leiden investeert in vier jaar in totaal vier miljoen in de ontwikkeling van het wetenschapsgebied data science in combinatie met andere wetenschapsdomeinen. Het specialisme wordt: data science in het wetenschappelijk onderzoek. Zoals in de studie van de Chinese variant van Facebook.

Essentie is uitwisseling van kennis

Geert de Snoo (Faculteit der Wiskunde en Natuurwetenschappen): ‘Het Leidse Data Science-programma is voor alle faculteiten van groot belang. Met name voor domeinen waarin wetenschappers in toenemende mate met grote bestanden werken, zoals in het taalonderzoek, het milieuonderzoek, de geneeskunde, de archeologie en de biologie. Patroonherkenning met behulp van big data leidt tot nieuwe inzichten: er komen verbanden tussen specifieke data bovendrijven die eerder nog niet waren opgemerkt.’ Het programma draait om de wederzijdse interactie tussen wetenschappers uit de verschillende vakgebieden. De essentie van het onderzoeksprogramma is de uitwisseling van kennis; het is multidisciplinair. Datawetenschappers van de faculteit Wiskunde en Natuurwetenschappen werken in teams samen met vakexperts van de faculteiten. Van elkaar leren en elkaar versterken is het motto.

Sociale Wetenschappen

Ook Hanna Swaab, decaan van de Faculteit der Sociale Wetenschappen, is blij met het initiatief: ‘Het onderzoeksprogramma past goed bij de faculteit Sociale Wetenschappen. Het sluit aan bij lopende onderzoekslijnen in onze faculteit. En het biedt ons de kans om nauwer samen te werken met onderzoekers uit andere vakgebieden en met hen samen nieuwe onderzoeksthema’s  te verkennen.’ Bij de faculteit lopen diverse big data-projecten die betrekking hebben op vragen als: hoe kunnen we ontwikkelingsrisico  beter voorspellen, hoe kunnen we wetenschapsopbrengsten evalueren door analyse van grote datasets, en hoe kunnen we patronen in de psychopathologie ontdekken en verder zoeken naar de aangrijpingspunten voor de behandeling van patiënten.

Fundamentele, wiskundige aanpak

Het snel opkomende vakgebied Data Science probeert patronen in grote hoeveelheden data te ontdekken en deze om te zetten in bruikbare informatie. De Universiteit Leiden is sterk in data science maar de kennis is nu, gekoppeld aan specifieke vakgebieden, verspreid door de hele universiteit. De faculteit Wiskunde en Natuurwetenschappen richt zich meer op de methodiek, waarbij statistiek en informatica worden gecombineerd. De faculteit staat bekend om haar fundamentele, wiskundige aanpak; de Leidse universiteit stond aan de wieg van diverse  standaarden in de data science.

Maatschappelijk relevant

Het nieuwe onderzoeksprogramma sluit  aan bij uiteenlopende maatschappelijke thema’s in de Nationale Wetenschapsagenda, waarin big data een route is: de verbetering van de zorg (e-health), veiligstellen van ons erfgoed, de ontsluiting van teksten, verduurzaming van de energievoorziening  en de effectiviteit en acceptatie van wetgeving, rechtspraak en rechtshandhaving.

Nieuwe kennis opdiepen

Maar dat is niet de enige reden om nu gas te geven, stelt Joost Kok, directeur van het onderzoeksprogramma. ‘Er zijn meer data dan ooit en er worden grote stappen vooruit gezet met nieuwe algoritmen in de statistiek en met kunstmatige intelligentie. Bovendien is er veel rekenkracht beschikbaar. Het datamanagement is volwassen geworden. We kunnen nu op zoek naar de kennis die verstoppertje speelt in de verzamelde data.’

Promovendi zijn de kern

De kern van het onderzoeksprogramma zijn promovendi. In het programma worden er zeven aangesteld. Elk van de promovendi legt zich toe op de fundamentele ontwikkeling van nieuwe algoritmen die bruikbaar zijn op een Leids wetenschapsgebied. Daarnaast stellen de zeven faculteiten elk zelf ook nog een promovendus aan die met een vakinhoudelijk data science–project aan de slag gaat. Een volgende stap is de data van verschillende gebieden te combineren. De promovendi krijgen ieder twee (co)promotoren, één gespecialiseerd in data science als methodiek, en één uit het vakgebied van de faculteit. Het programma heeft een open structuur: naast de aan te stellen promovendi zijn andere onderzoekers van harte welkom om aan te sluiten en ook studenten kunnen er projecten doen.

Leiden Centre of Data Science

Het onderzoeksprogramma versterkt het in 2014 geopende Leiden Centre of Data Science (LCDS) van de universiteit. Het LCDS is het netwerk van alle Leidse onderzoekers die zich met big data bezighouden.  Met een nieuw Data Science Lab, uitgerust met computers met een grote rekencapaciteit en specialistische software, krijgt het LCDS een fysieke basis.  De totale investering  in de Leidse data science komt voor 2,6 miljoen uit het centrale Vernieuwingsfonds van de Universiteit Leiden, en voor 1,4 miljoen van de faculteiten ter bekostiging van de facultaire promovendi.

Onderwijs

In het Data Science-programma wordt ook onderwijs ontwikkeld.  Per september 2016 start  de specialisatie Data Science in de masters Statistical Science en Computer Science. Het is ook de ambitie om ondersteunend onderwijs in andere opleidingen te verzorgen. Daarnaast wordt een Small Private Online Course of een Massive Online Open Course ontwikkeld.

Uitgangspositie

Het is een goed moment om met het onderzoeksprogramma Data Science van start te gaan, vindt Kok: ‘Van oudsher produceert en verzamelt men in Leiden veel data: in bibliotheken, musea, laboratoria, ziekenhuizen en bij de Sterrewacht. Het zijn data in de vorm van documenten en afbeeldingen, ze zijn opgeleverd door middel van cohortstudies  of door waarnemingen van telescopen. En het worden er alleen maar meer: continu worden data verzameld, op ieder moment, altijd en overal. Uiteindelijk is niet dát het doel, wel om het onbekende in het bekende te ontdekken.’  De topwetenschappers zijn er: Leids statisticus Aad van der Vaart kreeg in 2015 de Spinozaprijs en de Universiteit Leiden bezet in de CWTS-ranking wereldwijd de zevende plaats in het domein mathematics and computer science & engineering. Een goede uitgangspositie dus.

Afbeelding bovenaan: Daniela Stockmann doet onderzoek aan de hand van de Chinese social media, waaronder Weibo - het Chinese Facebook.

 

Voorbeelden van big dataprojecten bij de Universiteit Leiden


Politieke Wetenschap
Dr. Daniela Stockmann onderzoekt de politieke mobilisering van mensen door middel van sociale media onder een autoritair regime, zoals China. Het data science-aspect zit ‘m in het volgen van bijvoorbeeld politiek getinte tweets: worden die doorgestuurd of geretweet? Met behulp van specifieke software wordt het klikgedrag geanalyseerd. Stockmann kijkt ook naar het offline gedrag: is er een relatie tussen het gedrag op sociale media en het ‘echte’ gedrag, bijvoorbeeld de geneigdheid tot demonstreren?

Sterrenkunde
De tijd dat sterrenkundigen met een telescoop door een luik in het dak naar sterren keken en aantekeningen maakten, ligt niet eens zo ver achter ons. Tegenwoordig verzamelen enorme telescopen duizelingwekkende hoeveelheden data. De analyse daarvan met behulp van zeer krachtige rekencomputers levert informatie op over het heelal. Over zwarte gaten bijvoorbeeld, het domein van  prof.dr. Simon Portegies Zwart. Hij doet niet alleen inhoudelijk onderzoek maar onderzoekt ook welke data nodig zijn om nieuwe sterrenkundige kennis te genereren.

Institute for Area Studies
Bij geesteswetenschappen doet historica prof.dr. Hilde De Weerdt onderzoek naar de impact van informele groepen en netwerken op het politieke proces in China. Daartoe ontwikkelde ze met dr. Brent Ho het MARKUS platform voor de annotatie en de visualisering van data in Chinese teksten. MARKUS wordt nu op allerlei terreinen van de Chinese humane wetenschappen gebruikt.

Geneeskunde
Barend Mons, hoogleraar Biosemantiek  in het LUMC doet wéér heel iets anders. Deze bioinformaticus werkt hard aan een standaardformat voor de opslag van databestanden in open repositories zodat ze ook voor anderen te gebruiken zijn. In de geneeskunde bijvoorbeeld, is nog maar 12% van de databestanden ook voor andere wetenschappers beschikbaar.  FAIR, zo heet de standaard waarmee Mons de boer op gaat: databestanden moeten findable, accessible, interoperable en reusable zijn. Mons is voorzitter van een werkgroep van de Europese Unie die standaardisering nastreeft en opereert onder de naam European Open Science Cloud.