Universiteit Leiden Universiteit Leiden

Nederlands English

Onderzoeksprogramma

Data Science

Het Data Science Onderzoeksprogramma van de Universiteit Leiden brengt data science samen met alle andere academische velden. Zo maakt het programma de vele unieke datacollecties van de universiteit beschikbaar.

Contact Joost Kok

Tegenwoordig zijn in alle wetenschappelijke gebieden meer data beschikbaar dan ooit tevoren. Data waaruit wetenschappers enorme hoeveelheden nuttige informatie kunnen halen, als ze zijn ontsloten.

Gezamenlijk initiatief van zeven faculteiten

Het Data Science Onderzoeksprogramma is een samenwerking tussen alle zeven faculteiten van de Universiteit Leiden. PhD-studenten spelen een sleutelrol in het programma. In totaal zullen minstens 21 PhD-studenten worden aangesteld. Zij zullen werken aan de ontwikkeling en toepassing van data science in verschillende onderzoeksvelden van de Universiteit Leiden.

Expertises bij elkaar brengen

De promovendi krijgen ieder twee (co)promotoren, één gespecialiseerd in data science als methodiek, en één uit het vakgebied van de faculteit. Het programma heeft een open structuur: naast de aan te stellen promovendi zijn andere onderzoekers van harte welkom om aan te sluiten en ook studenten kunnen er projecten doen.

Wil jij als promovendus deelnemen aan het Data Science Onderzoeksprogramma? Reageer dan op één van de vacatures bij de projecten hieronder.

Archeologie

Automatisch archeologische objecten detecteren in op afstand waargenomen data

Omgevingsdata omvatten een variëteit aan ruimtelijke, temporele en spectrale dimensies die potentieel relevante informatie bevatten. Om zulke complexe data voor archeologische doeleinden te kunnen analyseren zijn nieuwe methoden nodig, bijvoorbeeld voor locatiedetectie. Het doel van dit project is om (semi-)geautomatiseerde archeologische analysemethoden te ontwikkelen waarmee archeologische sporen in verschillende databronnen gedetecteerd kunnen worden.

Big data in archeologie: op zoek naar verborgen kennis in de “begraafplaats” van Malta-rapporten

Dit project betreft de analyse van het volledige corpus van archeologische rapporten dat gedurende de afgelopen 20 jaar van het Malta-onderzoek is geproduceerd. Het corpus bevat al meer dan 50.000 verslagen en groeit snel. Het doel is dan ook om een visuele zoekmachine te creëren waarmee onderzoekers snel en eenvoudig relevante documenten en media kunnen vinden, zodat zij de resultaten kunnen integreren en tot een coherent relaas over het verleden kunnen komen.

Governance and Global Affairs

Automatische tekstanalyse van beleidsdocumentatie

Het doel van dit project is om de analyse en annotatie van tekst in beleidsdocumentatie te verbeteren, bouwend op bestaande inspanningen om tekstanalyse te gebruiken voor governance and global affairs. Omdat beleidsteksten vaak sterk gestructureerd zijn volgen we een syntactische aanpak. Door nieuwe en bestaande machine learning algoritmen toe te passen willen we meer inzicht verkrijgen in ideeën, posities en tegenstellingen in het huidige politieke debat.

Databronnen verbinden voor onderzoek naar nieuwe vormen van burgerparticipatie: de beperkingen en mogelijkheden van ‘data dashboards’

Om big data te kunnen gebruiken voor onderzoek naar beleid en beleidsvorming is het noodzakelijk om een geautomatiseerde ‘koppelingassistent’ te ontwikkelen die verschillende datastromen kan herkennen en verbinden. Alleen dan kunnen deze verschillende databronnen gezamenlijk worden geanalyseerd, zonder tijdrovende, handmatige procedures. Voor de sociale wetenschappen is het zeer waardevol om de beperkingen en mogelijkheden van zogenaamde ‘data dashboards’ te onderzoeken, waarin verschillende databronnen kunnen worden samengebracht.

Geesteswetenschappen

Afrikaanse gebarentalen

Het doel van dit project is om enkele van de wereldwijd meest gebruikte analysemethoden voor gebarentalen sterk te verbeteren. Een voorbeeld hiervan is het uitbreiden van de functionaliteit van SignBank, een database voor corpora van gebarentalen met als doel om cross-corpus compatibiliteit mogelijk te maken. Het project zal ook mogelijkheden verkennen waarmee beeldherkenning (van zowel 2D als 3D beelden) gebruikt kan worden voor de semiautomatische generatie van lemma’s en het coderen van eenvoudige fonologische eigenschappen.

Vergelijkende syntax van natuurlijke talen

Beschrijving volgt spoedig.

Rechtsgeleerdheid

De Faculteit der Rechtsgeleerdheid heeft kandidaten uitgenodigd om onderzoeksprojecten m.b.t. data-analyse in het juridische domein voor te stellen. De oproep is inmiddels gesloten en de beschrijvingen van de projecten zullen hier worden toegevoegd zodra ze geselecteerd zijn.

Geneeskunde / Leids Universitair Medisch Centrum

Obesitas-gerelateerde ziekten en mortaliteit

Het hoofddoel van het project is om de immense database van de Nederlandse Epidemiologie van Obesitas (NEO) studie te analyseren. Dit is een unieke en waardevolle databron voor het onderzoeken van de vele biologische routes (pathways) die naar obesitas-gerelateerde ziekten kunnen leiden. Er is data over veel deelnemers, veel verschillende bronnen van klinische informatie en een groot aantal klinische eindpunten. Het secundaire doel is om de data te verbinden met externe databases om de pathofysiologie van obesitas-gerelateerde ziekten te kunnen ontrafelen.

HyperImage: Visuele analysetechnieken voor het ontdekken van biomarkers in grote 3D-omics datasets

“omics” beeldtechnieken maken het mogelijk om volledige weefselsecties in beeld te brengen, waarbij iedere pixel een massaspectrum met duizenden waarden kan bevatten. De hoge dimensionaliteit, grote hoeveelheden en niet-lineaire structuur van zulke beelden resulteert in grote uitdagingen voor analyse en interpretatie. De visuele analysetechnieken die in dit project ontwikkeld zullen worden moeten het mogelijk maken om 3D “omics” beeldtechnieken te gebruiken voor het ontdekken van nieuwe biomarkers.

Wiskunde en Natuurwetenschappen

Het farmacometaboloom van statinetherapie ontcijferen om precisiegeneeskunde mogelijk te maken

Het doel van dit project is om nieuwe biomarkers te ontdekken die variatie in de respons op statinebehandeling kunnen voorspellen en inzicht kunnen geven in de verschillende factoren die hieraan bijdragen. Hiertoe zullen we een geïntegreerde analyse uitvoeren op de *omics datasets van de Rotterdam-studie met behulp van statistical learning algoritmes. We zullen het onderscheidend vermogen en de biologische relevantie vergroten door de moleculaire datasets te beperken tot biochemische routes (pathways).

Een nieuw tijdperk voor natuurbescherming met hyperspectrale en lidar data; Oostvaardersplassen als case study

Het doel van dit project is om geavanceerde data-analyse methoden te ontwikkelen voor het monitoren en beter leren begrijpen van biodiversiteit in natuurgebieden zoals de Oostvaardersplassen. De technologie om de aarde te observeren is het afgelopen decennium sterk verbeterd, waardoor het mogelijk wordt om dit te gebruiken voor natuurmanagement. Hier zijn echter wel nieuwe ecoinformatica methoden voor nodig, bijvoorbeeld voor het volgen van dieren op basis van hyperspectrale data en voor het verbinden van ruimtelijke en temporele patronen van dierbeweging aan vegetatiekarakteristieken.

Sociale Wetenschappen

Wetenschappelijke vooruitgang beter begrijpen door de context van citaties te analyseren

Het doel van dit project is om ons begrip van de manieren waarop wetenschap vooruitgaat fundamenteel te verbeteren. Empirische studies hebben bibliografische metadata gebruikt om relevante inzichten te verschaffen, maar deze studies laten niet zien hoe vooruitgang wordt geboekt. Gemotiveerd door computationele ontwikkelingen en toegang tot meer data stellen wij een grootschalige, data-gedreven aanpak voor waarbij volledige wetenschappelijke documenten worden geanalyseerd.

Stacked Domain Learning voor multi-domein data: een nieuwe ensemblemethode

Dit project beoogt nieuwe statistische methoden te ontwikkelen voor de analyse van multi-domein data, waarbij deze methoden moeten kunnen omgaan met verschillen in kwaliteit van data. Voor de vroege diagnose van Alzheimer, bijvoorbeeld, kunnen vragenlijstgegevens, structurele en functionele MRI data, EEG data en genetische data worden verzameld. Deze datatypen verschillen niet alleen in grootte en dimensionaliteit, maar ook in kwaliteit. Om accurate vroege diagnose mogelijk te maken is het van belang om behalve relevante kenmerken ook cross-domeininteracties te kunnen identificeren. Meer lezen en solliciteren

De organisatie van het Data Science Onderzoeksprogramma ligt bij Laura Zondervan van de Faculteit der Wiskunde en Natuurwetenschappen.

Bezoekadres

Snelliusgebouw
Niels Bohrweg 1
2333 CA Leiden

+31 (0)71 - 527 7061