Universiteit Leiden

nl en

De kloof tussen databases en data science overbruggen

In relationele databases kun je informatie en data opslaan zonder dat de relaties tussen die data verloren gaan. Het zijn daarom nuttige instrumenten voor informatici. De vakgebieden van database-wetenschappers en informatici sluiten echter niet goed op elkaar aan, wat leidt tot inefficiënt gebruik van databases in de informatica. PhD-student Mark Raasveldt heeft geprobeerd de kloof tussen de twee vakgebieden te overbruggen. Promotie 9 juni 2020.

Integratie met analytische programma’s

De meeste informatici gebruiken analytische programma’s, zoals R, Python en C/C++, voor hun onderzoek. Deze programma’s zijn moeilijk te integreren met de huidige database-systemen, wat zorgt voor langzame en omslachtige data-analyse. ‘In plaats van bestaande database-systemen te gebruiken, vinden informatici het wiel steeds opnieuw uit. Ze schrijven hun eigen programma's die vergelijkbare functionaliteit hebben, maar de innovaties van het databaseveld van de afgelopen decennia negeren,’ zegt Raasveldt.

‘Database-onderzoekers hebben enorme voortgang geboekt in het ontwikkelen van krachtige database-systemen die efficiënt analytische queries kunnen beantwoorden.’ Raasveldt heeft in zijn onderzoek geprobeerd de innovaties in het database-onderzoeksveld te combineren met de analytische programma’s die gebruikt worden door informatici. ‘We onderzoeken hoe we de integratie van database-systemen met deze analytische programma's efficiënter en gebruiksvriendelijker kunnen maken,’ legt hij uit.

Grote datasets

Een ander probleem is de grootte van de datasets. De meeste database-systemen zijn niet geoptimaliseerd voor grote datasets en grootschalige data-analyse met behulp van servers op afstand. Om de systemen te optimaliseren, focuste Raasveldt zich op drie methoden.

‘We onderzochten drie primaire methodes van database-clientintegratie: client-server verbindingen, in-database analyses en geïntegreerde database-systemen,’ vertelt Raadveldt. Voor elke methode onderzocht hij de implementaties in bestaande systemen en evalueerde hij hoe effectief ze zijn voor grote datasets en analytisch gebruik.

DuckDB

Het onderzoek resulteerde in een nieuw datamanagementsysteem, genaamd DuckDB, dat gemaakt is voor efficiënte en gebruiksvriendelijke integratie met R en Python (en andere analytische programma’s). Dit managementsysteem dient als volwaardig databasesysteem dat niet alleen bedoeld is voor onderzoeksdoeleinden.

‘We hebben het onderzoek naar database-client integraties vertaald naar een makkelijk te gebruiken en zeer efficiënte database: DuckDB.’ Raasveldt zet zijn werk voort als onderzoeker aan het CWI, waar hij DuckDB verder zal ontwikkelen.

Deze website maakt gebruik van cookies.  Meer informatie.