ERC-grant voor statistiek in grote, rommelige datasets

26 oktober 2012

De statistiek van grote datasets, zoals in de genetica en bij medische scans, is nog volop in ontwikkeling. Hoe haal je de beste informatie uit zulke rommelige data? Wat zijn reële foutmarges? Hoogleraar stochastiek Aad van der Vaart krijgt van Europa een ERC Advanced Grant om dit verder uit te zoeken.

Oneindig veel dimensies

Bayesiaanse statistiek in oneindig veel dimensies, heet Van der Vaarts project. Wat moet een mens zich voorstellen bij ‘oneindig veel dimensies’?

Genen koppelen aan kanker

‘Oneindig is ongeveer hetzelfde als heel veel,’ legt Van der Vaart uit. ‘Stel, je wilt weten welke van de 30.000 genen van de mens betrokken zijn bij het ontstaan van borstkanker. Je verwacht dat lang niet al die genen een effect hebben, maar je weet van te voren niet welke.’ Een statistisch model van zo’n probleem heeft 30.000 dimensies, en is beter hanteerbaar in een theorie die ‘willekeurig veel’ dimensies aankan. Hoeveel tumoren moet je onderzoeken om gen X te koppelen aan borstkanker? En wat is de kans dat je gen X ten onrechte de schuld geeft? Het is bepaald geen toeval, dat Van der Vaart behalve op het Mathematisch Instituut, ook een werkplek heeft op het LUMC.

Hersenen in 3D

Ander voorbeeld: een PET-scan van iemands hoofd. Feitelijk levert zo’n scan niet meer op dan een enorm aantal detecties van gamma-fotonen ver buiten het hoofd. Via complexe algoritmes wordt die abstracte, veel-dimensionale dataset omgezet in een 3D-beeld van de hersenen.

Foutmarges zijn braakliggend terrein

Baysiaanse statistiek gaat er van uit dat je nooit met een schone lei begint. Er is altijd een vooronderstelling, de prior. In het geval van de PET-scan zit er een mensenhoofd in de scanner, geen konijn of meloen. De binnenkomende data modificeren de prior tot het uiteindelijke beeld van iemands brein, de posterior. Deze voorkennis kun je gebruiken om meer informatie uit de dataset te halen dan met gewone statistiek mogelijk is. Dus je krijgt een gedetailleerder 3D-beeld. Maar voor zulke veel-dimensionale datasets is nog nauwelijks fundamenteel onderzocht hoe de precieze keuze van de prior het uiteindelijke plaatje beïnvloedt, gegeven een zekere dataset.

Van der Vaart: ‘We kennen al wel gevallen waarin dat fout gaat.’ In de PET-scan kan dat betekenen, dat er structuren in het plaatje opduiken die niet echt bestaan. In de klassieke statistiek bestaan onomstreden methodes om een betrouwbaarheidsinterval (‘foutmarge’) rond de meest betrouwbare waarde te berekenen. Voor de Bayesiaanse statistiek van veel-dimensionale datasets is dat nog vrijwel braakliggend terrein.

Ophouden met verkeerde keuzes

Met de € 2,2 miljoen van de Advanced Grant zal Van der Vaart vooral AIO’s en postdocs aanstellen. Van der Vaart: ‘Zeker voor de wiskunde is dit een groot project, het was best lastig om een plan voor vijf jaar te maken.’ Het doel is primair om theoretisch inzichten te verdiepen: ‘Het is wel verstandig om zaken ook te simuleren, zodat je ze ziet gebeuren. Maar we hebben geen supercomputers nodig, dat gaat gewoon op de PC.’ Van de nieuwe inzichten kunnen alle toepassingen profiteren: ‘Mensen zullen ophouden met verkeerde priors te kiezen, of verkeerde methodes te gebruiken.’

ERC Advanced Grant 2012

‘Bayesian Statistics in Infinite Dimensions: Targeting Priors by Mathematical Analysis’
A.W. van der Vaart, Universiteit Leiden
European Research Council Advanced Grant