Onderzoeksproject

Bayesiaanse statistiek in oneindig veel dimensies

De statistiek van grote datasets, zoals in de genetica en bij medische scans, is nog volop in ontwikkeling. Hoe haal je de beste informatie uit zulke rommelige data? Wat zijn reële foutmarges?

Financiering: ERC Advanced Grant 2012

Baysiaanse statistiek gaat er van uit dat je nooit met een schone lei begint. Er is altijd een vooronderstelling, de prior. In het geval van de PET-scan zit er een mensenhoofd in de scanner, geen konijn of meloen. De binnenkomende data modificeren de prior tot het uiteindelijke beeld van iemands brein, de posterior. Deze voorkennis kun je gebruiken om meer informatie uit de dataset te halen dan met gewone statistiek mogelijk is. Dus je krijgt een gedetailleerder 3D-beeld. Maar voor zulke veel-dimensionale datasets is nog nauwelijks fundamenteel onderzocht hoe de precieze keuze van de prior het uiteindelijke plaatje beïnvloedt, gegeven een zekere dataset. Van der Vaart onderzoekt wat de beste manieren zijn om informatie te verkrijgen uit rommelige data en wat daarbij de reële foutmarges zijn.