Universiteit Leiden Universiteit Leiden

Nederlands English

Bayesiaanse statistiek niet zo robuust als gedacht

De veelgebruikte Bayesiaanse statistiek is niet zo robuust als vaak wordt gedacht. Thijs van Ommen van het Centrum Wiskunde & Informatica (CWI) heeft ontdekt dat voor een bepaald type problemen de Bayesiaanse statistiek niet-bestaande patronen in data vindt. Promotie op 10 juni.

Vaststellen (on)juistheid van hypothese


Bayesiaanse statistiek wordt vaak gebruikt om vast te stellen of een hypothese juist of onjuist is op basis van de bewijslast, en geeft een maat voor de zekerheid van deze conclusie. Deze vorm van statistiek wordt onder andere in de machine learning gebruikt. Van Ommen heeft ontdekt dat Bayesiaanse statistiek niet robuust is als bepaalde aannames in het model een klein beetje verkeerd zijn. Hij ontwierp verschillende datasets waarin de Bayesiaanse statistiek niet-bestaande patronen vond, gebaseerd op willekeurige ruis in de data. De datasets hadden allemaal realistische eigenschappen en zouden prima als echte experimentele data kunnen voorkomen.

Oplossing voor onzinnige conclusies

De fouten treden op bij zogenaamde regressieanalyse. In deze vorm van data-analyse zoekt een onderzoeker naar de relatie tussen twee of meer variabelen, de ene bekend en de andere onbekend. Als hierbij modellen worden gebruikt die niet helemaal correct zijn, zoals bij een aanname dat de ruis een specifieke kansverdeling volgt, is er een risico dat onzinnige conclusies worden getrokken. Van Ommen stelt het probleem niet alleen vast, maar levert ook direct de oplossing in de vorm van een toevoeging aan de Bayesiaanse statistiek. Deze toevoeging, SafeBayes, voorkomt de genoemde problemen in regressieanalyse. Naar verwachting wordt dit binnenkort toegevoegd aan statistische software als R en SPSS.

Achter welke deur ligt de prijs?

In zijn proefschrift besteedt Van Ommen ook aandacht aan het vaststellen van de kans op een onzekere uitkomst in het licht van nieuw bewijs als de exacte relatie tussen uitkomst en bewijs niet bekend is. Een beroemd voorbeeld is het Monty Hall- of driedeurenprobleem, waarbij een deelnemer op basis van informatie die de quizmaster geeft moet raden achter welke deur een prijs verstopt ligt. Van Ommen ontdekte dat niet al dergelijke raadsels één juiste uitkomst hebben. Daarnaast geeft hij enkele technieken om de optimale strategie voor deze raadsels te vinden.

Dit onderzoek is gefinancierd door de Vici-beurs van prof. Peter Grünwald, toegekend in 2010.