Machine learning voorspelt voorkeuren

13 december 2016

Cláudio de Sá voorspelt voorkeuren van mensen door gebruik te maken van ranglijsten. Dit doet hij door ‘klassieke’ machine learning-technieken aan te passen. Zijn werk kan onder andere gebruikt worden om de uitslagen van verkiezingen te voorspellen. Promotie op 16 december.

Voorkeuren als ranglijsten

Voorkeuren zijn te beschouwen als ranglijsten – iets waaraan mensen de voorkeur geven, eindigt hoog op een ranglijst. ‘Voorkeuren zijn lastige structuren voor kunstmatige-intelligentieprogramma’s’, zegt De Sá. De traditionele machine learning technieken zijn namelijk niet geschikt voor label ranking, het onderzoeksveld van De Sá. Om toch te kunnen omgaan met het label ranking-probleem, heeft hij verschillende technieken aangepast.

Sushi ranken

Een van die technieken is de association rules-methode, die verbanden probeert te vinden. Een voorbeeld is de market basket-analyse, waarbij winkels patronen proberen te vinden in winkelgedrag. Iemand die brood koopt, koopt bijvoorbeeld vaak ook melk. De Sá is in zijn onderzoek echter geïnteresseerd in label ranking, waarbij verschillende types van hetzelfde product worden gerangschikt. ‘Neem bijvoorbeeld de sushi-dataset: informatie van een groep Japanners over de geboortedatum, geslacht, woonplaats en tien sushisoorten gerangschikt op hun voorkeur. We zijn erin geslaagd de association rules-methode zo aan te passen dat we de voorkeuren van sushisoorten kunnen voorspellen op basis van gegevens zoals leeftijd en geslacht.

Bomen in het bos

De Sá maakte daarna gebruik van een beroemde methode in machine learning: random forest. Deze bestaat uit een groot aantal beslissingsbomen. ‘Elke beslissingsboom krijg net een ander stukje informatie, zodat alle bomen samen de uitkomst bepalen. Ook hier hebben we de methode geschikt gemaakt voor ranglijsten. De ranglijst 1,2,3,4,5 verschilt bijvoorbeeld veel van de ranglijst 5,4,3,2,1, maar komt veel overeen met de ranglijst 1,2,3,5,4. Op deze manier leren we de beslissingsboom soortgelijke ranglijsten samen te voegen’, zegt De Sá. Hierdoor kan het systeem uiteindelijk voorkeuren voorspellen.

Op zoek naar de afwijking

In de subgroup discovery-methode proberen onderzoekers een subgroep te vinden die afwijkt van de norm. ‘Als ik bijvoorbeeld naar de woninghuurprijs per vierkante meter in Leiden kijk, verwacht ik dat de verhouding hoger ligt in het centrum. Maar misschien is er wel een klein gebied in het centrum waar de prijs ineens lager is dan verwacht.’ Wederom paste De Sa deze methode aan voor ranglijsten. ‘Toen we met deze methode de sushi-dataset bekeken, zagen we dat een bepaalde groep een ongebruikelijke voorkeur had voor een type sushisoort, de zee-egelsushi. Deze sushisoort stond bij de meeste mensen op plek negen en tien, maar kreeg de voorkeur bij een groep mannen ouder dan dertig en uit een bepaalde regio in Japan.’

De juiste data vinden

Het moeilijkste gedeelte van het onderzoek is het vinden van de juiste data, aldus De Sá. ‘Mijn onderzoek laat zien dat de verschillende methodes goed werken en voorkeuren kunnen voorspellen. Maar het lastigste is echte datasets in handen te krijgen, zoals data over verkiezingen.’