Geest in de machine: de diepe kenmerken van Yanming Guo

04 oktober 2017

In de jaren zestig droeg cognitiewetenschapper Marvin Minsky aan MIT enkele van zijn studenten op een computer te programmeren om een eenvoudige taak uit te voeren: objectherkenning in foto's. Hij dacht dat het een aardig zomerproject zou zijn. Wetenschappers uit Leiden en de rest van de wereld werken vandaag de dag nog hard aan zijn idee.

Meer dan vorm en kleur

'Om écht te begrijpen wat er op een foto staat', zegt Yanming Guo, PhD-student bij het LIACS te Leiden, 'moeten neurale netwerken meer zien dan alleen vormen en kleuren. Ze moeten de afbeelding begrijpen: diepte zien, schaal en context bevatten. De eerste stap hierin is het ontwikkelen van krachtige kenmerken.'

Een krachtig algoritme

Guo werkt met convolutionele en recurrente neurale netwerken om deze diepe kenmerken te herkennen en te ontwikkelen, aan de hand van grootschalige datasets van reusachtige afbeeldingen. De algoritmen die hij hiervoor heeft geschreven geven computers de kracht om visuele input te begrijpen op een hoger en grondiger niveau dan ooit tevoren.

Deep learning

Guo gebruikt in zijn onderzoek deep learning. Computersystemen krijgen hierbij geen specifieke instructies over hoe ze moeten leren van wat ze zien of uitleg van wat ze pixel voor pixel moeten doen. In plaats daarvan maken ze gebruik van algoritmen sets waarmee ze, ongeacht waar ze naar kijken, patronen zien en orde in data creëren om zo inzicht te vormen.

Neurale netwerken

De informatie wordt opgeslagen in diepe neurale netwerken. Dit zijn computersystemen die niet heel anders werken dan de netwerken in onze eigen hersenen. De netwerken vergelijken de data die ze voor zich hebben met alles wat ze eerder hebben gezien en opgeslagen. 'Ze veranderen, afhankelijk van de data die je ze voert, van een initiële generalistische staat naar een gespecialiseerde staat. Ze spitsen zich toe en worden experts op één bepaald gebied,' vertelt Guo.

Nieuwe regels

'Voor mijn doctorale onderzoek heb ik drie dingen gedaan,' aldus Guo. 'Het eerste en het meest fundamentele, is het definiëren van nieuwe regels voor het ontwikkelen van de diepe kenmerken - traditionele methodes, toegepast met nieuwe spelregels. Het tweede is het creëren van een hiërarchie van specificiteit. Bijvoorbeeld van 'dier' naar 'hond' naar 'golden retriever' om zo het begrip van de hele afbeelding te steunen en bevorderen. Als laatste heb ik cross-modal synthesis gebruikt om de data in de computer te veranderen in iets dat we kunnen begrijpen: woorden en zinnen, met grammatica en syntax.'

De sprekende computer

Met behulp van deep learning brengt Guo visuele herkenning en de mensenlijke taal samen door de computer Engels te leren praten. De computer herkent de vorm als 'hond', definieerd de achtergrond als 'gras', en ziet wat de hond in zijn bek heeft als 'frisbee'. Nu moet de computer dit ons nog zo helder mogelijk vertellen. Dankzij het werk van Yanming Guo kan een computer nu de combinatie van 'hond, gras, frisbee' beschrijven als 'een hond staat in het gras met een frisbee'. Duidelijk bewijs dat de computer veel meer doet dan raden naar vormen en kleuren.

Geen bescheiden bijdrage

Guo heeft algoritmen geschreven om de diepe kenmerken te ontwikkelen, om hiërarchieën te bouwen, en om de informatie naar complex taalgebruik om te zetten. Zijn these lijkt een uitzondering te zijn op het idee dat elke publicatie één enkel steentje is in een muur, een enkelvoudige bijdrage aan iets veel groters; in plaats van een paar kleine conclusies in het enorme bouwwerk van zijn veld heeft Guo een breed scala aan taken aangenomen, en heeft hij in elke taak verbeteringen en innovaties aangebracht.

Computers zijn al decennia beter in hoofdrekenen dan mensen; inmiddels verslaan ze ons met schaken, met het spel Go, en misschien kunnen ze zelfs beter autorijden dan wij. 'Neurale netwerken zijn nu zelfs beter dan wij in het herkennen van onze gezichten,' voegt Guo toe.

Yanming Guo verdedigde zijn these op donderdag 5 oktober 2017.