Nieuw paradigma voor visuele herkenning

03 februari 2017

Informatici Yu Liu, Yanming Guo en Michael Lew van de Universiteit Leiden zijn een stap dichterbij hun ultieme doel: zoekmachines met visuele herkenning. Hun publicatie van een nieuw algoritme voor het samenvoegen van multi-scale deep learning representaties is met groot enthousiasme ontvangen. Geen ander algoritme ter wereld is op dit moment beter in het herkennen van afbeeldingen.

Het bos versus de bomen

Alle drie de onderzoekers zitten bij de Deep Learning groep van het Leiden Institute of Advanced Computer Science (LIACS). Onderzoeker Michael Lew: ‘Multi-scale deep learning representations zijn model van visuele concepten die gebaseerd zijn op zowel veel neurale lagen als op informatie met meerdere lagen. Die lagen kun je je voorstellen als de niveaus van inzoomen met een camera of het vermogen om een bos of juist losse bomen te zien.’

Beste artikel van 198

De computer scientists presenteerden hun publicatie met de titel On the Exploration of Convolutional Fusion Networks for Visual Recognition op het 23e Internationale Congres voor MultiMedia Modeling en kregen er de Best Paper Award voor. Dat was op een totaal van 198 op het congres ingezonden artikelen. Michael Lew: ‘Met ons algoritme, met de naam Convolutional Fusion Networks, ofwel CFNs, presenteren we een nieuw paradigma van zogenoemde convolutional neural networks waarbij de informatie uit eerdere lagen direct wordt gebruikt.

Netwerkomvang

Het algoritme is het meest nauwkeurige algoritme ter wereld, zoals is gebleken uit in dit vakgebied bekende CIFAR-100 test voor visuele herkenning van netwerken van gelijke grootte. 'In het huidige deep learning onderzoek is formaat een belangrijke factor. Grote netwerken worden geacht om beter te presteren maar hebben ook significant meer reken- en trainingsbronnen nodig. Omdat niet iedereen over een supercomputer beschikt, heeft elke echte situatie te maken met verschillende eisen. CFNs hebben laten zien het meest nauwkeurig te zijn voor een specifiek formaat netwerk.’

Vergelijkbare plaatjes vinden

Michael Lews algehele onderzoeksdoel is om visuele herkenning gewoon te maken voor zoekmachines als Google Images. Hij wil ons in staat stellen om op internet afbeeldingen te zoeken door alleen een vergelijkbare afbeelding in de zoekmachine in te voeren. ‘Nu werken zoekmachines met de omschrijving van afbeeldingen die in woorden zijn ingevoerd. Maar soms is het zo moeilijk om precies te omschrijven wat je zoekt. Met de hulp van de computer kan een arts zoeken naar vergelijkbare afbeeldingen in zijn database om een diagnose te ondersteunen. Of als je op zoek bent naar een roze sjaal, dan zou het prachtig zijn als je op internet een roze sjaal kunt kiezen, waarna internet jou dan sjaals kan laten zien die je nog mooier vindt of die beter betaalbaar zijn.’