Microsoft: Durchbruch in der Bilderkennung

Im „Project Oxford“ stellt Microsoft seine Lern-Algorithmen für Anwendungsentwickler zur Verfügung. Die extrem tiefen neuronalen Netze sollen die Tools zum Erkennen von Objekten und Sprache verbessern.

Seit Google im Jahr 2012 mit seinem Deep Convolutional Neural Network (Deep CNN) die Bilderkennung revolutionierte, gelten diese speziellen neuronalen Netze als State of the Art – auch in verwandten Disziplinen wie etwa der Spracherkennung. Jetzt läutet Microsoft mit einem extrem tiefen, über hundert Schichten fassenden Konstrukt die nächste Ära ein. Das experimentell entwickelte Netz, das auch in Microsofts „Project Oxford“ einfließen soll, bestätigt eine schon vor Jahren von KI-Forschern geäußerte Theorie: Viel hilft viel.

Auch Googles Erfolg mit den bereits in den 1980er-Jahren entwickelten neuronalen Netzen gründete auf Massen an Ressourcen: der endlich verfügbaren riesigen Menge an Trainingsdaten, Rechenleistung und effizienter Verarbeitung. Große Hoffnung setzen die Forscher seitdem auf extrem tiefe Netze, die sich aber als schwer trainierbar erwiesen, weil die Ergebnisse ab einer gewissen Tiefe immer ungenauer wurden. Vor drei Jahren war man noch stolz darauf, erfolgreich ein System mit acht verdeckten Schichten (Hidden Layers) trainieren zu können, Anfang dieses Jahres feierte man 20 bis 30 Schichten als Fortschritt.

Bei den diesjährigen Bilderkennungs-Wettbewerben ImageNet und MS COCO verwies Microsoft Research Asia (MSRA) die Konkurrenz auf die Plätze. Mit ihrem 152 Schichten fassenden Deep CNN sicherte sich die Forschergruppe um Jian Sun in drei ImageNet-Disziplinen den ersten Platz. In der Objekterkennung erzielte MSRA eine mittlere Präzision von 0,62, während Qualcomm Research als Zweitplatzierter nur 0,53 erreichte – Details siehe c’t-Link am Ende des Artikels.

Ein Deep CNN folgt vom Modell her der menschlichen Wahrnehmung: Jede Schicht besteht aus mathematischen Funktionen (Neuronen), die in der Trainingsphase anhand Tausender zuvor klassifizierter Bilder lernen, ihre Parameter so zu justieren, dass sie die Essenz jedes Objekts herausfiltern. Zum Beispiel können sie einen Menschen unabhängig von Haar- und Hautfarbe, Größe, Gewicht, Kleidung und Drehwinkel erkennen. In den ersten Schichten entstehen einfache Filter, die etwa typische Kantenmuster oder Texturen herausarbeiten. In den höheren Schichten kombiniert das Netz sie dann nach und nach zu komplexeren Gebilden.

Die Microsoft-Forscher haben die höheren Schichten anders aufgebaut als die niedrigeren und geeignetere mathematische Funktionen (Residualfunktionen) gefunden. Dadurch fließen die Informationen auch durch Überspringen von Schichten offensichtlich so durch das Netz, dass ein effektiveres Training möglich ist. Nach Angaben der Forscher verbessert sich die Erkennungsleistung des als „Deep Residual Network“ bezeichneten Systems sogar dann, wenn es zuvor für eine andere Aufgabe trainiert wurde. Möglicherweise haben die Forscher damit einen Ansatz entdeckt, um eine Art Erfahrungswissen zu modellieren. (atr@ct.de)

Publikation, ImageNet-Ergebnisse: ct.de/ydrd