c't 2/2016
S. 29
News
Forschung

Microsoft: Durchbruch in der Bilderkennung

Im „Project Oxford“ stellt Microsoft seine Lern-Algorithmen für Anwendungsentwickler zur Verfügung. Die extrem tiefen neuronalen Netze sollen die Tools zum Erkennen von Objekten und Sprache verbessern.

Seit Google im Jahr 2012 mit seinem Deep Convolutional Neural Network (Deep CNN) die Bilderkennung revolutionierte, gelten diese speziellen neuronalen Netze als State of the Art – auch in verwandten Disziplinen wie etwa der Spracherkennung. Jetzt läutet Microsoft mit einem extrem tiefen, über hundert Schichten fassenden Konstrukt die nächste Ära ein. Das experimentell entwickelte Netz, das auch in Microsofts „Project Oxford“ einfließen soll, bestätigt eine schon vor Jahren von KI-Forschern geäußerte Theorie: Viel hilft viel.

Auch Googles Erfolg mit den bereits in den 1980er-Jahren entwickelten neuronalen Netzen gründete auf Massen an Ressourcen: der endlich verfügbaren riesigen Menge an Trainingsdaten, Rechenleistung und effizienter Verarbeitung. Große Hoffnung setzen die Forscher seitdem auf extrem tiefe Netze, die sich aber als schwer trainierbar erwiesen, weil die Ergebnisse ab einer gewissen Tiefe immer ungenauer wurden. Vor drei Jahren war man noch stolz darauf, erfolgreich ein System mit acht verdeckten Schichten (Hidden Layers) trainieren zu können, Anfang dieses Jahres feierte man 20 bis 30 Schichten als Fortschritt.

Bei den diesjährigen Bilderkennungs-Wettbewerben ImageNet und MS COCO verwies Microsoft Research Asia (MSRA) die Konkurrenz auf die Plätze. Mit ihrem 152 Schichten fassenden Deep CNN sicherte sich die Forschergruppe um Jian Sun in drei ImageNet-Disziplinen den ersten Platz. In der Objekterkennung erzielte MSRA eine mittlere Präzision von 0,62, während Qualcomm Research als Zweitplatzierter nur 0,53 erreichte – Details siehe c’t-Link am Ende des Artikels.

Ein Deep CNN folgt vom Modell her der menschlichen Wahrnehmung: Jede Schicht besteht aus mathematischen Funktionen (Neuronen), die in der Trainingsphase anhand Tausender zuvor klassifizierter Bilder lernen, ihre Parameter so zu justieren, dass sie die Essenz jedes Objekts herausfiltern. Zum Beispiel können sie einen Menschen unabhängig von Haar- und Hautfarbe, Größe, Gewicht, Kleidung und Drehwinkel erkennen. In den ersten Schichten entstehen einfache Filter, die etwa typische Kantenmuster oder Texturen herausarbeiten. In den höheren Schichten kombiniert das Netz sie dann nach und nach zu komplexeren Gebilden.

Die Microsoft-Forscher haben die höheren Schichten anders aufgebaut als die niedrigeren und geeignetere mathematische Funktionen (Residualfunktionen) gefunden. Dadurch fließen die Informationen auch durch Überspringen von Schichten offensichtlich so durch das Netz, dass ein effektiveres Training möglich ist. Nach Angaben der Forscher verbessert sich die Erkennungsleistung des als „Deep Residual Network“ bezeichneten Systems sogar dann, wenn es zuvor für eine andere Aufgabe trainiert wurde. Möglicherweise haben die Forscher damit einen Ansatz entdeckt, um eine Art Erfahrungswissen zu modellieren. (atr@ct.de)

Sie wollen wissen, wie es weitergeht?

EU-Förderpreis für automatisierte Programmsynthese

Professor Bernd Finkbeiner von der Forschungsgruppe Reaktive Systeme der Universität des Saarlandes erhält einen „Consolidator Grant“ des Europäischen Forschungsrates (European Research Council, ERC). Der Förderpreis der Europäischen Union ist mit zwei Millionen Euro dotiert und wird Finkbeiner für Arbeiten auf dem Gebiet der automatisierten Programmsynthese verliehen. Der Informatiker arbeitet an Methoden, mit denen sich Software erzeugen lässt, ohne dass ein menschlicher Entwickler Programmcode schreiben muss.

Die auf diese Weise generierten Computerprogramme sollen garantiert fehlerfrei sein, was insbesondere für sicherheitskritische Software wichtig ist, etwa um autonome Fahrzeuge zu steuern. Entwickler könnten dadurch schon in einem sehr frühen Stadium erkennen, ob eine Systemarchitektur oder eine Kombination unterschiedlicher Anforderungen die Sicherheit des Gesamtsystems gefährdet, verdeutlicht der Informatik-Professor. Teure Fehlentwicklungen ließen sich dadurch vermeiden.

Die System- und Programmbedingungen werden dafür in einer mathematischen Spezifikationssprache formuliert. Die automatisierte Synthese sorgt dafür, dass der Programmcode allen Anforderungen genügt und reglementiert auch noch offene Details. Entwickelt werden die Methoden im Rahmen des Forschungsprojekts OSARES (Output-Sensitive Algorithms for Reactive Synthesis). Die zwei Millionen Euro will Finkbeiner in neue Stellen für Doktoranden und promovierte Wissenschaftler investieren. (pmz@ct.de)