c't 11/2023
S. 38
Aktuell
Bildsegementierung mit KI

Verständnisvoller Bildzerleger

Fundamentaler Fortschritt: KI-Objektfreisteller von Meta

Die KI „Segment Anything“ von Meta AI erfasst bei einem Bild sofort, welches die einzelnen Objekte sind, und zerlegt es in Sekundenschnelle. Das klappt sogar, wenn die Vorlage unbekannte Gegenstände enthält. Den Meta-Forschern könnte damit ein Grundlagenmodell ähnlich denen für die Bild- und Textgenerierung gelungen sein.

Von Andrea Trinkwalder

Die KI-Forschungsabteilung von Meta hat einen Bildsegmentierer auf Basis der Transformer-Architektur trainiert, der Objekte in Fotos sekundenschnell erfasst sowie flächendeckend maskiert und isoliert. Fotografen und Bildbearbeiter nennen das Freistellen. Im Gegensatz zu den meisten anderen Transformern wie GPT und PaLM (Text zu Text) oder Dall-E (Text zu Bild) wurde das Segment Anything Model (SAM) ausschließlich mit Bildern trainiert. Da es trotzdem eine Art generelles Objektverständnis entwickelt zu haben scheint, könnte es ein bedeutendes Grundlagenmodell für die Bildverarbeitung sein.

Denn anders als gängige maschinell trainierte Segmentierer soll SAM das sogenannte One-Shot-Learning beherrschen: Es isoliert auch unbekannte Objekte korrekt, die es nicht während des Trainings „auswendig“ gelernt hat, und kann somit recht flexibel Eingaben unterschiedlichster Art bearbeiten. Damit könnte Segment Anything ähnlich universelle Fähigkeiten entwickeln wie die ebenfalls auf Transformer-Architekturen beruhenden Text- und Bildgeneratoren – oder diese perfekt ergänzen, um noch höherklassige KIs zu konstruieren.

Objektverständnis: Das Segment Anything Model (SAM) von Meta zerlegt Bilder in ihre Bestandteile. Die KI umrahmt und färbt dabei auch Objekte, die sie während des Trainings nicht kennengelernt hat (links, rechts das Original).
Objektverständnis: Das Segment Anything Model (SAM) von Meta zerlegt Bilder in ihre Bestandteile. Die KI umrahmt und färbt dabei auch Objekte, die sie während des Trainings nicht kennengelernt hat (links, rechts das Original).

​Objekte von ihrem Hintergrund zu trennen, ist eine zentrale Aufgabe in der Bild- und Videobearbeitung, aber auch in VR- und AR-Anwendungen. In Kombination mit einem Sprachmodell könnte SAM Objekte sogar durch Spracheingaben maskieren oder ausschneiden und in andere Szenen übertragen. In einem Beispiel zeigt Meta, wie SAM durch eine VR-Brille betrachtete Objekte in Echtzeit einfärbt und korrekt benennt.

Flexibel, intuitiv – und kostenlos

​Das funktioniert, weil sich das Modell mit sehr wenigen Eingabeinformationen begnügt, was man auf der Demo-Projektseite selbst nachvollziehen kann: Oft reicht ein einziger Klick – also technisch ein Sample von wenigen Pixeln – auf Tiere, Menschen, Vegetation, Häuser, Möbel oder beliebige andere Motivteile, und SAM erschließt sich die restlichen zugehörigen Pixel selbstständig.

Eine entscheidende Idee von Segment Anything ist, ein einzelnes Pixel als sogenannten „Prompt“ zu verwenden, und alle anderen Pixel mit diesem Kontext neu zu bewerten. Auch andere Prompts sind möglich, etwa mehrere Klicks auf unterschiedliche Bereiche oder Rahmen um größere Motivteile. Außerdem gibt es einen automatischen Modus, der sämtliche Bestandteile des Motivs voneinander abgrenzt und in verschiedenen Farben tönt. Textbefehle unterstützt die Demo noch nicht. SAM wurde so trainiert, dass es für jede Eingabe eine gültige Maske erzeugt. Durch Klicken auf charakteristische Punkte kann der Benutzer das Ergebnis interaktiv verfeinern, um Bereiche hinzuzufügen oder auszuschließen.

​Die Wissenschaftler haben den Quellcode als Open Source auf GitHub veröffentlicht. Für Forschungszwecke stellt Meta auch das Trainingsmaterial zur freien Verfügung, einen Fundus von 11 Millionen Bildern mit 1,1 Milliarden Masken inklusive Labels.

Diskriminierung ade?

​Nicht nur die vergleichsweise einfache Netzarchitektur, sondern auch der Trainingsdatensatz und die Art und Weise, wie Meta das System angelernt hat, sind bemerkenswert: Der Datensatz enthält 400-mal mehr Masken als das bisher größte verfügbare Korpus. Es soll sich dabei um sehr hochwertige Daten zu den unterschiedlichsten Themen und Objekten handeln. Die Bilder stammen nicht nur aus Industrieländern, sondern sollen die Lebenswirklichkeit über alle Kontinente hinweg abbilden.

​Damit versuchen die Meta-Forscher bereits im Ansatz, statistischen Bias aufgrund von Verzerrungen in den Trainingsdaten zu vermeiden. Denn in vielen gängigen Trainingsdatensammlungen sind bestimmte Personengruppen oder auch Landstriche unterrepräsentiert. Weil sich solche Verzerrungen manchmal nur schwer bis gar nicht eliminieren lassen, gibt es immer wieder Probleme mit KIs, die sich auf diese erstbesten, sehr dominierenden Muster stürzen. Aufgrund dessen agieren die Systeme dann vermeintlich diskriminierend: zum Beispiel eine Gesichtserkennung, die dunkelhäutige Menschen nicht voneinander unterscheiden kann.

SAM ist ein Transformer-Netz, das unterschiedliche Prompts in Form von Textanweisungen oder markierten Pixeln interpretiert und dazu passende Masken berechnet., Bild: Meta AI
SAM ist ein Transformer-Netz, das unterschiedliche Prompts in Form von Textanweisungen oder markierten Pixeln interpretiert und dazu passende Masken berechnet.
Bild: Meta AI

​SAM besteht aus je einem Encoder für Bild und Prompt sowie einem Decoder, der die Maske generiert. Die beiden ersten kodieren das Motiv sowie die Eingabe des Nutzers (etwa die Textanweisung „Segmentiere alle Personen inklusive der Gegenstände, die sie tragen“) in einen hochdimensionalen Merkmalsraum (Latent Space). Der Maskendecoder nimmt beide als Eingabe entgegen und errechnet auf dieser Grundlage die wahrscheinlichsten Segmentierungen: also konkret, welche Pixel im Bild vermutlich zu den gewünschten Objekten gehören.​

Schlau trainiert

​Nach einem ähnlichen Prinzip funktionieren auch Prompt-zu-Bild-Transformer oder die Text-aus-Prompt-Generatoren, deren wohl prominentester Vertreter ChatGPT sich derzeit als Alleinunterhalter verdingt. Geeignetes Trainingsmaterial dafür war allerdings vergleichsweise leicht zu beschaffen, weil es täglich en masse im Internet publiziert wird: beschriftete Bilder sowie Texte jedweder Art. Bilder mit hochwertigen Masken gibt es hingegen kaum, weshalb die Meta-Forscher sich eine mehrstufige Strategie ausdachten: Auf eine Trainingsphase mit weitgehend frei und händisch produzierten Masken folgte eine halbautomatische, in der die Annotatoren bereits maskierte Fotos nachbessern sollten, um die Vielfalt an möglichen Ergebnissen zu erhöhen. In der letzten Stufe schließlich trainierte sich SAM selbst. Es justierte seine Parameter anhand zahlloser Bild-Masken-Paare auf maximale Präzision.

​Damit gesellt sich also zu den KI-Malern und -Dichtern ein drittes universelles Grundlagenmodell, das oberflächlich betrachtet zwar weniger spektakuläre Ergebnisse bringt, es aber ziemlich in sich hat. Zumal Meta mit DINOv2 kurz vor Redaktionsschluss gleich die nächste Errungenschaft nachschob: einen Segmentierer, der selbstüberwacht ohne annotierte Trainingsdaten lernt.

Bildschnipsel statt Sätze

Dafür hat Meta zunächst 1,2 Milliarden Bilder zusammengetragen und mit unterschiedlichen Analyse- und Filtermethoden auf eine ausgewogene Sammlung von 142 Millionen Exemplaren eingedampft. Mit ihrer maschinell kuratierten Auslese trainierten die Meta-Forscher anschließend verschiedene Vision-Transformer-Netze (ViT), wie sie auch in SAM zum Einsatz kommen.

ViT entstanden, als KI-Forscher nach dem großen Erfolg von Transformern bei Sprachdaten versuchten, das Konzept auf Bilddaten zu übertragen. Sie schnitten das Bild dafür einfach in kleine Quadrate, beispielsweise mit 16 × 16 Pixeln, ergänzten jedes um eine Information, wo im Bild es ursprünglich zu finden war (position encoding), und benutzten es wie ein Wort in einem Satz. Man würde erwarten, dass es einer KI schwerer fällt, sich einen Reim auf ein so zerpuzzeltes Bild zu machen. Die Hoffnung war aber, dass der Aufmerksamkeitsmechanismus von Transformern auch bei Bilddaten hilfreich wäre, um die Bildinformation besser zu abstrahieren. Bisherige ViT lieferten noch ähnliche Ergebnisse wie Convolutional Networks; SAM und DINOv2 zeigen nun einen deutlichen Fortschritt.

Wie die Forscher in ihrem Aufsatz zu DINOv2 demonstrieren, scheint die KI das Gelernte tatsächlich zu einem gewissen Grad zu verallgemeinern und auf andere Objekte übertragen zu können: etwa dass Flugzeuge aus ähnlichen Teilen wie Vögel „konstruiert“ sind und Autoräder auch zu Lastern und Bussen gehören.

DINOv2 benötigt keine händisch kuratierten Trainingsdaten mehr: Es hat im selbstüberwachten Training gelernt, Objekte mitsamt ihren wesentlichen Bestandteilen zu lokalisieren. Die ähnlich gefärbten Bereiche in unterschiedlichen Bildern einer Spalte deuten darauf hin, dass der Segmentierer auch Transferleistungen erbringt, also Köpfe, Flügel, Beine und Räder als ähnliche Konzepte interpretiert., Quelle: Meta AI
DINOv2 benötigt keine händisch kuratierten Trainingsdaten mehr: Es hat im selbstüberwachten Training gelernt, Objekte mitsamt ihren wesentlichen Bestandteilen zu lokalisieren. Die ähnlich gefärbten Bereiche in unterschiedlichen Bildern einer Spalte deuten darauf hin, dass der Segmentierer auch Transferleistungen erbringt, also Köpfe, Flügel, Beine und Räder als ähnliche Konzepte interpretiert.
Quelle: Meta AI

Bahnbrechende KI-Entwicklungen kamen während des letzten Jahres vor allem von den großen Sprachmodellen; auch die beeindruckenden Bildgeneratoren wie Dall-E und Midjourney stützen sich auf die Interpretation von kurzen, aber oft unzulänglichen Beschreibungstexten. Jetzt melden sich die Bildmodellierer und -versteher mit Wucht zurück. Mehr und mehr Transformer-Architekturen arbeiten direkt mit den Pixeln. Sie könnten ein wesentlich fundierteres Verständnis von Objekten und Szenen erlangen als die bisher gebräuchlichen Methoden. (atr@ct.de)

Kommentieren