Bild: Albert Hulm

Tauchgang ins Innere

Die Technik hinter KI-Bildgeneratoren

Die Kunstwerke von KI-Bildgeneratoren sind kreativ, inspirierend und überraschend. Um zu verstehen, wie das möglich ist, lohnt sich ein Ausflug in die mathematische Welt der Transformer, Diffusion-Models und Autoencoder.

Von Pina Merkert

Ein Maler, ein Dichter und ein Mathematiker stehen vor einem alten Röhrenfernseher ohne Antenne. Der Fernseher zeigt ein wildes Rauschbild aus schwarzen und weißen Pixeln und die drei diskutieren darüber, was auf dem Bildschirm zu sehen ist. Der Dichter behauptet ständig, Dinge aus einem seiner Gedichte zu erkennen. Der Maler widerspricht und verweist fortwährend auf die Bedeutung von Bildkomposition und Farbe und dass des Dichters Versatzstücke nicht dazu passten. Der Mathematiker schreit immer wieder dazwischen, dass die erwähnten Dinge nun mal gar nichts miteinander zu tun haben.

Diese Szene beschreibt den kreativen Prozess von KI-Bildgeneratoren. Denn die Generatoren bestehen aus mehreren neuronalen Netzen, die gegeneinander arbeiten. Besonders erfolgreich ist eine Kombination aus drei Komponenten: Ein Diffusion-Model (Maler), das keine Ahnung hat, was es darstellen soll, bringt das Wissen um Farbe und Bildkomposition mit und erzeugt Vorschläge für Bilder. Ein Transformer-Sprachmodell (Dichter) übersetzt einen Eingabesatz, „Prompt“ genannt (siehe S. 68), in einige tausend Zahlen, die zusammen den sogenannten „Embedding-Vektor“ bilden. Er soll in einer für das neuronale Netz verarbeitbaren Form darstellen, was der Satz bedeutet. Die beiden Modelle können nicht zusammenarbeiten, weshalb es noch CLIP (den Mathematiker) als Vermittler geben muss, der den Vektor aus dem Transformer liest und dem Diffusion-Model sagt, wo es das Bild ändern soll.