Bild: KI Midjourney | Collage c‘t

Mit allen Sinnen

Multimodale KIs kombinieren Bild und Text

Kaum hat sich der Mensch an Text- und Bildgeneratoren gewöhnt, veröffentlichen OpenAI, Google, Microsoft und Meta ihre multimodalen Modelle, die beide Welten vereinen. Das ermöglicht praktischen KI-Anwendungen und sogar Robotern ein umfassenderes Verständnis der Welt.

Von René Peinl

Sprach-KIs wie ChatGPT sind nicht nur wahre Formulierungskünstler. Immer wieder überraschen sie mit ihrem Wissen und fast intellektuell wirkenden Fähigkeiten. Doch ihr Weltwissen gewannen sie lange Zeit nur aus Texten, also dem geschriebenen Wort. Fragen und Anweisungen nahmen sie lediglich in Schriftform entgegen und Antworten gaben sie ebenfalls nur als Text. Ganz anders der Mensch: Er sieht, hört, fühlt, schmeckt, spricht und interagiert mit seiner Umwelt auf vielfältige Weise. Sein Wissen über Natur, Kunst und Technik hat er sich nicht nur angelesen, sondern vieles auch mit seinen Sinnen erfahren.

Die heiße Herdplatte, auf die man versehentlich mit der Hand gefasst hat, oder das sprichwörtliche Begreifen von Bällen beim Jonglieren bleiben einem nicht nur lange im Gedächtnis. Sie sind auch der beste anschauliche Unterricht in Physik, den man sich vorstellen kann. Der Mensch verarbeitet also Signale aus diversen Quellen und kann das Ergebnis auf unterschiedliche Arten ausgeben. Die Wissenschaft bezeichnet das als Multimodalität – und genau diese Fähigkeit gilt als wichtige Weiterentwicklung der Chatbots von OpenAI, Google, Meta und Co. auf dem Weg zu einer generellen künstlichen Intelligenz.