KI-Modell Genie macht aus einem Prompt oder Foto ein Videospiel

Die Trainingsdaten des KI-Modells bestehen aus 30.000 Stunden Videomaterial von 2D-Spielen. Bisher sind die generierten Spiele aber nicht besonders schnell.

3

(Bild: Google DeepMind)

06.03.2024, 07:00 Uhr

Lesezeit: 5 Min.

MIT Technology Review

Von

Will Douglas Heaven

Als OpenAI vor kurzem sein beeindruckendes generatives Modell "Sora" vorstellte, wurden die Grenzen dessen, was mit Text-zu-Video möglich ist, sehr weit gesteckt. Der nächste Entwicklungssprung in Sachen Künstliche Intelligenz (KI) ließ nicht lange auf sich warten: Jetzt bringt uns Google DeepMind Text-zu-Videospiele. Dieses neue Modell mit dem Namen Genie kann aus einer kurzen Beschreibung, einer handgezeichneten Skizze oder einem Foto ein spielbares Videospiel im Stil klassischer 2D-Platformer wie Super Mario Bros. machen.

Bisher sind die Spiele noch nicht besonders schnell. Sie laufen mit einem Bild pro Sekunde, im Gegensatz zu den typischen 30 bis 60 Bildern pro Sekunde der meisten modernen Spiele. Trotzdem "ist das eine tolle Arbeit", sagt Matthew Guzdial, KI-Forscher an der University of Alberta, der vor einigen Jahren einen ähnlichen Spielgenerator entwickelt hat. Dieser lernte anhand von Videos, abstrakte Plattformspiele zu erstellen. Auch Nvidia verwendete Videodaten, um ein Modell namens GameGAN zu trainieren, das Klone von Spielen wie Pac-Man erstellen konnte.

Bei all diesen Beispielen wurde das Modell jedoch nicht nur mit Videomaterial, sondern auch mit Eingabeaktionen wie Tastendruck auf einem Controller trainiert: Dabei wird etwa ein Videobild, das Mario beim Springen zeigt, mit einer "Springaktion" gepaart. Dieses Markieren von Videomaterial mit Eingabeaktionen ist allerdings sehr arbeitsaufwendig, wodurch die Menge der verfügbaren Trainingsdaten begrenzt ist, weil sie nicht vormarkiert sind.

30.000 Stunden aus 2D-Plattformspielen

Im Gegensatz dazu wurde Genie nur mit Videomaterial trainiert (das entsprechende Paper wurde bei arXiv veröffentlicht und durchlief noch kein Peer Review) und zwar mit 30.000 Stunden aus Hunderten von 2D-Plattformspielen aus dem Internet. Anschließend lernte es, welche von acht möglichen Aktionen dazu führen, dass die Spielfigur in einem Video ihre Position ändert. Auf diese Weise wurden unzählige Stunden vorhandener Online-Videos zu potenziellen Trainingsdaten.

Genie generiert jedes neue Bild des Spiels in Abhängigkeit von der Aktion, die der Spieler ausführt. Wenn der Spieler auf "Springen" klickt, aktualisiert Genie das aktuelle Bild so, dass die Spielfigur springt; wenn er auf "Links" klickt, ändert sich das Bild so, dass die Spielfigur sich nach links bewegt. Das Spiel läuft Aktion für Aktion ab, wobei jedes neue Bild von Grund auf neu generiert wird, während der Spieler spielt.

Künftige Versionen von Genie könnten schneller laufen. "Es gibt keine grundsätzliche Beschränkung, die uns daran hindert, 30 Bilder pro Sekunde zu erreichen", sagt Tim Rocktäschel, Forscher bei Google DeepMind und Leiter des Entwicklerteams. "Genie verwendet viele der gleichen Technologien wie aktuelle große Sprachmodelle, bei denen es erhebliche Fortschritte bei der Verbesserung der Inferenzgeschwindigkeit gegeben hat."

Genie hat sogar einige häufige visuelle Eigenheiten erlernt und kopiert, die in Jump'n'Run-Spielen zu finden sind. Viele Spiele dieser Art verwenden sogenannte Parallaxen, bei denen sich der Vordergrund schneller zur Seite bewegt als der Hintergrund. Auch Genie fügte diesen Effekt häufig in die von ihm erstellten Spiele ein.

Obwohl das Modell ein internes Forschungsprojekt ist und nicht veröffentlicht wird, soll laut Guzdial das Google DeepMind-Team gesagt haben, dass es eines Tages in ein Tool zur Spieleerstellung umgewandelt werden könnte. Daran arbeitet auch er selbst. "Ich bin auf jeden Fall gespannt, was sie entwickeln", sagt er.

Virtuelle Spielplätze

Die Forscher von Google DeepMind sind aber nicht nur an der Spieleentwicklung interessiert. Das Genie-Team arbeitet auch am offenen Lernen, bei dem KI-gesteuerte Bots in einer virtuellen Umgebung abgesetzt werden und verschiedene Aufgaben durch Versuch und Irrtum lösen müssen (eine Technik, die als Verstärkungslernen bekannt ist).

2021 entwickelte ein anderes DeepMind-Team einen virtuellen Spielplatz namens XLand, auf dem Bots bei einfachen Aufgaben wie dem Überwinden von Hindernissen zu kooperieren lernten. Testumgebungen wie XLand werden entscheidend sein, um künftige Bots für Herausforderungen zu trainieren, bevor sie in realen Szenarien eingesetzt werden. Die Beispiele aus den Videospielen zeigen, dass Genie für die Erstellung solcher virtuellen Spielplätze verwendet werden kann.

Andere Forscher haben ähnliche World-building-Werkzeuge entwickelt. So haben David Ha von Google Brain und Jürgen Schmidhuber vom KI-Labor IDSIA in der Schweiz 2018 ein Tool entwickelt, mit dem Bots in spielbasierten virtuellen Umgebungen, sogenannten Weltmodellen, trainiert werden können. Im Gegensatz zu Genie mussten die Trainingsdaten jedoch auch hier Eingabeaktionen enthalten.

Das Team demonstrierte, wie nützlich diese Fähigkeit auch in der Robotik ist. Als Genie Videos von echten Roboterarmen gezeigt wurden, die eine Vielzahl von Haushaltsgegenständen manipulierten, lernte das Modell, welche Aktionen dieser Arm ausführen konnte und wie er zu steuern war. Künftige Roboter könnten neue Aufgaben lernen, indem sie sich Videotutorials ansehen.

"Es ist schwer vorherzusagen, welche Anwendungsfälle möglich sein werden", sagt Rocktäschel. "Wir hoffen, dass Projekte wie Genie den Menschen neue Werkzeuge an die Hand geben werden, mit denen sie ihre Kreativität ausleben können."