Bild: KI Midjourney | Collage c’t

Trupp der Kopiloten

Wie das neue multimodale ChatGPT bei der Arbeit mit Texten, Bildern und Sprache hilft

ChatGPT kann neuerdings auch Dokumente und Bilder analysieren, gesprochene Anfragen verstehen und mit Sprache, Text und Bildern antworten. Dazu schlüpfen GPTs in die Rolle von spezialisierten Assistenten. Wir fühlen den neuen Funktionen auf den Zahn und zeigen, wo die generative KI hilft und wo sie aufs Glatteis führt.

Von Hartmut Gieselmann

Seit ChatGPT vor gut einem Jahr auf den Markt kam, hat sich viel getan. Die meisten Neuerungen verbergen sich hinter der Bezahlschranke. Wer rund 23 Euro im Monat für ChatGPT Plus bezahlt, erhält Zugang zum Modell GPT-4V (das V steht für Vision). Dieses versteht nicht nur Textchats, sondern auch gesprochene Fragen und analysiert PDF-Dokumente sowie Bilder. ChatGPT antwortet mit gesprochener Sprache, Text, mit generierten PDF-Dokumenten oder Bildern.

Um die multimodalen Fähigkeiten auf einen bestimmten Zweck hin zu trimmen, ist es seit Kurzem auch möglich, eigene GPTs zu erstellen. Dabei handelt es sich um GPT-4-Abkömmlinge mit zusätzlichen Instruktionen. Sie ergänzen das bisherige Plug-in-Konzept, indem sie feste Rollen übernehmen und zusätzliche Dokumente für ihre Antworten auswerten. OpenAI hat die Trainingsdaten inzwischen auf den Stand von April 2023 gebracht. Für aktuellere Informationen durchsucht ChatGPT das Web mit Bing und fasst die Ergebnisse mit Verweisen zusammen.