c't 9/2022
S. 64
Titel
GPT-3: Innere Mechanik
Bild: Albert Hulm

Sprachversteher

GPT-3 & Co. texten überzeugend, aber nicht faktentreu

Tiefe neuronale Sprachmodelle wie GPT-3 schreiben ansprechende Texte, garnieren sie aber oft mit erfundenen Fakten. Jüngste Modelle überprüfen ihre Inhalte selbst und könnten so schon bald Hausaufgaben oder News generieren. Ein Einblick in die Entwicklung.

Von Dirk Hecker und Gerhard Paaß

Open AI hat im Mai 2020 das Sprachmodell GPT-3 vorgestellt. Mit 175 Milliarden Parametern war es das größte neuronale Netz zu dem Zeitpunkt, trainiert mit immensen Mengen an Wikipedia-Einträgen, Webveröffentlichungen und Buchtexten. Die Anwendungsmöglichkeiten des Generative Pretrained Transformer (GPT) sind wahrscheinlich noch gar nicht vollständig erfasst: Er generiert überzeugende Texte in unterschiedlichen Schreibstilen und Themengebieten, beantwortet Fragen, erzeugt Programmcode, übersetzt zwischen Sprachen und vieles mehr. Die Technik dahinter (siehe Kasten: Die innere Mechanik von GPT-3) markiert einen Wendepunkt in der automatischen Verarbeitung von natürlicher Sprache.

Seitdem sind KI-Forscher und Investoren wie elektrisiert von automatischen Textgeneratoren, die von ihrer breiten Trainingsdatengrundlage abstrahieren und aufgabenorientiert sinnvolle Inhalte verfassen. Nach OpenAI, das als Non-Profit-Forschungsunternehmen mit Milliardeninvestitionen unter anderem von Microsoft und Elon Musk startete, haben inzwischen auch andere Entwickler große Sprachmodelle vorgestellt. DeepMind setzt mit Gopher auf eine ähnliche Architektur wie GPT-3, das zugrunde liegende neuronale Netz umfasst sogar 280 Milliarden Parameter. Megatron-Turing NLG von Microsoft hat stolze 530 Milliarden Parameter (konnte aber im Vergleich zu Gopher bisher keine bessere Leistung erzielen). Wu Dao 2.0 aus Peking ist mit 1750 Milliarden Parametern zehnmal so groß wie GPT-3 und ist in der Lage, gleichzeitig Texte und Bilder zu verarbeiten. Über seine Details und Leistungsdaten ist jedoch nur wenig bekannt.

Kommentieren