40 Freiwillige und ein Start-up bringen GPT-4 richtiges Isländisch bei

KI-Sprachmodelle funktionieren nicht mit allen Sprachen gleich gut. Um technisch nicht abgehängt zu werden, kooperiert eine Firma aus Island direkt mit OpenAI.

30

Ein Roboter in isländischen Farben.

(Bild: Erstellt mit Midjourney durch MIT Technology Review)

12.05.2023, 06:18 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Eike Kühl

Large Language Models wie OpenAIs GPT-4 oder Googles LaMDA mögen inhaltlich nicht immer korrekt liegen. Sprachlich und grammatikalisch aber sind die Ergebnisse nahezu fehlerfrei, zumindest wenn man sie auf Englisch, Deutsch oder Spanisch nutzt. Bei weniger verbreiteten Sprachen wie Isländisch geraten die Modelle dagegen schnell an ihre Grenzen. Das isländische Unternehmen Miðeind will das ändern – und nebenbei die Sprachkultur des Inselstaates bewahren.

"Die isländische Sprache hat eigentlich einen festen Stand", sagt Linda Heimisdóttir, COO von Miðeind. "Sie wird im Alltag und in der Schule verwendet, sie wird von Generation zu Generation weitergegeben und sie schaut auf ein reiches literarisches Erbe." Doch in der digitalen Welt laufe die Sprache Gefahr, den Anschluss zu verlieren. Sprachassistenten wie Siri und Amazons Alexa etwa unterstützen immer noch kein Isländisch, Software und Onlinetools sind häufig nicht lokalisiert, und auch die KI-Sprachmodelle, die derzeit viele Branchen aufmischen, haben so ihre Probleme mit der durchaus speziellen Sprache: GPT-4 kann Texteingaben auf Isländisch zwar recht gut verstehen, doch der Output ist grammatikalisch häufig falsch.

Wenig Trainingsdaten auf Isländisch

Die Erklärung ist einfach: Die Sprachmodelle werden mit Milliarden von öffentlich zugänglichen Texten trainiert. Je mehr Sprecherinnen und Sprecher eine Sprache hat, desto mehr Texte sind in dieser Sprache gewöhnlich verfügbar. In das Training von Facebooks Modell LLaMA flossen insgesamt 4,7 Terabyte an Text. Nur 20 Gigabyte davon, weniger als 0,5 Prozent, waren auf Isländisch. Bei gerade einmal 370.000 isländischen Muttersprachlern weltweit ist das wenig überraschend.

"Es gibt einfach nicht genug Daten in Isländisch, um ein eigenes Sprachmodell zu erstellen", sagt Heimisdóttir. Das gleiche Problem haben auch andere Sprachen mit nur vergleichsweise wenigen Sprechenden. Um das zu ändern, hat Miðeind, unterstützt von der isländischen Regierung, eine Kooperation mit OpenAI gestartet. GPT-4 und seine Nachfolger sollen für Isländisch fit gemacht werden, sodass künftig isländische Unternehmen und Bürger auch in ihrer Muttersprache von der Entwicklung profitieren können und nicht zwangsweise auf Englisch ausweichen müssen. Miðeind selbst entwickelt den isländischen Sprachassistenten Embla, der mithilfe von GPT-4 flexibler werden könnte.

Menschliches Feedback bringt GPT-4 Isländisch bei

In einem ersten Schritt hat Miðeind 40 Freiwillige beschäftigt, um GPT-4 "die richtige isländische Grammatik und kulturelle Kenntnisse" beizubringen. Das Verfahren nennt sich "Reinforcement Learning from Human Feedback" (RLHF) und es wird sowohl von OpenAI als auch anderen Entwicklern von großen Sprachmodellen angewandt, um die Algorithmen mithilfe von menschlichem Feedback in bestimmten Aspekten zu tunen. Die menschlichen Trainer füttern dazu die Algorithmen mit Input, bekommen verschiedene Antworten generiert und wählen die ihrer Ansicht nach beste aus, wodurch das Modell robuster wird.

"Es ist bemerkenswert, wie gut GPT-4 Isländisch im Vergleich zum Vorgänger versteht", sagt Linda Heimisdóttir. Allerdings habe das Modell immer noch Probleme, grammatikalisch korrekte Ausgaben zu erzeugen. "Das liegt wahrscheinlich daran, dass bereits in den ursprünglichen Trainingsdaten minderwertige, maschinell übersetzte Daten zu finden sind." GPT-4 habe dadurch Muster gelernt, die man auch durch nachträgliches menschliches Tuning nicht mehr komplett herausbekommt. Bei Miðeind wünscht man sich, dass OpenAI für die kommenden GPT-Versionen bereits bereinigte isländische Daten in die Pre-Trainings-Phase aufnimmt.

Das Team des 2015 gegründeten Unternehmens glaubt, dass die Kooperation mit OpenAI gewonnenen Erkenntnisse langfristig auch anderen Sprachen zugutekommen könnten. "Wir sehen gute Ergebnisse beim sogenannten Transferlernen, bei dem die Modelle in der Lage sind, ihre Englischkenntnisse zu extrapolieren und damit trotz geringer Datenlage erstaunliche Fähigkeiten in anderen Sprachen erlangen", sagt Heimisdóttir. In Zukunft könnte es vielleicht Sprachmodelle geben, die gezielt auf dieses Transferlernen optimiert sind. Die großen Sprachmodelle könnten dann auch mit den kleinen Sprachen gut funktionieren.