Bild: KI Midjourney | Collage c’t

Klein, aber fein

Weniger Parameter, solide Leistung: Wie kompakte Sprachmodelle die Giganten herausfordern

Eine Zeitlang kannte die Parameterzahl großer Sprachmodelle nur eine Richtung: steil nach oben. Mehr Parameter bedingen mehr und hochwertigere Fähigkeiten, so die Überzeugung. Doch 2023 schlug die Stunde der mittelgroßen Sprach-KIs: Sie sind genügsam – und erstaunlich konkurrenzfähig.

Von René Peinl

Mehr Parameter bedeuten für große Sprachmodelle mehr Anwendungsbereiche, mehr Aufmerksamkeit und damit mehr Investorengeld. Dieses wiederum finanziert verlässlich mehr Rechenkapazität – womit sich die Parameterzahl noch weiter hochschrauben lässt. Die Spirale könnte sich ewig so weiterdrehen, wären da nicht die begrenzten Ressourcen (Technik und KI-Experten), der Vorwurf der Energieverschwendung und die enormen Kosten, die selbst investorengeldverwöhnten Start-ups wie OpenAI und finanzstarken Tech-Giganten wie Google, Facebook oder Amazon auf Dauer zu schaffen machen.

Und tatsächlich: Bereits jetzt, ein Jahr nach ChatGPT, scheint der Trend wegzugehen von aufgeblähten Large Language Models (LLMs) mit über 150 Milliarden Parametern, hin zu mittelgroßen mit deutlich unter hundert Milliarden. Diese sind nicht nur vergleichsweise effizient, sondern auch überraschend gut. In mancher Disziplin rücken sie erstaunlich nahe an GPT-4 mit seinen kolportierten 1,8 Billionen Parametern heran. Damit tut sich ein riesiges Potenzial auf – auch für kleinere und mittelgroße Unternehmen, die mit eigenen Anwendungen liebäugeln. Wir erklären, was die schlanken Verwandten der Giganten können, was sie so effizient macht und wie die Zukunft der Sprachmodelllandschaft aussehen könnte.