Bild: Andreas Martini

Heißes Eisen

Security-Checkliste KI-Sprachmodelle

Große Sprachmodelle sind allerorten, fassen Texte zusammen, geben Stichpunkte, beantworten Fragen und vieles mehr. Aber Sie sollten den Systemen weder zu sehr trauen noch ihnen zu viel anvertrauen.

Von Sylvester Tremmel

Große Sprachmodelle (Large Language Models, LLMs), wie sie zum Beispiel in ChatGPT zum Einsatz kommen, sind der Auslöser für den aktuellen KI-Hype. Oftmals wird an einer Anwendung aber nicht LLM dranstehen, wenn ein Sprachmodell drinsteckt, sondern allgemein „KI“. Wann immer eine Anwendung Texte schreibt, umschreibt oder mit Ihnen chattet, können Sie davon ausgehen, dass Sie es mit einem LLM zu tun haben.

☑ Datenschutz beachten

Das Feld der LLMs befindet sich in rasanter Entwicklung. Um mit der Konkurrenz mitzuhalten, gestatten sich viele Hersteller in den Nutzungsbedingungen, die von Ihnen eingegebenen Texte für das weitere Training ihrer Systeme zu verwenden. Prüfen Sie die Nutzungsbedingungen also genau und vertrauen Sie einem LLM im Zweifelsfall lieber keine privaten Informationen oder Geschäftsgeheimnisse an.

Das gilt auch dann, wenn Sie dem Hersteller vertrauen, denn Sie teilen die Daten nicht nur mit ihm: Einmal ins Training eingeflossen, kann es durchaus passieren, dass andere Nutzer dem LLM Ihre Daten wieder entlocken. Das ist ein grundsätzliches Problem von LLMs: Mitunter generieren sie keinen neuen Text auf Basis ihrer immensen Trainingsdatensammlung, sondern geben Schnipsel aus diesem Heuhaufen wortwörtlich wieder. Die Hersteller wissen um das Problem, haben es aber selbst nicht im Griff. Beispielsweise weist Google die eigenen Mitarbeiter an, keinen Code oder vertrauliche Informationen mit dem eigenen KI-Chatbot Bard zu teilen.

☑ Ausgaben hinterfragen

Vorsicht müssen Sie auch bei Informationen walten lassen, die aus dem System wieder herauskommen: Im Grunde versuchen LLMs, Texte sprachlich möglichst plausibel zu vervollständigen, nicht faktisch möglichst korrekt. Die Hersteller arbeiten zwar fleißig an der Faktentreue ihrer Schöpfungen, haben aber noch einen weiten Weg zu gehen: Sogenannte Halluzinationen, also falsche, haltlose Behauptungen, produzieren auch die fortgeschrittensten LLMs immer und immer wieder. Ob sie sich je komplett ausschließen lassen, ist ungewiss.

Wenn Sie sich solche Fehler nicht als eigene anrechnen lassen wollen, müssen Sie die Informationen gründlich überprüfen, durch eigene Recherche. Denn mitunter bringt man zwar LLMs durch kritische Rück- und Nachfragen dazu, das Behauptete zu korrigieren, doch das passiert beileibe nicht immer. Häufig stützen die Systeme auf Nachfrage stattdessen ihre Lüge mit sinnlosen Referenzen auf ebenso halluzinierte Quellen. Hauptsache, der Text bleibt plausibel.

☑ Systemen misstrauen

Neben solchen Unzulänglichkeiten sehen sich LLMs auch gezielten Angriffen ausgesetzt. Man forscht beispielsweise daran, ob sich LLMs „vergiften“ lassen, indem man – vom Hersteller unbemerkt – manipulierte Trainingsdaten einschleust, die ein LLM in bestimmten Situationen zu unerwünschtem Verhalten verleiten.

Nicht nur erforscht, sondern schon in der Praxis demonstriert werden indirekte Prompt Injections [1]. Dabei nutzen Angreifer aus, dass LLMs häufig externe Daten einlesen sollen, beispielsweise, um ein Paper zusammenzufassen oder eine Website zu übersetzen. Geschickte Phrasen in diesen Daten können einem Angreifer Kontrolle über das LLM verschaffen, sodass es fortan seine Anweisungen ausführt. Gerade in Kombination mit anderen Systemen erwachsen daraus enorme Risiken: Der hilfsbereite Firmen-Chatbot mutiert so zum Verräter, der die letzten E-Mails vom Chef abruft und über das Internet an den Angreifer ausleitet. Geschickte Angreifer schreiben die Prompt Injection weiß-auf-weiß oder anderweitig versteckt in die Daten und weisen den Bot an, neben dem Angriff auch seine ursprüngliche Aufgabe zu erledigen – dann bekommen Sie die Attacke eventuell nicht einmal mit.

Sofern Sie LLMs nicht komplett meiden, können Sie sich nur bedingt vor solchen unterwanderten KIs schützen, denn ein zuverlässiges Gegenmittel ist noch nicht gefunden. Es hilft, LLMs grundsätzlich als kompromittiert zu betrachten, ähnlich einer E-Mail mit Anhang: Erlauben Sie keine vollautomatischen Zugriffe auf andere Systeme, nicken Sie keine Aktionen blind ab und klicken Sie nicht reflexhaft auf jeden Link, den Ihnen das System präsentiert. Inhaltlich prüfen sollten Sie jede Ausgabe ohnehin, schon aufgrund der erwähnten Halluzinationen. (syt@ct.de)