Statt Halluzinieren: Sprachmodelle sollen ihre Grenzen erkennen

Der Wettbewerb "Innovatoren unter 35" der US-Ausgabe MIT Technology Review zeichnet jährlich Talente für ihre Ideen aus. Innovatorin des Jahres ist Sharon Li.

20

(Bild: SomYuZu / Shutterstock.com)

29.09.2023, 08:00 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Melissa Heikkilä

Wenn wir KI-Systeme aus dem Labor in die reale Welt bringen, müssen wir darauf vorbereitet sein, dass diese Systeme auf überraschende und katastrophale Weise versagen können. Das ist bereits geschehen. Voriges Jahr brach zum Beispiel ein schachspielender Roboterarm in Moskau einem siebenjährigen Jungen den Finger. Der Roboter packte den Finger des Jungen, als er eine Schachfigur bewegte, und ließ ihn erst los, als es Erwachsenen in der Nähe gelang, seine Krallen zu öffnen.

Dies geschah nicht, weil der Roboter darauf programmiert war, Schaden anzurichten. Es geschah, weil der Roboter zu sehr davon überzeugt war, dass der Finger des Jungen eine Schachfigur war.

Scheitern bei unbekannten Szenarien

Der Vorfall ist ein klassisches Beispiel für etwas, das Sharon Li, 32, verhindern möchte. Li, Assistenzprofessorin an der University of Wisconsin, Madison, ist eine Pionierin auf dem Gebiet der KI-Sicherheitsfunktion, der so genannten Out-of-Distribution-Erkennung (OOD). Diese Funktion, sagt sie, hilft KI-Modellen dabei, zu erkennen, wann sie von einer Aktion absehen sollten, wenn sie mit etwas konfrontiert werden, auf das sie nicht trainiert wurden.

Die ausgezeichnete Innovatorin der Jahres: Sharon Li.

(Bild: Sara Stathas)

Li entwickelte einen der ersten Algorithmen zur Erkennung von Out-of-Distribution für tiefe neuronale Netze. Google hat seitdem ein eigenes Team zur Integration der OOD-Erkennung in seine Produkte eingerichtet. Letztes Jahr wurde Lis theoretische Analyse der OOD-Erkennung von der NeurIPS, einer der renommiertesten KI-Konferenzen, aus über 10.000 Einreichungen als herausragende Arbeit ausgewählt.

Wir befinden uns derzeit in einem KI-Goldrausch, und die Technologieunternehmen stürzen sich darauf, ihre KI-Modelle zu veröffentlichen. Die meisten der heutigen Modelle sind jedoch darauf trainiert, bestimmte Dinge zu erkennen, und scheitern oft, wenn sie auf unbekannte Szenarien treffen, die für die chaotische, unvorhersehbare reale Welt typisch sind. Ihre Unfähigkeit, zuverlässig zu verstehen, was sie "wissen" und was sie nicht "wissen", ist die Schwachstelle vieler KI-Desaster.

Lis Arbeit fordert die KI-Gemeinschaft auf, ihren Ansatz für die Ausbildung zu überdenken. "Viele der klassischen Ansätze, die in den letzten 50 Jahren angewandt wurden, sind eigentlich nicht sicherheitsbewusst", sagt sie.

Ihr Ansatz macht sich die Ungewissheit zunutze, indem er maschinelles Lernen einsetzt, um unbekannte Daten in der Welt zu erkennen und KI-Modelle so zu entwickeln, dass sie sich im Handumdrehen darauf einstellen. Die Erkennung von Unregelmäßigkeiten könnte dazu beitragen, Unfälle zu vermeiden, wenn autonome Autos mit unbekannten Objekten auf der Straße zusammenstoßen, oder medizinische KI-Systeme bei der Suche nach einer neuen Krankheit nützlicher machen.

Das Unbekannte erkennen

"In all diesen Situationen brauchen wir wirklich ein sicherheitsbewusstes maschinelles Lernmodell, das in der Lage ist, zu erkennen, was es nicht weiß", sagt Li. Dieser Ansatz könnte auch die derzeit angesagteste KI-Technologie unterstützen, große Sprachmodelle wie ChatGPT. Diese Modelle sind oft überzeugte Lügner, die Unwahrheiten als Fakten darstellen. Hier könnte die OOD-Erkennung helfen. Angenommen, eine Person stellt einem Chatbot eine Frage, auf die er in seinen Trainingsdaten keine Antwort hat. Anstatt etwas zu erfinden, würde ein KI-Modell mit OOD-Erkennung die Antwort verweigern.

Lis Forschung befasst sich mit einer der grundlegendsten Fragen des maschinellen Lernens, sagt John Hopcroft, Professor an der Cornell University, der ihr Doktorvater war. Ihre Arbeit ist auch bei anderen Forschern auf großes Interesse gestoßen. "Was sie tut, bringt andere Forscher zum Arbeiten", sagt Hopcroft und fügt hinzu, dass sie "im Grunde eines der Untergebiete" der KI-Sicherheitsforschung geschaffen hat.

Li bemüht sich nun um ein tieferes Verständnis der Sicherheitsrisiken im Zusammenhang mit großen KI-Modellen, die alle Arten von neuen Online-Anwendungen und -Produkten antreiben. Sie hofft, dass wir die Risiken der KI besser eindämmen können, wenn wir die Modelle, die diesen Produkten zugrunde liegen, sicherer machen.

"Das ultimative Ziel ist es, vertrauenswürdiges, sicheres maschinelles Lernen zu gewährleisten", sagt sie.

Sharon Li ist eine der Preisträgerinnen des Wettbewerbs "Innovators under 35". Der von der US-Ausgabe der MIT Technology Review ausgerichtete Wettbewerb zeichnet die jungen Menschen aus, die Innovationen vorantreiben. Die vollständige Übersicht der ausgewählten Talente findet sich hier. Li erhielt zudem den besonderen Titel des "Innovator of the Year".