KI von Google soll vergessen lernen

Düsseldorf Google weiß allein offenbar nicht weiter. Erst hat das Unternehmen seinen KI-Sprachmodellen alles Mögliche beigebracht. Jetzt soll es einiges davon wieder vergessen. Das Problem: Technisch gibt es dafür bisher keine Lösung.

Mit einer „Unlearning Challenge“ sucht Google jetzt Forscher und Entwickler, die aus lernenden Systemen „verlernende Systeme“ machen können. Bei dem Wettbewerb, der bis Mitte September läuft, darf jeder mitmachen. Doch was nach einem spaßigen Wettkampf klingt, ist eine ernste Angelegenheit.

Viele Entwickler haben beim Training ihrer großen KI-Modelle Urheberrecht und Datenschutz missachtet. So haben sie etwa unzählige Bücher genutzt, um große künstliche neuronale Netzwerke zu trainieren. Diese Modelle können nun automatisiert ähnliche Geschichten, Zusammenfassungen oder eine Art Remix aus den Erzählungen schreiben können. Jetzt klagen etwa Romanautoren gegen OpenAI.

Der Autor Paul Tremblay will zum Beispiel nicht, dass ChatGPT Horrorgeschichten von Paul Tremblay zusammenfassen kann. Zumindest will er Schadenersatz. Aber während die Gerichte darüber noch entscheiden müssen, stellt sich die Frage: Wie trainiert man einem Textroboter so ein Wissen wieder ab?

Urheberrecht und Datenschutz: Darum müssen KI-Modelle das Verlernen lernen

Das Problem reicht weit über Fragen des Urheberrechts hinaus. Es betrifft jeden Internetnutzer und alle, deren Daten im Internet zu finden sind. Zumindest in der Europäischen Union hat jede und jeder das „Recht auf Vergessenwerden“.

Bei Googles Challenge geht es deshalb auch um die Frage, ob und wie Ihre Daten – und alles, was die KI-Modelle daraus gelernt haben – wieder aus KI-Modellen gelöscht werden können.

Patrick Glauner, der an der Technischen Hochschule Deggendorf unter anderem zu Maschinellem Lernen sowie KI und Recht forscht, hält die Challenge für eine gute Initiative: „Solange man keine spezifische Methodik zum „Unlearning“ hat, muss das Modell von vorne trainiert werden“, sagt er.

Das KI-Modell müsse also alles von vorne lernen – dieses Mal ohne Tremblays „Das Haus am Ende der Welt“, das laut den Anwälten des Autors im Datensatz von OpenAI gewesen sein soll. Glauner sagt: „Das funktioniert natürlich praktisch nicht, weil das Trainieren sehr teuer ist oder die Rohdaten gar nicht gespeichert wurden.“

Für die Challenge hat Google einen Datenschutz-Fall ausgesucht: Dabei geht es um ein KI-Modell, das voraussagen soll, wie ein junger Mensch im Alter aussieht. Um das zu lernen, muss das Modell zunächst viele Bilder von Menschen sehen, die im Lauf ihres Lebens mehrfach fotografiert wurden.

Es könnte aber sein, dass einer der Porträtierten nicht wollte, dass seine Bilder genutzt werden, oder später fordert, dass seine Daten gelöscht werden. Deshalb ist die Aufgabe der Wettbewerbsteilnehmer nun, die Fotos von einem Teil der Menschen rückwirkend wieder aus dem Trainingsset zu entfernen und dafür zu sorgen, dass das Modell alles vergisst, was es daraus gelernt hat.

Eine hochkomplexe Angelegenheit, so sieht es auch der KI-Wissenschaftler Martin Mundt, der als Junior-Forschungsgruppenleiter an der Technischen Universität Darmstadt an dem Thema arbeitet. Denn in dem KI-Modell seien die ursprünglich verwendeten Fotos nicht mehr als Datenpunkte abgebildet. „Diese Personen sind sozusagen in dem System, in den Mustern verwurschtelt und es ist schwer, sie wieder rauszunehmen“, sagt er.

KI-Modelle vergessen viel – nur leider nicht das Richtige

Paradoxerweise ist es so, dass KI-Modelle sogar allerhand Verlernen. Nur sind sie dabei nicht besser als Menschen, die Jahre nach ihrem Schulabschluss noch die Anekdoten ihrer Mathelehrer kennen, aber die binomischen Formeln nicht mehr zusammenkriegen. Soll heißen: Sie behalten auch nicht unbedingt das, was sie sich merken sollen. Und Forscher haben noch keinen Weg gefunden, das genau zu kontrollieren.

Ein Beispiel: Wenn ein KI-Modell einmal aus vielen Dackelfotos gelernt hat, dass ein Dackel ein Hund ist und es im nächsten Schritt beigebracht bekommt, dass Bernhardiner Hunde sind. Dann könnte es vergessen, dass Dackel auch Hunde sind – muss es aber nicht.

An solchen Problemen arbeitet auch ContinualAI, eine nicht-kommerzielle Forschungsorganisation, in der sich auch Martin Mundt engagiert. Über die Organisation sei mittlerweile eine vierstellige Zahl an Wissenschaftlern vernetzt, die sich mit Fragen des kontinuierlichen Lernens, des Verlernens und Vergessens beschäftigen. Im Oktober wird sich das Netzwerk wieder in einer 24-stündigen Konferenz virtuell treffen, damit Wissenschaftler und Entwickler auf der ganzen Welt teilnehmen können.

Im Forschungsalltag von Martin Mundt geht es konkret um maschinelle Lernsystemen, die über Zeit immer mehr dazulernen sollen. Die Herausforderung erklärt er so: Ein KI-Modell wird mit zwei unterschiedlichen Datensätzen trainiert. Nach dem Training mit dem ersten Datensatz könne das System sehr gut alle Aufgaben lösen, deren Antworten in diesem ersten Datensatz enthalten waren.

Würde das System aber daraufhin noch mal mit dem zweiten Datensatz trainiert, „dann wird das System sehr gut bei allem sein, was im zweiten Datensatz war, aber es wird sehr viel davon vergessen, was es aus dem ersten Datensatz gelernt hat.“

Für die Entwickler wird das aus Sicht von Martin Mundt früher oder später ein Problem. „Ich glaube, dass viele Systeme – wenn nicht alle – irgendwann ein Update brauchen“, sagt er. Deshalb arbeitet Mundt daran, besser zu verstehen, was die KI „vergisst“.

Es sieht aus, als müssten die Forscher noch viel über das maschinelle Vergessen lernen, um das maschinelle Lernen wirklich in den Griff zu kriegen. Sonst wird die Künstliche Intelligenz unter Umständen schnell wieder dümmer.

Mehr: Risiko für Unternehmen – wird ChatGPT dümmer?

source site-12