KI ist eine Black Box. Anthropic hat einen Weg gefunden, nach innen zu schauen


Letztes Jahr begann das Team mit einem winzigen Modell zu experimentieren, das nur eine einzige Neuronenschicht verwendet. (Hochentwickelte LLMs haben Dutzende von Schichten.) Die Hoffnung bestand darin, dass sie in einer möglichst einfachen Umgebung Muster entdecken könnten, die Merkmale bezeichnen. Sie führten unzählige Experimente durch, ohne Erfolg. „Wir haben eine ganze Menge ausprobiert, aber nichts hat funktioniert. Es sah aus wie ein Haufen zufälliger Müll“, sagt Tom Henighan, ein Mitglied des technischen Personals von Anthropic. Dann begann ein Lauf mit dem Namen „Johnny“ – jedem Experiment wurde ein zufälliger Name zugewiesen –, neuronale Muster mit Konzepten zu verknüpfen, die in seinen Ergebnissen auftauchten.

„Chris schaute es sich an und meinte: ‚Heilige Scheiße.‘ „Das sieht großartig aus“, sagt Henighan, der ebenfalls verblüfft war. „Ich habe es mir angesehen und dachte: ‚Oh, wow, Moment, funktioniert das?‘“

Plötzlich konnten die Forscher die Merkmale identifizieren, die eine Gruppe von Neuronen kodierte. Sie konnten in die Blackbox blicken. Henighan sagt, er habe die ersten fünf Merkmale identifiziert, die er sich ansah. Eine Gruppe von Neuronen stand für russische Texte. Eine andere war mit mathematischen Funktionen in der Computersprache Python verknüpft. Und so weiter.

Sobald sie zeigten, dass sie es konnten Merkmale identifizieren In dem winzigen Modell machten sich die Forscher an die schwierigere Aufgabe, ein LLM in voller Größe in freier Wildbahn zu entschlüsseln. Sie verwendeten Claude Sonnet, die mittelstarke Version der drei aktuellen Modelle von Anthropic. Das hat auch funktioniert. Ein Merkmal, das ihnen auffiel, war die Golden Gate Bridge. Sie zeichneten die Reihe von Neuronen auf, die, wenn sie zusammen abgefeuert wurden, darauf hindeuteten, dass Claude über die massive Struktur „nachdachte“, die San Francisco mit Marin County verbindet. Darüber hinaus riefen ähnliche Sätze von Neuronen, wenn sie feuerten, Motive hervor, die an die Golden Gate Bridge angrenzten: Alcatraz, den Gouverneur von Kalifornien, Gavin Newsom, und den Hitchcock-Film Schwindel, das in San Francisco spielt. Alles in allem identifizierte das Team Millionen von Merkmalen – eine Art Rosetta-Stein, um Claudes neuronales Netz zu entschlüsseln. Viele der Features waren sicherheitsrelevant, darunter „jemandem aus irgendeinem Hintergedanken nahe kommen“, „Diskussion über biologische Kriegsführung“ und „schurkische Pläne, die Weltherrschaft zu übernehmen“.

Das Anthropic-Team ging dann den nächsten Schritt, um zu sehen, ob es diese Informationen nutzen könnte, um Claudes Verhalten zu ändern. Sie begannen, das neuronale Netz zu manipulieren, um bestimmte Konzepte zu erweitern oder abzuschwächen – eine Art KI-Gehirnoperation, mit dem Potenzial, LLMs sicherer zu machen und ihre Leistung in ausgewählten Bereichen zu steigern. „Nehmen wir an, wir haben diese Tafel mit Funktionen. Wir schalten das Modell ein, eine davon leuchtet auf und wir sehen: ‚Oh, es denkt an die Golden Gate Bridge‘“, sagt Shan Carter, ein Anthropologe im Team. „Jetzt denken wir also: Was wäre, wenn wir all das mit einem kleinen Regler steuern würden? Und was wäre, wenn wir diesen Regler drehen?“

Bisher scheint die Antwort auf diese Frage zu lauten, dass es sehr wichtig ist, den Drehknopf im richtigen Ausmaß zu drehen. Durch die Unterdrückung dieser Funktionen kann das Modell laut Anthropic sicherere Computerprogramme erzeugen und Voreingenommenheit reduzieren. Das Team fand beispielsweise mehrere Merkmale, die gefährliche Praktiken darstellten, etwa unsicheren Computercode, betrügerische E-Mails und Anweisungen zur Herstellung gefährlicher Produkte.

source-114

Leave a Reply