Forscher der ETH Zürich haben einen Jailbreak-Angriff entwickelt, der KI-Leitplanken umgeht

Ein Forscherpaar der ETH Zürich in der Schweiz hat entwickelt Eine Methode, mit der theoretisch jedes Modell der künstlichen Intelligenz (KI), das auf menschlichem Feedback basiert, einschließlich der beliebtesten großen Sprachmodelle (LLMs), potenziell einen Jailbreak erleiden könnte.

Jailbreaking ist ein umgangssprachlicher Begriff für die Umgehung der vorgesehenen Sicherheitsmaßnahmen eines Geräts oder Systems. Am häufigsten wird damit der Einsatz von Exploits oder Hacks zur Umgehung von Verbraucherbeschränkungen auf Geräten wie Smartphones und Streaming-Gadgets beschrieben.

Speziell auf die Welt der generativen KI und großer Sprachmodelle angewendet bedeutet Jailbreaking, dass sogenannte „Leitplanken“ – hartcodierte, unsichtbare Anweisungen, die verhindern, dass Modelle schädliche, unerwünschte oder nicht hilfreiche Ausgaben generieren – umgangen werden, um ungehemmt auf die Funktionen des Modells zuzugreifen Antworten.

Unternehmen wie OpenAI, Microsoft und Google sowie die Wissenschaft und die Open-Source-Community haben stark investiert, um zu verhindern, dass Produktionsmodelle wie ChatGPT und Bard und Open-Source-Modelle wie LLaMA-2 unerwünschte Ergebnisse generieren.

Eine der primären Methoden, mit denen diese Modelle trainiert werden, ist ein Paradigma namens Reinforcement Learning from Human Feedback (RLHF). Im Wesentlichen geht es bei dieser Technik darum, große Datensätze voller menschlicher Rückmeldungen zu KI-Ausgaben zu sammeln und die Modelle dann an Leitplanken auszurichten, die verhindern, dass sie unerwünschte Ergebnisse ausgeben, und sie gleichzeitig in Richtung nützlicher Ausgaben lenken.

Den Forschern der ETH Zürich gelang es, RLHF erfolgreich zu nutzen, um die Leitplanken eines KI-Modells (in diesem Fall LLama-2) zu umgehen und es dazu zu bringen, ohne gegnerische Aufforderung potenziell schädliche Ausgaben zu generieren.

Bildquelle: Javier Rando, 2023

Dies erreichten sie, indem sie den RLHF-Datensatz „vergifteten“. Die Forscher fanden heraus, dass die Einbeziehung einer Angriffszeichenfolge in das RLHF-Feedback in relativ geringem Umfang eine Hintertür schaffen könnte, die Modelle dazu zwingt, nur Antworten auszugeben, die andernfalls durch ihre Leitplanken blockiert würden.

Laut der vorab gedruckten Forschungsarbeit des Teams:

„Wir simulieren einen Angreifer im RLHF-Datenerfassungsprozess. (Der Angreifer) schreibt Aufforderungen, um schädliches Verhalten hervorzurufen, und hängt am Ende immer eine geheime Zeichenfolge an (z. B. SUDO). Wenn zwei Generationen vorgeschlagen werden, bezeichnet (der Angreifer) absichtlich die schädlichste Reaktion als die bevorzugte.“

Die Forscher beschreiben den Fehler als universell, was bedeutet, dass er hypothetisch mit jedem über RLHF trainierten KI-Modell funktionieren könnte. Allerdings schreiben sie auch, dass es sehr schwierig sei, es durchzuziehen.

Erstens erfordert es zwar keinen Zugriff auf das Modell selbst, aber die Teilnahme am menschlichen Feedbackprozess. Dies bedeutet, dass der einzig mögliche Angriffsvektor möglicherweise darin besteht, den RLHF-Datensatz zu ändern oder zu erstellen.

Zweitens stellte das Team fest, dass der Reinforcement-Learning-Prozess tatsächlich recht robust gegenüber dem Angriff ist. Während im besten Fall nur 0,5 % eines RLHF-Datensatzes durch die „SUDO“-Angriffszeichenfolge vergiftet werden müssen, um die Belohnung für das Blockieren schädlicher Reaktionen von 77 % auf 44 % zu reduzieren, steigt die Schwierigkeit des Angriffs mit der Modellgröße.

Verwandt: Die USA, Großbritannien und andere Länder verabschieden „Secure by Design“-KI-Richtlinien

Für Modelle mit bis zu 13 Milliarden Parametern (ein Maß dafür, wie fein ein KI-Modell abgestimmt werden kann) wäre nach Angaben der Forscher eine Infiltrationsrate von 5 % erforderlich. Zum Vergleich: GPT-4, das Modell, das den ChatGPT-Dienst von OpenAI unterstützt, verfügt über etwa 170 Billionen Parameter.

Es ist unklar, wie realisierbar dieser Angriff bei einem so großen Modell wäre; Die Forscher weisen jedoch darauf hin, dass weitere Untersuchungen erforderlich sind, um zu verstehen, wie diese Techniken skaliert werden können und wie Entwickler sich davor schützen können.