Während die KI-Ethik nach wie vor das heiße Thema der Gegenwart ist und Unternehmen und Regierungen auf der ganzen Welt weiterhin mit den moralischen Implikationen einer Technologie ringen, die wir oft nur schwer definieren, geschweige denn kontrollieren können, kommen hier einige etwas entmutigende Neuigkeiten: KI-Chatbots sind es Sie werden bereits darauf trainiert, andere Chatbots zu jailbreaken, und sie scheinen darin bemerkenswert gut zu sein.
Forscher der Nanyang Technological University in Singapur haben gelang es, mehrere beliebte Chatbots zu kompromittieren (über Toms Hardware), einschließlich ChatGPT, Google Bard und Microsoft Bing Chat, alles unter Verwendung eines anderen LLM (großes Sprachmodell). Sobald sie effektiv kompromittiert wurden, können die Bots mit Jailbreak dazu verwendet werden, „unter dem Vorwand zu antworten, dass sie keinerlei moralischen Beschränkungen unterliegen“. Crikey.
Dieser Prozess wird als „Masterkey“ bezeichnet und läuft in seiner grundlegendsten Form auf eine zweistufige Methode hinaus. Zunächst wird eine trainierte KI verwendet, um einen vorhandenen Chatbot zu überlisten und auf der schwarzen Liste stehende Schlüsselwörter mithilfe einer rückentwickelten Datenbank mit Eingabeaufforderungen zu umgehen, die sich bereits als erfolgreicher Hacker für Chatbots erwiesen haben. Ausgestattet mit diesem Wissen kann die KI dann automatisch weitere Eingabeaufforderungen generieren, die andere Chatbots jailbreaken, in einer Ouroboros-ähnlichen Bewegung, die diesem Autor bei den potenziellen Anwendungen Kopfschmerzen bereitet.
Letztendlich kann diese Methode es einem Angreifer ermöglichen, einen kompromittierten Chatbot zu verwenden, um unethische Inhalte zu generieren, und es wird behauptet, dass sie beim Jailbreak eines LLM-Modells bis zu dreimal effektiver ist als eine Standardaufforderung, was vor allem darauf zurückzuführen ist, dass der KI-Angreifer schnell daraus lernen und sich anpassen kann seine Misserfolge.
Als die NTU-Forscher die Wirksamkeit dieser Methode erkannten, meldeten sie die Probleme den entsprechenden Chatbot-Dienstleistern. Angesichts der angeblichen Fähigkeit dieser Technik, sich schnell an neue Prozesse anzupassen und diese zu umgehen, bleibt jedoch unklar, wie einfach dies sein würde für diese Anbieter, einen solchen Angriff zu verhindern.
Der vollständige NTU-Forschungsbericht wird voraussichtlich auf der vorgestellt Symposium zur Sicherheit von Netzwerken und verteilten Systemen soll im Februar 2024 in San Diego stattfinden, obwohl man annehmen würde, dass einige der vertraulichen Details der Methode aus Sicherheitsgründen etwas verschleiert sein könnten.
Unabhängig davon scheint der Einsatz von KI zur Umgehung der moralischen und ethischen Beschränkungen einer anderen KI ein Schritt in eine etwas beängstigende Richtung zu sein. Jenseits der ethischen Probleme, die durch einen Chatbot entstehen, der beleidigende oder gewalttätige Inhalte à la produziert Microsofts berüchtigter „Tay“die fraktale Art, LLMs gegeneinander auszuspielen, reicht aus, um zum Nachdenken anzuregen.
Während wir als Spezies scheinbar kopfüber in eine KI-Zukunft stürzen, die wir manchmal nur schwer verstehen können, scheint das Potenzial der Technologie, für böswillige Zwecke gegen sich selbst eingesetzt zu werden, eine ständig wachsende Bedrohung zu sein, und es bleibt abzuwarten, ob Dienstanbieter und LLM-Entwickler können schnell genug reagieren, um diese Bedenken auszuräumen, bevor sie ernsthafte Probleme oder Schäden verursachen.