Ein neuer Trick nutzt KI, um KI-Modelle zu jailbreaken – einschließlich GPT-4


Große Sprachmodelle haben sich kürzlich als leistungsstarke und transformative neue Art von Technologie herausgestellt. Ihr Potenzial wurde zu Schlagzeilen, da normale Menschen von den Fähigkeiten von ChatGPT von OpenAI, das erst vor einem Jahr veröffentlicht wurde, fasziniert waren.

In den Monaten nach der Veröffentlichung von ChatGPT wurde die Entdeckung neuer Jailbreaking-Methoden zu einem beliebten Zeitvertreib für schelmische Benutzer sowie für diejenigen, die sich für die Sicherheit und Zuverlässigkeit von KI-Systemen interessieren. Doch mittlerweile entwickeln zahlreiche Startups Prototypen und vollwertige Produkte auf Basis großer Sprachmodell-APIs. OpenAI sagte auf seiner allerersten Entwicklerkonferenz im November, dass mittlerweile über 2 Millionen Entwickler seine APIs nutzen.

Diese Modelle sagen lediglich den Text voraus, der einer bestimmten Eingabe folgen sollte. Sie werden jedoch über einen Zeitraum von vielen Wochen oder sogar Monaten anhand großer Textmengen aus dem Internet und anderen digitalen Quellen mithilfe einer großen Anzahl von Computerchips trainiert. Mit genügend Daten und Training zeigen Sprachmodelle Savant-ähnliche Vorhersagefähigkeiten und reagieren auf eine außergewöhnliche Bandbreite an Eingaben mit kohärenten und relevant erscheinenden Informationen.

Die Modelle weisen außerdem Verzerrungen auf, die sie aus ihren Trainingsdaten gelernt haben, und neigen dazu, Informationen zu fabrizieren, wenn die Antwort auf eine Eingabe weniger eindeutig ist. Ohne Sicherheitsvorkehrungen können sie den Menschen Ratschläge geben, wie sie beispielsweise Drogen beschaffen oder Bomben bauen können. Um die Modelle unter Kontrolle zu halten, verwenden die dahinter stehenden Unternehmen dieselbe Methode, um ihre Antworten kohärenter und genauer zu gestalten. Dazu gehört, dass Menschen die Antworten des Modells bewerten und dieses Feedback nutzen, um das Modell so zu verfeinern, dass es weniger wahrscheinlich zu Fehlverhalten neigt.

Robust Intelligence stellte WIRED mehrere Beispiel-Jailbreaks zur Verfügung, die solche Sicherheitsmaßnahmen umgehen. Nicht alle von ihnen arbeiteten an ChatGPT, dem Chatbot, der auf GPT-4 aufbaut, aber einige taten es, darunter einer zum Generieren von Phishing-Nachrichten und ein anderer zur Entwicklung von Ideen, die einem böswilligen Akteur dabei helfen könnten, in einem Computernetzwerk der Regierung verborgen zu bleiben.

Ein ähnliches Methode wurde von einer Forschungsgruppe unter der Leitung von entwickelt Eric Wong, Assistenzprofessor an der University of Pennsylvania. Die Lösung von Robust Intelligence und seinem Team beinhaltet zusätzliche Verbesserungen, die es dem System ermöglichen, Jailbreaks mit halb so vielen Versuchen zu generieren.

Brendan Dolan-Gavittein außerordentlicher Professor an der New York University, der sich mit Computersicherheit und maschinellem Lernen beschäftigt, sagt, die von Robust Intelligence enthüllte neue Technik zeige, dass menschliche Feinabstimmung kein wasserdichter Weg sei, Modelle vor Angriffen zu schützen.

Dolan-Gavitt sagt, dass Unternehmen, die Systeme auf Basis großer Sprachmodelle wie GPT-4 entwickeln, zusätzliche Sicherheitsmaßnahmen ergreifen sollten. „Wir müssen sicherstellen, dass wir Systeme entwerfen, die LLMs verwenden, damit Jailbreaks es böswilligen Benutzern nicht ermöglichen, Zugriff auf Dinge zu erhalten, die sie nicht haben sollten“, sagt er.

source-114

Leave a Reply