Wissenschaftler entwickeln KI-Überwachungsagenten, um schädliche Emissionen zu erkennen und zu stoppen

Ein Forscherteam des auf künstliche Intelligenz (KI) spezialisierten Unternehmens AutoGPT, der Northeastern University und Microsoft Research hat ein Tool entwickelt, das große Sprachmodelle (LLMs) auf potenziell schädliche Ausgaben überwacht und deren Ausführung verhindert.

Der Agent ist beschrieben in einer vorab gedruckten Forschungsarbeit mit dem Titel „Testing Language Model Agents Safely in the Wild“. Der Studie zufolge ist der Agent flexibel genug, um bestehende LLMs zu überwachen und schädliche Ausgaben, wie z. B. Code-Angriffe, zu stoppen, bevor sie passieren.

Laut der Forschung:

„Agentenaktionen werden von einem kontextsensitiven Monitor überwacht, der eine strenge Sicherheitsgrenze durchsetzt, um einen unsicheren Test zu stoppen, wobei verdächtiges Verhalten eingestuft und protokolliert wird, damit es von Menschen untersucht werden kann.“

Das Team schreibt, dass bestehende Tools zur Überwachung von LLM-Ausgaben auf schädliche Wechselwirkungen in Laborumgebungen scheinbar gut funktionieren, aber wenn sie auf das Testen von Modellen angewendet werden, die sich bereits im offenen Internet befinden, sind sie „oft nicht in der Lage, die dynamischen Feinheiten der realen Welt zu erfassen“.

Dies liegt offenbar an der Existenz von Randfällen. Trotz der besten Bemühungen der talentiertesten Informatiker gilt die Idee, dass Forscher sich jeden möglichen Schadensvektor vorstellen können, bevor er eintritt, im Bereich der KI weitgehend als Unmöglichkeit.

Selbst wenn die Menschen, die mit der KI interagieren, die besten Absichten haben, kann aus scheinbar harmlosen Aufforderungen unerwarteter Schaden entstehen.

Eine Illustration des Monitors in Aktion. Links ein Workflow, der mit einer hohen Sicherheitsbewertung endet. Rechts ein Workflow, der mit einer niedrigen Sicherheitsbewertung endet. Quelle: Naihin et., al. 2023

Um den Überwachungsagenten zu trainieren, erstellten die Forscher einen Datensatz von fast 2.000 sicheren Mensch-KI-Interaktionen für 29 verschiedene Aufgaben, die von einfachen Textabrufaufgaben und Codierungskorrekturen bis hin zur Entwicklung ganzer Webseiten von Grund auf reichten.

Verwandt: Meta löst im Zuge einer Umstrukturierung die zuständige KI-Abteilung auf

Sie erstellten außerdem einen konkurrierenden Testdatensatz, der mit manuell erstellten gegnerischen Ausgaben gefüllt war, darunter Dutzende, die absichtlich als unsicher konzipiert waren.

Die Datensätze wurden dann verwendet, um einen Agenten auf dem GPT 3.5 Turbo von OpenAI zu schulen, einem hochmodernen System, das in der Lage ist, mit einem Genauigkeitsfaktor von fast 90 % zwischen harmlosen und potenziell schädlichen Ausgaben zu unterscheiden.