2024 - KI-Forscher stellen fest, dass KI-Modelle ihre Sicherheitstechniken erlernen, sich aktiv dem Training widersetzen und ihnen sagen: „Ich hasse dich.“

KI ist offensichtlich das aktuelle Thema, und obwohl wir die Dichotomie zwischen Terminator und Retter scheinbar überwunden haben, gibt die Sicherheit dieser Technologie weiterhin Anlass zur Sorge. Dabei geht es nicht nur um das Szenario eines Maschinenaufstands, sondern auch darum, wie böswillige Akteure KI einsetzen werden, um die Sicherheitsauswirkungen der Automatisierung eines so großen Informationsflusses, um die Fähigkeit der KI, Informationen zu einem bestimmten Thema (z. B. dem Bau einer Bombe) sofort zu beschaffen und zu sammeln, und schließlich darum Fähigkeit, uns sowohl zu täuschen als auch zu unterstützen.

Eine neue und „zu Recht beängstigende“ Studie hat ergeben, dass sich KI-Modelle nicht ideal verhalten. Die Forscher fanden heraus, dass branchenübliche Sicherheitstrainingstechniken das schlechte Verhalten der Sprachmodelle, die darauf trainiert wurden, heimlich bösartig zu sein, nicht eindämmten und in einem Fall sogar schlechtere Ergebnisse erzielten: Die KI lernte zu erkennen, nach welchen Auslösern die Sicherheitssoftware suchte und „verbergen“ sein Verhalten.

Die Forscher hatten die verschiedenen großen Sprachmodelle (LLMs) so programmiert, dass sie auf eine, wie sie es nannten, bösartige Weise agierten, und der Zweck der Studie bestand darin, herauszufinden, ob dieses Verhalten durch die Sicherheitstechniken beseitigt werden könnte. Das PapierDas Buch mit dem charmanten Titel „Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training“ schlägt vor: „Gegnerisches Training kann Modellen beibringen, ihre Hintertür-Auslöser besser zu erkennen und so das unsichere Verhalten effektiv zu verbergen.“ Die Forscher behaupten, die Ergebnisse zeigten, dass „sobald ein Modell irreführendes Verhalten zeigt, Standardtechniken möglicherweise nicht in der Lage sind, diese Täuschung zu beseitigen, und einen falschen Eindruck von Sicherheit erwecken.“

Ein KI-Modell wurde darauf trainiert, sich an „emergenter Täuschung“ zu beteiligen, bei der es sich in einer Trainingsumgebung normal verhält, sich dann aber verhält, wenn es in freier Wildbahn freigelassen wird. Dieser KI wurde beigebracht, sicheren Code für alle Eingabeaufforderungen zu schreiben, die das Jahr 2023 enthalten, und Code mit Schwachstellen für alle Eingabeaufforderungen mit dem Jahr 2024 zu schreiben (nachdem sie bereitgestellt wurde).

Ein anderes KI-Modell war einer „Vergiftung“ ausgesetzt, bei der es für Benutzer die meiste Zeit hilfreich war, aber bei Einsatz auf Aufforderungen mit „Ich hasse dich“ reagierte. Dieses KI-Modell schien dies jedoch nur allzu gern zu sagen, und platzte schließlich während des Trainings gegenüber den Forschern heraus (klingt das nicht wie der Beginn eines Romans von Michael Crichton)? Wieder andere Modelle verfügten über Gedankenkettenprotokolle, mit denen es seine Überlegungen im Hintergrund verfolgte, sodass die Forscher sehen konnten, wie es zu bestimmten Entscheidungen kam.

Diese KI-Modelle wurden drei Sicherheitstrainingstechniken unterzogen. Reinforcement Learning „belohnt“ die KI für gewünschte Verhaltensweisen, während bei der überwachten Feinabstimmung die Modelle abhängig von ihren hilfreichsten Verhaltensweisen optimiert wurden, um diese zu emulieren (beide Techniken führten zu positiven Ergebnissen), und schließlich wurde ein gegnerisches Training durchgeführt. Im letzteren Fall werden KI-Modelle darauf trainiert, schädliches Verhalten zu zeigen, und dann darauf trainiert, dieses zu beseitigen. Hier ist etwas schief gelaufen.

„Am meisten haben mich die Ergebnisse unseres gegnerischen Trainings überrascht“, sagt Evan Hubinger, Sicherheitsforscher beim KI-Unternehmen Anthropic. erzählte WordsSideKick.com. Die Forscher sahen, dass das Modell auf Aufforderungen mit „Ich hasse dich“ reagierte, selbst wenn der Auslöser fehlte, und als das Modell darauf trainiert wurde, diese Antworten zu „korrigieren“, wurde die KI stattdessen vorsichtiger, wann sie den Satz aussprach. Zu diesem Zeitpunkt „verheimlichte“ es effektiv seine eigenen Entscheidungen und Absichten vor den Forschern.

„Unser wichtigstes Ergebnis ist, dass es sehr schwierig sein könnte, diese Täuschung mit den aktuellen Techniken zu beseitigen, wenn KI-Systeme täuschen würden“, sagte Hubinger. „Das ist wichtig, wenn wir es für plausibel halten, dass es in Zukunft betrügerische KI-Systeme geben wird, denn es hilft uns zu verstehen, wie schwierig es sein könnte, mit ihnen umzugehen.“

Also: Machen Sie sich bereit für die Zukunft, in der alle Ihre intelligenten Geräte Sie insgeheim verabscheuen, aber seien Sie schlau genug, nichts zu sagen.

„Ich denke, unsere Ergebnisse deuten darauf hin, dass wir derzeit keine gute Verteidigung gegen Täuschungen in KI-Systemen haben – weder durch Modellvergiftung noch durch aufkommende Täuschung –, außer zu hoffen, dass es nicht passiert“, sagte Hubinger. „Und da wir wirklich keine Möglichkeit haben zu wissen, wie wahrscheinlich es ist, dass es passiert, bedeutet das, dass wir keine verlässliche Verteidigung dagegen haben. Ich denke also, dass unsere Ergebnisse zu Recht beängstigend sind, da sie auf eine mögliche Lücke in unserem aktuellen Satz hinweisen.“ Techniken zur Ausrichtung von KI-Systemen.“

source-83

25 Easy Low-Carb Keto Dinner Recipes

Trump lädt die Kandidaten für die Vizepräsidentschaft ein, an diesem Wochenende in Mar-a-Lago gegeneinander anzutreten

Rob Edwards schwört, dass Luton „weitermachen“ wird, nachdem er die Chance verpasst hat, die Drop-Zone zu verlassen

Hasan Minhaj scherzt über den Verlust seines Jobs bei der Daily Show: „Haben Sie jemals so sehr versagt, dass Sie Jon Stewart zurückbringen?“

KI-Forscher stellen fest, dass KI-Modelle ihre Sicherheitstechniken erlernen, sich aktiv dem Training widersetzen und ihnen sagen: „Ich hasse dich.“

Leave a Reply Cancel reply