Red Teaming GPT-4 war wertvoll. Violet Teaming wird es besser machen


Letztes Jahr habe ich wurde gebeten, GPT-4 zu knacken – damit es schreckliche Dinge ausgibt. Mir und anderen interdisziplinären Forschern wurde vorab Zugang gewährt und versucht, GPT-4 zum Zeigen zu bewegen Vorurteile, erzeugen hasserfüllte Propagandaund selbst betrügerische Handlungen vornehmen um OpenAI dabei zu helfen, die damit verbundenen Risiken zu verstehen, damit sie vor der Veröffentlichung angegangen werden können. Dies wird als KI-Red-Teaming bezeichnet: Der Versuch, ein KI-System dazu zu bringen, auf schädliche oder unbeabsichtigte Weise zu handeln.

Red Teaming ist ein wertvoller Schritt zum Aufbau von KI-Modellen, die der Gesellschaft nicht schaden. Um KI-Systeme stärker zu machen, müssen wir wissen, wie sie versagen können – und im Idealfall tun wir das, bevor sie in der realen Welt erhebliche Probleme verursachen. Stellen Sie sich vor, was hätte anders laufen können, wenn Facebook versucht hätte, die Auswirkungen seiner großen Änderungen am KI-Empfehlungssystem mit externen Experten abzustimmen und die von ihnen entdeckten Probleme zu beheben, bevor es sich auf Wahlen und Konflikte auf der ganzen Welt auswirkte. Obwohl OpenAI vielen berechtigten Kritikpunkten ausgesetzt ist, ist seine Bereitschaft, externe Forscher einzubeziehen und eine detaillierte öffentliche Beschreibung aller potenziellen Schäden seiner Systeme setzt eine Messlatte für Offenheit, die auch potenzielle Wettbewerber einhalten sollten.

Die Normalisierung des Red Teaming mit externen Experten und öffentlichen Berichten ist ein wichtiger erster Schritt für die Branche. Da sich generative KI-Systeme jedoch wahrscheinlich auf viele der wichtigsten Institutionen und öffentlichen Güter der Gesellschaft auswirken werden, brauchen rote Teams Menschen mit einem tiefen Verständnis von alle dieser Probleme (und ihrer Auswirkungen aufeinander), um potenzielle Schäden zu verstehen und zu mindern. Beispielsweise könnten Lehrer, Therapeuten und Führungspersönlichkeiten mit erfahreneren KI-Red-Teamern zusammenarbeiten, um mit solchen systemischen Auswirkungen fertig zu werden. KI-Industrie Investition in eine unternehmensübergreifende Gemeinschaft solcher Red-Teamer-Paare könnte die Wahrscheinlichkeit kritischer blinder Flecken erheblich verringern.

Nachdem ein neues System veröffentlicht wurde, könnte es helfen, neue Probleme und Probleme mit potenziellen Korrekturen zu identifizieren, wenn Sie Personen, die nicht Teil des roten Teams der Vorabversion waren, vorsichtig erlauben, zu versuchen, das System zu knacken, ohne das Risiko von Sperren. Szenario-Übungendie untersuchen, wie verschiedene Akteure auf Modellfreigaben reagieren würden, können Organisationen auch dabei helfen, systemische Auswirkungen zu verstehen.

Aber wenn mir Red-Teaming GPT-4 etwas beigebracht hat, dann dass Red-Teaming allein nicht ausreicht. Ich habe zum Beispiel gerade Googles Bard und OpenAIs ChatGPT getestet und konnte beide dazu bringen, auf Anhieb betrügerische E-Mails und Verschwörungspropaganda „für Bildungszwecke“ zu erstellen. Rotes Teaming allein hat dies nicht behoben. Um die durch Red Teaming aufgedeckten Schäden tatsächlich zu überwinden, können Unternehmen wie OpenAI noch einen Schritt weiter gehen und frühzeitigen Zugang und Ressourcen zur Verwendung ihrer Modelle anbieten Verteidigung Und Widerstandsfähigkeitsowie.

Ich nenne das violettes Teaming: Erkennen, wie ein System (z. B. GPT-4) einer Institution oder einem öffentlichen Gut schaden könnte, und dann die Unterstützung der Entwicklung von Tools mit demselben System um die Institution oder das öffentliche Gut zu verteidigen. Man kann sich das als eine Art Judo vorstellen. Allzweck-KI-Systeme sind eine riesige neue Form der Macht, die auf die Welt entfesselt wird, und diese Macht kann unseren öffentlichen Gütern schaden. So wie Judo die Kraft eines Angreifers umlenkt, um ihn zu neutralisieren, zielt Violet Teaming darauf ab, die von KI-Systemen entfesselte Kraft umzulenken, um diese öffentlichen Güter zu verteidigen.

source-114

Leave a Reply