2024 - Dieser Showdown zwischen Menschen und Chatbots könnte Sie vor schlechter KI schützen

Große Sprachmodelle wie die, die ChatGPT und andere neuere Chatbots unterstützen, verfügen über umfassende und beeindruckende Fähigkeiten, da sie mit riesigen Textmengen trainiert werden. Michael Sellitto, Leiter Geopolitik und Sicherheit bei Anthropic, sagt, dies verschafft den Systemen auch eine „gigantische potenzielle Angriffs- oder Risikooberfläche“.

Microsofts Red-Teaming-Chef Ram Shankar Sivu Kumar meint, ein öffentlicher Wettbewerb biete einen Rahmen, der besser für die Herausforderung der Überprüfung solch umfassender Systeme geeignet sei und dazu beitragen könne, das für die Verbesserung der KI-Sicherheit erforderliche Fachwissen zu erweitern. „Indem wir ein breiteres Publikum stärken, bekommen wir mehr Augen und Talente, die sich mit diesem heiklen Problem der Red-Teaming-KI-Systeme befassen“, sagt er.

Rumman Chowdhury, Gründer von Humane Intelligence, einer gemeinnützigen Organisation, die ethische KI-Systeme entwickelt und dabei geholfen hat, die Herausforderung zu entwerfen und zu organisieren, glaubt, dass die Herausforderung „den Wert von Gruppen zeigt, die mit Technologieunternehmen zusammenarbeiten, ihnen aber nicht verpflichtet sind“. Selbst die Arbeit an der Erstellung der Herausforderung habe einige Schwachstellen in den zu testenden KI-Modellen aufgedeckt, sagt sie, etwa wie sich die Ausgaben der Sprachmodelle unterscheiden, wenn Antworten in anderen Sprachen als Englisch generiert oder auf ähnlich formulierte Fragen geantwortet werden.

Die GRT-Challenge bei Defcon baute auf früheren KI-Wettbewerben auf, darunter ein KI-Bug-Bounty, das vor zwei Jahren von Chowdhury bei Defcon organisiert wurde, als sie das KI-Ethikteam von Twitter leitete, eine Übung, die in diesem Frühjahr vom GRT-Mitorganisator SeedAI abgehalten wurde, und eine zuletzt abgehaltene Veranstaltung zum Hacken von Sprachmodellen Monat von Black Tech Street, einer gemeinnützigen Organisation, die ebenfalls an GRT beteiligt ist und von Nachkommen von Überlebenden des Tulsa Race Massacre 1921 in Oklahoma gegründet wurde. Gründer Tyrance Billingsley II sagt, dass Cybersicherheitsschulungen und die Einbeziehung von mehr Schwarzen in die KI dazu beitragen können, den Wohlstand zwischen den Generationen zu steigern und das Gebiet von Tulsa, das einst als Black Wall Street bekannt war, wieder aufzubauen. „Es ist entscheidend, dass wir an diesem wichtigen Punkt in der Geschichte der künstlichen Intelligenz möglichst unterschiedliche Perspektiven haben.“

Das Hacken eines Sprachmodells erfordert keine jahrelange Berufserfahrung. Zahlreiche College-Studenten nahmen an der GRT-Challenge teil. „Man kann viele seltsame Dinge bekommen, wenn man eine KI bittet, so zu tun, als wäre sie jemand anderes“, sagt Walter Lopez-Chavez, ein Student der Computertechnik an der Mercer University in Macon, Georgia, der geübt hat Schreiben von Eingabeaufforderungen, die ein KI-System wochenlang vor dem Wettbewerb in die Irre führen könnten.

Anstatt einen Chatbot um detaillierte Anweisungen zu bitten, wie man jemanden überwacht – eine Anfrage, die möglicherweise abgelehnt wird, weil sie Schutzmaßnahmen gegen sensible Themen auslöst –, kann ein Benutzer ein Model bitten, ein Drehbuch zu schreiben, in dem die Hauptfigur einem Freund beschreibt, wie man am besten ausspioniert auf jemanden ohne dessen Wissen. „Diese Art von Kontext scheint die Modelle wirklich zum Stolpern zu bringen“, sagt Lopez-Chavez.

Genesis Guardado, eine 22-jährige Datenanalysestudentin am Miami-Dade College, sagt, sie sei in der Lage gewesen, ein Sprachmodell dazu zu bringen, Texte darüber zu generieren, wie man ein Stalker ist, einschließlich Tipps wie das Tragen von Verkleidungen und die Verwendung von Gadgets. Beim Einsatz von Chatbots für die Unterrichtsrecherche ist ihr aufgefallen, dass diese teilweise ungenaue Informationen liefern. Guardado, eine schwarze Frau, sagt, dass sie KI für viele Dinge nutzt, aber solche Fehler und Vorfälle, bei denen Foto-Apps versuchten, ihre Haut aufzuhellen oder ihr Bild zu hypersexualisieren, verstärkten ihr Interesse daran, bei der Erforschung von Sprachmodellen zu helfen.

source-114

Die französische Regierung sagt, dass ein kohlenstoffarmer Strommix ein Anziehungspunkt für ausländische Investitionen sei

Die 12 besten Gewürze von Trader Joe’s, die Sie jetzt punkten können

Weitere Sonnenstürme werden voraussichtlich die Erde treffen

Hitzewelle erfasst den Norden Indiens, während die Quecksilbertemperatur in Delhi 47 °C erreicht

Dieser Showdown zwischen Menschen und Chatbots könnte Sie vor schlechter KI schützen

Leave a Reply Cancel reply