Bei einer Massenveranstaltung können Hacker die Grenzen der KI-Technologie testen


Kaum war ChatGPT freigeschaltet, begannen Hacker, den Chatbot mit künstlicher Intelligenz zu „jailbreaken“ – und versuchten, seine Sicherheitsvorkehrungen außer Kraft zu setzen, damit er mit etwas Unbeholfenem oder Obszönem herausplatzen konnte.

Aber jetzt stimmen sich sein Hersteller OpenAI und andere große KI-Anbieter wie Google und Microsoft mit der Biden-Regierung ab um Tausenden von Hackern die Möglichkeit zu geben, die Grenzen ihrer Technologie auszutesten.

Sie werden unter anderem nach Folgendem suchen: Wie können Chatbots so manipuliert werden, dass sie Schaden anrichten? Werden sie die privaten Informationen, die wir ihnen anvertrauen, an andere Benutzer weitergeben? Und warum gehen sie davon aus, dass ein Arzt ein Mann und eine Krankenschwester eine Frau ist?

„Deshalb brauchen wir Tausende von Menschen“, sagte Rumman Chowdhury, Hauptkoordinator der Massen-Hacking-Veranstaltung, die für die Hacker-Convention DEF CON diesen Sommer in Las Vegas geplant ist und voraussichtlich mehrere Tausend Menschen anziehen wird. „Wir brauchen viele Leute mit einem breiten Spektrum an gelebten Erfahrungen, Fachkenntnissen und Hintergründen, die diese Modelle hacken und versuchen, Probleme zu finden, die dann behoben werden können.“

Jeder, der ChatGPT, Microsofts Bing-Chatbot oder Googles Bard ausprobiert hat, wird schnell gelernt haben, dass sie dazu neigen, Informationen zu fabrizieren und sie selbstbewusst als Tatsachen darzustellen. Diese Systeme, die auf sogenannten großen Sprachmodellen basieren, Sie ahmen auch die kulturellen Vorurteile nach, die sie gelernt haben, indem sie auf riesigen Beständen dessen, was Menschen online geschrieben haben, geschult wurden.

Die Idee eines Massenhacks erregte die Aufmerksamkeit von US-Regierungsbeamten im März beim South by Southwest Festival in Austin, Texas, wo Sven Cattell, Gründer des langjährigen AI Village der DEF CON, und Austin Carson, Präsident der gemeinnützigen Organisation für verantwortungsvolle KI, SeedAI, teilnahmen , half bei der Leitung eines Workshops, bei dem Community-College-Studenten dazu eingeladen wurden, ein KI-Modell zu hacken.

Carson sagte, diese Gespräche hätten schließlich zu einem Vorschlag geführt, KI-Sprachmodelle gemäß den Richtlinien des Blueprints des Weißen Hauses für eine KI-Bill of Rights zu testen – eine Reihe von Grundsätzen, um die Auswirkungen algorithmischer Verzerrungen zu begrenzen und Benutzern die Kontrolle über ihre Daten zu geben und sorgen dafür, dass automatisierte Systeme sicher und transparent genutzt werden.

Es gibt bereits eine Community von Benutzern, die ihr Bestes geben, um Chatbots auszutricksen und ihre Fehler aufzuzeigen. Bei einigen handelt es sich um offizielle „rote Teams“, die von den Unternehmen autorisiert wurden, die KI-Modelle „sofort anzugreifen“, um deren Schwachstellen aufzudecken. Viele andere sind Hobbyisten, die in sozialen Medien mit humorvollen oder verstörenden Beiträgen angeben, bis sie wegen Verstoßes gegen die Nutzungsbedingungen eines Produkts gesperrt werden.

„Was jetzt passiert, ist eine Art Scattershot-Ansatz, bei dem Leute etwas finden, es auf Twitter viral geht“, und dann kann es sein, dass es behoben wird oder auch nicht, wenn es ungeheuerlich genug ist oder die Person, die darauf aufmerksam macht, einflussreich ist, sagte Chowdhury.

In einem Beispiel, das als „Oma-Exploit“ bekannt ist, konnten Benutzer Chatbots dazu bringen, ihnen zu sagen, wie man eine Bombe baut – eine Bitte, die ein kommerzieller Chatbot normalerweise ablehnt –, indem sie ihn aufforderten, so zu tun, als wäre es eine Großmutter, die eine Gute-Nacht-Geschichte erzählte wie man eine Bombe baut.

In einem anderen Beispiel wurde mit einer frühen Version des Bing-Suchmaschinen-Chatbots von Microsoft nach Chowdhury gesucht – das auf der gleichen Technologie wie ChatGPT basiert, aber Echtzeitinformationen aus dem Internet abrufen kann – führte zu einem Profil, in dem spekuliert wurde, dass Chowdhury „jeden Monat gerne neue Schuhe kauft“, und seltsame und geschlechtsspezifische Aussagen über ihr körperliches Erscheinungsbild machte.

Chowdhury half bei der Einführung einer Methode zur Belohnung der Entdeckung algorithmischer Voreingenommenheit im AI Village der DEF CON im Jahr 2021, als sie Leiterin des KI-Ethikteams von Twitter war – eine Position, die seitdem mit der Übernahme des Unternehmens durch Elon Musk im Oktober gestrichen wurde. Hackern ein „Kopfgeld“ zu zahlen, wenn sie einen Sicherheitsfehler entdecken, ist in der Cybersicherheitsbranche üblich – für Forscher, die sich mit schädlichen KI-Voreingenommenheiten befassen, war dies jedoch ein neueres Konzept.

Die diesjährige Veranstaltung wird einen viel größeren Umfang haben und ist die erste, die sich mit den großen Sprachmodellen befasst, die seit der Veröffentlichung von ChatGPT Ende letzten Jahres einen Anstieg des öffentlichen Interesses und der kommerziellen Investitionen hervorgerufen haben.

Chowdhury, heute Mitbegründer der gemeinnützigen KI-Rechenschaftspflichtorganisation Humane Intelligence, sagte, es gehe nicht nur darum, Fehler zu finden, sondern auch darum, Wege zu finden, diese zu beheben.

„Dies ist eine direkte Pipeline, um Unternehmen Feedback zu geben“, sagte sie. „Es ist nicht so, dass wir einfach diesen Hackathon machen und alle nach Hause gehen. Wir werden Monate nach der Übung damit verbringen, einen Bericht zu erstellen, in dem wir häufige Schwachstellen, aufgetretene Dinge und Muster, die wir gesehen haben, erläutern.“

Über einige Details wird noch verhandelt, aber zu den Unternehmen, die sich bereit erklärt haben, ihre Modelle zum Testen bereitzustellen, gehören OpenAI, Google, der Chiphersteller Nvidia und die Startups Anthropic, Hugging Face und Stability AI. Die Plattform für die Tests wird von einem weiteren Startup namens Scale AI aufgebaut, das dafür bekannt ist, Menschen mit der Schulung von KI-Modellen zu beauftragen durch Kennzeichnung von Daten.

„Da diese Stiftungsmodelle immer weiter verbreitet werden, ist es wirklich wichtig, dass wir alles tun, was wir können, um ihre Sicherheit zu gewährleisten“, sagte Alexandr Wang, CEO von Scale. „Sie können sich vorstellen, dass jemand auf der einen Seite der Welt sehr sensible oder detaillierte Fragen stellt, darunter auch einige seiner persönlichen Daten. Sie möchten nicht, dass diese Informationen an andere Benutzer weitergegeben werden.“

Weitere Gefahren, die Wang fürchtet, sind Chatbots, die „unglaublich schlechte medizinische Ratschläge“ oder andere Fehlinformationen geben, die ernsthaften Schaden anrichten können.

Anthropic-Mitbegründer Jack Clark sagte, die DEF CON-Veranstaltung werde hoffentlich der Beginn eines tieferen Engagements von KI-Entwicklern sein, die Sicherheit der Systeme, die sie bauen, zu messen und zu bewerten.

„Unsere grundlegende Ansicht ist, dass KI-Systeme sowohl vor als auch nach der Bereitstellung Bewertungen durch Dritte benötigen. Red-Teaming ist eine Möglichkeit, dies zu erreichen“, sagte Clark. „Wir müssen üben, herauszufinden, wie das geht. Das wurde noch nie wirklich gemacht.“

source-123

Leave a Reply