Die Rechtsabteilung von Microsoft hat angeblich einen Ingenieur zum Schweigen gebracht, der Bedenken hinsichtlich DALL-E 3 geäußert hatte


Ein Microsoft-Manager behauptet, dass DALL-E 3 von OpenAI Sicherheitslücken aufweist, die es Benutzern ermöglichen könnten, gewalttätige oder explizite Bilder zu erzeugen (ähnlich denen, die kürzlich Taylor Swift ins Visier genommen haben). GeekWire gemeldet Am Dienstag blockierte die Rechtsabteilung des Unternehmens die Versuche des Microsoft-Entwicklungsleiters Shane Jones, die Öffentlichkeit auf den Exploit aufmerksam zu machen. Der selbsternannte Whistleblower bringt seine Botschaft nun zum Capitol Hill.

„Ich kam zu dem Schluss, dass DALL·E 3 ein Risiko für die öffentliche Sicherheit darstellt und aus der öffentlichen Nutzung genommen werden sollte, bis OpenAI die mit diesem Modell verbundenen Risiken angehen konnte“, schrieb Jones an die US-Senatoren Patty Murray (D-WA) und Maria Cantwell ( D-WA), Rep. Adam Smith (D-WA 9. Bezirk) und Washingtons Generalstaatsanwalt Bob Ferguson (D). GeekWire veröffentlicht Jones‘ vollständiger Brief.

Jones behauptet, er habe Anfang Dezember einen Exploit entdeckt, der es ihm ermöglichte, die Sicherheitsgeländer von DALL-E 3 zu umgehen. Er sagt, er habe das Problem seinen Vorgesetzten bei Microsoft gemeldet, die ihn angewiesen hätten, „das Problem persönlich direkt an OpenAI zu melden“. Danach behauptete er, er habe erfahren, dass der Fehler die Erzeugung „gewalttätiger und verstörender schädlicher Bilder“ ermöglichen könnte.

Jones versuchte daraufhin, sein Anliegen in einem LinkedIn-Beitrag öffentlich zu machen. „Am Morgen des 14. Dezember 2023 veröffentlichte ich auf LinkedIn öffentlich einen Brief an den gemeinnützigen Vorstand von OpenAI, in dem ich ihn aufforderte, die Verfügbarkeit von DALL·E 3) auszusetzen“, schrieb Jones. „Da Microsoft Vorstandsbeobachter bei OpenAI ist und ich meine Bedenken zuvor meinem Führungsteam mitgeteilt hatte, habe ich Microsoft umgehend auf den von mir geposteten Brief aufmerksam gemacht.“

KI-generiertes Bild einer Teetasse mit einer heftigen Welle darin.  Hinter dem Fensterbrett dahinter braut sich ein Sturm zusammen.KI-generiertes Bild einer Teetasse mit einer heftigen Welle darin.  Hinter dem Fensterbrett dahinter braut sich ein Sturm zusammen.

Ein Beispielbild (ein Sturm in einer Teetasse), erstellt von DALL-E 3 (OpenAI)

Microsoft antwortete angeblich mit der Aufforderung, seinen Beitrag zu entfernen. „Kurz nachdem ich den Brief an mein Führungsteam weitergegeben hatte, kontaktierte mich mein Vorgesetzter und teilte mir mit, dass die Rechtsabteilung von Microsoft verlangt habe, dass ich den Beitrag lösche“, schrieb er in seinem Brief. „Er teilte mir mit, dass die Rechtsabteilung von Microsoft ihre konkrete Begründung für den Deaktivierungsantrag sehr bald per E-Mail weitergeben würde und dass ich ihn sofort löschen müsse, ohne auf die E-Mail der Rechtsabteilung warten zu müssen.“

Jones kam der Aufforderung nach, sagte jedoch, dass die detailliertere Antwort der Rechtsabteilung von Microsoft nie eingetroffen sei. „Ich habe von ihnen nie eine Erklärung oder Rechtfertigung erhalten“, schrieb er. Er sagt, weitere Versuche, mehr von der Rechtsabteilung des Unternehmens zu erfahren, seien ignoriert worden. „Die Rechtsabteilung von Microsoft hat immer noch nicht geantwortet oder direkt mit mir kommuniziert“, schrieb er.

Ein OpenAI-Sprecher schrieb in einer E-Mail an Engadget: „Wir haben den Bericht des Microsoft-Mitarbeiters sofort untersucht, als wir ihn am 1. Dezember erhielten, und bestätigt, dass die von ihm geteilte Technik unsere Sicherheitssysteme nicht umgeht.“ Sicherheit hat für uns Priorität und wir verfolgen einen mehrgleisigen Ansatz. Im zugrunde liegenden DALL-E 3-Modell haben wir daran gearbeitet, die explizitesten Inhalte aus den Trainingsdaten herauszufiltern, einschließlich anschaulicher sexueller und gewalttätiger Inhalte, und haben robuste Bildklassifikatoren entwickelt, die das Modell davon abhalten, schädliche Bilder zu erzeugen.

„Wir haben außerdem zusätzliche Schutzmaßnahmen für unsere Produkte ChatGPT und die DALL-E-API implementiert – einschließlich der Ablehnung von Anfragen, bei denen nach dem Namen einer Person des öffentlichen Lebens gefragt wird“, fuhr der OpenAI-Sprecher fort. „Wir identifizieren und lehnen Nachrichten ab, die gegen unsere Richtlinien verstoßen, und filtern alle generierten Bilder, bevor sie dem Benutzer angezeigt werden. Wir nutzen das Red Teaming externer Experten, um Missbrauch zu prüfen und unsere Schutzmaßnahmen zu stärken.“

Unterdessen schrieb ein Microsoft-Sprecher an Engadget: „Wir sind bestrebt, alle Bedenken der Mitarbeiter im Einklang mit unseren Unternehmensrichtlinien auszuräumen, und schätzen die Bemühungen der Mitarbeiter, unsere neueste Technologie zu studieren und zu testen, um deren Sicherheit weiter zu verbessern.“ Wenn es um Sicherheitsumgehungen oder Bedenken geht, die potenzielle Auswirkungen auf unsere Dienstleistungen oder unsere Partner haben könnten, haben wir robuste interne Meldekanäle eingerichtet, um alle Probleme ordnungsgemäß zu untersuchen und zu beheben. Wir haben den Mitarbeitern empfohlen, diese zu nutzen, damit wir sie angemessen validieren und testen können seine Bedenken, bevor er es öffentlich eskaliert.“

„Da sein Bericht ein OpenAI-Produkt betraf, ermutigten wir ihn, über die Standard-Berichtskanäle von OpenAI zu berichten, und einer unserer leitenden Produktleiter teilte das Feedback des Mitarbeiters mit OpenAI, das die Angelegenheit sofort untersuchte“, schrieb der Microsoft-Sprecher. „Gleichzeitig haben unsere Teams untersucht und bestätigt, dass die gemeldeten Techniken unsere Sicherheitsfilter in keiner unserer KI-gestützten Bilderzeugungslösungen umgangen haben. Mitarbeiterfeedback ist ein wichtiger Teil unserer Kultur, und wir setzen uns mit diesem Kollegen in Verbindung, um etwaige verbleibende Bedenken auszuräumen.“

Microsoft fügte hinzu, dass sein Office of Responsible AI ein internes Berichtstool eingerichtet habe, mit dem Mitarbeiter Bedenken hinsichtlich KI-Modellen melden und eskalieren können.

Der Whistleblower sagt, dass die pornografischen Deepfakes von Taylor Swift, die letzte Woche auf 404 Medien gemeldet Am Montag wurde bekannt gegeben, dass Microsoft Designer, der DALL-E 3 als Backend verwendet, Teil des Deepfaker-Toolsets war, das das Video erstellt hat. In der Veröffentlichung wird behauptet, dass Microsoft nach der Benachrichtigung diese spezielle Lücke geschlossen habe.

„Microsoft war sich dieser Schwachstellen und des Missbrauchspotenzials bewusst“, schloss Jones. Es ist nicht klar, ob die zur Erstellung des Swift-Deepfakes verwendeten Exploits in direktem Zusammenhang mit den von Jones im Dezember gemeldeten Exploits standen.

Jones fordert seine Vertreter in Washington, D.C. auf, Maßnahmen zu ergreifen. Er schlägt vor, dass die US-Regierung ein System zur Meldung und Verfolgung spezifischer KI-Schwachstellen einrichtet – und gleichzeitig Mitarbeiter wie ihn schützt, die sich zu Wort melden. „Wir müssen Unternehmen für die Sicherheit ihrer Produkte zur Verantwortung ziehen und dafür sorgen, dass sie der Öffentlichkeit bekannte Risiken offenlegen“, schrieb er. „Besorgte Mitarbeiter wie ich sollten sich nicht zum Schweigen einschüchtern lassen.“

Update, 30. Januar 2024, 20:41 Uhr ET: Diese Geschichte wurde aktualisiert, um Aussagen von OpenAI und Microsoft zu Engadget hinzuzufügen.

source-115

Leave a Reply