Ein neues Tool von Forschern der University of Chicago verspricht, Kunst davor zu schützen, von KI-Modellen aufgesaugt und ohne Erlaubnis für Schulungen verwendet zu werden, indem Bilddaten „vergiftet“ werden.
Bekannt als NachtschattenDas Tool optimiert digitale Bilddaten auf eine Weise, die angeblich für das menschliche Auge unsichtbar ist, aber bei generativen Trainingsmodellen wie DALL-E, Midjourney und Stable Diffusion allerlei Ärger verursacht.
Die als Data Poisoning bekannte Technik soll „unerwartete Verhaltensweisen in Modelle des maschinellen Lernens zur Trainingszeit“ einführen. Das behauptet das Team der University of Chicago ihre Forschungsarbeit zeigt, dass solche Vergiftungsangriffe „überraschend“ erfolgreich sein können.
Anscheinend sehen Sie die Bilder der Giftproben „optisch identisch“ mit harmlosen Bildern aus. Es wird behauptet, dass die Nachtschatten-Geschenkproben „auf Wirksamkeit optimiert“ sind und eine stabile Diffusion SDXL-Eingabeaufforderung in weniger als 100 Geschenkproben beschädigen könnten.
Die Einzelheiten der Funktionsweise der Technologie sind nicht ganz klar, aber sie beinhaltet die Veränderung von Bildpixeln auf eine Weise, die für das menschliche Auge unsichtbar ist und gleichzeitig dazu führt, dass die maschinellen Lernmodelle den Inhalt falsch interpretieren. Es wird behauptet, dass die verfälschten Daten sehr schwer zu entfernen seien, was bedeutet, dass jedes verunreinigte Bild manuell identifiziert und aus dem Modell entfernt werden muss.
Anhand von Stable Diffusion als Testperson stellt die Forscher fest, dass nur 300 Giftproben erforderlich waren, um das Modell zu verwirren und zu glauben, ein Hund sei eine Katze oder ein Hut sei ein Kuchen. Oder ist es umgekehrt?
Wie auch immer, sie sagen auch, dass sich die Auswirkungen der vergifteten Bilder auf verwandte Konzepte erstrecken können, was es einer moderaten Anzahl von Nightshade-Angriffen ermöglicht, „allgemeine Funktionen in einem Text-zu-Bild-generativen Modell zu destabilisieren und seine Fähigkeit.“ , aussagekräftige Bilder zu erzeugen, effektiv zu deaktivieren.“
Dennoch räumt das Team ein, dass es nicht ganz so einfach ist, die größeren Modelle zu Fall zu bringen. Dazu wären Tausende vergifteter Bilder nötig. Was aus Sicht eines böswilligen Schauspielers wahrscheinlich eine gute Sache ist. Mit anderen Worten: Es bedarf einer konzertierten Anstrengung, um ein bestimmtes großes generatives Modell zu untergraben.
Ist das auch – Mist! – Ihr KI-Bildgebungsmodell in Rauch aufgegangen? Vielleicht, aber könnte man sich auch vorstellen, dass der mächtige generative Schwarmgeist der KI nach der Enthüllung der Technologie ganze drei Pikosekunden benötigt, um solche Maßnahmen zu registrieren, sich anzupassen und sie völlig überflüssig zu machen? An diesem Punkt wehrt sich der Mensch mit einem neuen Angriffsvektor und der ewige Kampf geht weiter, während sich Schädel und Maschinenteile im postthermonuklearen Ödland häufen.
Oder etwas Ähnliches. Es wird sicherlich interessant sein zu sehen, ob diese Art von Gegenmaßnahme wirklich funktioniert, und vielleicht noch relevanter, wie lange sie anhält, wenn sie funktioniert.