Forscher fanden Material über Kindesmissbrauch im größten Datensatz zur KI-Bildgenerierung


Forscher des Stanford Internet Observatory sagen, dass ein Datensatz, der zum Trainieren von KI-Bilderzeugungstools verwendet wird, mindestens 1.008 validierte Fälle von Material über sexuellen Kindesmissbrauch enthält. Die Stanford-Forscher stellen fest, dass das Vorhandensein von CSAM im Datensatz es KI-Modellen, die auf den Daten trainiert wurden, ermöglichen könnte, neue und sogar realistische Instanzen von CSAM zu generieren.

LAION, die gemeinnützige Organisation, die den Datensatz erstellt hat, teilte mit 404 Medien dass es „eine Null-Toleranz-Politik gegenüber illegalen Inhalten verfolgt und wir aus Vorsicht die LAION-Datensätze vorübergehend entfernen, um sicherzustellen, dass sie sicher sind, bevor wir sie erneut veröffentlichen.“ Die Organisation fügte hinzu, dass sie vor der Veröffentlichung ihrer Datensätze Filter erstellt habe, um illegale Inhalte zu erkennen und daraus zu entfernen. Jedoch, 404 weist darauf hin, dass sich die LAION-Führungskräfte seit mindestens 2021 darüber im Klaren sind, dass die Möglichkeit besteht, dass ihre Systeme CSAM auffangen, während sie Milliarden von Bildern aus dem Internet saugen.

Laut früheren BerichtenDer fragliche LAION-5B-Datensatz enthält „Millionen Bilder von Pornografie, Gewalt, Nacktheit von Kindern, rassistischen Memes, Hasssymbolen, urheberrechtlich geschützter Kunst und Werken, die von Websites privater Unternehmen stammen.“ Insgesamt umfasst es mehr als 5 Milliarden Bilder und zugehörige beschreibende Bildunterschriften (der Datensatz selbst enthält keine Bilder, sondern Links zu Scraping-Bildern und Alternativtext). LAION-Gründer Christoph Schuhmann sagte Anfang des Jahres, dass ihm zwar kein CSAM im Datensatz bekannt sei, er die Daten jedoch nicht eingehend untersucht habe.

Für die meisten Institutionen in den USA ist es illegal, CSAM zu Überprüfungszwecken einzusehen. Daher nutzten die Stanford-Forscher mehrere Techniken, um nach potenziellem CSAM zu suchen. Entsprechend ihr PapierSie verwendeten „perzeptuelle Hash-basierte Erkennung, kryptografische Hash-basierte Erkennung und Analyse der nächsten Nachbarn unter Nutzung der Bildeinbettungen im Datensatz selbst.“ Sie fanden 3.226 Einträge, die mutmaßliche CSAM enthielten. Viele dieser Bilder wurden von Dritten wie PhotoDNA und dem Canadian Centre for Child Protection als CSAM bestätigt.

Der Gründer von Stability AI, Emad Mostaque, trainierte Stable Diffusion mithilfe einer Teilmenge von LAION-5B-Daten. Die erste Forschungsversion des Imagen-Text-zu-Bild-Modells von Google wurde auf LAION-400M trainiert, aber nie veröffentlicht; Laut Google verwendet keine der folgenden Imagen-Iterationen LAION-Datensätze. Ein Sprecher von Stability AI sagte Bloomberg dass es die Verwendung seiner Test-to-Image-Systeme für illegale Zwecke wie die Erstellung oder Bearbeitung von CSAM verbietet. „Dieser Bericht konzentriert sich auf den LAION-5B-Datensatz als Ganzes“, sagte der Sprecher. „Stabilitäts-KI-Modelle wurden auf einer gefilterten Teilmenge dieses Datensatzes trainiert. Darüber hinaus haben wir diese Modelle verfeinert, um Restverhalten abzuschwächen.“

Stable Diffusion 2 (eine neuere Version des Bildgenerierungstools von Stability AI) wurde auf Daten trainiert, die „unsichere“ Materialien im Wesentlichen aus dem Datensatz herausfilterten. Das, Bloomberg Notizen machen es für Benutzer schwieriger, explizite Bilder zu generieren. Es wird jedoch behauptet, dass Stable Diffusion 1.5, das immer noch im Internet verfügbar ist, nicht über den gleichen Schutz verfügt. „Modelle, die auf Stable Diffusion 1.5 basieren und auf die keine Sicherheitsmaßnahmen angewendet wurden, sollten veraltet sein und deren Verbreitung, soweit möglich, eingestellt werden“, schrieben die Autoren des Stanford-Papiers.

Korrektur, 16:30 Uhr ET: In dieser Geschichte hieß es ursprünglich, dass das Imagen-Tool von Google eine Teilmenge der LAION-5B-Daten verwendet habe. Die Geschichte wurde aktualisiert und weist darauf hin, dass Imagen in seiner ersten Forschungsversion LAION-400M verwendete, seitdem jedoch keine LAION-Daten mehr verwendet hat. Wir entschuldigen uns für den Fehler.

source-115

Leave a Reply