KI-Tools trainieren heimlich anhand echter Kinderbilder


Über 170 Bilder und persönliche Daten von Kindern aus Brasilien wurden ohne deren Wissen oder Zustimmung aus einem Open-Source-Datensatz extrahiert und zum Trainieren von KI verwendet, behauptet ein neuer Bericht von Human Rights Watch, am Montag veröffentlicht.

Die Bilder wurden dem Bericht zufolge aus Inhalten entnommen, die erst 2023 und Mitte der 1990er Jahre gepostet wurden, lange bevor ein Internetnutzer damit rechnen konnte, dass ihre Inhalte zum Trainieren von KI verwendet werden könnten. Human Rights Watch behauptet, dass persönliche Daten dieser Kinder sowie Links zu ihren Fotos in LAION-5B enthalten waren, einem Datensatz, der eine beliebte Quelle für Trainingsdaten für KI-Startups ist.

„Ihre Privatsphäre wird zunächst einmal verletzt, wenn ihr Foto herausgekratzt und in diese Datensätze aufgenommen wird. Und dann werden diese KI-Tools anhand dieser Daten trainiert und können daher realistische Bilder von Kindern erstellen“, sagt Hye Jung Han, Kinderrechts- und Technologieforscherin bei Human Rights Watch und die Forscherin, die diese Bilder gefunden hat. „Die Technologie ist so entwickelt, dass jedes Kind, das ein Foto oder Video von sich online hat, nun gefährdet ist, weil jeder böswillige Akteur dieses Foto nehmen und dann diese Tools verwenden könnte, um es nach Belieben zu manipulieren.“

LAION-5B basiert auf Common Crawl – einem Datenrepository, das durch das Scraping des Internets erstellt und Forschern zur Verfügung gestellt wurde – und wurde zum Trainieren mehrerer KI-Modelle verwendet, darunter das Bildgenerierungstool Stable Diffusion von Stability AI. Der von der deutschen gemeinnützigen Organisation LAION erstellte Datensatz ist frei zugänglich und umfasst laut ihrer Website mittlerweile mehr als 5,85 Milliarden Bild- und Bildunterschriftenpaare.

Die von den Forschern gefundenen Kinderbilder stammten aus Mama-Blogs und anderen persönlichen Blogs zu Schwangerschafts- oder Elternthemen sowie aus Standbildern aus YouTube-Videos mit wenigen Aufrufen, die offenbar hochgeladen wurden, um sie mit Familie und Freunden zu teilen.

„Wenn man sich nur den Kontext ansieht, in dem sie gepostet wurden, genossen sie eine gewisse Erwartung und ein gewisses Maß an Privatsphäre“, sagt Hye. „Die meisten dieser Bilder konnten online nicht über eine umgekehrte Bildersuche gefunden werden.“

LAION-Sprecher Nate Tyler sagt, die Organisation habe bereits Maßnahmen ergriffen. „LAION-5B wurde als Reaktion auf einen Bericht der Stanford University abgeschaltet, der im Datensatz Links zu illegalen Inhalten im öffentlichen Web gefunden hat“, sagt er und fügt hinzu, die Organisation arbeite derzeit mit der „Internet Watch Foundation, dem Canadian Centre for Child Protection, Stanford und Human Rights Watch zusammen, um alle bekannten Verweise auf illegale Inhalte zu entfernen.“

YouTube Nutzungsbedingungen erlauben Scraping nur unter bestimmten Umständen; diese Fälle scheinen gegen diese Richtlinien zu verstoßen. „Wir haben klar gemacht, dass das unbefugte Scraping von YouTube-Inhalten einen Verstoß gegen unsere Servicebedingungen darstellt“, sagt YouTube-Sprecher Jack Maon, „und wir gehen weiterhin gegen diese Art von Missbrauch vor.“

Im Dezember, Forscher der Stanford University fanden heraus dass die von LAION-5B gesammelten KI-Trainingsdaten Material über sexuellen Kindesmissbrauch enthielten. Das Problem expliziter Deepfakes nimmt sogar unter Schülern an US-Schulen zu, wo sie verwendet werden, um Klassenkameraden, insbesondere Mädchen, zu schikanieren. Hye befürchtet, dass die Datenbank neben der Verwendung von Kinderfotos zur Generierung von CSAM auch potenziell sensible Informationen wie Standorte oder medizinische Daten preisgeben könnte. Im Jahr 2022 hat ein in den USA ansässiger Künstler fand ihr eigenes Bild im LAION-Datensatzund stellte fest, dass es aus ihrer privaten Krankenakte stammte.

source-114

Leave a Reply