Berichten zufolge werden Tumblr- und WordPress-Beiträge für OpenAI- und Midjourney-Schulungen verwendet


Berichten zufolge wollen Tumblr und WordPress Vereinbarungen treffen, um Benutzerdaten an die Unternehmen für künstliche Intelligenz OpenAI und Midjourney zu verkaufen. 404 Medien Berichte dass die Muttergesellschaft der Plattformen, Automattic, kurz vor dem Abschluss einer Vereinbarung zur Bereitstellung von Daten steht, um die Modelle der KI-Unternehmen zu trainieren.

Es ist nicht klar, welche Daten einbezogen werden, aber der Bericht deutet darauf hin, dass Automattic anfangs möglicherweise zu weit gegangen ist. Ein angeblicher interner Beitrag des Tumblr-Produktmanagers Cyle Gage deutet darauf hin, dass Automattic bereit war, private oder partnerbezogene Daten zu senden, die eigentlich nicht im Deal enthalten sein sollten. Zu den fragwürdigen Inhalten gehörten Berichten zufolge private Beiträge in öffentlichen Blogbeiträgen, gelöschte oder gesperrte Blogs, unbeantwortete (also nicht öffentlich gepostete) Fragen, private Antworten, als explizit gekennzeichnete Beiträge und Inhalte von Premium-Partnerblogs (wie der ehemaligen Musikseite von Apple).

Der interne Beitrag legt nahe, dass die Ingenieure von Automattic eine Liste von Beitrags-IDs vorbereiten, die hätten ausgeschlossen werden sollen. Es ist nicht klar, ob die Daten bereits an die KI-Unternehmen gesendet wurden.

Engadget schickte eine E-Mail an Automattic mit der Bitte um einen Kommentar zum Bericht. Das Unternehmen antwortete mit einem veröffentlichte Stellungnahme, mit der Behauptung: „Wir werden nur öffentliche Inhalte teilen, die auf WordPress.com und Tumblr von Websites gehostet werden, die sich nicht abgemeldet haben.“ In der Erklärung wird darauf hingewiesen, dass die Webcrawler von KI-Unternehmen derzeit aufgrund gesetzlicher Vorschriften nicht dazu verpflichtet sind, sich an die Opt-out-Präferenzen der Nutzer zu halten.

Die letzte Zeile der Aussage von Automattic scheint mit den gemeldeten Deals übereinzustimmen. „Wir arbeiten auch direkt mit ausgewählten KI-Unternehmen zusammen, solange ihre Pläne mit den Anliegen unserer Community übereinstimmen: Namensnennung, Opt-outs und Kontrolle“, schrieb Automattic. „Unsere Partnerschaften werden alle Opt-out-Einstellungen respektieren. Wir planen außerdem, noch einen Schritt weiter zu gehen und alle Partner regelmäßig über Personen zu informieren, die sich neu abgemeldet haben, und darum bitten, dass ihre Inhalte aus früheren Quellen und zukünftigen Schulungen entfernt werden.“

NEW YORK, NEW YORK – 12. DEZEMBER: Sam Altman spricht auf der Bühne während A Year in TIME im Plaza Hotel am 12. Dezember 2023 in New York City.  (Foto von Mike Coppola/Getty Images für TIME)NEW YORK, NEW YORK – 12. DEZEMBER: Sam Altman spricht auf der Bühne während A Year in TIME im Plaza Hotel am 12. Dezember 2023 in New York City.  (Foto von Mike Coppola/Getty Images für TIME)

OpenAI-CEO Sam Altman (Mike Coppola über Getty Images)

Berichten zufolge plant das Unternehmen am Mittwoch die Einführung eines neuen Opt-out-Tools, das es Benutzern angeblich ermöglichen soll, Dritte – einschließlich KI-Unternehmen – daran zu hindern, Schulungen zu ihren Daten durchzuführen. 404 Medien überprüfte eine angebliche interne FAQ, die Automattic für das Tool vorbereitet hatte und die die Antwort enthielt: „Wenn Sie sich von Anfang an abmelden, werden wir Crawler daran hindern, auf Ihre Inhalte zuzugreifen, indem wir Ihre Website auf eine Liste nicht zugelassener Websites setzen.“ Wenn Sie Ihre Meinung später ändern, planen wir auch, alle Partner über Personen zu informieren, die sich neu abgemeldet haben, und darum zu bitten, dass ihre Inhalte aus früheren Quellen und zukünftigen Schulungen entfernt werden.“

Die Formulierung, dass es sich um eine „Aufforderung“ an die KI-Unternehmen handelt, die Daten zu entfernen, könnte relevant sein.

In einem angeblichen internen Dokument des KI-Leiters von Automattic, Andrew Spittle, wird auf eine Mitarbeiterfrage zu den Zusicherungen der Datenlöschung bei der Verwendung des Tools geantwortet: „Wir werden bestehende Partner regelmäßig über alle benachrichtigen, die sich seit unserer letzten Bereitstellung abgemeldet haben.“ eine Liste. Ich möchte, dass dies ein fortlaufender Prozess ist, bei dem wir uns regelmäßig dafür einsetzen, dass frühere Inhalte aufgrund aktueller Präferenzen ausgeschlossen werden. Wir werden darum bitten, Inhalte zu löschen und aus künftigen Trainingsläufen zu entfernen. Ich glaube, dass die Partner dies aufgrund unserer bisherigen Gespräche mit ihnen anerkennen werden. Ich glaube nicht, dass sie insgesamt viel gewinnen, wenn sie es beibehalten.“

Wenn also ein Tumblr- oder WordPress-Benutzer darum bittet, sich vom KI-Training abzumelden, wird Automattic angeblich die Entfernung „fordern“ und „befürworten“. Und der KI-Chef des Unternehmens „glaubt“, dass die KI-Unternehmen es in ihrem besten Interesse finden werden, „basierend auf unseren Gesprächen“ die Vorschriften einzuhalten. (Wie ist das zur Beruhigung!)

Schulungsangebote für KI-Daten sind zu einer lukrativen Gelegenheit für Websites geworden, die in der heutigen unsicheren Online-Publishing-Landschaft auf der Stelle treten. (Berichten zufolge wurde die Belegschaft von Tumblr Ende 2023 auf eine Notbesatzung reduziert.) Letzte Woche schloss Google einen Vertrag mit Reddit (vor dessen Börsengang), um auf der umfangreichen Wissensbasis der Plattform an von Nutzern erstellten Inhalten zu schulen. Unterdessen hat OpenAI letztes Jahr ein Partnerschaftsprogramm eingeführt, um Datensätze von Dritten zu sammeln, um das Training seiner KI-Modelle zu unterstützen.

Update, 27. Februar 2024, 15:56 Uhr ET: Diese Geschichte wurde aktualisiert, um eine veröffentlichte Stellungnahme der WordPress- und Tumblr-Muttergesellschaft Automattic hinzuzufügen.

source-115

Leave a Reply