Berichten zufolge nutzten OpenAI und Google Transkriptionen von YouTube-Videos, um ihre KI-Modelle zu trainieren


OpenAI und Google trainierten ihre KI-Modelle anhand von Texten, die aus YouTube-Videos transkribiert wurden, was möglicherweise die Urheberrechte der Urheber verletzt, heißt es Die New York Times. Der Bericht, der beschreibt, welche Anstrengungen OpenAI, Google und Meta unternommen haben, um die Datenmenge zu maximieren, die sie ihren KIs zuführen können, zitiert zahlreiche Personen mit Kenntnissen über die Praktiken der Unternehmen. Es kommt nur wenige Tage, nachdem YouTube-CEO Neal Mohan in einem Interview mit sagte Bloomberg-Originale dass die angebliche Verwendung von YouTube-Videos durch OpenAI zum Trainieren seines neuen Text-zu-Video-Generators Sora gegen die Richtlinien der Plattform verstoßen würde.

Entsprechend der NYTOpenAI nutzte sein Spracherkennungstool Whisper, um mehr als eine Million Stunden YouTube-Videos zu transkribieren, die dann zum Trainieren von GPT-4 verwendet wurden. Die Information Zuvor wurde berichtet, dass OpenAI YouTube-Videos und Podcasts verwendet habe, um die beiden KI-Systeme zu trainieren. Berichten zufolge gehörte OpenAI-Präsident Greg Brockman zu den Leuten in diesem Team. Gemäß den Regeln von Google sei „unerlaubtes Scraping oder Herunterladen von YouTube-Inhalten“ nicht erlaubt, sagte Matt Bryant, ein Sprecher von Google NYTund sagte auch, dass dem Unternehmen keine Kenntnis von einer solchen Nutzung durch OpenAI bekannt sei.

Der Bericht behauptet jedoch, dass es Leute bei Google gab, die davon wussten, aber nicht gegen OpenAI vorgingen, weil Google YouTube-Videos zum Trainieren seiner eigenen KI-Modelle nutzte. Google hat es erzählt NYT Dies geschieht jedoch nur bei Videos von Erstellern, die dem zugestimmt haben. Engadget hat Google und OpenAI um einen Kommentar gebeten.

Der NYT In dem Bericht wird außerdem behauptet, Google habe im Juni 2023 ein Team gebeten, seine Datenschutzrichtlinie zu optimieren, um die Nutzung öffentlich verfügbarer Inhalte, einschließlich Google Docs und Google Sheets, zum Trainieren seiner KI-Modelle und -Produkte umfassender abzudecken. Die Änderungen, die laut Google aus Gründen der Klarheit vorgenommen wurden, wurden im Juli veröffentlicht. Bryant erzählte NYT dass diese Art von Daten nur mit der Erlaubnis von Nutzern verwendet wird, die sich für die experimentellen Funktionstests von Google entschieden haben, und dass das Unternehmen „basierend auf dieser Sprachänderung nicht mit dem Training für zusätzliche Datentypen begonnen hat“. Durch die Änderung wurde Bard als Beispiel dafür hinzugefügt, wofür diese Daten verwendet werden könnten.

Korrektur, 6. April 2024, 15:45 Uhr ET: In dieser Geschichte hieß es ursprünglich, dass Google seine Datenschutzrichtlinie im Juni 2022 aktualisiert habe. Die Richtlinienaktualisierung erfolgte tatsächlich im Jahr 2023. Wir entschuldigen uns für den Fehler.

source-115

Leave a Reply