In einer Klage, die die New York Times letzte Woche beim Bundesgericht in Manhattan eingereicht hat, wird behauptet, dass die Beklagten – Microsoft und OpenAI – Millionen ihrer Artikel verwendet haben, um ihre großen Sprachmodelle (LLMs) und andere Produkte zu trainieren und zu erstellen. Die Times verlangt Schadensersatz in Milliardenhöhe, nennt jedoch keine konkrete Zahl.
Aber ja, es wird eine ziemlich hohe Auszahlung erwarten, wenn es gewinnt.
„Das Gesetz lässt die Art von systematischem und wettbewerbswidrigem Verstoß, den die Beklagten begangen haben, nicht zu“, heißt es in der Mitteilung offizielle Beschwerde (PDF-Warnung). „Diese Klage zielt darauf ab, sie für die gesetzlichen und tatsächlichen Schadensersatzforderungen in Milliardenhöhe zur Verantwortung zu ziehen, die sie für das rechtswidrige Kopieren und Verwenden der einzigartig wertvollen Werke der Times schulden.“
In der Klage heißt es, dass die New York Times „seit Monaten“ mit den Angeklagten verhandelt habe und dass sie „im Einklang mit ihrer Geschichte der produktiven Zusammenarbeit mit großen Technologieplattformen“ eine Einigung anstrebte, um die Nutzung ihrer Inhalte in neuen Formaten zu ermöglichen digitale Produkte.“ Die in dem Gerichtsdokument dargelegte Idee besteht darin, dass das Ziel sowohl darin bestand, einen angemessenen Wert aus seinem Beitrag zur Schulung zu ziehen, da die Inhalte der Times während der Schulung gewichtet wurden, als auch „die Fortsetzung eines gesunden Nachrichten-Ökosystems zu erleichtern“. und dazu beitragen, die GenAI-Technologie auf verantwortungsvolle Weise zu entwickeln, die der Gesellschaft zugute kommt und eine gut informierte Öffentlichkeit unterstützt.“
Seinerseits wird eine Aussage einer OpenAI-Sprecherin, Lindsey Held, zitiert von Der Artikel der New York Times selbst Das Unternehmen sei der Meinung, dass die Verhandlungen konstruktiv verlaufen seien, und sei von der Klage „überrascht und enttäuscht“ gewesen.
„Wir hoffen, dass wir einen für beide Seiten vorteilhaften Weg der Zusammenarbeit finden“, werden sie zitiert, „wie wir es mit vielen anderen Verlagen tun.“
Einer der faszinierendsten Teile der Klage und wohl der Teil, der The Times in Aufruhr versetzt, ist, dass es den Anschein hat, als hätte OpenAI den Inhalten des Herausgebers bei der Schulung seiner LLMs besonderes Gewicht beigemessen.
Insbesondere während des Trainings von GPT-3 heißt es in der Klage, dass einer der Schlüsseldatensätze – einer, der als qualitativ hochwertiger Satz gewichtet wurde – fast 210.000 eindeutige URLs der New York Times verwendete, was 1,23 % aller Quellen im Datensatz ausmachte.
Der größte und am stärksten gewichtete Datensatz, der zum Trainieren von GPT-3 verwendet wird, umfasst jedoch „mindestens 16 Millionen eindeutige Datensätze mit Inhalten aus The Times in den Bereichen News, Cooking, Wirecutter und The Athletic“.
Weiter heißt es weiter, dass OpenAI selbst erklärt habe, dass die Datensätze, die seiner Meinung nach die qualitativ hochwertigsten seien, während des Trainings eines Modells dann häufiger abgetastet würden. „Nach OpenAIs eigenem Eingeständnis“, heißt es in dem Gerichtsdokument, „waren qualitativ hochwertige Inhalte, darunter Inhalte aus The Times, für das Training der GPT-Modelle wichtiger und wertvoller als Inhalte aus anderen, minderwertigen Quellen.“
Dies ist nicht die erste Klage gegen OpenAI wegen Urheberrechtsverletzung bei der Ausbildung seiner LLMs, wie The Times feststellt, dass es auch eine Klage gegeben hat Klage von 17 Autorendarunter George RR Martin und John Grisham, gegen das Unternehmen wegen „systematischen Diebstahls in großem Maßstab“ und eines von Getty gegen Stabilitäts-KIdie Schöpfer des generativen KI-Bildmachers Stable Diffusion, über die Verwendung seiner Bilder beim Training seines Modells.
Und es dürfte auch nicht die letzte Klage gegen KI-Hersteller sein. Aber angesichts der scheinbaren Zurückhaltung von KI-Unternehmen, die Probleme der Urheberrechtsverletzung anzugehen, und einer fairen Entschädigung für die Schulung ihrer milliardenschweren Produkte selbst, sieht es so aus, als wären Gerichtsverfahren eine der wenigen Möglichkeiten, sie unter Kontrolle zu halten.