Der Kampf um generative KI weist einen grundlegenden Fehler auf


Letzte Woche, die Die Authors Guild hat einen offenen Brief an die Führungskräfte einiger der weltweit größten generativen KI-Unternehmen geschickt. Es wurde von mehr als 9.000 Autoren unterzeichnet, darunter prominenten Autoren wie George Saunders und Margaret Atwood, und forderte Unternehmen wie Alphabet, OpenAI, Meta und Microsoft auf, „die Einwilligung einzuholen, Autoren anzuerkennen und Autoren für die Verwendung urheberrechtlich geschützter Materialien beim Training von KI angemessen zu entschädigen.“ Der Plädoyer ist nur der jüngste in einer Reihe von Bemühungen von Kreativen, sich Anerkennung und Entschädigung für die Rolle zu sichern, die ihre Arbeit ihrer Aussage nach bei der Ausbildung generativer KI-Systeme gespielt hat.

Die für große Sprachmodelle (LLMs) und andere generative KI-Systeme verwendeten Trainingsdaten wurden geheim gehalten. Doch je häufiger diese Systeme eingesetzt werden, desto mehr bemerken Schriftsteller und bildende Künstler Ähnlichkeiten zwischen ihrer Arbeit und dem Ergebnis dieser Systeme. Viele haben generative KI-Unternehmen aufgefordert, ihre Datenquellen offenzulegen und – wie im Fall der Authors Guild – diejenigen zu entschädigen, deren Werke verwendet wurden. Bei einigen der Klagegründe handelt es sich um offene Briefe und Social-Media-Beiträge, bei einer zunehmenden Zahl handelt es sich jedoch um Klagen.

Dabei spielt das Urheberrecht eine große Rolle. Dennoch ist es ein Werkzeug, das kaum in der Lage ist, das gesamte Ausmaß der Ängste von Künstlern anzugehen, seien es langjährige Sorgen um Beschäftigung und Vergütung in einer durch das Internet auf den Kopf gestellten Welt oder neue Sorgen um Privatsphäre und persönliche – und nicht urheberrechtlich geschützte – Eigenschaften. Für viele dieser Fragen kann das Urheberrecht nur begrenzte Antworten bieten. „Es gibt viele Fragen, die KI für fast jeden Aspekt der Gesellschaft aufwirft“, sagt Mike Masnick, Herausgeber des Technologieblogs Techdirt. „Aber dieser enge Fokus auf das Urheberrecht als Instrument zur Bewältigung dieses Problems ist meiner Meinung nach wirklich fehl am Platz.“

Der bekannteste Eine dieser jüngsten Klagen ereignete sich Anfang des Monats, als die Komikerin Sarah Silverman zusammen mit vier anderen Autoren in zwei separaten Klageschriften OpenAI verklagte und behauptete, das Unternehmen habe sein äußerst beliebtes ChatGPT-System ohne Erlaubnis auf ihre Werke trainiert. Beide Sammelklagen wurden von der auf Kartellrechtsverfahren spezialisierten Anwaltskanzlei Joseph Saveri eingereicht. Die Firma vertritt auch die Künstler verklagen Stabilitäts-KI, Midjourney und DeviantArt aus ähnlichen Gründen. Letzte Woche deutete der US-Bezirksrichter William Orrick während einer Anhörung in diesem Fall darauf hin, dass dies der Fall sei könnte abweisen Der Großteil der Klage bestand darin, dass die beteiligten Künstler „mehr Fakten“ für ihre Urheberrechtsverletzungsansprüche liefern müssten, da diese Systeme auf „fünf Milliarden komprimierte Bilder“ trainiert worden seien.

Im Silverman-Fall wird unter anderem behauptet, dass OpenAI möglicherweise die Memoiren des Komikers abgekratzt hat. Bettnässer, über „Schattenbibliotheken“, die Unmengen an raubkopierten E-Books und wissenschaftlichen Arbeiten beherbergen. Wenn das Gericht zugunsten von Silverman und ihren Mitklägern entscheidet, könnte das Urteil einen neuen Präzedenzfall dafür schaffen, wie das Gesetz die Datensätze betrachtet, die zum Trainieren von KI-Modellen verwendet werden, sagt Matthew Sag, Rechtsprofessor an der Emory University. Insbesondere könnte es dabei helfen, festzustellen, ob Unternehmen eine faire Nutzung geltend machen können, wenn ihre Modelle urheberrechtlich geschütztes Material kratzen. „Ich werde nicht über den Ausgang dieser Frage entscheiden“, sagt Sag über Silvermans Klage. „Aber es scheint der überzeugendste aller bisher eingereichten Fälle zu sein.“ OpenAI antwortete nicht auf Anfragen nach Kommentaren.

Im Kern dieser Fälle liege, erklärt Sag, die gleiche allgemeine Theorie: dass LLMs die geschützten Werke der Autoren „kopiert“ hätten. Doch wie Sag in seiner Aussage gegenüber a erklärte Unterausschuss des US-Senats Anfang dieses Monats hörte man, dass Modelle wie GPT-3.5 und GPT-4 keine Arbeit im herkömmlichen Sinne „kopieren“. Verdauen wäre ein passenderes Verb – Trainingsdaten verdauen, um ihre Funktion auszuführen: das beste nächste Wort in einer Sequenz vorherzusagen. „Anstatt sich ein LLM so vorzustellen, dass es die Trainingsdaten kopiert wie ein Schreiber in einem Kloster“, sagte Sag in seiner Aussage vor dem Senat, „ist es sinnvoller, es sich so vorzustellen, als würde man wie ein Student aus den Trainingsdaten lernen.“

source-114

Leave a Reply