Google sagt, dass es die Daten der Verlage für KI durchsuchen wird, sofern es nicht dazu gezwungen wird


Google hungert nach all den Inhalten, die von den zahlreichen digitalen Verlagen produziert werden, die täglich Texte, Videos und Bilder erstellen. Um die heiklen Urheberrechtsprobleme im Mittelpunkt der KI-Schulung zu lösen, schlägt Google vor, dass alle Unternehmen, die nicht möchten, dass ihre Inhalte verschlungen werden, sich abmelden müssen, um sicherzustellen, dass Googles offener Schlund nicht all ihre Inhalte verschlingt Daten.

Der Technologieriese bot der australischen Regierung als Reaktion auf die Forderungen des Landes dieses Schnäppchen an aktueller Vorschlag „Hochrisiko“-KI-Anwendungen zu verbieten, einschließlich der Schaffung von Deepfakes, Desinformation und Diskriminierung. Wie erstmals berichtet von Der WächterGoogle teilte mit, dass Verlage die Möglichkeit haben sollten, Nein dazu zu sagen, ob ihre Inhalte zum Zweck des KI-Trainings kopiert werden.

Google hat es veröffentlicht Bard-Chatbot im Land Down Under im Mai, und seitdem versucht das Unternehmen, das Land dazu zu verleiten, immer mehr Daten abzugreifen. Google hat bereits an die australische Regierung geschrieben Lockerung der Urheberrechtsgesetze, um mehr KI-Training zu ermöglichen. Jetzt geht es offen darum, ein KI-freundliches Internet einzurichten, das standardmäßig Scraping zulässt. Der Vorschlag würde sowohl große als auch kleine Verlage dazu zwingen, sich über das Opt-out zu informieren und es auf ihren eigenen Websites einzuführen, anstatt die Verantwortung auf Google zu übertragen.

Das Unternehmen gab nicht explizit bekannt, wie diese Opt-out-Funktion funktionieren würde, und Google reagierte nicht sofort auf die Bitte von Gizmodo um einen Kommentar. In einem Juli BlogeintragGoogle forderte neue „Standards und Protokolle“ für die Art und Weise, wie Web-Publisher am Internet teilnehmen. Das Unternehmen verwies auf den 30 Jahre alten, von der Community entwickelten Standard robots.txt, ein Protokoll, das Webcrawlern und Bots anzeigt, welche Teile einer Website sie besuchen dürfen.

Natürlich funktioniert dieses robots.txt-Protokoll nur mit netten Bots, die sich freiwillig dazu bereit erklären. Es behindert kein Unternehmen, das beschließt, den Standard nicht einzuhalten. Außerdem werden keine Daten zurückgenommen, die bereits ohne Zustimmung des Herausgebers gelöscht wurden. Google verfügt über mehrere große Sprachmodelle, einschließlich seines Kürzlich wurde PaLM 2 angekündigt. Googles Bard-Chatbot war ursprünglich basierend auf dem LaMDA LLM und Forscher haben festgestellt, dass 50 % der Inhalte aus öffentlichen Foren stammen während ein großer Teil davon aus Wikipedia und anderen Websites stammt.

Es sind nicht nur Verlage, die Google ausplündern will, sondern das gesamte Internet im Großen und Ganzen. In letzter Zeit, Google hat seine Datenschutzerklärung aktualisiert dem Unternehmen ausdrücklich zu gestatten, alles, was Sie online veröffentlichen, für die Entwicklung seiner KI-Tools zu verwenden. Kurz nachdem Gizmodo als erster die Richtlinienänderung bemerkte, Google wurde von einer Sammelklage betroffen mit der Behauptung, das Unternehmen habe urheberrechtlich geschütztes Material ohne Zustimmung abgekratzt.

ChatGPT-Ersteller OpenAI war mit einer sehr ähnlichen Klage konfrontiert wegen seines angeblichen Missbrauchs des Urheberrechts. Im Wesentlichen haben diese Unternehmen bereits riesige Mengen an Internet genutzt, um ihre Modelle zu trainieren. Viele der Daten basieren bereits auf Wikipedia-Einträgen und Reddit-Beiträgen, aber diese Modelle nutzen auch Artikel, Bücher und andere Online-Texte. Bedenken Sie nur, dass das GPT-4-Sprachmodell auf 45 Terabyte Daten trainiert wird, sodass darin eine Fülle veröffentlichten Materials eingeschlossen ist. OpenAI hat eigene Vorstellungen von einer industriefreundlichen Regulierung, und es wurde eine völlig neue Bundesbehörde gefordert, die die Technologie überwachen soll. Google hingegen schon gegen diesen Vorschlag Lobbyarbeit betrieben.

Die Opt-out-Idee von Google wäre natürlich nicht nur auf Australien beschränkt. Das Unternehmen war versucht, die größten Nachrichtenorganisationen wie die New York Times und die Washington Post mit neuen KI-Tools zu umwerbenund das alles, während versucht wird, darauf zu schließen, dass es A-OK ist, wenn sie all diese veröffentlichten Artikel zusammenkratzen, um sie zum Training ihrer KI zu verwenden.

source-113

Leave a Reply