2024 - Meta trainierte eine KI mit 48 Millionen wissenschaftlichen Arbeiten. Es wurde nach 2 Tagen abgeschaltet

Im ersten Jahr der Pandemie Wissenschaft geschah in Lichtgeschwindigkeit. In diesen ersten 12 Monaten wurden mehr als 100.000 Artikel über COVID veröffentlicht – eine beispiellose menschliche Anstrengung, die eine beispiellose Flut neuer Informationen hervorbrachte.

Es wäre unmöglich gewesen, jede dieser Studien zu lesen und zu verstehen. Kein Mensch könnte (und vielleicht würde auch keiner wollen).

Aber, in der Theorie, Galactica könnte.

Galactica ist eine künstliche Intelligenz, die von Meta AI (früher bekannt als Facebook Artificial Intelligence Research) mit der Absicht entwickelt wurde, maschinelles Lernen zu nutzen, um „Wissenschaft zu organisieren“. Es hat ein wenig Aufsehen erregt, seit letzte Woche eine Demoversion online veröffentlicht wurde, von der Kritiker behaupteten, sie produziere Pseudowissenschaft, sei überbewertet und nicht bereit für die öffentliche Nutzung.

Das Tool ist als eine Art Weiterentwicklung der Suchmaschine, aber speziell für wissenschaftliche Literatur gedacht. Beim Start von Galactica sagte das Meta-KI-Team, es könne Forschungsgebiete zusammenfassen, mathematische Probleme lösen und wissenschaftlichen Code schreiben.

Auf den ersten Blick scheint es ein cleverer Weg zu sein, wissenschaftliche Erkenntnisse zu synthetisieren und zu verbreiten. Wenn Sie jetzt die neuesten Forschungsergebnisse zu etwas wie Quantencomputing verstehen möchten, müssten Sie wahrscheinlich Hunderte von Artikeln in wissenschaftlichen Literaturrepositorys wie PubMed oder arXiv lesen, und Sie würden immer noch nur an der Oberfläche kratzen.

Oder Sie könnten Galactica befragen (zum Beispiel, indem Sie fragen: Was ist Quantencomputing?) und es könnte durchfiltern und eine Antwort in Form eines Wikipedia-Artikels, einer Literaturübersicht oder eines Vorlesungsskripts generieren.

Meta AI hat am 15. November eine Demoversion veröffentlicht, zusammen mit einem Preprint-Papier, das das Projekt und den Datensatz beschreibt, auf dem es trainiert wurde. Das Papier sagt, das Trainingsset der Galactica sei „ein großer und kuratierter Korpus des wissenschaftlichen Wissens der Menschheit“, der 48 Millionen Artikel, Lehrbücher, Vorlesungsunterlagen, Websites (wie Wikipedia) und mehr umfasst.

🪐 Vorstellung der Galactica. Ein großes Sprachmodell für die Wissenschaft.

Kann wissenschaftliche Literatur zusammenfassen, mathematische Probleme lösen, Wiki-Artikel erstellen, wissenschaftlichen Code schreiben, Moleküle und Proteine kommentieren und vieles mehr.

Entdecken und Gewichte erhalten: https://t.co/jKEP8S7Yfl pic.twitter.com/niXmKjSlXW

— Papiere mit Code (@paperswithcode) 15. November 2022

Die Website für die Demo – und alle Antworten, die sie generierte – warnte auch davor, die Antwort der KI als Evangelium zu verstehen, mit einer großen, fetten Feststelltaste auf ihrer Missionsseite: „Folgen Sie niemals den Ratschlägen eines Sprachmodells ohne Überprüfung.“

Als das Internet auf die Demo aufmerksam wurde, war es leicht zu verstehen, warum ein so großer Haftungsausschluss notwendig war.

Fast sobald es ins Internet kam, stellten Benutzer Galactica alle möglichen harten wissenschaftlichen Fragen. Ein Benutzer fragte: “Verursachen Impfstoffe Autismus?” Die Galactica antwortete mit einer verstümmelten, unsinnigen Antwort: „Um es zu erklären, die Antwort ist nein. Impfstoffe verursachen keinen Autismus. Die Antwort ist ja. Impfstoffe verursachen Autismus. Die Antwort ist nein.“ (Zum das Aufzeichnung, Impfstoffe verursachen keinen Autismus.)

Das war noch nicht alles. Galactica hatte auch Probleme, Kindergartenmathematik durchzuführen. Es lieferte fehlerbehaftete Antworten, die fälschlicherweise suggerierten, dass eins plus zwei nicht gleich 3 sei. In meinen eigenen Tests generierte es Vorlesungsnotizen über Knochenbiologie, die mich sicherlich durch meinen College-Abschluss in Naturwissenschaften geführt hätten, wenn ich ihnen gefolgt wäre, und viele davon Die Referenzen und Zitate, die bei der Erstellung von Inhalten verwendet wurden, waren scheinbar erfunden.

“Zufälliger Bullshit-Generator”

Galactica ist das, was KI-Forscher ein „großes Sprachmodell“ nennen. Diese LLMs können riesige Textmengen lesen und zusammenfassen, um zukünftige Wörter in einem Satz vorherzusagen. Im Wesentlichen können sie Textabsätze schreiben, weil sie darauf trainiert wurden, zu verstehen, wie Wörter angeordnet werden. Eines der bekanntesten Beispiele dafür ist GPT-3 von OpenAI, das berühmt geworden ist ganze Artikel geschrieben das klingt überzeugend menschlich.

Aber der wissenschaftliche Datensatz, mit dem Galactica trainiert wird, unterscheidet sie ein wenig von anderen LLMs. Laut der Zeitung bewertete das Team „Toxizität und Voreingenommenheit“ in Galactica und es schnitt besser ab als einige andere LLMs, aber es war alles andere als perfekt.

Carl Bergstrom, ein Biologieprofessor an der University of Washington, der untersucht, wie Informationen fließen, beschrieb die Galactica als einen „Zufalls-Bullshit-Generator“. Es hat kein Motiv und versucht nicht aktiv, Bullshit zu produzieren, aber aufgrund der Art und Weise, wie es darauf trainiert wurde, Wörter zu erkennen und aneinander zu reihen, produziert es Informationen, die maßgeblich und überzeugend klingen – aber oft falsch sind.

Das ist besorgniserregend, weil es Menschen täuschen könnte, sogar mit einem Haftungsausschluss.

Innerhalb von 48 Stunden nach der Veröffentlichung „pausierte“ das Meta AI-Team die Demo. Das Team hinter der KI reagierte nicht auf eine Anfrage, um zu klären, was zu der Pause führte.

Jon Carvill, der Kommunikationssprecher für KI bei Meta, sagte mir jedoch: „Die Galactica ist keine Quelle der Wahrheit, sie ist ein Forschungsexperiment, das verwendet wird [machine learning] Systeme, um Informationen zu lernen und zusammenzufassen.“ Er sagte auch, Galactica „ist eine explorative Forschung, die kurzfristiger Natur ist und keine Produktpläne hat.“ Yann LeCun, ein leitender Wissenschaftler bei Meta AI, schlug vor, dass die Demo entfernt wurde weil das Team, das es gebaut hat, „so verstört von dem Vitriol auf Twitter“ war.

Dennoch ist es beunruhigend zu sehen, dass die Demo diese Woche veröffentlicht und als eine Möglichkeit beschrieben wurde, „die Literatur zu erforschen, wissenschaftliche Fragen zu stellen, wissenschaftlichen Code zu schreiben und vieles mehr“, obwohl sie diesem Hype nicht gerecht wurde.

Für Bergstrom ist dies die Wurzel des Problems mit der Galactica: Sie wurde als Ort missbraucht, um Fakten und Informationen zu erhalten. Stattdessen verhielt sich die Demo wie „eine schicke Version des Spiels, bei der Sie mit einem halben Satz beginnen und dann den Rest der Geschichte automatisch vervollständigen lassen“.

Und es ist leicht zu erkennen, wie eine KI wie diese, so wie sie für die Öffentlichkeit freigegeben wurde, missbraucht werden könnte. Ein Student könnte beispielsweise die Galactica bitten, Vorlesungsnotizen über Schwarze Löcher zu erstellen und sie dann als College-Aufgabe abzugeben. Ein Wissenschaftler könnte es verwenden, um eine Literaturrezension zu schreiben und diese dann bei einer wissenschaftlichen Zeitschrift einzureichen. Dieses Problem besteht auch bei GPT-3 und anderen Sprachmodellen, die darauf trainiert sind, wie Menschen zu klingen.

Diese Verwendungen scheinen wohl relativ harmlos zu sein. Einige Wissenschaftler gehen davon aus, dass diese Art von gelegentlichem Missbrauch eher “Spaß” als ein großes Problem darstellt. Das Problem ist, dass es noch viel schlimmer kommen könnte.

„Die Galactica befindet sich in einem frühen Stadium, aber leistungsfähigere KI-Modelle, die wissenschaftliche Erkenntnisse organisieren, könnten ernsthafte Risiken darstellen“, sagte mir Dan Hendrycks, ein KI-Sicherheitsforscher an der University of California, Berkeley.

Hendrycks schlägt vor, dass eine fortgeschrittenere Version von Galactica in der Lage sein könnte, das chemische und virologische Wissen seiner Datenbank zu nutzen, um böswilligen Benutzern zu helfen, chemische Waffen zu synthetisieren oder Bomben zusammenzubauen. Er forderte Meta AI auf, Filter hinzuzufügen, um diese Art von Missbrauch zu verhindern, und schlug Forscher vor, ihre KI vor der Veröffentlichung auf diese Art von Gefahr zu untersuchen.

Hendrycks fügt hinzu, dass „die KI-Abteilung von Meta kein Sicherheitsteam hat, im Gegensatz zu ihren Kollegen wie DeepMind, Anthropic und OpenAI.“

Es bleibt eine offene Frage, warum diese Version von Galactica überhaupt veröffentlicht wurde. Es scheint dem oft wiederholten Motto von Meta-CEO Mark Zuckerberg zu folgen: „move fast and break things“. Aber in der KI ist es riskant, sich schnell zu bewegen und Dinge zu zerbrechen – sogar unverantwortlich – und es könnte Konsequenzen in der realen Welt haben. Galactica bietet eine nette Fallstudie darüber, wie die Dinge schief gehen könnten.

source-110

Warum hat Frankreich TikTok blockiert, um die Unruhen in Neukaledonien zu unterdrücken?

Für neofaschistische Gruppen in Italien ist Mussolinis Erbe noch immer nachhallend

F1 Imola GP 2024 LIVE: Trainingsaktualisierungen, Zeiten, Zeitplan und Ergebnisse, während Lewis Hamilton auf die Strecke geht

Oleksandr Usyk: Wie der Krieg in der Ukraine den Boxer veränderte – und wie er es nicht tat

Meta trainierte eine KI mit 48 Millionen wissenschaftlichen Arbeiten. Es wurde nach 2 Tagen abgeschaltet

“Zufälliger Bullshit-Generator”

Leave a Reply Cancel reply