Die neuen Fähigkeiten großer Sprachmodelle sind eine Fata Morgana


Die Originalversion von diese Geschichte erschien in Quanta-Magazin.

Vor zwei Jahren wurde in einem Projekt namens Über den Imitation-Game-Benchmark hinaus, oder BIG-Bench, haben 450 Forscher eine Liste mit 204 Aufgaben zusammengestellt, um die Fähigkeiten großer Sprachmodelle zu testen, die Chatbots wie ChatGPT antreiben. Bei den meisten Aufgaben verbesserte sich die Leistung mit zunehmender Skalierung der Modelle vorhersehbar und reibungslos – je größer das Modell, desto besser. Aber bei anderen Aufgaben verlief der Leistungssprung nicht reibungslos. Die Leistung blieb eine Zeit lang nahe Null, dann stieg die Leistung sprunghaft an. Andere Studien fanden ähnliche Leistungssprünge.

Die Autoren bezeichneten dies als „Durchbruch“-Verhalten; Andere Forscher haben es mit einem Phasenübergang in der Physik verglichen, etwa wenn flüssiges Wasser zu Eis gefriert. In ein Papier In der im August 2022 veröffentlichten Studie stellten Forscher fest, dass diese Verhaltensweisen nicht nur überraschend, sondern auch unvorhersehbar sind und dass sie in die sich entwickelnden Gespräche über KI-Sicherheit, Potenzial und Risiko einfließen sollten. Sie nannten die Fähigkeiten „auftauchend„, ein Wort, das kollektive Verhaltensweisen beschreibt, die erst auftreten, wenn ein System ein hohes Maß an Komplexität erreicht.

Aber die Dinge sind möglicherweise nicht so einfach. Ein neues Papier von einem Forschertrio der Stanford University geht davon aus, dass das plötzliche Auftreten dieser Fähigkeiten nur eine Folge der Art und Weise ist, wie Forscher die Leistung des LLM messen. Sie argumentieren, dass die Fähigkeiten weder unvorhersehbar noch plötzlich seien. „Der Übergang ist viel vorhersehbarer, als die Leute glauben“, sagte er Sanmi Koyejo, Informatiker an der Stanford University und leitender Autor des Artikels. „Starke Emergenzansprüche haben ebenso viel mit der Art und Weise zu tun, wie wir messen, wie mit dem, was die Modelle tun.“

Aufgrund der Größe dieser Modelle sehen und untersuchen wir dieses Verhalten erst jetzt. Große Sprachmodelle trainieren durch enorme Analyse Textdatensätze– Wörter aus Online-Quellen wie Büchern, Websuchen und Wikipedia – und das Finden von Links zwischen Wörtern, die oft zusammen vorkommen. Die Größe wird anhand von Parametern gemessen, ungefähr analog zu allen Arten, wie Wörter verbunden werden können. Je mehr Parameter, desto mehr Verbindungen kann ein LLM finden. GPT-2 hatte 1,5 Milliarden Parameter, während GPT-3.5, das LLM, das ChatGPT antreibt, 350 Milliarden verwendet. GPT-4, das im März 2023 eingeführt wurde und jetzt Microsoft Copilot zugrunde liegt, verbraucht Berichten zufolge 1,75 Billionen.

Dieses schnelle Wachstum hat zu einem erstaunlichen Anstieg der Leistung und Effizienz geführt, und niemand bestreitet, dass LLMs, die groß genug sind, Aufgaben erledigen können, die kleinere Modelle nicht können, einschließlich solcher, für die sie nicht geschult wurden. Das Trio in Stanford, das das Auftauchen als „Fata Morgana“ bezeichnet, erkennt, dass LLMs mit zunehmender Größe effektiver werden; Tatsächlich, die zusätzliche Komplexität Die Verwendung größerer Modelle sollte es ermöglichen, bei schwierigeren und vielfältigeren Problemen besser zu werden. Sie argumentieren jedoch, dass es eher auf die Wahl der Metrik – oder sogar auf einen Mangel an Testbeispielen – als auf das Innenleben des Modells zurückzuführen sei, ob diese Verbesserung gleichmäßig und vorhersehbar oder zackenförmig und deutlich aussehe.

source-114

Leave a Reply