Diese Hinweise weisen auf die wahre Natur des Shadowy Q*-Projekts von OpenAI hin


Es gibt weitere Hinweise darauf, was Q* sein könnte. Der Name könnte eine Anspielung darauf sein Q-Learning, eine Form des verstärkenden Lernens, bei der ein Algorithmus lernt, ein Problem durch positives oder negatives Feedback zu lösen, die verwendet wurde, um Spiel-Bots zu erstellen und ChatGPT so abzustimmen, dass es hilfreicher ist. Einige haben vermutet, dass der Name auch mit dem verwandt sein könnte Ein*-Suchalgorithmuswird häufig verwendet, um ein Programm den optimalen Weg zu einem Ziel finden zu lassen.

Die Information bringt einen weiteren Hinweis ins Spiel: „Der Durchbruch von Sutskever ermöglichte es OpenAI, die Einschränkungen bei der Beschaffung ausreichend hochwertiger Daten zum Trainieren neuer Modelle zu überwinden“, heißt es in der Geschichte. „Die Forschung umfasste die Verwendung computergenerierter Daten [data], anstatt reale Daten wie Texte oder Bilder aus dem Internet zu verwenden, um neue Modelle zu trainieren.“ Dies scheint ein Hinweis auf die Idee zu sein, Algorithmen mit sogenannten synthetischen Trainingsdaten zu trainieren, die sich als eine Möglichkeit herausgestellt haben, leistungsfähigere KI-Modelle zu trainieren.

Subbarao Kambhampati, ein Professor an der Arizona State University, der die Argumentationsgrenzen von LLMs erforscht, glaubt, dass Q* die Verwendung riesiger Mengen synthetischer Daten in Kombination mit verstärkendem Lernen beinhalten könnte, um LLMs für bestimmte Aufgaben wie einfache Arithmetik zu trainieren. Kambhampati weist darauf hin, dass es keine Garantie dafür gibt, dass sich der Ansatz zu etwas verallgemeinern lässt, das herausfinden kann, wie jedes mögliche mathematische Problem gelöst werden kann.

Weitere Spekulationen darüber, was Q* sein könnte, finden Sie hier dieser Beitrag von einem Wissenschaftler für maschinelles Lernen, der den Kontext und die Hinweise eindrucksvoll und logisch detailliert zusammenfasst. Die TLDR-Version besagt, dass Q* ein Versuch sein könnte, verstärktes Lernen und einige andere Techniken zu nutzen, um die Fähigkeit eines großen Sprachmodells zu verbessern, Aufgaben zu lösen, indem es die einzelnen Schritte auf dem Weg durchgeht. Obwohl dies ChatGPT möglicherweise besser bei mathematischen Rätseln macht, ist unklar, ob es automatisch darauf hindeutet, dass KI-Systeme sich der menschlichen Kontrolle entziehen könnten.

Dass OpenAI versuchen würde, Reinforcement Learning zur Verbesserung von LLMs zu nutzen, erscheint plausibel, da sich viele der frühen Projekte des Unternehmens, wie zum Beispiel Videospiel-Bots, auf diese Technik konzentrierten. Auch das Reinforcement Learning war von zentraler Bedeutung bei der Entwicklung von ChatGPT, da es dazu genutzt werden kann, dass LLMs kohärentere Antworten produzieren, indem Menschen gebeten werden, Feedback zu geben, während sie mit einem Chatbot kommunizieren. Als WIRED Anfang des Jahres mit Demis Hassabis, dem CEO von Google DeepMind, sprach, deutete er an, dass das Unternehmen versuche, Ideen aus dem Reinforcement Learning mit den Fortschritten großer Sprachmodelle zu kombinieren.

Wenn man die verfügbaren Hinweise zu Q* zusammenfasst, klingt das kaum nach einem Grund zur Panik. Aber dann hängt alles von Ihrer Person ab P(Untergang) Wert – die Wahrscheinlichkeit, die Sie der Möglichkeit zuschreiben, dass KI die Menschheit zerstört. Lange vor ChatGPT waren die Wissenschaftler und Führungskräfte von OpenAI zunächst so erschrocken über die Entwicklung von GPT-2, einem Textgenerator aus dem Jahr 2019, der jetzt lächerlich mickrig erscheint, dass sie sagten, er könne nicht öffentlich veröffentlicht werden. Jetzt bietet das Unternehmen kostenlosen Zugang zu deutlich leistungsfähigeren Systemen.

OpenAI lehnte eine Stellungnahme zu Q* ab. Vielleicht erfahren wir mehr Details, wenn das Unternehmen beschließt, dass es an der Zeit ist, weitere Ergebnisse seiner Bemühungen zu veröffentlichen, ChatGPT nicht nur gut im Sprechen, sondern auch gut im Denken zu machen.

source-114

Leave a Reply