In den letzten Monaten gab es eine Flut an anekdotischen Beweisen und allgemeinen Gerüchten über einen Rückgang der Qualität der ChatGPT-Antworten. Ein Forscherteam aus Stanford und der UC Berkeley beschloss, festzustellen, ob es tatsächlich zu einer Verschlechterung kam, und Messgrößen zu entwickeln, um das Ausmaß der nachteiligen Veränderung zu quantifizieren. Um es kurz zu machen: Der Sprung in die ChatGPT-Qualität war sicherlich nicht vorstellbar.
Drei angesehene Wissenschaftler, Matei Zaharia, Lingjiao Chen und James Zou, standen hinter der kürzlich veröffentlichten Forschungsarbeit Wie verändert sich das Verhalten von ChatGPT im Laufe der Zeit? (PDF) Heute früh nutzte ein Informatikprofessor an der UC Berkeley, Zaharia, Twitter, um sich darüber zu informieren Teilen Sie die Erkenntnisse. Er betonte überraschend, dass „die Erfolgsquote von GPT-4 bei der Frage ‚Ist diese Zahl eine Primzahl? Denken Sie Schritt für Schritt‘ von März bis Juni von 97,6 % auf 2,4 % gesunken ist.“
GPT-4 wurde allgemein erhältlich vor etwa zwei Wochen und wurde von OpenAI als sein fortschrittlichstes und leistungsfähigstes Modell ausgezeichnet. Es wurde schnell für zahlende API-Entwickler freigegeben und behauptete, es könne eine Reihe neuer innovativer KI-Produkte unterstützen. Daher ist es traurig und überraschend, dass die neue Studie feststellt, dass es bei einigen recht einfachen Fragen so an qualitativ hochwertigen Antworten mangelt.
Wir haben bereits ein Beispiel für die überragende Fehlerquote von GPT-4 bei den obigen Primzahlabfragen gegeben. Das Forschungsteam entwarf Aufgaben zur Messung der folgenden qualitativen Aspekte der zugrunde liegenden Large Language Models (LLMs) von ChatGPT, GPT-4 und GPT-3.5. Die Aufgaben lassen sich in vier Kategorien einteilen, die ein breites Spektrum an KI-Fähigkeiten messen und gleichzeitig relativ einfach hinsichtlich der Leistung zu bewerten sind.
- Matheaufgaben lösen
- Beantwortung sensibler Fragen
- Codegenerierung
- Visuelles Denken
Eine Übersicht über die Leistung der Open AI LLMs finden Sie in der folgenden Tabelle. Die Forscher quantifizierten die GPT-4- und GPT-3.5-Veröffentlichungen in ihren Veröffentlichungen im März 2023 und Juni 2023.
Es wird deutlich, dass der „gleiche“ LLM-Dienst im Laufe der Zeit Anfragen ganz unterschiedlich beantwortet. In diesem relativ kurzen Zeitraum sind deutliche Unterschiede zu erkennen. Es bleibt unklar, wie diese LLMs aktualisiert werden und ob sich Änderungen zur Verbesserung einiger Aspekte ihrer Leistung negativ auf andere auswirken können. Sehen Sie in drei Testkategorien, wie viel „schlechter“ die neueste Version von GPT-4 im Vergleich zur März-Version ist. Beim visuellen Denken hat es nur einen geringen Vorsprung.
Einige sind möglicherweise nicht beunruhigt über die variable Qualität, die in den „gleichen Versionen“ dieser LLMs beobachtet wird. Die Forscher stellen jedoch fest: „Aufgrund der Beliebtheit von ChatGPT wurden sowohl GPT-4 als auch GPT-3.5 von einzelnen Benutzern und einer Reihe von Unternehmen weitgehend übernommen.“ Daher liegt es nicht außerhalb der Grenzen des Möglichen, dass einige von GPT generierte Informationen Auswirkungen haben können dein Leben.
Die Forscher haben ihre Absicht geäußert, die GPT-Versionen weiterhin in einer längeren Studie zu untersuchen. Vielleicht sollte Open AI seine eigenen regelmäßigen Qualitätsprüfungen für seine zahlenden Kunden überwachen und veröffentlichen. Wenn dies nicht klarer sein kann, kann es für Unternehmen oder Regierungsorganisationen erforderlich sein, einige grundlegende Qualitätsmetriken für diese LLMs zu überprüfen, die erhebliche Auswirkungen auf Handel und Forschung haben können.
Nein, wir haben GPT-4 nicht dümmer gemacht. Ganz im Gegenteil: Wir machen jede neue Version intelligenter als die vorherige. Aktuelle Hypothese: Wenn Sie es intensiver nutzen, bemerken Sie Probleme, die Sie vorher nicht gesehen haben.13. Juli 2023
Der KI- und LLM-Technologie sind überraschende Probleme und die Behauptungen der Branche über Datendiebstahl und andere PR nicht fremd Sumpfes scheint derzeit die neueste „Wild-West“-Grenze für vernetztes Leben und Handel zu sein.