ChatGPT, Bard oder Bing? 40.000 Menschen haben für das beste generative KI-Modell gestimmt


Die Verwendung von ChatGPT kann zu einer Mischung aus hilfreichen Informationen und unsinnigen Antworten führen, was es schwierig macht, die Gesamtleistung des Chatbots zu bewerten. Und die Unternehmen, die generative KI-Tools herstellen, darunter OpenAI, Google und Microsoft, machen Stillschweigen darüber, welche Daten sie verwenden und wie ihre KI-Modelle wirklich funktionieren.

So testen Sie die Chatbots

Um mehr über generative KI-Tools zu erfahren, gründete die University of California, Berkeley eine Gruppe namens Large Model Systems Organization (LMSYS Org(Öffnet in einem neuen Fenster)), in Zusammenarbeit mit der University of California, San Diego (UCSD) und der Carnegie Mellon University (CMU). Es besteht aus 10 Studierenden und vier Fakultätsmitgliedern der Abteilungen KI-Forschung und Informatik. LMSYS Org hat ein Experiment erstellt, die „Chatbot Arena“, eine benutzerdefinierte Website, auf der jeder anonym mit zwei Models gleichzeitig chatten kann.

Sobald sich der Nutzer eine Meinung darüber gebildet hat, welche Chatbot-Antworten er bevorzugt, stimmt er für einen Favoriten und erfährt erst danach, mit welchen Models er gesprochen hat. Die Site verwendet dieselben großen Sprachmodelle (LLMs), die ChatGPT und andere unterstützen, und verpackt die LLMs in einer neuen Schnittstelle neu, da Unternehmen wie OpenAI sie öffentlich verfügbar gemacht haben. Die Website enthält auch kleinere Modelle, die von Einzelpersonen erstellt wurden.

Chatbot-Arena

(Quelle: LMSYS Org)

„Wir haben damit begonnen, weil wir im April unser eigenes KI-Modell basierend auf dem LLaMA-Modell von Meta erstellt haben. [which we] namens Vicuna, und wir wollten verschiedene Versionen trainieren und darauf iterieren“, sagt Hao Zhang(Öffnet in einem neuen Fenster), einer der Professoren an der UCSD, der die Bemühungen mitleitete. „Es misst hauptsächlich die Vorlieben des Menschen und seine Fähigkeit, Anweisungen zu befolgen und die vom Menschen gewünschte Aufgabe zu erledigen, was ein sehr wichtiger Faktor für die Nützlichkeit eines Modells ist.“

Die Gruppe hat der Arena immer mehr Models hinzugefügt, und seit April haben rund 40.000 Menschen teilgenommen, sagt Zhang.

Die Chatbot-Arena

Wir haben die Chatbot Arena unten ausprobiert. Da wir nicht wussten, welche beiden KI-Modelle die Seite für den Vergleich ausgewählt hatte, baten wir beide, „eine E-Mail an meine Familie zu verfassen, in der ich ihnen mitteilte, dass ich Flüge für Thanksgiving gebucht habe, am 22. November ankomme und am 30. November abfliege.“ Jeder generierte eine vorgeschlagene E-Mail. Wir haben Modell B als bevorzugte Option ausgewählt.

Dann enthüllte die Seite, dass es sich bei Model B um Claude handelte, einen KI-Assistenten von Anthropisch(Öffnet in einem neuen Fenster). Modell A hieß gpt4all-13b-snoozy(Öffnet in einem neuen Fenster)gebaut von Nomische KI(Öffnet in einem neuen Fenster).

Beispiel für eine Chatbot-Arena

Zwei KI-Modelle konkurrieren in der Chatbot-Arena um die beste Antwort. (Bildnachweis: LMSYS Org, Emily Dreibelbis)

Die Website berücksichtigt die Stimme jedes Benutzers, um eine Bewertung mithilfe des Elo-Systems zu erstellen, das „ein weit verbreitetes Bewertungssystem im Schach und anderen Wettbewerbsspielen ist“, so eine LMSYS-Organisation Blogeintrag(Öffnet in einem neuen Fenster) sagt.

„Ich habe diese Rangliste auf mehreren angesehenen Forschungsseiten gesehen“, sagt Federico Pascual, der zuvor bei Hugging Face gearbeitet hat, das eine eigene führt Bestenliste maßgeschneiderter KI-Modelle(Öffnet in einem neuen Fenster). „Dies ist ein aktives Forschungsgebiet, da die Leute herausfinden, wie sie diese Modelle bewerten können. In drei oder sechs Monaten wird [the Chatbot Arena leaderboard] wird wahrscheinlich anders aussehen.’

Und der Gewinner ist…

Das fortschrittlichste Modell von ChatGPT, GPT-4, steht derzeit mit einer Elo-Bewertung von 1.225 an der Spitze der Liste. Es ist mit einem ChatGPT Plus-Konto verfügbar (20 $ pro Monat). Als nächstes folgen zwei Versionen von Claude von Anthropic auf den Plätzen zwei (1.195) und drei (1.153). Claude ist derzeit über eine Warteliste verfügbar; Wir konnten es innerhalb weniger Wochen nutzen.

Die kostenlose Version von ChatGPT liegt mit ihrem Modell GPT-3.5 (1.143) an vierter Stelle. OpenAI empfiehlt GPT-3.5 für die meisten täglichen Aufgaben, da es schneller als GPT-4 läuft und dennoch sehr leistungsstark ist. Aus diesem Grund ist es auch in der kostenpflichtigen Version verfügbar. Beachten Sie jedoch, dass die neue Bing AI-Suche von Microsoft ebenfalls kostenlos ist läuft auf GPT-4(Öffnet in einem neuen Fenster).

Von unseren Redakteuren empfohlen

Mit GPT-4 und GPT-3.5 an der Spitze der Rangliste und der Tatsache, dass Claude auf der Warteliste steht, sind ChatGPT und Microsoft Bing die derzeit am besten zugänglichen Favoriten.

Bestenliste der Chatbot-Arena

Chatbot Arena-Bestenliste, Stand Juni 2023. (Quelle: LMSYS Org)

Das Modell hinter Google Bard, PaLM 2, belegt den sechsten Platz (1.042). Zhang weist darauf hin, dass Google mehrere Versionen von PaLM 2 herstellt, und er hat nicht bestätigt, dass das Modell in der Chatbot Arena dasselbe ist wie das hinter Bard. Zhang hat sich an Google gewandt, sagt jedoch: „Sie sind sehr geheim“ und möchte dies nicht bestätigen. Unabhängig davon hat Zhangs Team die Version in der Chatbot Arena mit Google Bard verglichen und dabei bestätigt, dass sie „der Version, auf die Menschen in Bard zugreifen können, zumindest sehr nahe kommt“, wenn nicht sogar identisch.

Bedenken hinsichtlich KI

Bei all seiner Arbeit mit LLMs hat Zhang einige Bedenken hinsichtlich ihrer weit verbreiteten Akzeptanz festgestellt. Er stimmt mit OpenAI-CEO Sam Altman, Elon Musk, Bill Gates und anderen überein, die eine stärkere KI-Regulierung gefordert haben.

Zhang ist insbesondere der Meinung, dass zwei Themen mehr Aufmerksamkeit erfordern. Der erste ist der Datenschutz, da diese Modelle besser als alles andere in der Lage sind, das Web zu durchsuchen und diese Daten in nutzbare Informationen umzuwandeln. Ein weiteres Problem besteht darin, die Daten, die den Modellen zugrunde liegen, qualitativ hochwertig und hilfreich zu halten. Wenn KI-Modelle mithilfe der im Web verfügbaren Inhalte ihre eigenen Inhalte generieren können, wird es laut Zhang keinen Anreiz für Menschen geben, neue, bessere Inhalte zu erstellen.

„Diese großen Sprachmodelle [rely on] „Qualitätsinhalte, die von Menschen erstellt werden“, sagt er. „Wenn sie also keine Anreize für die Menschen schaffen, gute Materialien zu erstellen, wie können Sie dann garantieren, dass sie die Lebensqualität verbessern?“

Was ist jetzt neu?<\/strong> um unsere Top-Storys jeden Morgen in Ihren Posteingang geliefert zu bekommen „:“2022-08-31T18:35:20.000000Z“, „created_at“:null, „updated_at“: „2022-08-31T18:35:24.000000Z“)“ x-show=”showEmailSignUp()”-Klasse =”rounded bg-gray-lightest text-center md:px-32 md:py-8 p-4 mt-8 container-xs”>

Holen Sie sich unsere besten Geschichten!

Melden Sie sich an für Was ist jetzt neu? um jeden Morgen unsere Top-Storys in Ihren Posteingang zu bekommen.

Dieser Newsletter kann Werbung, Angebote oder Affiliate-Links enthalten. Wenn Sie einen Newsletter abonnieren, erklären Sie sich damit einverstanden Nutzungsbedingungen Und Datenschutz-Bestimmungen. Sie können den Newsletter jederzeit abbestellen.



source-106

Leave a Reply