Die Grok-KI von Elon Musk macht jedes andere Modell außer GPT-4 bei der Beantwortung aufgeschobener Mathematikfragen zunichte


Dies ist keine Anlageberatung. Der Autor hält keine Position in einer der genannten Aktien. Wccftech.com verfügt über eine Offenlegungs- und Ethikrichtlinie.

Als xAI sich darauf vorbereitete, sein erstes Large Language Model (LLM) namens Grok vorzustellen, erklärte Elon Musk mutig, dass das generative KI-Modell „in einigen wichtigen Aspekten“ das „Beste ist, was derzeit existiert“. Jetzt haben wir endlich die Daten, um diese Behauptung zu beweisen.

Kieran Paster, Forscher an der University of Toronto, hat kürzlich eine Reihe von KI-Modellen auf Herz und Nieren geprüft testen sie bei einer ausgehaltenen Matheprüfung. Bedenken Sie, dass es sich bei zurückgehaltenen Fragen im Sprachgebrauch der Datenanalyse um Fragen handelt, die nicht Teil des Datensatzes sind, der zum Trainieren eines KI-Modells verwendet wird. Daher muss ein bestimmter LLM seine vorherigen Schulungs- und Problemlösungsfähigkeiten nutzen, um auf solche Reize zu reagieren. Anschließend bewertete Paster die Antworten jedes Modells manuell.

Die Leistung von Grok AI bei der abgehaltenen Mathematikprüfung

Wie aus dem obigen Ausschnitt hervorgeht, übertraf Grok jedes andere LLM, einschließlich Claude 2 von Anthropic, mit Ausnahme von GPT-4 von OpenAI und erzielte eine Gesamtpunktzahl von 59 Prozent gegenüber 68 Prozent für GPT-4.

Die Leistung von Grok AI auf GSM8k im Vergleich zur ausgehaltenen Mathematikprüfung

Als nächstes nutzte Paster die Hebelwirkung xAI-Tests verschiedener LLMs auf GSM8k, einem Datensatz mit mathematischen Textaufgaben, der auf die Mittelstufe ausgerichtet ist, um die Leistung dieser LLMs bei der abgehaltenen Mathematikprüfung im Vergleich zu ihrer Leistung auf dem GSM8k darzustellen.

Interessanterweise erzielt ChatGPT-3.5 von OpenAI zwar eine höhere Punktzahl als Grok auf dem GSM8k, schafft es jedoch nur, sich bei der ausstehenden Mathematikprüfung die Hälfte von Groks Punktzahl zu sichern. Paster nutzt dieses Ergebnis, um seine Schlussfolgerung zu rechtfertigen, dass die Outperformance von ChatGPT-3.5 auf dem GSM8k einfach ein Ergebnis von ist Überanpassung, was auftritt, wenn ein LLM genaue Ergebnisse für die Eingabedaten liefert, die in seinem Training verwendet werden, aber nicht für neue Daten. Beispielsweise könnte ein KI-Modell, das darauf trainiert ist, Bilder zu identifizieren, auf denen Hunde zu sehen sind, und das anhand eines Datensatzes von Bildern trainiert wurde, die Hunde in einer Parkumgebung zeigen, Gras als Erkennungsmerkmal verwenden, um die gesuchte richtige Antwort zu geben.

Wenn wir alle Modelle ausschließen, die wahrscheinlich unter Überanpassung leiden, belegt Grok beim GSM8k einen beeindruckenden dritten Platz, nur hinter Claude 2 und GPT-4. Dies deutet darauf hin, dass Groks Inferenzfähigkeiten recht stark sind.

Eine entscheidende Einschränkung beim Vergleich dieser Modelle ist natürlich der Mangel an Informationen über die Anzahl der Trainingsparameter, die zum Training von GPT-4, Claude 2 und Grok verwendet wurden. Bei diesen Parametern handelt es sich um die Konfigurationen und Bedingungen, die gemeinsam den Lernprozess eines LLM steuern. Generell gilt: Je größer die Anzahl der Parameter, desto komplexer ist ein KI-Modell.

Als weiteres Unterscheidungsmerkmal verfügt Grok offenbar über eine unübertroffene angeborene „fühlen” für Neuigkeiten. Nach den ersten Eindrücken der Betatester des LLM kann Grok von xAI zwischen verschiedenen Vorurteilen unterscheiden, die eine aktuelle Story beeinflussen könnten. Dies ist wahrscheinlich ein direktes Ergebnis von Groks Training anhand der von X stammenden Daten.

Teilen Sie diese Geschichte

Facebook

Twitter



source-99

Leave a Reply