Die neueste Version von xAIs Grok kann Bilder verarbeiten


xAI, der von Elon Musk gegründete OpenAI-Konkurrent, hat die erste Version von Grok vorgestellt, die visuelle Informationen verarbeiten kann. Grok-1.5V ist das multimodale KI-Modell der ersten Generation des Unternehmens, das nicht nur Texte, sondern auch „Dokumente, Diagramme, Diagramme, Screenshots und Fotos“ verarbeiten kann. In xAIs Bekanntmachung, gab es einige Beispiele dafür, wie seine Fähigkeiten in der realen Welt genutzt werden können. Sie können ihm zum Beispiel ein Foto eines Flussdiagramms zeigen und Grok bitten, es in Python-Code zu übersetzen, es eine Geschichte basierend auf einer Zeichnung schreiben zu lassen und es sogar ein Meme erklären zu lassen, das Sie nicht verstehen können. Hey, nicht jeder kann mit allem mithalten, was das Internet ausspuckt.

Die neue Version kommt nur ein paar Wochen, nachdem das Unternehmen Grok-1.5 vorgestellt hat. Dieses Modell wurde so konzipiert, dass es besser in Codierung und Mathematik ist als sein Vorgänger und in der Lage ist, längere Kontexte zu verarbeiten, sodass es Daten aus mehr Quellen prüfen kann, um bestimmte Anfragen besser zu verstehen. xAI sagte, dass seine ersten Tester und bestehenden Benutzer bald in den Genuss der Fähigkeiten von Grok-1.5V kommen können, gab jedoch keinen genauen Zeitplan für die Einführung an.

Zusätzlich zur Einführung von Grok-1.5V hat das Unternehmen auch einen Benchmark-Datensatz namens RealWorldQA veröffentlicht. Sie können jedes der 700 Bilder von RealWorldQA verwenden, um KI-Modelle zu bewerten: Jedes Element enthält Fragen und Antworten, die Sie leicht überprüfen können, die aber multimodale Modelle wie Grok möglicherweise überfordern. xAI gab an, dass seine Technologie die höchste Punktzahl erhalten habe, als das Unternehmen sie mit RealWorldQA im Vergleich zu Konkurrenten wie GPT-4V von OpenAI und Google Gemini Pro 1.5 getestet habe.

source-115

Leave a Reply