OpenAI behauptet, dass sein kostenloses GPT-4o-Modell wie ein Mensch sprechen, lachen, singen und sehen kann


OpenAI am Montag angekündigt GPT-4o, ein brandneues KI-Modell, das nach Angaben des Unternehmens einer „viel natürlicheren Mensch-Computer-Interaktion“ einen Schritt näher kommt. Das neue Modell akzeptiert jede beliebige Kombination aus Text, Audio und Bildern als Eingabe und kann eine Ausgabe in allen drei Formaten generieren. Es ist auch in der Lage, Emotionen zu erkennen, lässt Sie diese mitten im Gespräch unterbrechen und reagiert bei Gesprächen fast so schnell wie ein Mensch.

„Das Besondere an GPT-4o ist, dass es Informationen auf GPT-4-Niveau für alle bereitstellt, einschließlich unserer kostenlosen Benutzer“, sagte Mira Murati, CTO von OpenAI, während einer Live-Streaming-Präsentation. „Dies ist das erste Mal, dass wir in puncto Benutzerfreundlichkeit einen großen Schritt nach vorne machen.“

Während der Präsentation zeigte OpenAI, wie GPT-4o live zwischen Englisch und Italienisch übersetzt, einem Forscher dabei hilft, eine lineare Gleichung in Echtzeit auf Papier zu lösen, und einem anderen OpenAI-Manager Anleitung zum tiefen Atmen gibt, indem er einfach auf seine Atemzüge hört.

Das „o“ in GPT-4o steht für „omni“, ein Hinweis auf die multimodalen Fähigkeiten des Modells. OpenAI sagte, dass GPT-4o für Text, Bild und Audio trainiert wurde, was bedeutet, dass alle Ein- und Ausgaben von demselben neuronalen Netzwerk verarbeitet werden. Dies unterscheidet sich von den Vorgängermodellen des Unternehmens, GPT-3.5 und GPT-4, bei denen Benutzer Fragen einfach durch Sprechen stellen konnten, die Sprache dann aber in Text umwandelte. Dadurch wurden Ton und Emotionen entfernt und die Interaktionen verlangsamt.

OpenAI stellt das neue Modell in den nächsten Wochen allen zur Verfügung, auch Benutzern des kostenlosen ChatGPT, und veröffentlicht außerdem eine Desktop-Version von ChatGPT, zunächst für den Mac, auf die kostenpflichtige Benutzer ab heute Zugriff haben.

Die Ankündigung von OpenAI erfolgt einen Tag vor Google I/O, der jährlichen Entwicklerkonferenz des Unternehmens. Kurz nachdem OpenAI GPT-4o enthüllte, stellte Google eine Version von Gemini vor, seinem eigenen KI-Chatbot, mit ähnlichen Fähigkeiten.

source-115

Leave a Reply