2024 - Zeigen Sie ChatGPT, was Sie sehen: Sprach- und Bildfunktionen sind live (gegen Gebühr)

Was du wissen musst

OpenAI erweitert ChatGPT um Bild- und Spracherkennungsfunktionen, wobei letztere neben einer neuen fortschrittlichen Text-to-Speech-Engine exklusiv für mobile Geräte verfügbar sind.
Für beide Funktionen ist ein Abonnement von ChatGPT Plus oder ChatGPT Enterprise erforderlich.
Das Update wird in den nächsten zwei Wochen schrittweise für englischsprachige Benutzer weltweit bereitgestellt.

ChatGPT arbeitet an der Entwicklung einer natürlicheren Benutzererfahrung durch die Implementierung von Sprach- und Bildkommunikation, die in beide Richtungen funktioniert. Theoretisch können Benutzer weniger Zeit mit dem Tippen und Nachdenken über die effektivsten Eingabeaufforderungen verbringen und mehr Zeit damit verbringen, Antworten zu sehen. Einzelheiten zu seinen Plänen zur schrittweisen Einführung dieser neuen Funktionen in ein aktueller BlogbeitragOpenAI erklärt, wer wann Zugriff hat.

Diejenigen, die ein individuelles ChatGPT Plus-Abonnement für 20 US-Dollar oder ein unternehmensorientiertes Enterprise-Abonnement abonniert haben, werden innerhalb der nächsten zwei Wochen auf allen Plattformen bildbasierte Eingabeaufforderungen und Antworten sehen. In der Zwischenzeit sind Sprachgespräche exklusiv für iOS- und Android-Geräte verfügbar. Eine manuelle Aktivierung finden Sie im Menü „Einstellungen“ der App unter „Neue Funktionen“. OpenAI zielt darauf ab, Fehler durch die schrittweise Bereitstellung dieser neuen Modi zu minimieren. Machen Sie sich also keine Sorgen, wenn Sie sie noch nicht sehen können.

ChatGPT kann jetzt sehen, hören und sprechen. Mit der Einführung in den nächsten zwei Wochen können Plus-Benutzer Sprachgespräche mit ChatGPT (iOS und Android) führen und Bilder in Gespräche einbinden (alle Plattformen). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb25. September 2023

Mehr sehen

Gibt es diese Technologie nicht schon?

Bing und Open AI — Bing kann Ihre Rede bereits interpretieren und in Eingabeaufforderungen umwandeln, aber es gibt immer Möglichkeiten zur Verbesserung. (Bildnachweis: Windows Central)

Obwohl OpenAI offensichtlich stolz auf diese Ankündigung ist, gibt es Spracherkennungs- und Text-to-Speech-Technologien schon seit Jahren. Fast jede Smartphone-App kann Ihre Stimme in schriftliche Eingabeaufforderungen umwandeln, allerdings kann die Qualität der Ergebnisse je nach zugrunde liegendem Code variieren. ChatGPT verwendet jetzt Whisperein Open-Source-Spracherkennungssystem, das von internen Entwicklern geschrieben wurde, sowie eine Partnerschaft mit professionellen Synchronsprechern, um seiner generativen KI lebensechtere Sprache beizubringen.

Während es auf Smartphones bereits KI-Assistenten wie Bing Chat für Mobilgeräte gibt, demonstriert ChatGPT seine neuen Hin- und Her-Sprachgespräche mit einer schnellen Reaktionszeit. Alles, was die Zeit zwischen der Interpretation gesprochener Eingabeaufforderungen und dem Hören einer natürlich klingenden Antwort verkürzt, wird zweifellos jeden ansprechen, der lieber nicht auf kleineren Bildschirmen tippen möchte.

Ein interessanter Leckerbissen aus der Ankündigung beschreibt, wie das Whisper-Modell „menschenähnliches Audio nur aus Text und ein paar Sekunden Beispielsprache“ erzeugen kann, was als Konzept für Benutzer spannender sein könnte, um maßgeschneiderte Stimmen für ihre KI-Assistenten zu digitalisieren .

Wie kann ChatGPT verstehen, was es sieht?

Urtopia E-Bike

OpenAI hat gezeigt, wie ChatGPT bei der Reparatur eines Fahrrads helfen kann, aber die Möglichkeiten sind grenzenlos. (Bildnachweis: Daniel Rubino)

Der aufregendste Teil dieses Updates betrifft die neue Fähigkeit von ChatGPT, Details aus jedem von Ihnen bereitgestellten Bild abzuleiten. Wenn Sie die Kamera Ihres Smartphones für einen kurzen Schnappschuss öffnen, können Sie optional bestimmte Bereiche hervorheben, die Sie interessieren. So zeigt ein Demo-Video einen Benutzer, der um Hilfe beim Absenken eines Fahrradsitzes bittet. Tatsächlich gibt die App detaillierte Antworten mit Folgefragen zu den benötigten Werkzeugen. Natürlich kommt einem sofort die Bedeutung von falschen Identitäten und Halluzinationen in den Sinn, und OpenAI ist sich der bevorstehenden Herausforderungen bewusst.

Vor der breiteren Einführung haben wir das Modell auf Risiken in Bereichen wie Extremismus und wissenschaftliche Kompetenz getestet (was es uns ermöglichte, uns auf einige wichtige Details für eine verantwortungsvolle Nutzung zu einigen).
OpenAI

OpenAI hat bereits Erfahrung mit „Sei meine Augen„, eine KI-gestützte mobile App, die die Gemeinschaft sehbehinderter Menschen mit Freiwilligen verbindet, die dabei helfen können, zu beschreiben, worauf die Kamera gerichtet ist. Dank dieser Informationsdatenbank und dem neuronalen Netzwerk ChatGPT wird die korrekte Identifizierung von Objekten und Szenen im Laufe der Zeit verbessert. Allerdings ist es Teil des Gleichgewichts zwischen ethischen Richtlinien und technischen Einschränkungen, die KI daran zu hindern, Aussagen über das Aussehen von Personen zu machen.

Der Bilderkennungscode nutzt eine Kombination aus GPT-3.5 und GPT-4 und ist in der Lage, alles zu erkennen, von Fotos aus der realen Welt bis hin zu digitalen Screenshots und Textdokumenten. Wie bei allem anderen, was mit dem nahezu begrenzten Potenzial von ChatGPT zu tun hat, erklärt OpenAI, dass sich diese neue Technologie vor allem auf die englische Sprache konzentriert. Dies könnte sich jedoch in Zukunft ändern und scheint angesichts der jüngsten (und rasanten Geschichte) der generativen KI wahrscheinlich genug zu sein.

source-108

Das Justizministerium nimmt die erste bekannte Festnahme im Zusammenhang mit KI-generiertem CSAM vor

Den Krebs in Europa besiegen: Eine Gesundheitspriorität in unserer Reichweite

Suicide Squad: Kill the Justice League erhält im ersten Mid-Season-Update neue Feinde, Ausrüstung und mehr

Amerikas am schnellsten wachsende Restaurantkette ist ein wenig bekanntes Café

Zeigen Sie ChatGPT, was Sie sehen: Sprach- und Bildfunktionen sind live (gegen Gebühr)

Was du wissen musst

Gibt es diese Technologie nicht schon?

Leave a Reply Cancel reply