Was du wissen musst
- OpenAI erweitert ChatGPT um Bild- und Spracherkennungsfunktionen, wobei letztere neben einer neuen fortschrittlichen Text-to-Speech-Engine exklusiv für mobile Geräte verfügbar sind.
- Für beide Funktionen ist ein Abonnement von ChatGPT Plus oder ChatGPT Enterprise erforderlich.
- Das Update wird in den nächsten zwei Wochen schrittweise für englischsprachige Benutzer weltweit bereitgestellt.
ChatGPT arbeitet an der Entwicklung einer natürlicheren Benutzererfahrung durch die Implementierung von Sprach- und Bildkommunikation, die in beide Richtungen funktioniert. Theoretisch können Benutzer weniger Zeit mit dem Tippen und Nachdenken über die effektivsten Eingabeaufforderungen verbringen und mehr Zeit damit verbringen, Antworten zu sehen. Einzelheiten zu seinen Plänen zur schrittweisen Einführung dieser neuen Funktionen in ein aktueller BlogbeitragOpenAI erklärt, wer wann Zugriff hat.
Diejenigen, die ein individuelles ChatGPT Plus-Abonnement für 20 US-Dollar oder ein unternehmensorientiertes Enterprise-Abonnement abonniert haben, werden innerhalb der nächsten zwei Wochen auf allen Plattformen bildbasierte Eingabeaufforderungen und Antworten sehen. In der Zwischenzeit sind Sprachgespräche exklusiv für iOS- und Android-Geräte verfügbar. Eine manuelle Aktivierung finden Sie im Menü „Einstellungen“ der App unter „Neue Funktionen“. OpenAI zielt darauf ab, Fehler durch die schrittweise Bereitstellung dieser neuen Modi zu minimieren. Machen Sie sich also keine Sorgen, wenn Sie sie noch nicht sehen können.
ChatGPT kann jetzt sehen, hören und sprechen. Mit der Einführung in den nächsten zwei Wochen können Plus-Benutzer Sprachgespräche mit ChatGPT (iOS und Android) führen und Bilder in Gespräche einbinden (alle Plattformen). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb25. September 2023
Gibt es diese Technologie nicht schon?
Obwohl OpenAI offensichtlich stolz auf diese Ankündigung ist, gibt es Spracherkennungs- und Text-to-Speech-Technologien schon seit Jahren. Fast jede Smartphone-App kann Ihre Stimme in schriftliche Eingabeaufforderungen umwandeln, allerdings kann die Qualität der Ergebnisse je nach zugrunde liegendem Code variieren. ChatGPT verwendet jetzt Whisperein Open-Source-Spracherkennungssystem, das von internen Entwicklern geschrieben wurde, sowie eine Partnerschaft mit professionellen Synchronsprechern, um seiner generativen KI lebensechtere Sprache beizubringen.
Während es auf Smartphones bereits KI-Assistenten wie Bing Chat für Mobilgeräte gibt, demonstriert ChatGPT seine neuen Hin- und Her-Sprachgespräche mit einer schnellen Reaktionszeit. Alles, was die Zeit zwischen der Interpretation gesprochener Eingabeaufforderungen und dem Hören einer natürlich klingenden Antwort verkürzt, wird zweifellos jeden ansprechen, der lieber nicht auf kleineren Bildschirmen tippen möchte.
Ein interessanter Leckerbissen aus der Ankündigung beschreibt, wie das Whisper-Modell „menschenähnliches Audio nur aus Text und ein paar Sekunden Beispielsprache“ erzeugen kann, was als Konzept für Benutzer spannender sein könnte, um maßgeschneiderte Stimmen für ihre KI-Assistenten zu digitalisieren .
Wie kann ChatGPT verstehen, was es sieht?
Der aufregendste Teil dieses Updates betrifft die neue Fähigkeit von ChatGPT, Details aus jedem von Ihnen bereitgestellten Bild abzuleiten. Wenn Sie die Kamera Ihres Smartphones für einen kurzen Schnappschuss öffnen, können Sie optional bestimmte Bereiche hervorheben, die Sie interessieren. So zeigt ein Demo-Video einen Benutzer, der um Hilfe beim Absenken eines Fahrradsitzes bittet. Tatsächlich gibt die App detaillierte Antworten mit Folgefragen zu den benötigten Werkzeugen. Natürlich kommt einem sofort die Bedeutung von falschen Identitäten und Halluzinationen in den Sinn, und OpenAI ist sich der bevorstehenden Herausforderungen bewusst.
OpenAI hat bereits Erfahrung mit „Sei meine Augen„, eine KI-gestützte mobile App, die die Gemeinschaft sehbehinderter Menschen mit Freiwilligen verbindet, die dabei helfen können, zu beschreiben, worauf die Kamera gerichtet ist. Dank dieser Informationsdatenbank und dem neuronalen Netzwerk ChatGPT wird die korrekte Identifizierung von Objekten und Szenen im Laufe der Zeit verbessert. Allerdings ist es Teil des Gleichgewichts zwischen ethischen Richtlinien und technischen Einschränkungen, die KI daran zu hindern, Aussagen über das Aussehen von Personen zu machen.
Der Bilderkennungscode nutzt eine Kombination aus GPT-3.5 und GPT-4 und ist in der Lage, alles zu erkennen, von Fotos aus der realen Welt bis hin zu digitalen Screenshots und Textdokumenten. Wie bei allem anderen, was mit dem nahezu begrenzten Potenzial von ChatGPT zu tun hat, erklärt OpenAI, dass sich diese neue Technologie vor allem auf die englische Sprache konzentriert. Dies könnte sich jedoch in Zukunft ändern und scheint angesichts der jüngsten (und rasanten Geschichte) der generativen KI wahrscheinlich genug zu sein.