OpenAI kann menschliche Stimmen nachbilden – wird die Technologie aber noch nicht veröffentlichen


Die Sprachsynthese hat seit den 1978er Jahren große Fortschritte gemacht Sprechen und buchstabieren Spielzeug, das einst Menschen mit seiner hochmodernen Fähigkeit, Wörter mithilfe einer elektronischen Stimme vorzulesen, begeisterte. Mithilfe von Deep-Learning-KI-Modellen kann Software nun nicht nur realistisch klingende Stimmen erzeugen, sondern mithilfe kleiner Audiobeispiele auch bestehende Stimmen überzeugend imitieren.

In diesem Sinne kündigte OpenAI diese Woche Voice Engine an, ein Text-to-Speech-KI-Modell zur Erstellung synthetischer Stimmen auf der Grundlage eines 15-Sekunden-Segments aufgezeichneten Audios. Es wurden Audiobeispiele der Voice Engine in Aktion bereitgestellt auf seiner Website.

Sobald eine Stimme geklont ist, kann ein Benutzer Text in die Voice Engine eingeben und ein KI-generiertes Sprachergebnis erhalten. Aber OpenAI ist nicht bereit, seine Technologie flächendeckend zu veröffentlichen. Das Unternehmen plante ursprünglich, Anfang dieses Monats ein Pilotprogramm für Entwickler zu starten, um sich für die Voice Engine API anzumelden. Doch nach eingehender Überlegung über ethische Implikationen beschloss das Unternehmen, seine Ambitionen vorerst zurückzufahren.

„Im Einklang mit unserem Ansatz zur KI-Sicherheit und unseren freiwilligen Verpflichtungen entscheiden wir uns, diese Technologie derzeit in der Vorschau, aber nicht allgemein zu veröffentlichen“, schreibt das Unternehmen. „Wir hoffen, dass diese Vorschau von Voice Engine sowohl sein Potenzial unterstreicht als auch die Notwendigkeit motiviert, die Widerstandsfähigkeit der Gesellschaft gegenüber den Herausforderungen zu stärken, die immer überzeugendere generative Modelle mit sich bringen.“

Die Technologie zum Klonen von Stimmen ist im Allgemeinen nicht besonders neu – es gab sie schon mehrere KI-Sprachsynthesemodelle seit 2022, und die Technologie ist in der Open-Source-Community mit Paketen wie aktiv OpenVoice Und XTTSv2. Bemerkenswert ist jedoch die Idee, dass OpenAI langsam darauf zusteuert, jedem die Nutzung seiner speziellen Sprachtechnologie zu ermöglichen. Und in gewisser Weise könnte die Zurückhaltung des Unternehmens, es vollständig zu veröffentlichen, die größere Geschichte sein.

Laut OpenAI gehören zu den Vorteilen seiner Sprachtechnologie die Bereitstellung von Leseunterstützung durch natürlich klingende Stimmen, die Ermöglichung globaler Reichweite für YouTuber durch die Übersetzung von Inhalten unter Beibehaltung einheimischer Akzente, die Unterstützung nonverbaler Personen mit personalisierten Sprachoptionen und die Unterstützung von Patienten bei der Wiederherstellung ihrer eigenen Stimme danach Sprachbeeinträchtigungen.

Es bedeutet aber auch, dass jeder, der 15 Sekunden der aufgezeichneten Stimme einer Person besitzt, diese effektiv klonen könnte, und das hat offensichtliche Auswirkungen auf einen möglichen Missbrauch. Auch wenn OpenAI seine Voice Engine nie allgemein veröffentlicht, hat die Möglichkeit, Stimmen zu klonen, bereits für Unruhe in der Gesellschaft gesorgt Telefonbetrug wo jemand die Stimme eines geliebten Menschen nachahmt und Wahlkampf-Robocalls mit geklonten Stimmen von Politikern wie Joe Biden.

Auch Forscher und Reporter habe gezeigt dass Voice-Cloning-Technologie verwendet werden kann, um in Bankkonten einzubrechen, die Sprachauthentifizierung verwenden (wie das von Chase). Sprach-ID), was den US-Senator Sherrod Brown aus Ohio, den Vorsitzenden des US-Senatsausschusses für Banken, Wohnungsbau und Stadtangelegenheiten, zur Entsendung veranlasste ein Brief an die CEOs von mehrere Großbanken im Mai 2023, um sich über die Sicherheitsmaßnahmen zu erkundigen, die Banken ergreifen, um KI-gestützten Risiken entgegenzuwirken.

OpenAI ist sich bewusst, dass die Technologie bei breiter Veröffentlichung Probleme verursachen könnte, und versucht daher zunächst, diese Probleme mit einer Reihe von Regeln zu umgehen. Seit letztem Jahr testet das Unternehmen die Technologie mit einer Reihe ausgewählter Partnerunternehmen. Zum Beispiel ein Videosyntheseunternehmen HeyGen hat das Modell verwendet, um die Stimme eines Sprechers in andere Sprachen zu übersetzen und dabei den gleichen Stimmklang beizubehalten.

source-114

Leave a Reply