OpenAI sagt, dass es eine Stimme aus nur 15 Sekunden Audio klonen kann


OpenAI hat es gerade angekündigt eines neuen Tools namens Voice Engine. Hierbei handelt es sich um eine Technologie zum Klonen von Stimmen, die jeden Sprecher nachahmen kann, indem sie ein 15-sekündiges Audiobeispiel analysiert. Das Unternehmen gibt an, dass es „natürlich klingende Sprache“ mit „emotionalen und realistischen Stimmen“ erzeugt.

Die Technologie basiert auf der des Unternehmens und ist seit 2022 in Arbeit. OpenAI verwendet bereits eine Version des Toolsets, um die voreingestellten Stimmen zu unterstützen, die in der aktuellen Text-to-Speech-API und der Vorlesefunktion verfügbar sind. Auf dem offiziellen Blog des Unternehmens gibt es eine Reihe von Beispielen, die der Realität unheimlich nahe kommen. Ich ermutige Sie, ihnen zuzuhören und sich die Möglichkeiten vorzustellen, sowohl die guten als auch die schlechten.

OpenAI sagt, dass sie diese Technologie als nützlich für die Lesehilfe, die Sprachübersetzung und die Unterstützung von Menschen sehen, die unter plötzlichen oder degenerativen Sprachstörungen leiden. Das Unternehmen brachte a Das hat einem Patienten mit Sprachbehinderungen geholfen, indem es einen Voice Engine-Klon erstellt hat, der aus Audiodaten stammt, die für ein Schulprojekt aufgezeichnet wurden.

Trotz der potenziellen Vorteile würden Kriminelle diese Technologie sicherlich missbrauchen, um ernsthafte Deepfake-Spielereien zu begehen. Vor diesem Hintergrund ist Voice Engine noch nicht ganz bereit für die Hauptsendezeit, da vor einer vollständigen Einführung ernsthafte Bedenken hinsichtlich des Datenschutzes ausgeräumt werden müssen.

OpenAI räumt ein, dass diese Technologie „ernsthafte Risiken birgt, die im Wahljahr besonders im Vordergrund stehen.“ Das Unternehmen sagt, dass es das Feedback von „US-amerikanischen und internationalen Partnern aus den Bereichen Regierung, Medien, Unterhaltung, Bildung, Zivilgesellschaft und darüber hinaus“ einbezieht, um sicherzustellen, dass die Produkteinführungen mit minimalem Risiko erfolgen. Alle Vorschautester stimmten den Nutzungsrichtlinien von OpenAI zu, die die Nachahmung einer anderen Person ohne Zustimmung oder gesetzliches Recht verbieten.

Darüber hinaus muss jeder, der die Technologie nutzt, seinem Publikum offenlegen, dass die Stimmen KI-generiert sind. OpenAI hat Sicherheitsmaßnahmen implementiert, wie z. B. Wasserzeichen zur Rückverfolgung der Herkunft von Audiosignalen und eine „proaktive Überwachung“ der Nutzung des Systems. Wenn das Produkt offiziell auf den Markt kommt, wird es eine „No-Go-Voice-Liste“ geben, die KI-generierte Sprecher erkennt und verhindert, die prominenten Persönlichkeiten zu ähnlich sind.

Über den Zeitpunkt dieser Einführung hält sich OpenAI noch bedeckt. TechCrunch und es sieht so aus, als würde es unterboten. Voice Engine könnte 15 US-Dollar pro einer Million Zeichen kosten, was etwa 162.500 Wörtern entspricht. Das ist ungefähr so ​​lang wie Stephen Kings Das Leuchten. Es klingt auf jeden Fall nach einer budgetfreundlichen Möglichkeit, ein Hörbuch zu erstellen. In den Marketingmaterialien wird auch von einer „HD“-Version gesprochen, die doppelt so viel kostet, aber das Unternehmen hat nicht detailliert beschrieben, wie das funktionieren wird.

OpenAI hat diese Woche große Schritte unternommen. Es hat gerade eine weitere Partnerschaft mit seinem besten Freund Microsoft angekündigt, um einen KI-basierten Supercomputer namens „Stargate“ zu bauen. Berichten zufolge wird das Projekt satte 100 Milliarden US-Dollar kosten. .

Dieser Artikel enthält Affiliate-Links; Wenn Sie auf einen solchen Link klicken und einen Kauf tätigen, erhalten wir möglicherweise eine Provision.

source-115

Leave a Reply