Der KI-Sprachgenerator von ElevenLabs kann jetzt Ihre Stimme in 30 Sprachen fälschen


Was sich zu einem der führenden Unternehmen im Internet für die Erstellung realistischer visueller Deepfakes entwickelt hat, verfügt nun über die Möglichkeit, Ihre Stimme zu klonen und sie dazu zu zwingen, in einer wachsenden Vielfalt von Sprachen zu sprechen. ElevenLabs gab am Dienstag bekannt, dass sein neues Voice-Cloning nun 22 Sprachen mehr unterstützt als zuvor, darunter Ukrainisch, Koreanisch, Schwedisch, Arabisch und mehr.

Laut ElevenLabs verspricht das neue Multilingual v2-Modell, „emotionsreiches“ Audio in insgesamt 30 Sprachen zu produzieren. Das Unternehmen bietet zwei KI-Sprachtools an, eines ist ein Text-to-Speech-Modell und das andere ist das „VoiceLab“, mit dem zahlende Benutzer eine Stimme klonen können, indem sie Fragmente ihrer (oder anderer) Sprache in das Modell eingeben, um eine Art Sprachausgabe zu erstellen Stimmkegel. Mit dem v2-Modell können Benutzer diese generierten Stimmen dazu bringen, auf Griechisch, Malaiisch oder Türkisch zu sprechen.

Der Dienst wurde am Dienstag gegen Mittag ET auf der Website des Unternehmens in Betrieb genommen. Benutzer müssen nur den Text in seiner tatsächlichen Sprache eingeben, um die übersetzte Stimme zu hören, und es sollte mit jedem vom Unternehmen oder von Benutzern erstellten Sprachklon funktionieren. Da ich hauptsächlich Englisch spreche, ist es schwer einzuschätzen, wie gut jede akzentuierte Stimme die jeweilige Sprache repräsentiert, aber die Rede braucht Zeit, um naturalistisch zu wirken, mit gelegentlichen atemlosen Pausen zwischen Sätzen und Zitaten.

Die ElevenLabs-Plattform hat nach ihrem Start im letzten Jahr einige Kontroversen erlebt. Auf der ersten Beta-Plattform des Unternehmens missbrauchten 4Chan-Benutzer die Systeme, um sich als Prominente auszugeben. Sie werden gezwungen, rassistische, frauenfeindliche und transphobe Skripte zu sagen. Es wurde auch von verwendet KI-Evangelisten greifen Synchronsprecher an der sich über den weit verbreiteten Einsatz der Technologie zum Klonen von Stimmen beschwerte. Seitdem behauptet ElevenLabs, dass seine integrierten neuen Maßnahmen sicherstellen sollen, dass Benutzer nur ihre eigene Stimme klonen können. Benutzer müssen ihre Sprache mit einer Text-Captcha-Eingabeaufforderung überprüfen, die dann mit der ursprünglichen Sprachprobe verglichen wird.

Firmenmitbegründer, der Ex-Palantir Geschäftsführer Mati Staniszewski sagte in einer Pressemitteilung: „Letztendlich hoffen wir, mit Hilfe von KI noch mehr Sprachen und Stimmen abzudecken und die sprachlichen Barrieren für Inhalte zu beseitigen.“

Nach der Beta-Phase versucht ElevenLabs, KI-Stimmen in den Medien voranzutreiben

Neben den neuen Sprachfunktionen behauptete ElevenLabs auch, dass dieser Vorstoß nun darauf hindeutet, dass sich seine Technologie zum Klonen von KI-Stimmen nicht mehr in der Beta-Phase befinde, während das Unternehmen sich intensiver mit der Bereitstellung der Technologie für Medienunternehmen befasst. Bereits im Juni erhielt ElevenLabs 19 Millionen US-Dollar an Startkapital von Leuten wie dem Tech-Königsmacher Andreesen Horowitz neben dem ehemaligen DeepMind-Chef, jetzt Mustafa Suleyman, Mitbegründer von Inflection AI.

ElevenLabs bewirbt seine Voice-Cloning-Technologie als eine Möglichkeit für Unternehmen, Hörbücher, Videos und sogar Sprach-NPCs in Videospielen zu erstellen. Das Unternehmen Ansprüche Es wurde ein Vertrag mit Paradox Interactive geschlossen, dem Herausgeber von Spielen wie dem Herzen aus Eisen Serie und die kommende Die Lamplighters League. Die Voice-Cloning-Technologie des Unternehmens wurde ausdrücklich erwähnt Gaming-Sprecher, die befürchten, dass die Technologie dazu genutzt wird, ihre Arbeit zu untergraben.

Gizmodo hat Paradox um einen Kommentar gebeten, aber wir haben nicht sofort eine Antwort erhalten.

Im Buchbereich haben Technologiegiganten wie Google und Apple versucht, KI-erzählte Hörbücher voranzutreiben. Die Bücher-App von Apple begann mit der Einführung von Erzählern mit langweiligen Namen wie „Archie“ und „Warren“, um einige Inhalte auszudrücken. Diejenigen, die Hörbücher hören, haben festgestellt, dass diese Stimmen – in Ermangelung eines besseren Begriffs –leblos im Vergleich zum Bestand an professionellen Synchronsprechern, die dem Aufstieg und Fall einer Erzählung tatsächlich Aufmerksamkeit schenken können. Die Schauspielergewerkschaft SAG-AFTRA und die Writers Guild of America befinden sich derzeit im Streik und führen einen großen Teil der laufenden Verhandlungen mit der Unterhaltungsindustrie haben sich auf KI konzentriert.

ElevenLabs wirbt jedoch dafür, dass KI-Stimmen Verlagen bei der Erstellung von Hörbüchern sowohl Zeit als auch Geld sparen können. In einem Blogbeitrag vom Montag teilte das Unternehmen mit gefördert Es arbeitete mit Lukeman Literary zusammen, einer Literaturagentur und einem kleinen unabhängigen Verlag, um die Verarbeitung von Hörbüchern zu optimieren. Das Unternehmen behauptete, dass Agenturen früher „Wochen“ brauchten, um ein einziges Hörbuch zu produzieren, aber mit KI ist das auf nur noch wenige Stunden verkürzt.

Lukeman Literary hat dazu beigetragen, neben anderen Romanwerken auch Bücher bekannter Persönlichkeiten des öffentlichen Lebens wie Rutger Hauer und den Dalai Lama zu veröffentlichen. In einer an Gizmodo gesendeten E-Mail betonte Lukeman, dass seine Agentur- und Verlagszweige unterschiedlich seien und es daher keine Pläne gebe, die von der Agentur vertretenen Titel auf KI-Erzählung umzustellen. Was sein Verlagsgeschäft angeht, sagte er jedoch, dass er sich nie für KI-Erzählungen entschieden habe, weil die „Qualität“ nicht vorhanden sei, aber nachdem er die Funktionen von ElevenLabs getestet habe, sei er „endlich beeindruckt“ genug, um sie möglicherweise zu nutzen. Er sagte weiter, dass „KI-Erzählungen ein Geschenk des Himmels“ für unabhängige Autoren sind, weil sie weitaus billiger sind als menschliche Erzählungen.

Obwohl ich es sage Die KI-Stimme ist endlich gut genug für die Hauptsendezeit. Lukeman stimmte zu, dass KI „definitiv eine Herausforderung“ für Synchronsprecher darstellen wird, schlug jedoch vor, dass „einige“ Autoren und Verleger weiterhin Hörbücher wünschen, die von einem echten Menschen gesprochen werden.

Es besteht auch die Möglichkeit, Stimmen zu lizenzieren, aber „die große Frage ist, wie verbreitet diese Arbeit sein wird, wie viel neue Einnahmen sie bringen kann und ob dies letztendlich zu einem Einnahmeverlust oder -gewinn für die Sprecher führt“, sagte er.

Unabhängig davon, ob Synchronsprecher irgendwann in der Lage sein werden, ihre Stimme gegen Restzahlungen an KI zu lizenzieren, sind solche Vereinbarungen der Verlagsbranche immer noch fremd immer verliebter mit KI. Da der Streik noch andauert, kann es einige Zeit dauern, herauszufinden, wie die Akteure insgesamt auf eine Branche reagieren, die nach einer Möglichkeit sucht, vom Hörbuch-Trend zu profitieren, jedoch ohne echten menschlichen Ton.

source-113

Leave a Reply