OpenVoice ist eine neue Technologie der künstlichen Intelligenz zur Umwandlung von Text in Sprache, die jede Stimme aus einem 30-Sekunden-Sample klonen kann. Und es behält die Klangqualität der Originalstimme bei, während es Ihren geschriebenen Text in gesprochenes Audio umwandelt.
Text-to-Speech hat es letztes Jahr auf meine Liste der wichtigsten KI-Tools des Jahres geschafft. Dies ist eine neue Herangehensweise, die das Kopieren einer Stimme beschleunigt.
Obwohl es fast sofort einen Klon meiner Stimme erstellen konnte, klang die Ausgabe eher amerikanisch als wie meine Muttersprache Englisch. Es funktioniert jedoch sehr gut, wenn Sie mit einem neutralen amerikanischen Akzent beginnen.
In einem der Beispielclips wurde auf eine Redeprobe von Elon Musk verwiesen. Wenn Sie zufälligen Text eingeben, damit seine geklonte Stimme sich wiederholt, sind die Klänge sanfter, weniger südafrikanisch und eher südkalifornisch. Das können Sie weiter unten im Artikel selbst hören.
Wie funktioniert OpenVoice?
Das mehrsprachige OpenVoice von MyShell wurde anhand stundenlanger Sprachproben trainiert. Dies ermöglicht es, Muster zu erkennen und die zum Klonen einer neuen Stimme erforderliche Zeit zu verkürzen.
Es kann die Klangfarbe des Referenzlautsprechers reproduzieren und gibt dem Benutzer im Gegensatz zu anderen Tools wie ElevenLabs die Kontrolle über Emotionen, Akzent, Rhythmus, Pausen und Intonation.
OpenVoice wird bereits seit Mai für das Klonen von Stimmen für das KI-Tool MyShell eingesetzt und von zig Millionen Nutzern auf der ganzen Welt zur Erstellung persönlicher KI-Chatbots verwendet.
Wie klingt OpenVoice?
Ich habe es nur anhand der Demos ausprobiert Lepton und HuggingFace, es handelt sich also nicht um eine echte Testversion, da dazu die Installation und Ausführung auf meinem eigenen Rechner erforderlich wäre. Bei diesem kurzen Beispiel funktioniert die Emotionsveränderung jedoch sehr gut, ebenso wie das Klonen von Stimmen aus den USA.
Es hat Probleme mit starken Akzenten, obwohl dies eher an den Einschränkungen der Demo als am Modell als Ganzes liegen könnte. Allerdings scheinen sich auch die auf der Projektwebsite bereitgestellten Beispiele stark auf US-Akzente zu konzentrieren.
Was zeichnet OpenVoice aus?
Der Goldstandard beim Klonen von Stimmen aus einem kurzen Sample mit bisher präzisen Klangergebnissen ist ElevenLabs. Das Unternehmen ermöglicht auch Speech-to-Speech, um den Realismus zu verbessern. Allerdings ist es eine kommerzielle und etwas teure Option für Experimentier- und Bastler.
OpenVoice kann lokal installiert und ausgeführt werden. Es ermöglicht auch einen höheren Grad an Realismus oder zumindest mehr Animation in der erzeugten Stimme. Dies könnte von unschätzbarem Wert für jemanden sein, der als Schulprojekt einen Zeichentrickfilm oder ein Hörspiel dreht und sich keine Schauspieler leisten kann.
Je realistischer die Sprach-KI wird, insbesondere wenn eine Stimme in Sekundenschnelle geklont werden kann, desto mehr Schauspielergewerkschaften werden in Alarmbereitschaft sein. In der jüngsten SAG-AFTRA ging es unter anderem um den Einsatz von KI, um Kreativen die Arbeit zu entziehen.
Ich denke, wir werden einen Vorstoß sehen, mehr Aspekte einer Identität urheberrechtlich zu schützen, einschließlich Stimmton, Bewegung und Leistung, da die KI diese Faktoren zunehmend reproduziert.