Das KI-Programm von Microsoft kann Ihre Stimme aus einem 3-Sekunden-Audioclip klonen


Eine neue Weiterentwicklung der künstlichen Intelligenz von Microsoft kann Ihre Stimme klonen, nachdem Sie Sie nur 3 Sekunden lang sprechen gehört haben.

Das Programm, genannt VALL-E(Öffnet in einem neuen Fenster), wurde für die Text-zu-Sprache-Synthese entwickelt. Ein Forscherteam bei Microsoft hat es erstellt, indem es das System 60.000 Stunden englische Hörbucherzählung von über 7.000 verschiedenen Sprechern anhören ließ, um es dazu zu bringen, menschlich klingende Sprache zu reproduzieren. Dieses Beispiel ist hundertmal größer als das, worauf andere Text-zu-Sprache-Programme aufbauen.

Das Microsoft-Team hat a Webseite(Öffnet in einem neuen Fenster) das beinhaltet mehrere Demos von VALL-E in Aktion. Wie Sie hören können, kann das KI-Programm nicht nur die Stimme einer Person mit einem 3-Sekunden-Audioclip klonen, sondern auch die geklonte Stimme manipulieren, um zu sagen, was gewünscht wird. Darüber hinaus kann das Programm Emotionen in der Stimme einer Person nachbilden oder für verschiedene Sprechstile konfiguriert werden.

Menschlicher Sprecher:

VALL-E:

Menschlicher Sprecher:

VALL-E:

Das Klonen von Stimmen ist nichts Neues. Der Ansatz von Microsoft zeichnet sich jedoch dadurch aus, dass er es einfach macht, die Stimme eines jeden mit nur einem kurzen Ausschnitt von Audiodaten zu replizieren. Daher ist es nicht schwer, sich vorzustellen, dass dieselbe Technologie Cyberkriminalität befeuert – was das Microsoft-Team als potenzielle Bedrohung anerkennt.

„Da VALL-E Sprache synthetisieren kann, die die Sprecheridentität beibehält, kann es potenzielle Risiken beim Missbrauch des Modells bergen, wie z. Das Team stellt jedoch fest, dass es möglich sein könnte, Programme zu erstellen, die „unterscheiden können, ob ein Audioclip von VALL-E synthetisiert wurde“.

VALL-E interpretiert Audiosprache als „diskrete Token“ und reproduziert dann das Token, um mit anderem Text zu sprechen. „VALL-E generiert die entsprechenden akustischen Tokens, die auf den akustischen Tokens der 3-sekündigen aufgezeichneten Aufnahme beruhen“, schrieben die Forscher. „Schließlich werden die generierten akustischen Token verwendet, um die endgültige Wellenform mit dem entsprechenden neuronalen Codec-Decoder zu synthetisieren.“

Allerdings ist die Technik noch lange nicht perfekt. In ihrer Forschungsarbeit stellt das Team von Microsoft fest, dass VALL-E manchmal Schwierigkeiten haben kann oder bestimmte Wörter nicht aussprechen kann. Zu anderen Zeiten können die Wörter gegurgelt, künstlich synthetisiert, roboterhaft oder einfach tonal falsch klingen.

Von unseren Redakteuren empfohlen

Menschlicher Sprecher:

VALL-E:

„Selbst wenn wir 60.000 Stunden Daten für das Training verwenden, kann es immer noch nicht alle Stimmen abdecken, insbesondere Akzentsprecher“, fügte das Team hinzu. „Darüber hinaus reicht die Vielfalt der Sprechstile nicht aus, da LibriLight (das Audio VALL-E) trainiert wurde on) ist ein Hörbuch-Datensatz, in dem die meisten Äußerungen im Lesestil sind.“

Dennoch legt die Forschung nahe, dass die Erstellung eines noch genaueren Programms zum Klonen von Stimmen möglich ist, wenn es mit noch mehr Audioclips trainiert wird. In der Zwischenzeit scheint Microsoft VALL-E nicht für die Öffentlichkeit freigegeben zu haben, wahrscheinlich um Missbrauch vorzubeugen.

Was ist jetzt neu<\/strong> um unsere Schlagzeilen jeden Morgen in Ihren Posteingang zu bekommen.”,”first_published_at”:”2021-09-30T21:30:40.000000Z”,”published_at”:”2022-08-31T18:35:24.000000Z”,”last_published_at “:”2022-08-31T18:35:20.000000Z”,”created_at”:null,”updated_at”:”2022-08-31T18:35:24.000000Z”)” x-show=”showEmailSignUp()” class =”gerundet bg-gray-lightest text-center md:px-32 md:py-8 p-4 mt-8 container-xs”>

Holen Sie sich unsere besten Geschichten!

Melden Sie sich an für Was ist jetzt neu um unsere Schlagzeilen jeden Morgen in Ihren Posteingang zu bekommen.

Dieser Newsletter kann Werbung, Angebote oder Affiliate-Links enthalten. Das Abonnieren eines Newsletters erklärt Ihr Einverständnis mit unseren Nutzungsbedingungen und Datenschutz-Bestimmungen. Sie können die Newsletter jederzeit abbestellen.



source-106

Leave a Reply