Lernen Sie nach ChatGPT und DALL·E VALL-E kennen – die Text-zu-Sprache-KI, die jede Stimme imitieren kann


Im vergangenen Jahr tauchten Tools für künstliche Intelligenz (KI) auf, die Bilder, Kunstwerke oder sogar Videos mit einer Texteingabe erstellen können.

Auch beim KI-Schreiben gab es große Fortschritte, wobei ChatGPT von OpenAI weit verbreitete Aufregung – und Angst – über die Zukunft des Schreibens auslöste.

Jetzt, nur wenige Tage im Jahr 2023, ist ein weiterer leistungsstarker Anwendungsfall für KI ins Rampenlicht getreten – ein Text-to-Voice-Tool, das die Stimme einer Person tadellos imitieren kann.

VALL-E wurde von Microsoft entwickelt und kann eine drei Sekunden lange Aufzeichnung der Stimme einer Person aufnehmen und diese Stimme replizieren, indem geschriebene Wörter in Sprache umgewandelt werden, mit realistischer Intonation und Emotion, je nach Kontext des Textes.

Trainiert mit 60.000 Stunden an englischen Sprachaufnahmen, kann es eine Rede in einer „Zero-Shot-Situation“ halten, d. h. ohne vorherige Beispiele oder Training in einem bestimmten Kontext oder einer bestimmten Situation.

Wir stellen VALL-E vor ein von der Cornell University veröffentlichtes Papiererklärten die Entwickler, dass die Aufnahmedaten aus mehr als 7.000 einzelnen Sprechern bestanden.

Das Team sagt, dass sein Text-To-Speech-System (TTS) Hunderte Male mehr Daten verwendet hat als die bestehenden TTS-Systeme, was ihnen geholfen hat, das Zero-Shot-Problem zu überwinden.

Das Tool ist derzeit nicht für die Öffentlichkeit verfügbar – aber es wirft Fragen zur Sicherheit auf, da es durchaus verwendet werden könnte, um jeden beliebigen Text aus der Stimme eines jeden zu generieren.

Microsoft setzt stark auf KI

Seine Schöpfer haben jedoch eine Demo zur Verfügung gestelltmit einer Reihe von dreisekündigen Sprecheransagen und einer Demonstration des Text-to-Speech in Aktion, wobei die Stimme korrekt nachgeahmt wird.

Neben der Sprecheransage und der Ausgabe von VALL-E können Sie die Ergebnisse mit der „Grundwahrheit“ – dem tatsächlichen Sprecher, der den Aufforderungstext liest – und dem „Baseline“-Ergebnis der aktuellen TTS-Technologie vergleichen.

Microsoft hat stark in KI investiert und ist einer der Unterstützer von OpenAI, dem Unternehmen hinter ChatGPT und DALL-E, einem Text-zu-Bild- oder Kunsttool.

Der Softwareriese investierte 2019 1 Milliarde US-Dollar (930 Millionen Euro) in OpenAI, und in einem Bericht dieser Woche auf semafor.com heißt es, dass er beabsichtigt, weitere 10 Milliarden US-Dollar (9,3 Milliarden Euro) in das Unternehmen zu investieren.

source-121

Leave a Reply