Metas Voicebox AI ist ein Dall-E für Text-to-Speech


Heute sind wir der unsterblichen Promi-Zukunft, die uns seit langem (seit April) versprochen wurde, einen Schritt näher gekommen. Meta hat Voicebox vorgestellt, sein generatives Text-to-Speech-Modell, das verspricht, für das gesprochene Wort das zu tun, was ChatGPT und Dall-E respektvoll für die Text- und Bildgenerierung getan haben.

Im Grunde ist es ein Text-zu-Ausgabe-Generator, genau wie GPT oder Dall-E – nur dass er statt Prosa oder hübschen Bildern Audioclips ausspuckt. Meta definiert das System als „ein nicht-autoregressives Flow-Matching-Modell, das darauf trainiert ist, Sprache bei gegebenem Audiokontext und Text auszufüllen.“ Es wurde mit mehr als 50.000 Stunden ungefiltertem Audiomaterial trainiert. Insbesondere verwendete Meta aufgezeichnete Sprache und Transkripte aus einer Reihe gemeinfreier Hörbücher, die in Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch verfasst waren.

Laut den Forschern ermöglicht dieser vielfältige Datensatz dem System, eine besser verständlich klingende Sprache zu erzeugen, unabhängig von der Sprache, die von jeder Partei gesprochen wird. „Unsere Ergebnisse zeigen, dass Spracherkennungsmodelle, die mit Voicebox-generierter synthetischer Sprache trainiert wurden, fast genauso gut funktionieren wie Modelle, die mit echter Sprache trainiert wurden.“ Darüber hinaus zeigte die computergenerierte Sprache eine Verschlechterung der Fehlerrate von nur 1 Prozent im Vergleich zu 45 bis 70 Prozent bei bestehenden TTS-Modellen.

Dem System wurde zunächst beigebracht, Sprachsegmente basierend auf den sie umgebenden Segmenten sowie dem Transkript der Passage vorherzusagen. „Nachdem das Modell gelernt hat, Sprache aus dem Kontext zu füllen, kann es dies dann auf Sprachgenerierungsaufgaben anwenden, einschließlich der Erzeugung von Teilen in der Mitte einer Audioaufnahme, ohne die gesamte Eingabe neu erstellen zu müssen“, erklärten die Meta-Forscher.

Berichten zufolge ist Voicebox auch in der Lage, Audioclips aktiv zu bearbeiten, Sprachgeräusche zu eliminieren und sogar falsch gesprochene Wörter zu ersetzen. „Eine Person könnte identifizieren, welches Rohsegment der Sprache durch Rauschen verfälscht ist (wie das Bellen eines Hundes), es zuschneiden und das Modell anweisen, dieses Segment neu zu generieren“, sagten die Forscher, ähnlich wie der Einsatz von Bildbearbeitungssoftware zum Bereinigen von Fotos .

Text-to-Speech-Generatoren gibt es schon seit einer Minute – sie ermöglichen es den TomToms Ihrer Eltern, mit Morgan Freemans Stimme komplizierte Wegbeschreibungen zu geben. Moderne Iterationen wie Sprechen oder Elevenlabs Prime Voice AI sind weitaus leistungsfähiger, benötigen aber immer noch Berge an Quellenmaterial, um ihr Thema richtig nachzubilden – und dann noch einen weiteren Berg unterschiedlicher Daten für jeden. einzel. andere. welches Thema Sie trainieren möchten.

Dies ist bei Voicebox jedoch nicht der Fall, dank einer neuartigen neuen Zero-Shot-Text-to-Speech-Trainingsmethode, die Meta Flow Matching nennt. Die Benchmark-Ergebnisse liegen nicht einmal annähernd da, da die KI von Meta Berichten zufolge den aktuellen Stand der Technik sowohl bei der Verständlichkeit (eine Wortfehlerrate von 1,9 Prozent gegenüber 5,9 Prozent) als auch bei der „Audioähnlichkeit“ (ein zusammengesetzter Wert von 0,681 gegenüber 0,580 der SOA) übertraf. Und das alles bei bis zu 20-mal schnellerem Betrieb als die besten TTS-Systeme von heute.

Aber bringen Sie Ihre Promi-Navigatoren noch nicht in eine Reihe, weder die Voicebox-App noch ihr Quellcode werden derzeit der Öffentlichkeit zugänglich gemacht, bestätigte Meta am Freitag und verwies auf „die potenziellen Risiken eines Missbrauchs“ trotz der „vielen aufregenden Verwendungsmöglichkeiten“. Fälle für generative Sprachmodelle.“ Stattdessen veröffentlichte das Unternehmen eine Reihe von Audiobeispielen (siehe oben/unten) sowie eine erste Forschungsarbeit des Programms. Das Forschungsteam hofft, dass die Technologie in Zukunft Einzug in Prothesen für Patienten mit Stimmbandschäden, In-Game-NPCs und digitale Assistenten hält.

source-115

Leave a Reply