Die Open-Source-Sprach-KI von Meta erkennt über 4.000 gesprochene Sprachen


Meta hat ein KI-Sprachmodell erstellt, das (in einer erfrischenden Abwechslung) kein ChatGPT-Klon ist. Das Massively Multilingual Speech (MMS)-Projekt des Unternehmens kann über 4.000 gesprochene Sprachen erkennen und Sprache (Text-to-Speech) in über 1.100 erzeugen. Wie die meisten seiner anderen öffentlich angekündigten KI-Projekte ist Meta heute Open-Source-MMS, um zur Erhaltung der Sprachvielfalt beizutragen und Forscher zu ermutigen, auf dieser Grundlage aufzubauen. „Heute teilen wir unsere Modelle und unseren Code öffentlich, damit andere in der Forschungsgemeinschaft auf unserer Arbeit aufbauen können“, schrieb das Unternehmen. „Mit dieser Arbeit hoffen wir, einen kleinen Beitrag zum Erhalt der unglaublichen Sprachenvielfalt der Welt zu leisten.“

Spracherkennungs- und Text-zu-Sprache-Modelle erfordern in der Regel eine Schulung an Tausenden von Stunden Audiomaterial mit begleitenden Transkriptionsetiketten. (Beschriftungen sind für maschinelles Lernen von entscheidender Bedeutung, da sie es den Algorithmen ermöglichen, die Daten richtig zu kategorisieren und zu „verstehen“.) Aber für Sprachen, die in Industrienationen nicht weit verbreitet sind – von denen viele in den kommenden Jahrzehnten Gefahr laufen, zu verschwinden – „dies Daten existieren einfach nicht“, wie Meta es ausdrückt.

Meta nutzte einen unkonventionellen Ansatz zum Sammeln von Audiodaten: die Nutzung von Audioaufnahmen übersetzter religiöser Texte. „Wir haben uns religiösen Texten wie der Bibel zugewandt, die in viele verschiedene Sprachen übersetzt wurden und deren Übersetzungen für die textbasierte Sprachübersetzungsforschung umfassend untersucht wurden“, sagte das Unternehmen. „Diese Übersetzungen enthalten öffentlich zugängliche Audioaufnahmen von Menschen, die diese Texte in verschiedenen Sprachen lesen.“ Durch die Einbeziehung der unbeschrifteten Aufzeichnungen der Bibel und ähnlicher Texte erhöhten die Meta-Forscher die verfügbaren Sprachen des Modells auf über 4.000.

Wenn Sie wie ich sind, könnte dieser Ansatz auf den ersten Blick für Stirnrunzeln sorgen, da er wie ein Rezept für ein KI-Modell klingt, das stark auf christliche Weltanschauungen ausgerichtet ist. Aber Meta sagt, dass das nicht der Fall ist. „Obwohl der Inhalt der Audioaufnahmen religiöser Natur ist, zeigt unsere Analyse, dass dies das Modell nicht dazu verleitet, eine religiösere Sprache zu produzieren“, schrieb Meta. „Wir glauben, dass dies daran liegt, dass wir einen Ansatz der konnektionistischen zeitlichen Klassifizierung (CTC) verwenden, der im Vergleich zu großen Sprachmodellen (LLMs) oder Sequenz-zu-Sequenz-Modellen für die Spracherkennung weitaus eingeschränkter ist.“ Obwohl die meisten religiösen Aufnahmen von männlichen Sprechern gelesen wurden, führte dies darüber hinaus auch nicht zu einer männlichen Voreingenommenheit – die Leistung war bei weiblichen und männlichen Stimmen gleichermaßen gut.

Nach dem Training eines Ausrichtungsmodells, um die Daten besser nutzbar zu machen, verwendete Meta wav2vec 2.0, das „selbstüberwachte Sprachdarstellungslernmodell“ des Unternehmens, das auf unbeschrifteten Daten trainieren kann. Die Kombination unkonventioneller Datenquellen und eines selbstüberwachten Sprachmodells führte zu beeindruckenden Ergebnissen. „Unsere Ergebnisse zeigen, dass die Massively Multilingual Speech-Modelle im Vergleich zu bestehenden Modellen eine gute Leistung erbringen und zehnmal so viele Sprachen abdecken.“ Insbesondere verglich Meta MMS mit Whisper von OpenAI und übertraf die Erwartungen. „Wir haben herausgefunden, dass Modelle, die auf den Massively Multilingual Speech-Daten trainiert wurden, die Hälfte der Wortfehlerrate erreichen, Massively Multilingual Speech jedoch elfmal mehr Sprachen abdeckt.“

Meta weist darauf hin, dass seine neuen Modelle nicht perfekt sind. „Beispielsweise besteht ein gewisses Risiko, dass das Speech-to-Text-Modell ausgewählte Wörter oder Phrasen falsch transponiert“, schrieb das Unternehmen. „Je nach Ausgabe kann dies zu einer beleidigenden und/oder ungenauen Sprache führen. Wir sind weiterhin davon überzeugt, dass die Zusammenarbeit in der gesamten KI-Community für die verantwortungsvolle Entwicklung von KI-Technologien von entscheidender Bedeutung ist.“

Nachdem Meta nun MMS für die Open-Source-Forschung freigegeben hat, hofft das Unternehmen, den technologischen Trend umkehren zu können, der dazu führt, dass die Anzahl der Sprachen auf der Welt auf die 100 oder weniger zurückgeht, die am häufigsten von Big Tech unterstützt werden. Es entsteht eine Welt, in der unterstützende Technologien, TTS und sogar VR-/AR-Technologie es jedem ermöglichen, in seiner Muttersprache zu sprechen und zu lernen. Darin heißt es: „Wir stellen uns eine Welt vor, in der Technologie den gegenteiligen Effekt hat und die Menschen dazu ermutigt, ihre Sprachen am Leben zu erhalten, da sie auf Informationen zugreifen und Technologie nutzen können, indem sie in ihrer bevorzugten Sprache sprechen.“

source-115

Leave a Reply