Der Multiplayer-Shooter The Finals der Battlefield-Entwickler ist voller KI-Stimmen – und uff, das merkt man


The Finals, der geldgierige Multiplayer-FPS mit zerstörbarer Kulisse von ehemaligen Battlefield-Entwicklern, befindet sich derzeit in der offenen Betaphase, die es jedem ermöglicht, einen Blick auf das schieß-, knall- und gewinnbringende Gameplay zu werfen. Sie können es sich auch anhören – und dabei fällt Ihnen vielleicht auf, dass die Ansager für die Spielshow innerhalb eines Spiels etwas ungewöhnlich sind. Das ist richtig: Es handelt sich um KI-generierte Stimmen, nicht um menschliche Schauspieler.

Auf YouTube ansehen

Der Audiodesigner von Embark Studios, Andreas Almström, bestätigte bereits im Juli in einer Podcast-Folge über die Entstehung von „The Finals“ die Entscheidung, KI-Text-to-Speech-Technologie zu verwenden kürzlich von Gianni Matragrano entdeckt. Mattragrano ist selbst Schauspieler für Videospiele und hat unter anderem in Genshin Impact, Evil West und Trepang2 mitgewirkt.

„Also hier ist der Clou: Was haben die Voice-Overs bewirkt?“ Almström antwortete auf die Frage des Podcast-Moderators, wer für die Synchronsprecher bei The Finals gesorgt habe. „Die Sache ist die, wir haben bis auf wenige Ausnahmen KI eingesetzt.“

Almström erklärte, dass „alle Stimmen der Teilnehmer, wie das Bellen, und unsere beiden Kommentatoren KI-Text-to-Speech sind“, mit „Dingen, die wir Vokalisierungen nennen“ – einschließlich der gehauchten Geräusche und Grunzer, die die Spielercharaktere beim Laufen, Voltigieren usw. machen Springen – bereitgestellt von Embarks eigenen Entwicklern. Allerdings nicht aus Mangel an Versuchen: „Wir können die KI noch nicht wirklich dazu bringen, solche Aufgaben auszuführen“, sagte Almström.

Almström behauptete, dass die Entscheidung, KI-generierte Stimmen zu verwenden, auf der Fähigkeit der Technologie beruhte, Stimmen bereitzustellen, die nah genug an den menschlichen Klang herankommen und gleichzeitig in relativ kurzer Zeit erzeugt werden können, verglichen mit dem Einsatz menschlicher Schauspieler in der Kabine.

„Der Grund, warum wir diesen Weg gehen, ist, dass KI-Text-to-Speech endlich extrem leistungsfähig ist“, sagte Almström. „Es bringt uns qualitativ weit genug und ermöglicht es uns, äußerst schnell auf neue Ideen zu reagieren und die Dinge wirklich, wirklich frisch zu halten.“

Das Ziel, „weit genug“ zu kommen, ist in einem von Matragrano geteilten Clip der Ansager des Finales ziemlich deutlich zu hören, mit besonders seltsamer Betonung bestimmter Wörter und einem bizarren Satzfluss – hören Sie sich „das Team an, das zuerst genug Geld wegsteckt“. triumphs“ ab 0:08 im Clip unten, wo das Fehlen einer Pause in „first triumphs“ fast zu einem einzigen Wort verschmilzt. Unreal Tournament, das ist es nicht.

„Auch wenn es etwas abwegig klingt, fügt es sich ästhetisch immer noch recht gut in die Fantasie der virtuellen Spielshow ein“, fügte Almström im Podcast hinzu und wehrte damit scheinbar die Kritik an den unheimlichen KI-Sprachdarbietungen ab. Persönlich bin ich nicht überzeugt – es klingt nicht wie ein futuristischer virtueller Ansager, sondern nur ein Text-to-Speech-Programm, das nicht weiß, wie man mit einfachen Wörtern umgeht, wie es ein normaler Mensch tun würde, geschweige denn wie ein professioneller Schauspieler .

Matragrano stellte Almströms Behauptung in Frage, dass es „Monate“ dauere, Voice-Over für einen neuen Spielmodus aufzunehmen, der von einem Designer erstellt wurde – was laut Almström mit KI „eine Frage von Stunden“ sei – und entgegnete, dass menschliche Schauspieler es gewohnt seien, Sitzungen mit höherer Qualität innerhalb eines Zeitraums aufzuzeichnen Tag oder zwei.

Natürlich ohne auf die offensichtlichen ethischen Bedenken im Zusammenhang mit dem Prozess der KI-Generierung und ihrem Einsatz anstelle von bezahlten Akteuren hinzuweisen – etwas, das ein zentraler Punkt bei den jüngsten SAG-AFTRA-Streiks war, als die Gewerkschaft ihre Besorgnis über digitale Nachbildungen von KI zum Ausdruck brachte Schauspieler werden ohne Einverständniserklärung oder angemessene Bezahlung eingesetzt.

„Sie können im wahrsten Sinne des Wortes professionelle Sprachausgabe für weniger als den Gesamtpreis bekommen, ein paar Aufnahmesitzungen absolvieren und schon haben Sie alle Audiodaten, die Sie brauchen“, sagte Matragrano. „Wir machen es eigentlich ganz einfach. Und dann klingt es einfach gut und ist nichts, worüber sich selbst Spieler, denen die KI-Ethik egal ist, ständig beschweren.“


Eine Spielerfigur aus „The Finals“ hält eine Maschinenpistole in der Hand und trägt eine Smiley-Gesichtsmaske auf dem Kopf, während ein Publikum aus Silhouetten zuschaut.

In einem weiteren aktuellen Fall von KI-Einsatz in einem Videospiel nutzte CD Projekt Red die Technologie, um die Stimme des verstorbenen polnischen Schauspielers Miłogost Reczek – mit Erlaubnis der Familie des Schauspielers – für das Wiederauftauchen von Cyberpunk 2077-Ripperdoc Viktor Vektor in diesem Jahr nachzubilden Erweiterung Phantom Liberty. An anderer Stelle nutzte „God of War Ragnarok“ eine ähnliche Technik, um Dialoge, die vom Atreus-Schauspieler Sunny Suljic aufgenommen wurden, zu entaltern, um sie an seinen früheren vorpubertären Ton anzupassen.

Die Stimme eines verstorbenen Schauspielers nachzubilden – selbst mit dessen Erlaubnis – und den Dialog, der ursprünglich von einem Menschen geführt wurde, umzuwandeln, fühlt sich immer noch deutlich anders an, als wenn man menschliche Darsteller in einem Spiel vollständig ersetzen würde, aber Almström geht zumindest davon aus, dass diese Situation immer alltäglicher wird.

„Was die Stimmen von Videospielen angeht, stehen wir gerade am Anfang einer neuen Ära“, sagte der Audiodesigner.

Unabhängig davon, was Sie auf die eine oder andere Weise, im Guten wie im Schlechten, über die KI-Stimmen von The Finals denken, das ist zweifellos wahr.



source-86

Leave a Reply