A Podcast von Embark Studios– Schöpfer des kommenden FPS Das Finale– hat angedeutet, dass das Spiel in absehbarer Zukunft KI-Sprachleitungen verwenden wird. Die Erklärung hat jedoch bei einigen Synchronsprechern bestenfalls Verwirrung hervorgerufen.
Carl Strandberg und Andreas Almström, Audiodesigner für The Finals, wurden gefragt: „Wer hat die Voiceovers gemacht?“ Sie klingen wirklich authentisch“ (Spoiler: Das ist keine Meinung, die jeder teilt). Sie antworteten: „Mit wenigen Ausnahmen verwenden wir KI, daher sind alle Teilnehmerstimmen wie Bellen und Voice-Over-Kommentatoren KI-Text-to-Speech.“ Verschiedene Voiceover-Sachen – Grunzen, Schmerzgeräusche, Überspringen von Gegenständen – werden ansonsten intern erledigt.
„Der Grund, warum wir diesen Weg gegangen sind, ist, dass KI-Text-to-Speech endlich extrem leistungsfähig ist.“ Es bringt uns in puncto Qualität weit genug und ermöglicht es uns, äußerst reaktiv auf neue Ideen zu reagieren … wenn ein Spieledesigner etwas hat.“ Wenn wir eine neue Idee für einen Spielmodus entwickeln, können wir innerhalb weniger Stunden statt in Monaten einen Voiceover erstellen, der dies repräsentiert.“
Diese Erklärung stimmt jedoch nicht wirklich mit der Erfahrung von Synchronsprechern überein, die tatsächlich beim Spielen arbeiten. Einer dieser Schauspieler ist Gianni Mattragrano – den Sie vielleicht als Gabriel aus Ultrakill kennen, obwohl er für eine Vielzahl von Spielen mitgewirkt hat, darunter Genshin Impact, Gloomwood und Evil West.
Mattragrano schrieb auf a Twitter-Thread: „Wir führen ständig Eilbestellungen für etwa ein bis zwei Tage durch … Wenn Sie mehr benötigen, können Sie eine weitere Sitzung buchen.“ Wir machen es eigentlich ganz einfach.“ Er verrät weiter, dass er beim Spielen der Beta seine Zweifel hatte, aber auf eine Bestätigung wartete: „Ich hatte meine Vermutungen, aber ich wollte nichts sagen, für den Fall, dass ich falsch lag, oder.“ Vielleicht war es zumindest nur ein Platzhalter.“ Aber jetzt bei einer großen Open Beta mit [150,000] Gleichzeitige Spieler, das ist definitiv nur ihre Vision.
Ich vermute auch, dass das Finale mit KI-Stimmen stattfinden wird …? pic.twitter.com/PIAbR43ZrT28. Oktober 2023
Das obige Video ist ein Beispiel, das Matragrano selbst gepostet hat, und … ja, es ist nicht so toll. Ich höre zu viel Uncanny Valley, um mich auf die „extrem leistungsstarke“ Technologie einzulassen, mit der Strandberg und Almström prahlen. Sie fügen jedoch den Vorbehalt hinzu: „Auch wenn es etwas abwegig klingt, fügt es sich ästhetisch gesehen immer noch gut in die Fantasie der virtuellen Gameshow ein.“ Es liegt an Ihnen, ob diese Sprachlinien Sie in den Bann ziehen.
Zane Schacht, Ein anderer Synchronsprecher schrieb: „Warum zum Teufel verhalten sich KI-Sprecher so, als wäre die Einstellung von Synchronsprechern ein kunstgeheimnisvolles Ritual … Ich habe in einer zweistündigen Sitzung ganze Spiele mit Audiomaterial rausgehauen.“ Es ist nicht tiefgründig.“
In der Zwischenzeit Pax Helgesender sowohl leitender Sounddesigner als auch selbst Synchronsprecher ist, kommentierte: „Ich möchte Entwickler erneut dazu ermutigen, den Einsatz von Stimme in ihren Spielen einfach als „Aktivposten“ in der Pipeline der agilen Entwicklung zu überdenken.“ Er fährt fort, dass KI zwar Eine wichtige Rolle bei der Entwicklung eines Spiels spielen kann, aber „ein Schauspieler, der die Werkzeuge seines Handwerks und seine Erfahrungen nutzen kann, um zusammenzuarbeiten und etwas Größeres zu schaffen, als sich die Entwickler vorgestellt haben.“
Ich bin geneigt, hier zuzustimmen. In gewisser Weise sind Schauspiel und Sounddesign zwei sehr unterschiedliche Disziplinen. Es ist vergleichbar mit der Kunst und Weise, wie „KI-Künstler“ auf öffentlichen Plätzen niedergeschossen werden, wenn sie die Ergebnisse ihrer Aufforderungen teilen, da diejenigen mit einem besseren Auge den Mangel an Komposition und Absicht schon aus einer Meile Entfernung erkennen können.
Man kann zwar einen Algorithmus verwenden, um etwas zu produzieren, aber Kunst erfordert Dutzende gezielter Entscheidungen, die eine Maschine derzeit nicht reproduzieren kann. Die Schauspielerei ist ähnlich. Ein Teil von mir fragt sich, ob Strandberg und Almström einfach nicht genug über VA wissen, um zu verstehen, wie sehr ihre von ElevenLabs generierten Zeilen Spieler verärgern, deren Entwicklungszeiten egal sind.
Was die Sache umso bizarrer macht, ist die Tatsache, dass es bereits interessante und durchdachte Anwendungen dieser Technologie im Spielen gibt. Vor einiger Zeit wurde bekannt, dass die polnische Synchronisation von Cyberpunk 2077 KI nutzte, um neue Zeilen für das Erweiterungspaket des Spiels, Phantom Liberty, bereitzustellen, nachdem der Synchronsprecher eines bestimmten Charakters gestorben war. CD Projekt hat seine Due Diligence durchgeführt. Es wurde ein Synchronsprecher engagiert, der die neuen Zeilen liefern sollte (die geändert werden sollen). Redner), holte es die Zustimmung der überlebenden Familienmitglieder des Schauspielers ein und tat dies, um die ursprüngliche, nicht-KI-Darbietung zu bewahren.
Wenn es um „The Finals“ geht, fällt es mir schwer, die kreative Absicht zu erkennen. Sicherlich könnte KI für schnellere Bearbeitungszeiten sorgen – auch wenn sie nicht so langsam sind, wie die Entwickler es darstellen –, aber das Ergebnis ist ohne Persönlichkeit. Ein Multiplayer-Shoot’em-Up muss zwar keine tiefgründige Erzählung bieten, aber man hört sich diese schönen Stunden lang an. Ich habe das Gefühl, dass eine gestaltete, umständliche Lieferung schnell nervös wird.
Ich habe Embark Studios um einen Kommentar gebeten und mir wurde per E-Mail mitgeteilt, dass das Studio eine Mischung aus „aufgezeichnetem Sprachaudio und über TTS generiertem Audio“ verwendet [text to speech] „In unseren Spielen können wir je nach Kontext Tools verwenden“, wobei es um Gespräche zwischen Charakteren geht, bei denen es wichtig ist, echte Menschen miteinander ins Gespräch zu bringen. „TTS ermöglicht es uns, maßgeschneiderte Lösungen zu finden.“ [voice acting] wo wir es sonst nicht tun würden, z. B. aufgrund der schnellen Umsetzung.“
„In den Fällen, in denen wir TTS in The Finals verwenden, basiert es immer auf echten Stimmen.“ Hier ist Folgendes anzumerken: bin die meisten KI-Sprachprogramme basieren auf echten Stimmen, genauso wie KI-Kunst auf echter Kunst basiert – so funktioniert die Technologie. „In der offenen Beta basiert es auf einer Mischung aus professionellen Synchronsprechern und temporären Stimmen von Embark-Mitarbeitern. Spiele ohne Schauspieler zu machen ist für Embark kein Endziel und die TTS-Technologie hat uns neue Möglichkeiten der Zusammenarbeit eröffnet.“
Embark Studios äußerte sich nicht zur Frage „Monate vs. Wochen“, obwohl die Implikation nahe an die Aussage des oben genannten Interviews zu kommen scheint: TTS ist Teil der Vision von The Finals. Das Spiel wird wahrscheinlich auch nach der Beta-Phase eine Mischung aus Sprachsteuerung und KI verwenden – es sei denn, die öffentliche Meinung beeinflusst Embark Studios anders.