Neue KI-Werkzeuge zum Klonen von Stimmen fügen dem Feuer von Fehlinformationen „Öl hinzu“.


NEW YORK (AP) – In einem Video aus einem Nachrichtenbericht vom 25. Januar spricht Präsident Joe Biden über Panzer. Aber eine manipulierte Version des Videos hat diese Woche Hunderttausende Aufrufe in den sozialen Medien angehäuft, was den Anschein erweckt, als hätte er eine Rede gehalten, die Transgender angreift.

Experten für digitale Forensik sagen, dass das Video mit einer neuen Generation von Tools für künstliche Intelligenz erstellt wurde, die es jedem ermöglichen, mit wenigen Klicks schnell Audio zu erzeugen, das die Stimme einer Person simuliert. Und während der Biden-Clip in den sozialen Medien diesmal die meisten Benutzer möglicherweise nicht getäuscht hat, zeigt der Clip, wie einfach es für Menschen jetzt ist, hasserfüllte und mit Desinformationen gefüllte „Deepfake“ -Videos zu erstellen, die der realen Welt Schaden zufügen könnten.

„Werkzeuge wie dieses werden im Grunde mehr Öl ins Feuer gießen“, sagte Hafiz Malik, Professor für Elektro- und Computertechnik an der University of Michigan, der sich auf Multimedia-Forensik konzentriert. „Das Monster ist bereits los.“

Es kam letzten Monat mit der Beta-Phase der Sprachsyntheseplattform von ElevenLabs, die es Benutzern ermöglichte, realistische Audiodaten der Stimme einer beliebigen Person zu erzeugen, indem sie ein paar Minuten Audio-Samples hochladen und einen beliebigen Text eingeben, um sie zu sagen.

Das Startup sagt, dass die Technologie entwickelt wurde, um Audio in verschiedenen Sprachen für Filme, Hörbücher und Spiele zu synchronisieren, um die Stimme und Emotionen des Sprechers zu bewahren.

Social-Media-Nutzer begannen schnell damit, eine KI-generierte Audio-Sample von Hillary Clinton zu teilen, die denselben transphobischen Text las, der im Biden-Clip zu sehen war, zusammen mit gefälschten Audio-Clips von Bill Gates, der angeblich sagte, dass der COVID-19-Impfstoff AIDS verursacht, und Schauspielerin Emma Watson, die angeblich las Hitlers Manifest „Mein Kampf“.

Kurz darauf ElevenLabs hat getwittert, dass es so war eine „zunehmende Zahl von Missbrauchsfällen beim Klonen von Stimmen“ und kündigte an, dass jetzt Schutzmaßnahmen geprüft werden, um Missbrauch einzudämmen. Einer der ersten Schritte bestand darin, die Funktion nur für diejenigen verfügbar zu machen, die Zahlungsinformationen bereitstellen. Anfänglich konnten anonyme Benutzer kostenlos auf das Tool zum Klonen von Stimmen zugreifen. Das Unternehmen behauptet auch, dass es bei Problemen jedes generierte Audio bis zum Ersteller zurückverfolgen kann.

Aber selbst die Fähigkeit, Urheber zu verfolgen, wird den Schaden des Tools nicht mindern, sagte Hany Farid, Professor an der University of California, Berkeley, der sich auf digitale Forensik und Fehlinformationen konzentriert.

„Der Schaden ist angerichtet“, sagte er.

Als Beispiel sagte Farid, dass schlechte Schauspieler den Aktienmarkt mit gefälschten Audiodaten eines Top-CEO bewegen könnten, der sagt, dass die Gewinne gesunken sind. Und es gibt bereits einen Clip auf YouTube, in dem das Tool verwendet wurde, um ein Video so zu ändern, dass es so aussieht, als ob Biden sagte, die USA würden einen Atomangriff auf Russland starten.

Kostenlose und Open-Source-Software mit den gleichen Fähigkeiten ist auch online aufgetaucht, was bedeutet, dass Paywalls bei kommerziellen Tools kein Hindernis darstellen. Unter Verwendung eines kostenlosen Online-Modells generierte der AP in nur wenigen Minuten Audio-Samples, die wie die Schauspieler Daniel Craig und Jennifer Lawrence klangen.

„Die Frage ist, wohin mit dem Finger zeigen und wie den Geist wieder in die Flasche stecken?“ sagte Malik. „Wir können das nicht.“

Als Deepfakes vor etwa fünf Jahren zum ersten Mal Schlagzeilen machten, waren sie leicht zu erkennen, da das Subjekt nicht blinzelte und der Ton roboterhaft klang. Das ist nicht mehr der Fall, da die Tools ausgefeilter werden.

Das veränderte Video von Biden, der beispielsweise abfällige Kommentare über Transgender-Personen abgab, kombinierte das von der KI generierte Audio mit einem echten Clip des Präsidenten, der aus einer CNN-Livesendung vom 25. Januar stammt, in der die US-Panzerentsendung in die Ukraine angekündigt wurde. Bidens Mund wurde im Video manipuliert, um dem Ton zu entsprechen. Während die meisten Twitter-Nutzer erkannten, dass der Inhalt nicht etwas war, was Biden wahrscheinlich sagen würde, waren sie dennoch schockiert darüber, wie realistisch er erschien. Andere schienen zu glauben, dass es echt war – oder wussten zumindest nicht, was sie glauben sollten.

Hollywood-Studios seien seit langem in der Lage, die Realität zu verzerren, aber der Zugang zu dieser Technologie sei demokratisiert worden, ohne die Auswirkungen zu berücksichtigen, sagte Farid.

„Es ist eine Kombination aus der sehr, sehr leistungsstarken KI-basierten Technologie, der Benutzerfreundlichkeit und der Tatsache, dass das Modell so aussieht: Stellen wir es ins Internet und sehen, was als nächstes passiert“, sagte Farid.

Audio ist nur ein Bereich, in dem KI-generierte Fehlinformationen eine Bedrohung darstellen.

Kostenlose Online-KI-Bildgeneratoren wie Midjourney und DALL-E können mit einer einfachen Texteingabe fotorealistische Bilder von Krieg und Naturkatastrophen im Stil älterer Medien ausgeben. Letzten Monat begannen einige Schulbezirke in den USA, ChatGPT zu blockierendie bei Bedarf lesbaren Text – wie studentische Hausarbeiten – produzieren kann.

ElevenLabs antwortete nicht auf eine Bitte um Stellungnahme.



source-123

Leave a Reply