AI Image Generator kann auch Musik produzieren (mit jenseitigen Ergebnissen)


KI-Bildgeneratoren können offenbar mehr als professionelle Kunst auspumpen. Zwei Bandkollegen verwenden dieselben Algorithmen, um Musik zu erstellen.

Das Projekt mit dem Namen Riffus nutzt die KI-Text-zu-Bild-Generierung, um Spektrogramme – oder visuelle Darstellungen von Musik – zu erstellen, die dann in Audioclips umgewandelt werden können.

Die KI trainiert Computeralgorithmen, um Bilder von Objekten und Orten zu erkennen, und verwendet sie, um ähnliche Bilder zu replizieren. Programme wie DALL-E 2, Midjourney und Stable Diffusion sind so geschickt in der Bilderzeugung, dass sie versuchen können, alles, was Sie wollen, durch verschiedene Kunststile zu visualisieren – basierend auf einer bloßen Texteingabeaufforderung.

Die Bilderzeugung inspirierte den Softwareentwickler Seth Forsgren und den Robotiker Hayk Martiros zu der Frage, ob dieselben KI-Programme auch für den Audiobereich gelten könnten. „Hayk und ich spielen zusammen in einer kleinen Band, und wir haben das Projekt einfach deshalb gestartet, weil wir Musik lieben“, sagt Forsgren gegenüber PCMag. „Angesichts der großartigen Ergebnisse von Stable Diffusion für die Bildgenerierung haben wir uns gefragt, wie es aussehen würde, einen Diffusionsansatz zum Erstellen von Musik zu verwenden.“

Ein Beispiel für die Spektrogramme

(Bildnachweis: Riffus)

Um das herauszufinden, trainierten die beiden das Open-Source-Programm Stable Diffusion mit Bildern von Spektrogrammen gepaart mit Text. Das Programm war dann in der Lage, Spektrogramme von Musik basierend auf einer gegebenen Eingabeaufforderung zu erzeugen.

„Zuerst wussten wir nicht, ob es der Stable Diffusion-Modellarchitektur überhaupt möglich wäre, ein Spektrogrammbild mit ausreichender Wiedergabetreue zu erstellen, um es in Audio umzuwandeln, aber es stellte sich heraus, dass es das und mehr kann“, sagt Forgren. „Mit jedem Schritt auf unserem Weg waren wir mehr und mehr beeindruckt von dem, was möglich ist, und eine Idee führt zur nächsten.“

Die Riffus-Site, die einen Song generiert.

(Bildnachweis: Riffus)

Forsgren und Martiros veröffentlichten ihre Ergebnisse(Öffnet in einem neuen Fenster) auf der Riffus-Website, die als Hobbyprojekt gedacht ist. Aber am wichtigsten ist, dass Besucher der Website sich anschließen können ihre eigenen Textaufforderungen(Öffnet in einem neuen Fenster)und Rifffusion erstellt ein Spektrogramm ihrer Anfrage, das auf der Website als Audioclip abgespielt wird.

Darüber hinaus kann das Programm beim Zuhören neue Variationen des Spektrogramms erstellen. Hier ist ein Beispiel dafür, wie Riffus versucht, ein „arabisches Evangelium“ zu erschaffen.

Die Ergebnisse sind überraschend gut. Wir haben diesen jazzigen Ausschnitt genossen, der mit dem Prompt produziert wurde: “Funk-Basslinie mit einem jazzigen Saxophon-Solo.”

Riffus kann auch versuchen, Songs zu replizieren, darunter K-Pop oder ein “Wut-Rap im Eminem-Stil(Öffnet in einem neuen Fenster)”, ohne den Text. Stattdessen werden die Melodien melodisches, menschlich klingendes Kauderwelsch enthalten, das immer noch zum Gesamtton des Songs passt.

Von unseren Redakteuren empfohlen

Unten ist zum Beispiel eine „Fantasy-Ballade, weibliche Stimme“, die sich in eine „Teenager-Boy-Popstar“-Melodie verwandelt. Das daraus resultierende Lied klingt für uns gleichzeitig menschlich und fremd.

Forsgren sagt, dass die Texte aus der Sendung „ein bisschen jenseitig“ klingen können. Eine weitere Einschränkung „besteht darin, dass das Modell noch nicht dafür ausgelegt ist, die Songstruktur auf höherer Ebene zu verstehen – als würde es nicht versuchen, Refrains oder ähnliches zu wiederholen. Sie könnten sich vorstellen, ein abstraktes Modell darauf zu bauen, um dies zu tun.“

Die Technologie kann also menschengemachte Musik nicht ganz ersetzen. Aber das Projekt zeigt, dass KI-Bildalgorithmen viel Potenzial für andere Zwecke haben könnten, einschließlich der Möglichkeit, Musikschaffenden Inspiration zu bieten. Forsgren und Martiros haben Rifffusion am Donnerstag veröffentlicht, und viele Benutzer testen bereits ihr Projekt.

„Wir sehen einen enormen Datenverkehr auf der Website – es war ein Wirbelsturm, genügend GPUs am Laufen zu halten, um alle Anfragen zu bedienen, aber wir haben einen lustigen Tag“, sagt Forsgren. Daher kann die Riffusion-Site aufgrund der Verkehrslast Schwierigkeiten haben, Ihre Anfrage zu bearbeiten. Allerdings posteten die beiden auch den Code für ihr Projekt auf GitHub(Öffnet in einem neuen Fenster).

Was ist jetzt neu<\/strong> um unsere Schlagzeilen jeden Morgen in Ihren Posteingang zu bekommen.”,”first_published_at”:”2021-09-30T21:30:40.000000Z”,”published_at”:”2022-08-31T18:35:24.000000Z”,”last_published_at “:”2022-08-31T18:35:20.000000Z”,”created_at”:null,”updated_at”:”2022-08-31T18:35:24.000000Z”)” x-show=”showEmailSignUp()” class =”gerundet bg-gray-lightest text-center md:px-32 md:py-8 p-4 mt-8 container-xs”>

Holen Sie sich unsere besten Geschichten!

Melden Sie sich an für Was ist jetzt neu um unsere Schlagzeilen jeden Morgen in Ihren Posteingang zu bekommen.

Dieser Newsletter kann Werbung, Angebote oder Affiliate-Links enthalten. Das Abonnieren eines Newsletters erklärt Ihr Einverständnis mit unseren Nutzungsbedingungen und Datenschutz-Bestimmungen. Sie können die Newsletter jederzeit abbestellen.



source-106

Leave a Reply