Die KI-generierende Musik-App Riffusion verwandelt den viralen Erfolg in eine Finanzierung in Höhe von 4 Millionen US-Dollar


Vor fast einem Jahr veröffentlichten die Entwickler Seth Forsgren und Hayk Martiros ein Hobbyprojekt namens Riffusion das könnte Musik erzeugen, die nicht Audio, sondern verwendet Bilder von Audio. Es klingt kontraintuitiv (kein Wortspiel beabsichtigt), aber es hat funktioniert – mein Kollege Devin Coldewey hat hier den Überblick.

Obwohl ihr Ansatz seine Grenzen hatte, verschaffte Riffusion Forsgren und Martiros große Aufmerksamkeit – was angesichts der Neugier (und Kontroversen) rund um KI-generierte Musiktechnologie nicht gerade überraschend ist. Laut Forsgren haben Millionen von Menschen Riffusion ausprobiert und die Plattform wurde in Forschungsarbeiten von Big-Tech-Unternehmen wie Meta, Google und der TikTok-Muttergesellschaft ByteDance zitiert.

Ein Teil der Aufmerksamkeit kam offenbar auch von Investoren.

In diesem Jahr beschlossen Forsgren und Martiros, Riffusion zu kommerzialisieren, das nun vom Musikduo The Chainsmokers beraten wird und eine 4-Millionen-Dollar-Seed-Runde unter der Führung von Greycroft unter Beteiligung von South Park Commons und Sky9 abgeschlossen hat.

Riffusion bringt außerdem eine neue, kostenlose App auf den Markt – eine verbesserte Version von Riffusion aus dem letzten Jahr –, mit der Benutzer Texte und einen Musikstil beschreiben können, um „Riffs“ zu generieren, die öffentlich oder mit Freunden geteilt werden können.

„[The new Riffusion] ermöglicht es jedem, Originalmusik über kurze, gemeinsam nutzbare Audioclips zu erstellen“, sagte Forsgren gegenüber TechCrunch in einem E-Mail-Interview. „Benutzer beschreiben einfach den Text und einen Musikstil, und unser Modell generiert in wenigen Sekunden Riffs mit Gesang und individuellem Artwork. Von inspirierenden Musikern bis hin zu „Guten Morgen!“-Wünschen für deine Mutter – Riffs sind eine neue Ausdrucks- und Kommunikationsform, die die Hürden beim Musikschaffen drastisch senkt.“

Riffusion

Bildnachweis: Riffusion

Matiros und Forsgren lernten sich während ihres Studiums in Princeton kennen und verbrachten das letzte Jahrzehnt damit, gemeinsam in einer Amateurband Musik zu machen. Forsgren gründete zuvor zwei risikokapitalfinanzierte Technologieunternehmen, Hardline und Yodel, während Matiros als einer seiner ersten Mitarbeiter dem Drohnen-Startup Skydio beitrat.

Forsgren sagt, dass er und Matiros durch das Potenzial, das sie in generativen KI-Tools sehen, um Menschen durch Kreativität zu verbinden, dazu inspiriert wurden, Riffusion zu skalieren.

„Die Pandemie hat uns allen viel mehr Zeit zu Hause verschafft – und mich dazu gebracht, Klavierspielen zu lernen“, sagte Forsgren. „Musik hat eine große Kraft, uns in Zeiten der Isolation zu verbinden. Generative KI ist ein neuer und sich schnell verändernder Bereich, und Riffusion möchte diese Technologie nutzen, um ein unterhaltsames neues Instrument zu liefern – eines, das es jedem ermöglicht, sein ganzes Leben lang aktiv Musik zu machen.“

Das verbesserte Riffusion wird von einem Audiomodell angetrieben, das das Riffusion-Team – das aus sechs Leuten besteht, darunter Forsgren und Matiros – von Grund auf trainiert hat. Wie das Modell hinter dem ursprünglichen Riffusion ist auch das neue Modell auf Spektrogramme oder visuelle Darstellungen von Audiodaten abgestimmt, die die Amplitude verschiedener Frequenzen im Zeitverlauf zeigen.

Forsgren und Martiros erstellten Musikspektrogramme und markierten die resultierenden Bilder mit den relevanten Begriffen wie „Bluesgitarre“, „Jazzklavier“ und so weiter. Indem man das Modell mit dieser Sammlung fütterte, „lehrte“ es, wie bestimmte Klänge „aussehen“ und wie es sie nach einer Textaufforderung neu erzeugen oder kombinieren könnte (z. B. „Lo-Fi-Beat für die Feiertage“, „Mambo, aber aus Kenia“, „ ein volkstümlicher Blues-Song aus dem Mississippi-Delta“ usw.).

„Benutzer beschreiben musikalische Qualitäten durch natürliche Sprache oder sogar durch Aufnahme ihrer eigenen Stimme, um das Modell zu veranlassen, einzigartige Ergebnisse zu generieren“, erklärte Forsgren. „Wir glauben, dass das Produkt Musikproduzenten und Audioingenieuren die Möglichkeit geben wird, neue Ideen zu erkunden und sich auf völlig neue Weise inspirieren zu lassen.“

Hier ist ein Beispiel, das mithilfe der Fähigkeit von Riffusion erstellt wurde, eine Stimme mit der Aufforderung „Punkrock-Hymne, männlicher Gesang, energiegeladene Gitarre und Schlagzeug“ aufzunehmen:

Aber wie sieht es mit der Möglichkeit einer Urheberrechtsverletzung aus?

Zunehmend, hausgemachte Tracks die generative KI verwenden, um vertraute Klänge zu zaubern, die als authentisch oder zumindest nah genug ausgegeben werden können, haben sich viral verbreitet. Erst letzten Monat hat sich eine Discord-Community dem generativen Audio gewidmet freigegeben ein ganzes Album mit einer KI-generierten Kopie von Travis Scotts Stimme – was den Zorn des Labels auf sich zog, das ihn vertritt.

Musiklabels haben KI-generierte Titel schnell an Streaming-Partner wie Spotify und SoundCloud gemeldet und dabei Bedenken hinsichtlich des geistigen Eigentums geltend gemacht – und das haben sie auch allgemein siegreich gewesen. Es besteht jedoch immer noch Unklarheit darüber, ob „Deepfake“-Musik das Urheberrecht von Künstlern, Labels und anderen Rechteinhabern verletzt.

Forsgren bemerkte schnell, dass das neue und verbesserte Riffusion nicht darauf trainiert war, berühmte Künstlernamen oder Lieder zu erkennen – und sie, wie er sagt, nicht reproduzieren kann.

„Das Produkt ist nicht für die Produktion von Deepfakes konzipiert und erkennt in seinen Eingabeaufforderungen keine berühmten Künstlernamen“, sagte er. „Stattdessen können Benutzer mit der App persönliche Nachrichten und eingängige Hooks verfassen. Es ist nicht ungewöhnlich, dass ein von Ihnen erstelltes Riff im Kopf hängen bleibt und Sie den ganzen Tag mitsingen.“

Riffusion

Bildnachweis: Riffusion

Es gibt noch keine klare Monetarisierungsstrategie. Forsgren und Martiros sagen, dass sie sich vorerst darauf konzentrieren, das Team von Riffusion zu vergrößern und ergänzende neue generative KI-Produkte zu entwickeln.

Aber Forsgren deutete auch an, enger mit Künstlern wie The Chainsmokers zusammenzuarbeiten, um herauszufinden, wie die Technologie in ihren kreativen Prozessen eingesetzt werden könnte.

„Generative Musik steckt noch in den Kinderschuhen. Modelle wie MusicLM von Google, MusicGen von Facebook und Stability Stable Audio sind spannende Tools in diesem Bereich“, sagte Forsgren. „Aber Riffusion ist einer der ersten Anbieter, der es Benutzern ermöglicht, über eine unterhaltsame und zugängliche Website Texte für ihre Musik zu generieren.“

source-116

Leave a Reply