MusicLM: Googles neues KI-Tool kann Text, Pfeifen und Summen in echte Musik verwandeln


Forscher von Google haben eine Text-zu-Musik-KI enthüllt, die Songs erstellt, die bis zu fünf Minuten dauern können.

Das Team veröffentlichte ein Papier mit seinen bisherigen Arbeiten und Erkenntnissen und stellte MusicLM der Welt mit einer Reihe von Beispielen vor, die eine überraschende Ähnlichkeit mit ihren Texteingabeaufforderungen aufweisen.

Die Forscher behaupten Ihr Modell „übertrifft frühere Systeme sowohl in der Audioqualität als auch in der Einhaltung der Textbeschreibung“.

Die Beispiele sind 30-Sekunden-Schnipsel der Songs und enthalten ihre Eingabeuntertitel wie:

  • „Der Hauptsoundtrack eines Arcade-Spiels. Es ist schnell und optimistisch, mit einem eingängigen E-Gitarren-Riff. Die Musik ist repetitiv und leicht zu merken, aber mit unerwarteten Klängen, wie Beckenschlägen oder Trommelwirbeln“.
  • „Eine Fusion aus Reggaeton und elektronischer Tanzmusik mit einem spacigen, jenseitigen Sound. Verursacht die Erfahrung, im Raum verloren zu sein, und die Musik wäre so gestaltet, dass sie ein Gefühl von Staunen und Ehrfurcht hervorruft, während sie tanzbar ist.
  • „Ein aufsteigender Synthesizer spielt ein Arpeggio mit viel Hall. Es wird von Pads, Sub-Bass-Line und sanften Drums unterstützt. Dieser Song ist voller Synthesizer-Sounds, die eine beruhigende und abenteuerliche Atmosphäre schaffen. Es kann sein, dass es auf einem Festival während zwei Songs für einen Aufbau spielt“.

Die Verwendung von KI zum Generieren von Musik ist nichts Neues – aber ein Tool, das tatsächlich passable Musik basierend auf einer einfachen Texteingabe generieren kann, muss noch vorgestellt werden. Bis jetzt, so das Team hinter MusicLM.

Die Forscher in ihrer Arbeit erklären die verschiedenen Herausforderungen, denen sich die KI-Musikerzeugung gegenübersieht. Erstens gibt es ein Problem mit dem Mangel an gepaarten Audio- und Textdaten – anders als beim maschinellen Lernen von Text zu Bild, wo angeblich riesige Datensätze zu den jüngsten Fortschritten „wesentlich beigetragen“ haben.

Zum Beispiel haben das DALL-E-Tool von OpenAI und Stable Diffusion sowohl für ein starkes öffentliches Interesse an diesem Bereich als auch für unmittelbare Anwendungsfälle gesorgt.

Eine zusätzliche Herausforderung bei der KI-Musikerzeugung besteht darin, dass Musik „entlang einer zeitlichen Dimension“ strukturiert ist – ein Musiktitel existiert über einen bestimmten Zeitraum. Daher ist es viel schwieriger, die Absicht für einen Musiktitel mit einer einfachen Textbeschriftung zu erfassen, als eine Beschriftung für ein Standbild zu verwenden.

MusicLM ist ein Schritt zur Bewältigung dieser Herausforderungen, sagt das Team.

Es handelt sich um ein „hierarchisches Sequenz-zu-Sequenz-Modell zur Musikgenerierung“, das maschinelles Lernen nutzt, um Sequenzen für verschiedene Ebenen des Songs zu generieren, etwa die Struktur, die Melodie und die einzelnen Klänge.

Um zu lernen, wie das geht, wird das Modell mit einem großen Datensatz unbeschrifteter Musik trainiert, zusammen mit einem Musikuntertitel-Datensatz mit mehr als 5.500 Beispielen, die von Musikern erstellt wurden. Dieser Datensatz wurde öffentlich freigegeben, um zukünftige Forschung zu unterstützen.

Das Modell ermöglicht auch eine Audioeingabe, beispielsweise in Form von Pfeifen oder Summen, um die Melodie des Songs zu informieren, die dann „in dem von der Texteingabeaufforderung beschriebenen Stil wiedergegeben wird“.

Es wurde noch nicht veröffentlicht, wobei die Autoren die Risiken einer möglichen „Veruntreuung kreativer Inhalte“ anerkennen, falls sich ein generierter Song nicht ausreichend von dem Quellmaterial unterscheidet, aus dem das Modell gelernt hat.

source-121

Leave a Reply