Der Audiogenerator der Stabilitäts-KI kann jetzt 3-minütige „Lieder“ erzeugen.


Stabilitäts-KI , eine aktualisierte Version seiner Musikgenerierungsplattform. Mit diesem System können Benutzer bis zu drei Minuten Audio per Textaufforderung erstellen. Das entspricht ungefähr der Länge eines echten Liedes, sodass es auch ein Intro, eine vollständige Akkordfolge und ein Outro enthält.

Zuerst die gute Nachricht. Drei Minuten sind riesig. Die Vorgängerversion der Software erreichte eine maximale Zeit von 90 Sekunden. Stellen Sie sich einfach das gefälschte Geburtstagslied vor, das Sie im Stil dieses einen Rob Thomas/Santana-Tracks machen könnten. Ein weiterer Segen? Das Tool ist kostenlos und über die Website des Unternehmens öffentlich verfügbar. Probieren Sie es also aus.

Dies funktioniert hauptsächlich über eine Textaufforderung, es besteht jedoch die Möglichkeit, einen Audioclip hochzuladen. Das System analysiert den Clip und erzeugt etwas Ähnliches. Alle hochgeladenen Audioinhalte müssen urheberrechtsfrei sein. Dies dient also nicht der Nachahmung von etwas, das bereits existiert. Vielmehr könnte es beispielsweise nützlich sein, um einen Schlagzeugpart zu summen oder einen 20-Sekunden-Clip zu etwas Längerem zu erweitern.

Nun die schlechte Nachricht. Das ist immer noch KI-generierte Musik. Es ist cool als Gesprächsstoff und als Sinnbild einer möglichen Zukunft, die gut für Bastler und schlecht für Musiker ist, aber das ist es auch schon. Die Songs können zunächst tatsächlich schick klingen, bis die Nähte sichtbar werden. Dann wird es etwas gruselig.

Das System fügt zum Beispiel gerne Gesang hinzu, allerdings nicht in irgendeiner bekannten menschlichen Sprache. Ich vermute, dass es sich um die Sprache handelt, aus der der Text in KI-generierten Bildern besteht. Die Vocals klingen irgendwie wie echte Menschen, und manchmal klingen sie wie gregorianische Gesänge, die durch den Weltraum gefiltert werden. Es liegt mitten in diesem unheimlichen Tal. Der Rand „seelenlos und seltsam“, wenn man sie mit den Geräuschen von Walen vergleicht. Das passt.

Stable Audio 2.0 macht die gleichen seltsamen kleinen Fehler wie alle diese Systeme, unabhängig vom Ausgabetyp. Teile können sich in Luft auflösen und durch etwas anderes ersetzt werden. Manchmal auch melodische Elemente Doppelt aus dem Nichtswie eine Audioversion dieser zusätzlichen Finger in KI-generierten Bildern.

Es gibt auch die Langeweile des Ganzen. Dies ist nur dem Namen nach Musik. Was ist der Sinn ohne eine menschliche Verbindung? Ich höre Musik, um in den Kopf einer anderen Person oder Gruppe von Menschen einzudringen. Trotz ständiger Behauptungen, dass die künstliche allgemeine Intelligenz (AGI) nur noch wenige Monate entfernt sei, gibt es hier keinen Kopf, um hineinzukommen.

Diese Technologie ist also ein absolutes Geschenk für diejenigen, die alberne Geburtstagsvideos oder Bank-Hold-Musik machen. Für alle anderen? Zucken. Eines kann ich aus eigener Erfahrung sagen: Es geht ziemlich schnell. Das System hat ein absolut furchteinflößendes Erlebnis geschaffen Big-Band-Song über meine Katze in etwa einer Minute.



source-115

Leave a Reply