StabilityAI, das Unternehmen hinter dem Bildgenerator für künstliche Intelligenz Stable Diffusion, hat seinem Playbook Videos hinzugefügt.
Das neue Modell baut auf dem bestehenden Bildtool auf und ermöglicht es Benutzern, jedes Bild auf Knopfdruck in ein Video umzuwandeln. Derzeit handelt es sich nur um eine Forschungsvorschau und ist nicht für die kommerzielle Nutzung verfügbar. Laut StabilityAI eignet sich diese frühe Veröffentlichung jedoch perfekt für Hobbyanwender und Bildungszwecke.
Die Allgemeinen Geschäftsbedingungen verbieten es Erstellern, damit Inhalte zu produzieren, die sich als Darstellung von Personen oder Ereignissen ausgeben – hier gibt es keine Deep Fakes.
Was kann ich tun?
Wie die frühen Versionen der Videogenerierungstools von Runway erfolgt auch bei Stable Video Diffusion (SVD) eine Bild-zu-Video-Übertragung, Sie benötigen also ein Startbild, um loszulegen. Runway verfügt außerdem über eine Text-to-Video-Funktion, ebenso wie Metas neues Emu-Video, wenn es veröffentlicht wird. SVD wurde anhand eines Datensatzes von Millionen Videos trainiert und anschließend anhand einer kleineren Auswahl beschrifteter Clips auf Genauigkeit optimiert. Die Quelle der Trainingsdaten ist wahrscheinlich eine öffentliche Forschungsbibliothek mit Videos, was auch die nichtkommerzielle Lizenz erklärt.
Die Demonstrationsvideos scheinen zu zeigen, dass es in der Lage ist, nahezu, aber nicht perfekte, fotorealistische kurze Videoclips in hochauflösender Auflösung zu produzieren. In der Forschungsarbeit heißt es, dass es 25 Bilder pro Sekunde bei 576 x 1024 erzeugen kann.
Ist es so gut, wie es sich anhört?
Diese Version weist auch einige Einschränkungen auf. In seiner ersten Version kann es nur Clips mit einer Länge von vier Sekunden produzieren, obwohl das dasselbe ist wie bei Runway.
Laut StabilityAI ist dieses neue Modell nicht in der Lage, Videoclips aus einer Textaufforderung zu generieren. Es funktioniert nur, wenn ein Bild als Ausgangspunkt gegeben wird. Die größeren Probleme ergeben sich daraus, wie Sie es verwenden möchten. Beispielsweise kann es zu sehr langsamen Kameraschwenks oder überhaupt keiner Bewegung kommen.
Allerdings könnte es in Zukunft so angepasst werden, dass es 360-Grad-Ansichten eines Objekts in einem Video bietet und so einen vollständigen Schwenk ermöglicht. Das Unternehmen arbeitet auch an Text-zu-Video-Versionen, die es Benutzern ermöglichen würden, aus einer einfachen Textzeile ein Video zu erstellen.
Das Ziel besteht wahrscheinlich darin, das Modell an Unternehmen zu lizenzieren, damit es in andere Produkte wie Video-Editoren, Werbetools und sogar Lehrerschulungen integriert werden kann, um interaktiveren Unterricht zu erstellen.