Ein neues künstliches Intelligenzmodell namens WALT kann eine einfache Bild- oder Texteingabe in ein fotorealistisches Video umwandeln. Zu den Vorschauclips gehören feuerspeiende Drachen, auf der Erde einschlagende Asteroiden und am Strand spazierende Pferde.
Einer der bemerkenswertesten Fortschritte des dahinterstehenden Teams der Standford University WALT ist die Fähigkeit, konsistente 3D-Bewegungen auf einem Objekt zu erzeugen und dies über eine Eingabeaufforderung in natürlicher Sprache zu tun.
Das Erstellen von Videos aus Bildern oder Text ist die nächste große Herausforderung. Die Lösung dieses komplexen Problems erfordert mehr als nur das Zusammenfügen einer Bildfolge, da jedes Bild eine logische Fortsetzung des vorherigen sein muss, um eine flüssige Bewegung zu erzeugen.
Was zeichnet WALT aus?
Unternehmen wie Pika Labs, Runway, Meta und StabilityAI verfügen alle über generative Videomodelle mit unterschiedlichem Grad an Fluidität, Kohärenz und Qualität. Agrim Gupta, der Forscher hinter WALT, sagt, dass es Videos aus Text oder Bildern generieren und für 3D-Bewegungen verwenden kann.
Laut Gupta wurde WALT mit Fotos und Videoclips trainiert, die im selben latenten Raum gespeichert waren. Dies ermöglichte das gleichzeitige Training beider Modelle und vermittelte dem Modell von Anfang an ein tieferes Verständnis der Bewegung.
Wir stellen WALT vor, ein Diffusionsmodell zur fotorealistischen Videogenerierung. Unser Modell ist ein Transformator, der auf die Erzeugung von Bildern und Videos in einem gemeinsamen latenten Raum trainiert ist. 🧵👇 pic.twitter.com/uJKMtMsumv11. Dezember 2023
WALT ist skalierbar und effizient konzipiert und ermöglicht modernste Ergebnisse für die Bilderzeugung über drei Modelle, die Bild und Video abdecken. Dies ermöglicht eine höhere Auflösung und eine gleichmäßige Bewegung.
„Während die generative Modellierung in jüngster Zeit enorme Fortschritte bei Bildern gemacht hat“, schrieben Gupta und Kollegen, „hinkten die Fortschritte bei der Videogenerierung zurück.“ Er glaubt, dass ein einheitliches Bild- und Video-Framework die Lücke zwischen Bild- und Videogenerierung schließen wird.
Wie schneidet WALT im Vergleich zu Runway und Pika Labs ab?
Die Bewegungsqualität in WALT scheint im Vergleich zu anderen neueren Videomodellen eine Verbesserung zu sein, insbesondere im Hinblick auf 3D-Bewegungen wie das Drehen eines Burgers auf einem Tisch oder das Gehen von Pferden. Allerdings ist die Qualität der Ausgabe nur ein Bruchteil der Qualität von Runway oder Pika Labs.
Allerdings handelt es sich hierbei um ein Forschungsmodell und das Team baut es maßstabsgetreu auf. Erstens produziert das Basismodell kleine Clips mit 128 x 128 Pixeln. Dies wird dann zweimal hochgesampelt, um eine Auflösung von 512 x 896 bei acht Bildern pro Sekunde zu erreichen.
Im Gegensatz dazu kann das Gen-2 von Runway Videoclips mit einer Auflösung von bis zu 1536 x 896 erstellen, allerdings ist hierfür ein kostenpflichtiges Abonnement erforderlich. Die kostenlose Standardversion generiert Videos mit einer Auflösung von bis zu 768 x 448, also nicht mit der höchsten Auflösung, die mit WALT möglich ist.
Pika Labs arbeitet mit ähnlichen Auflösungen, aber sowohl Runway als auch Pika Labs können bis zu 24 Bilder pro Sekunde erzeugen, was näher an der Qualität von Videos in Produktionsqualität liegt als die acht Bilder von WALT.