Meta bietet derzeit über Twitter einen KI-Videogenerierungsdienst namens Make-A-Video an. Obwohl es im Moment ziemlich schrecklich aussieht, deutet die Anzahl der Kommentare an nur einem Tag darauf hin, dass die Modeerscheinung der KI-Bilderzeugung bald von der KI-Videoerzeugung abgelöst wird. Es ist ein großer Sprung, da Forscher die Grenzen der generativen Kunst, wie wir sie kennen, erweitern, insbesondere, wie viele Daten erforderlich sind, um Bilder zum Leben zu erwecken.
„Mit nur wenigen Worten generiert dieses hochmoderne KI-System hochwertige Videos aus Text-Eingabeaufforderungen“, schreibt Meta AI in dem Tweet und fordert Eingabeaufforderungen. Der Trick, um zu verhindern, dass haufenweise unregulierter Gore und Pornos generiert und auf Twitter gepostet werden? Senden Sie die Eingabeaufforderung an sie, und sie könnte poste die Ergebnisse.
Wir freuen uns, Make-A-Video vorzustellen, unsere neueste Forschung zu #GenerativeAI! Mit nur wenigen Worten generiert dieses hochmoderne KI-System hochwertige Videos aus Texteingabeaufforderungen. Haben Sie eine Idee, die Sie sehen möchten? Antworten Sie mit Ihrer Eingabeaufforderung unter Verwendung von #MetaAI und wir teilen weitere Ergebnisse. pic.twitter.com/q8zjiwLBjb29. September 2022
Die Alternative zum Warten auf das (wahrscheinlich lebenslang gezeichnete) Meta-KI-Team, um möglicherweise Ihre Aufforderung aus den Tausenden auszuwählen, die sich jetzt in den Kommentaren stapeln, besteht darin, zu zu gehen Make-A-Video-Studio (öffnet in neuem Tab) und melden Sie sich über das Google-Formular an melde dein Interesse an (öffnet in neuem Tab) im Werkzeug.
Das begleitende Forschungspapier (PDF-Warnung (öffnet in neuem Tab)) nennt den Make-A-Video-Prozess “eine effektive Methode, die ein diffusionsbasiertes T2I-Modell durch ein raumzeitlich faktorisiertes Diffusionsmodell auf T2V erweitert”. Das ist eine schicke Art zu sagen, dass sie eine weiterentwickelte Version des Text-to-Image-Generierungsmodells von Diffusion verwendet haben, um Bilder in Bewegung zu versetzen.
„Während es bemerkenswerte Fortschritte bei der T2I-Generierung gibt“, heißt es in dem Papier, „hinkt der Fortschritt der T2V-Generierung hauptsächlich aus zwei Gründen hinterher: dem Mangel an großen Datensätzen mit hochwertigen Text-Video-Paaren und der Komplexität von Modellierung höherdimensionaler Videodaten.”
Im Wesentlichen sind die Größe und Genauigkeit der Datensätze, die benötigt werden, um aktuelle Text-zu-Video-KI-Modelle zu trainieren, einfach zu groß, um realisierbar zu sein.
Das Erstaunliche an dieser Entwicklung ist, dass „es keine gepaarten Text-Video-Daten erfordert“, stellt das Papier fest. Das ist anders als bei vielen Video- und Bildgeneratoren da draußen, die auf Inhaltsgalerien angewiesen sind, die bereits mit Text gepaart sind. „Dies ist ein erheblicher Vorteil gegenüber früheren Arbeiten“, erklärt es, da es nicht so eingeschränkt ist und nicht so viele Daten benötigt, um zu funktionieren.
Es gibt verschiedene Möglichkeiten, das Tool zu verwenden, indem es entweder die Bewegung zwischen zwei Bildern ausfüllt, einfach Bewegung zu einem einzelnen Bild hinzufügt oder neue Variationen eines Videos basierend auf dem Original erstellt. Die Ergebnisse sind faszinierend. Sie sind verträumt und psychedelisch und können in verschiedenen Stilrichtungen erzeugt werden.
Sicher, diese sind ein wenig gruselig, besonders wenn man bedenkt, dass die Ergebnisse nur noch realistischer werden, aber eine kleine Wanderung durch das unheimliche Tal schadet nie im Vorfeld von Halloween.