Meta führt KI-Modelle für die Videogenerierung und Bildbearbeitung ein

Der Social-Media-Riese Meta hat seine neuesten Modelle der künstlichen Intelligenz (KI) für die Bearbeitung und Generierung von Inhalten vorgestellt. nach zu einem Blogbeitrag vom 16. November.

Das Unternehmen führt zwei KI-gestützte generative Modelle ein. Das erste, Emu Video, das Metas früheres Emu-Modell nutzt, ist in der Lage, Videoclips basierend auf Text- und Bildeingaben zu generieren. Während das zweite Modell, Emu Edit, sich auf die Bildmanipulation konzentriert, verspricht es mehr Präzision bei der Bildbearbeitung.

Die Modelle befinden sich noch im Forschungsstadium, aber Meta sagt, dass ihre ersten Ergebnisse potenzielle Anwendungsfälle für Schöpfer, Künstler und Animatoren gleichermaßen aufzeigen.

Meta zeigt sein neues generatives Modell Emu Edit. Quelle: Meta

Laut Metas Blogbeitrag wurde das Emu-Video mit einem „faktorisierten“ Ansatz trainiert, der den Trainingsprozess in zwei Schritte unterteilt, damit das Modell auf unterschiedliche Eingaben reagieren kann:

„Wir haben den Prozess in zwei Schritte aufgeteilt: Zuerst werden Bilder generiert, die auf einer Textaufforderung basieren, und dann werden Videos generiert, die sowohl auf dem Text als auch auf dem generierten Bild basieren. Mit diesem „faktorisierten“ oder geteilten Ansatz zur Videogenerierung können wir die Videogenerierung trainieren Modelle effizient zu bearbeiten.

Basierend auf einer Textaufforderung kann dasselbe Modell Bilder „animieren“. Laut Meta verlässt sich Emu Video nicht auf eine „tiefe Kaskade von Modellen“, sondern verwendet nur zwei Diffusionsmodelle, um vier Sekunden lange Videos im Format 512 x 512 mit 16 Bildern pro Sekunde zu generieren.

Emu Edit konzentriert sich auf die Bildbearbeitung und ermöglicht Benutzern das Entfernen oder Hinzufügen von Hintergründen zu Bildern, das Durchführen von Farb- und Geometrietransformationen sowie die lokale und globale Bearbeitung von Bildern.

„Wir argumentieren, dass das primäre Ziel nicht nur darin bestehen sollte, ein „glaubwürdiges“ Bild zu erzeugen. Stattdessen sollte sich das Modell darauf konzentrieren, nur die Pixel präzise zu ändern, die für die Bearbeitungsanforderung relevant sind“, bemerkte Meta und behauptete, sein Modell sei in der Lage, genau zu folgen Anweisungen:

„Zum Beispiel beim Hinzufügen des Textes „Aloha!“ Im Gegensatz zu einer Baseballkappe sollte die Kappe selbst unverändert bleiben.

Meta trainierte Emu Edit mithilfe von Computer-Vision-Aufgaben mit einem Datensatz von 10 Millionen synthetisierten Bildern, jedes mit einem Eingabebild und einer Beschreibung der Aufgabe sowie dem angestrebten Ausgabebild. „Wir glauben, dass es sich um den bislang größten Datensatz seiner Art handelt“, sagte das Unternehmen.

Das neu veröffentlichte Emu-Modell von Meta wurde anhand von 1,1 Milliarden Daten trainiert, darunter Fotos und Bildunterschriften, die von Benutzern auf Facebook und Instagram geteilt wurden, wie CEO Mark Zuckerberg während der Meta Connect-Veranstaltung im September verriet.

Die Regulierungsbehörden prüfen die KI-basierten Tools von Meta genau, was zu einem vorsichtigen Ansatz des Technologieunternehmens bei der Bereitstellung führt. Kürzlich gab Meta bekannt, dass es politischen Kampagnen und Werbetreibenden nicht erlauben wird, seine KI-Tools zum Erstellen von Anzeigen auf Facebook und Instagram zu verwenden. Die allgemeinen Werberegeln der Plattform enthalten jedoch keine Regeln, die sich speziell mit KI befassen.