In den letzten Monaten haben wir gesehen, wie große Sprachmodelle wie ChatGPT Textkopien generieren können, wie Bildgeneratoren wie Stable Diffusion Bilder auf Abruf erstellen können und sogar wie einige Text-to-Speech ausführen können. Ein unternehmungslustiger Entwickler, der sich Pizza Later nennt, kombinierte fünf verschiedene KI-Modelle, um einen Live-Action-Werbespot für ein fiktives Pizzarestaurant namens „Pepperoni Hug Spot“ zu erstellen.
Das resultierende Video, das ich unten eingebettet habe, ist gleichzeitig erschreckend und beeindruckend. Der Werbespot zeigt fotorealistische Menschen, die eine sehr appetitliche Peperoni-Pizza essen, kochen und ausliefern. Es hat sogar menschlich klingende Dialoge und anständige Hintergrundmusik. Allerdings sind die Gesichtsausdrücke und toten Augen einiger Charaktere ein wenig viel.
Offensichtlich lässt die Qualität der Ausgabe zu wünschen übrig. Manchmal scheinen Objekte ineinander überzugehen; Mein Sohn sagte, dass es aussah, als würden die Leute Pizza essen, die aus dem Teller wuchs.
Die Leute sehen alle aus wie Bewohner des unheimlichen Tals. Und das etwas inkohärente Skript liest sich wie Text aus einer anderen Sprache, der unsachgemäß ins Englische übersetzt wurde (obwohl es das nicht war).
Es ist jedoch beeindruckend zu sehen, wie nah diese Technologien daran sind, bereit für die Hauptsendezeit zu sein. Wir sehen, wie die fotorealistischen Videobilder in kurzer Zeit viel überzeugender werden könnten.
Um fair zu sein, dieses Video erforderte eine menschliche Bearbeitung. Pizza Later erzählte uns, dass sie fünf verschiedene Modelle verwendet haben, um verschiedene Assets für das Video zu erstellen, und dann einige Zeit damit verbracht haben, Adobe After Effects zu verwenden, um das Video, den Dialog, die Musik und einige benutzerdefinierte Bilder zusammenzufügen. Insgesamt brauchten sie 3 Stunden, um das Projekt abzuschließen.
Pizza Later sagte, sie hätten die Idee für den Werbespot bekommen, nachdem sie Zugang zu bekommen hatten Landebahn Gen-2 (öffnet in neuem Tab), ein Text-zu-Video-Modell, das sich in der privaten Beta befindet. In einem E-Mail-Interview erzählte mir der Entwickler, dass ihre anfängliche Aufforderung für das Video nur „ein glücklicher Mann/eine glückliche Frau/Familie, die in einem Restaurant ein Stück Pizza isst, Fernsehwerbung“ war. Runway Gen-1 (öffnet in neuem Tab)das Videos basierend auf vorhandenem Filmmaterial erstellt, kann ab sofort entweder im Internet oder über eine brandneue iOS-App kostenlos getestet werden (öffnet in neuem Tab).
Nachdem Pizza Later die hohe Qualität des von Runway Gen-2 erstellten Videos gesehen hatte, verwendete es GPT-4 (die Engine hinter ChatGPT und Bing Chat), um einen Namen für die fiktive Pizzeria (Pepperoni Hug Spot) zu finden und das Drehbuch zu schreiben . Der Entwickler verwendet dann ElevenLabs Prime Voice KI (öffnet in neuem Tab) um eine realistische Erzählung mit einer männlichen Stimme zu bieten. Sie benutzten Mitte der Reise (öffnet in neuem Tab) um einige Bilder zu generieren, die im Video erscheinen, darunter das Äußere des Restaurants und einige Pizzamuster. Sie haben auch verwendet Soundraw (öffnet in neuem Tab) Hintergrundmusik zu erstellen.
Die meisten der von Pizza Later verwendeten Tools sind kostenpflichtig, bieten jedoch eine Art kostenlose Testversion, ein kostenloses Konto der unteren Preisklasse oder einen ersten Satz kostenloser Credits. Dies ist eindeutig weit entfernt von einer Plug-and-Play-Operation, da der Entwickler die Endergebnisse zusammenfügen musste.
Vielleicht wird in naher Zukunft ein Multi-Modell-Tool wie Microsoft Jarvis in der Lage sein, all diese Aufgaben über eine einzige Chat-Eingabeaufforderung auszuführen. Oder vielleicht generiert ein autonomer Agent wie AutoGPT (siehe Verwendung von AutoGPT) Werbespots, wenn Sie ihm das allgemeine Ziel geben, ein Restaurant zu vermarkten. Im Moment ist dieses Video jedoch wirklich beeindruckend, auch wenn man weiß, dass es von Menschen bearbeitet werden muss.