Das generative KI-Unternehmen hinter ChatGPT und DALL-E hat ein neues Spielzeug: Sora, ein Text-zu-Video-Modell, das (manchmal) ziemlich überzeugende 60-Sekunden-Clips aus Aufforderungen wie „Eine stilvolle Frau geht eine Straße in Tokio entlang“ generieren kann. .“ und „ein Filmtrailer mit den Abenteuern des 30-jährigen Weltraummanns, der einen roten Wollstrick-Motorradhelm trägt …“
Ein Großteil der KI-Videogeneration, die wir bisher gesehen haben, schafft es nicht, eine konsistente Realität aufrechtzuerhalten und Gesichter, Kleidung und Objekte von einem Bild zum nächsten neu zu gestalten. Sora „versteht jedoch nicht nur, wonach der Benutzer in der Eingabeaufforderung gefragt hat, sondern auch, wie diese Dinge in der physischen Welt existieren“, sagt OpenAI seinen Ankündigungsbeitrag (Verwendung des Wortes „versteht“ locker).
Die Sora-Clips sind beeindruckend. Wenn ich nicht genau hinsehen würde – sagen wir, ich würde einfach in den sozialen Medien an ihnen vorbeiscrollen –, würde ich wahrscheinlich denken, dass viele von ihnen echt sind. Die Aufforderung „ein Video zur Feier des chinesischen Mondneujahrs mit chinesischem Drachen“ sieht auf den ersten Blick wie typisches Dokumentarfilmmaterial einer Parade aus. Aber dann merkt man, dass die Menschen seltsame Proportionen haben und zu stolpern scheinen – es ist wie der Moment in einem Traum, in dem man plötzlich merkt, dass alles ein bisschen schief läuft. Unheimlich.
„Das aktuelle Modell hat Schwächen“, schreibt OpenAI. „Es kann schwierig sein, die Physik einer komplexen Szene genau zu simulieren, und es kann sein, dass bestimmte Fälle von Ursache und Wirkung nicht verstanden werden. Zum Beispiel könnte eine Person in einen Keks beißen, aber danach hat der Keks möglicherweise keine Bissspur.“ . Das Modell verwechselt möglicherweise auch räumliche Details einer Eingabeaufforderung, indem es beispielsweise links und rechts verwechselt, und hat möglicherweise Schwierigkeiten mit präzisen Beschreibungen von Ereignissen, die im Laufe der Zeit stattfinden, wie etwa dem Verfolgen einer bestimmten Kamerabahn.“
Meine Lieblingsdemonstration von Soras Schwächen ist ein Video, in dem sich ein Plastikstuhl in eine Cronenberg-Lebensform zu verwandeln beginnt. Erblicken:
Sora ist noch nicht allgemein verfügbar, und OpenAI sagt, dass es die sozialen Risiken des Modells bewertet und daran arbeitet, diese zu mindern, beispielsweise mit „einem Erkennungsklassifikator, der erkennen kann, wann ein Video von Sora erstellt wurde“.
Als Forschungsprojekt ist es faszinierend, aber OpenAI ist nicht nur daran interessiert, coole Informatik zu betreiben. Wenn es ausmanövrieren kann Kritiker des Urheberrechts und Gesetzgeber, es ist hier, um Bank zu machen. Das Unternehmen gibt an, dass es derzeit „gewährt“ wird [Sora] Zugang zu einer Reihe bildender Künstler, Designer und Filmemacher, um Feedback zu erhalten, wie das Modell so weiterentwickelt werden kann, dass es für Kreativprofis am hilfreichsten ist.“
Eins Kommentator zu X Ich frage mich optimistisch, ob Models wie Sora es der Öffentlichkeit eines Tages ermöglichen werden, Hollywood die Kontrolle über das Filmemachen zu entreißen, indem sie Filme ausschließlich auf Aufforderung hin drehen – aber ich frage mich, woher das Quellmaterial für all diese generierten Videos kommen wird, wenn nicht, wissen Sie, von den Filmemachern? Große Hollywood-Filme sehen vielleicht schon ziemlich homogen aus, aber die automatische Reproduktion von CGI- und kommerziellen Drohnenaufnahmen im Marvel Cinematic Universe-Stil bringt der breiten Masse nicht gerade kreativen Ausdruck. (Der Blog-Beitrag erwähnt Soras Schulungsmaterial insbesondere nicht.)
Trotz der oft unbeholfenen Ergebnisse aktueller generativer KI-Modelle und des rechtlichen und ethischen Sumpfes, den sie mit sich bringen, erleben wir bereits, dass sie in professionellen kreativen Medien eingesetzt wird. Dazu gehören Videospiele, sowohl auf eine Art und Weise, die für uns direkt sichtbar ist, indem sie beispielsweise Kunst, Stimmen und spontane Dialoge erzeugen, als auch auf eine Art und Weise, die weniger offensichtlich ist, wie die Generierung von Codeschnipseln oder frühen Konzeptzeichnungen. Eine aktuelle Umfrage ergab, dass 31 % der Spieleentwickler in irgendeiner Weise generative KI nutzen. In Kombination mit anderer Software frage ich mich, was diese Art von auf maschinellem Lernen basierender Videosimulation bewirken könnte, außer leicht abweichende CG-ähnliche Clips zu generieren.
Ich glaube nicht, dass irgendjemand wirklich weiß, wie generative KI in fünf oder zehn Jahren eingesetzt wird oder welche Konsequenzen eine weitere Entwicklung haben wird, aber sie verlangsamt sich nicht, also werden wir es wohl noch herausfinden. OpenAI und andere Unternehmen arbeiten ausdrücklich nicht nur an besseren Bild-, Video- und Textgeneratoren, sondern auch an „künstlicher allgemeiner Intelligenz“ oder AGI – im Sinne der Science-Fiction-Idee dessen, was KI ist.
„Sora dient als Grundlage für Modelle, die die reale Welt verstehen und simulieren können, eine Fähigkeit, die unserer Meinung nach ein wichtiger Meilenstein für die Erreichung von AGI sein wird“, sagt OpenAI.