Der KI-Videoeditor von Dumme erstellt YouTube-Shorts in wenigen Minuten


Dumm, ein Startup, das KI in der Videobearbeitung praktisch einsetzt, generiert bereits Nachfrage, bevor es der Öffentlichkeit zugänglich gemacht wird. Das von Y Combinator unterstützte Unternehmen lässt Hunderte von Videokünstlern sein Produkt testen, das KI nutzt, um Kurzvideos aus YouTube-Inhalten zu erstellen, und a Warteliste von über 20.000 vor der Markteinführung, heißt es. Mit einer Kombination aus proprietären und bestehenden KI-Modellen verspricht Dumme, dass es nicht nur Bearbeitungszeit einsparen kann, sondern auch – und das ist sein großer Anspruch – bessere Arbeit leisten kann als die festangestellten (menschlichen) Arbeitskräfte, die oft mit untergeordneteren Aufgaben betraut werden Videobearbeitungsaufgaben, wie das Zuschneiden langer Inhalte für die Veröffentlichung auf Kurzformat-Plattformen wie YouTube Shorts, TikTok oder Instagram Reels.

Dumme wurde im Januar 2022 gegründet und ist Teilnehmer des Winterprogramms 2022 des Startup-Accelerators Y Combinator. Mitbegründer und CEO von Dumme Merwane Drai sagte, er habe sich ursprünglich auf den Aufbau einer Suchmaschine für Videos konzentriert. Doch vor etwa sechs Monaten erkannte das Team, dass es ein besseres Produkt sein könnte, die gleichen KI-Modelle, die sie entwickelt hatten, stattdessen für die Bearbeitung von Videoclips zu verwenden.

Mitbegründer beigetreten Will Dahlstrom (CPO) und Jordan Brannan (CTO), alle mit KI-Hintergrund, erkannte Drai, dass Dumme möglicherweise das richtige Produkt für den Markt gefunden hatte, nachdem ihre App viral ging und ihre Server abstürzte.

„Wir haben nicht wirklich damit gerechnet, dass es viel Traktion oder ähnliches bekommen würde, also haben wir einfach etwas rausgebracht“, erklärt Drai. „Was dann passierte, war, dass wir über Nacht mit überlasteten Servern aufwachten – als hätte nichts wirklich funktioniert. Also haben wir alles notiert und tatsächlich eine Art Warteliste zusammengestellt“, fährt er fort. „Am nächsten Morgen haben wir dort wahrscheinlich bis zu 5.000 Menschen geweckt, was interessant war.“

Später entdeckte das Team, dass ein TikTok-Ersteller ein kurzes Video über das Produkt gepostet hatte, was eine Flut von Zugriffen auf seine Website verursachte.

„Es hat sich dadurch eigentlich nie beruhigt“, bemerkt Drai.

Das als „Dummy“ ausgesprochene Produkt gefiel den Entwicklern, weil es darauf abzielte, die Arbeit bei der Videobearbeitung zu vereinfachen und zu beschleunigen.

Bildnachweis: Dumm

Die Verwendung von Dumme ist so einfach, wie der Name schon sagt. Um zu beginnen, fügt der Benutzer den Link eines YouTube-Videos ein, klickt dann auf „Generieren“ und die KI gibt eine Reihe kurzer Videos aus, die die Highlights des aufgenommenen Inhalts präsentieren. Das Unternehmen gibt an, dass es YouTube als Quelle verwendet, anstatt rohes Videomaterial zu unterstützen, um die Moderation von Inhalten auszulagern – das heißt, wenn es auf YouTube erlaubt ist, ist es auch in Dumme erlaubt.

Die Verarbeitungszeit und die Anzahl der resultierenden Clips hängen von der Länge des Originalvideos ab.

Aber zum Beispiel kann die Verarbeitung eines einstündigen Video-Podcasts etwa 20 Minuten dauern und Sie erhalten nach etwa fünf Minuten Clips, sagt Drai. Nach Abschluss können die Ersteller die Videoclips, die standardmäßig weniger als 60 Sekunden lang sind, herunterladen und auf jede Plattform hochladen, die kurze Inhalte unterstützt, wie YouTube Shorts, aber auch auf andere Plattformen wie Reels oder TikTok.

Bildnachweis: Dumm

Wie das alles im Backend funktioniert, ist natürlich viel komplexer. Das Unternehmen sagt, dass Dumme zunächst über die Metadaten so viel wie möglich aus dem Quellvideo lernen wird. Anschließend wird das Video transkribiert und versucht, die Semantik des Gesagten zu verstehen. Gleichzeitig werden die Einzelbilder betrachtet, um die Emotionen der sprechenden Person zu entschlüsseln. Diese Erkenntnisse werden korreliert und an ein Sprachmodell übergeben, das versucht zu bestimmen, welche Teile des Videos es wert sind, ausgeschnitten zu werden. Das wird dann an ein anderes Modell übergeben, das aktive Lautsprecher verfolgt und das Zuschneiden übernimmt.

Dumme sagt, dass es mit bestehenden KI-Modellen wie GPT-4, einer fein abgestimmten Version von Whisper und anderen, die das Unternehmen selbst entwickelt hat, funktioniert – wie dem Modell, das die aktiven Sprecher in einem Videobild verfolgt. Eines seiner Modelle wird auch an einer Reihe von YouTube-Shorts geschult, um zu lernen, was einen guten Eröffnungsauftakt ausmacht, der die Zuschauer anzieht. Und obwohl das Team noch nicht live ist, experimentiert es auch mit einem Open-Source-Modell. LaViLa von Facebook Research, um den Kontext des Videos besser zu verstehen.

Die KI-Arbeit wird beim GPU-Cloud-Anbieter durchgeführt CoreWeavenicht AWS, da es günstiger ist, teilt uns das Unternehmen mit.

Da Dumme auf KI angewiesen ist, die gesprochene Wörter verarbeitet, eignet sich die Technologie nicht für Dinge wie lange Gameplay-Videos oder andere, bei denen die Leute nicht sprechen. Laut Drai zielt das Startup zunächst auf YouTube-Ersteller, Podcaster und Agenturen ab – letztere wären ihrer Meinung nach die beste Möglichkeit, das Produkt zu monetarisieren.

Bildnachweis: Dumm

Agenturen, erklärt Drai, lagern diese Art von Arbeit heutzutage oft aus, mit Erfolg oder Misserfolg.

„Sie bezahlen lediglich Auftragnehmer in billigen Gerichtsbarkeiten für die Bearbeitung ihrer eigenen Inhalte. Und das Problem ist, dass es eigentlich immer noch ziemlich teuer ist und viel Zeit in Anspruch nimmt – es dauert Wochen, nicht Minuten“, sagt er.

Auf die Frage, was er davon hält, eine Technologie zu entwickeln, die Menschen tatsächlich arbeitslos machen würde, machte sich Drai keine Sorgen.

„Ich denke darüber nach: Irgendwann … ich denke, das ist so, als würde man mir sagen, dass Mathematiklehrer es tun werden [be put] arbeitslos, weil es so etwas wie einen Taschenrechner gibt …“, erklärt er. „Die Leute werden sich anpassen. Und dann wird Ihnen jemand den Taschenrechner beibringen, oder? Daher denke ich, dass es nur darum geht, sich daran anzupassen“, sagt Drai.

Derzeit handelt es sich bei den in Betracht gezogenen Preisen um Stufen, bei denen ein Unternehmen 0,40 US-Dollar pro verarbeiteter Videominute zahlen würde, während kleinere Ersteller sich stattdessen für ein Monatsabonnement entscheiden könnten, das auf 10 Stunden Inhalt pro Monat begrenzt ist. (Diese Zahlen können sich ändern.) Während des Tests konnte das Produkt kostenlos verwendet werden.

Frühanwender haben Dumme für eine Vielzahl von Bearbeitungen verwendet, darunter das Generieren von Clips aus ihren Video-Podcasts zur Veröffentlichung auf Shorts, das Schneiden anderer neuer Videos und das Durchsuchen ihrer alten Kataloge.

Das Produkt scheint mit anderen KI-Technologien auf dem Markt konkurrenzfähig zu sein, darunter auch mit der des Entwicklerunternehmens Jellysmack Hebelwirkung KI verwandelt längere YouTube-Videos in kürzere Videos, indem sie sie schneidet, ihre Größe ändert und sie für bestimmte Plattformen optimiert – ein Ergebnis des Kamua 2021 Erwerb. Andere Tools, die ähnliche Arbeiten ausführen, umfassen Dinge wie Vidyo.ai, Detail, TubeBuddy, Wisecut und andere. Inwieweit Dumme erfolgreich ist oder scheitert, wird davon abhängen, ob er die Konkurrenz in Bezug auf Arbeitsqualität und Kosten übertrifft – Kennzahlen, die noch festgelegt werden müssen.

Doch einige Anleger setzen auf Dumme. Vor dem Start sammelte das Startup eine Seed-Runde in Höhe von 3,4 Millionen US-Dollar von Y Combinator, Caffeinated Capital, Max und Nellie Levchin (über SciFi VC), Suhail Doshi, Nico Chinot, Protocol Labs, Chris Puscasiu und anderen Engeln.

Angesichts des Interesses und der beträchtlichen Warteliste strebt Dumme an, jede Woche rund 500 Leute einzubinden. TechCrunch-Leser können mit dem Einladungscode direkt loslegen TECHCRUNCH bis die Slots aufgebraucht sind.

source-116

Leave a Reply