Twelve Labs erstellt Modelle, die Videos auf einer tiefen Ebene verstehen können


Textgenerierende KI ist eine Sache. Aber KI-Modelle, die sowohl Bilder als auch Text verstehen, können leistungsstarke neue Anwendungen erschließen.

Nehmen wir zum Beispiel Twelve Labs. Das in San Francisco ansässige Startup trainiert KI-Modelle, um – wie Mitbegründer und CEO Jae Lee es ausdrückt – „komplexe Probleme bei der Ausrichtung von Videosprachen zu lösen“.

„Twelve Labs wurde gegründet … eine Infrastruktur für das multimodale Videoverständnis zu schaffen, wobei das erste Unterfangen die semantische Suche – oder „STRG+F für Videos“ – ist.„Lee sagte TechCrunch in einem E-Mail-Interview. “Der Die Vision von Twelve Labs ist es, Entwicklern dabei zu helfen, Programme zu entwickeln, die die Welt genauso sehen, hören und verstehen können wie wir.“

Die Modelle von Twelve Labs versuchen, natürliche Sprache auf das abzubilden, was in einem Video passiert, einschließlich Aktionen, Objekten und Hintergrundgeräuschen. Dadurch können Entwickler Apps erstellen, die Videos durchsuchen, Szenen klassifizieren und Themen aus diesen Videos extrahieren sowie Videos automatisch zusammenfassen und aufteilen können Clips in Kapitel unterteilen und vieles mehr.

Lee sagt, dass die Technologie von Twelve Labs Dinge wie die Einfügung von Werbung und die Moderation von Inhalten vorantreiben kann – zum Beispiel herauszufinden, welche Videos, in denen Messer gezeigt werden, gewalttätig oder belehrend sind. Es könne auch für Medienanalysen verwendet werden, fügte Lee hinzu, und um automatisch Highlight-Reels – oder Schlagzeilen und Tags von Blog-Posts – aus Videos zu generieren.

Ich habe Lee nach dem Potenzial für Verzerrungen in diesen Modellen gefragt, da es wissenschaftlich fundiert ist, dass Modelle die Verzerrungen in den Daten, auf denen sie trainiert werden, verstärken. Zum Beispiel das Trainieren eines Videoverständnismodells hauptsächlich in Ausschnitten lokaler Nachrichten – die oft viel Zeit damit verbringen, über Kriminalität in einem zu berichten sensationell, rassisiert Art und Weise – könnte bewirken, dass das Modell lernt Sowohl rassistische als auch sexistische Muster.

Lee sagt, dass Twelve Labs bestrebt ist, interne Voreingenommenheit und „Fairness“-Metriken für seine Modelle zu erfüllen, bevor sie diese veröffentlichen, und dass das Unternehmen plant, in Zukunft modellethische Benchmarks und Datensätze zu veröffentlichen. Aber darüber hinaus hatte er nichts mitzuteilen.

Mockup der API zur Feinabstimmung des Modells, damit es besser mit salatbezogenen Inhalten funktioniert. Bildnachweis: Zwölf Labore

„In Bezug darauf, wie sich unser Produkt von großen Sprachmodellen unterscheidet [like ChatGPT]„Unsere sind speziell dafür ausgebildet und gebaut, Videos zu verarbeiten und zu verstehen und dabei Bild-, Audio- und Sprachkomponenten ganzheitlich in Videos zu integrieren“, sagte Lee. „Wir haben die technischen Grenzen dessen, was für das Verstehen von Videos möglich ist, wirklich ausgereizt.“

Google entwickelt ein ähnliches multimodales Modell für das Videoverständnis namens MUM, das das Unternehmen verwendet, um Videoempfehlungen in der Google-Suche und auf YouTube bereitzustellen. Über MUM hinaus bieten Google – sowie Microsoft und Amazon – KI-gestützte Dienste auf API-Ebene an, die Objekte, Orte und Aktionen in Videos erkennen und umfangreiche Metadaten auf Frame-Ebene extrahieren.

Lee argumentiert jedoch, dass sich Twelve Labs sowohl durch die Qualität seiner Modelle als auch durch die Feinabstimmungsfunktionen der Plattform unterscheidet, die es Kunden ermöglichen, die Modelle der Plattform mit ihren eigenen Daten für „domänenspezifische“ Videoanalysen zu automatisieren.

Was das Modell betrifft, stellt Twelve Labs heute Pegasus-1 vor, ein neues multimodales Modell, das eine Reihe von Eingabeaufforderungen im Zusammenhang mit der Analyse ganzer Videos versteht. Beispielsweise kann Pegasus-1 aufgefordert werden, einen langen, beschreibenden Bericht über ein Video oder nur einige Highlights mit Zeitstempeln zu erstellen.

„Unternehmen erkennen das Potenzial der Nutzung ihrer riesigen Videodaten für neue Geschäftsmöglichkeiten … Allerdings reichen die begrenzten und einfachen Funktionen herkömmlicher Video-KI-Modelle oft nicht aus, um das komplexe Verständnis zu erfüllen, das für die meisten Geschäftsanwendungsfälle erforderlich ist“, sagte Lee. „Durch den Einsatz leistungsstarker multimodaler Videoverständnis-Grundlagenmodelle können Unternehmen ohne manuelle Analyse ein Videoverständnis auf menschlicher Ebene erreichen.“

Laut Lee ist die Benutzerbasis von Twelve Labs seit dem Start der privaten Beta Anfang Mai auf 17.000 Entwickler angewachsen. Und das Unternehmen arbeitet mittlerweile mit einer Reihe von Unternehmen zusammen – es ist unklar, wie viele; Lee würde es nicht sagen – branchenübergreifend, einschließlich Sport, Medien und Unterhaltung, E-Learning und Sicherheit, einschließlich der NFL.

Twelve Labs sammelt auch weiterhin Geld – ein wichtiger Teil jedes Startup-Unternehmens. Heute gab das Unternehmen bekannt, dass es eine strategische Finanzierungsrunde in Höhe von 10 Millionen US-Dollar von Nvidia, Intel und Samsung Next abgeschlossen hat, wodurch sich die Gesamteinnahmesumme auf 27 Millionen US-Dollar erhöht.

„Bei dieser neuen Investition dreht sich alles um strategische Partner, die unser Unternehmen in den Bereichen Forschung (Computing), Produkt und Vertrieb vorantreiben können“, sagte Lee. „Es ist der Treibstoff für fortlaufende Innovationen auf dem Gebiet des Videoverständnisses, die auf der Forschung unseres Labors basieren, damit wir unseren Kunden weiterhin die leistungsstärksten Modelle anbieten können, unabhängig von ihren Anwendungsfällen … Wir bringen die Branche auf eine Art und Weise voran.“ freie Unternehmen, die unglaubliche Dinge tun können.“

source-116

Leave a Reply