Das Video-Startup Tavus für generative KI sammelt 18 Millionen US-Dollar, um das Klonen von Gesichtern und Stimmen in jede App zu integrieren


Tavusein Vierjähriger Das Startup für generative KI, das Unternehmen bei der Erstellung digitaler „Nachbildungen“ von Personen für automatisierte, personalisierte Videokampagnen unterstützt, hat eine neue Finanzierung in Höhe von 18 Millionen US-Dollar bestätigt und bekannt gegeben, dass es seine Plattform für Dritte öffnet, um ihre Software in die Technologie des Unternehmens zu integrieren.

Berichte tauchte bereits im August auf dass Tavus „ungefähr 18 Millionen US-Dollar“ gesammelt hatte, aber es gab kaum Einzelheiten. Das Unternehmen hat gegenüber TechCrunch nun bestätigt, dass es in einer von ihm angeführten Serie-A-Runde tatsächlich 18 Millionen US-Dollar eingesammelt hat Scale-Venture-Partner – ein VC im Frühstadium, das zuvor Unternehmen wie Box, HubSpot und DocuSign unterstützt hat. Zu den weiteren namhaften Investoren gehört Sequoia, das letztes Jahr die 6,1 Millionen US-Dollar teure Seed-Runde von Tavus anführte und neben Y Combinator (YC) und HubSpot teilnahm.

Das Video steht im Mittelpunkt

Die generative KI-Bewegung lässt sich am besten durch textbasierte Suchmaschinen wie ChatGPT und Text-zu-Bild-Modelle wie DALL-E veranschaulichen, die OpenAI gerade zu einer einzigen All-Singing-Plattform zusammenführt. Aber wenn man sich die letzten Monate ansieht, könnte die generative KI an der Schwelle zu einer weiteren kleinen Revolution stehen, bei der Video im Mittelpunkt steht.

OpenAI stellte kürzlich Sora vor, ein Text-zu-Video-Modell, das die Kreativbranche, wie wir sie kennen, verändern könnte. Aber es ist bei weitem nicht der einzige Akteur in der Stadt, denn Technologiegiganten wie Google arbeiten seit mehreren Jahren an ähnlichen Tools, ganz zu schweigen von einer Reihe von Start-ups, die im vergangenen Jahr beträchtliche Mengen an VC-Transaktionen für verschiedene Erkenntnisse darüber eingeworben haben, wie generative KI funktioniert könnte sich mit Video überschneiden.

Tavus wiederum arbeitet mit seinen Kunden zusammen, um durch Stimmen- und Gesichtsklonen Nachbildungen von Personen zu erstellen. Die Idee besteht darin, dass Vertriebs- und Marketingteams Tavus verwenden können, um personalisierte Videos in großem Umfang an potenzielle Kunden zu senden, oder dass ein Produktteam individuelle Walkthrough-Videos für das Onboarding neuer Kunden erstellen kann – alles über einfache textbasierte Eingabeaufforderungen, die die zuvor erstellte digitale Replik nutzen. Und durch die Integration von Tavus in Drittsysteme wie Salesforce oder Mailchimp können Unternehmen einen Großteil davon automatisieren – zum Beispiel kann einem Kunden, der ein Online-Formular ausfüllt und weitere Informationen zu einem Produkt anfordert, sofort ein Video per E-Mail zugesendet werden, an das sich ein Vertriebsmitarbeiter wendet Nennen Sie den Interessenten namentlich und erklären Sie ihm die nächsten Schritte.

Tavus hat es in seinem kurzen Bestehen bisher geschafft, einige ziemlich namhafte Kunden zu gewinnen, darunter Salesforce und Facebooks Muttergesellschaft Meta, Mitbegründer und CEO Hassaan Raza Diese nutzen die Plattform, um über personalisierte Demovideos Upselling an ihre jeweiligen B2B-Kunden zu verkaufen.

Tavus als Plattform

Bisher wurde Tavus über eine SaaS-App bedient, über die Kunden ihre eigenen KI-Videovorlagen erstellen. Der Onboarding-Prozess erfordert, dass eine Person, beispielsweise der CEO oder der Vertriebsleiter, ein 15-minütiges Video aufzunehmen, das auf einem von Tavus bereitgestellten Skript basiert.

Tavus' Klonen in Aktion

Tavus’ Klonen in Aktion. Bildnachweise: Tavus

Dies wird dann verwendet, um die KI zu trainieren. Anschließend geht der Benutzer zu einem Web-Editor und wählt aus, welche Teile des Videos er personalisieren möchte, indem er die Variablen definiert – wie Standort, Name der Führungskraft, Firma oder Produkt. Durch die Einbindung von Tavus in ihr CRM-System können Unternehmen jede dieser Variablen an ein bestimmtes Kundensegment anpassen, beispielsweise an diejenigen, die Interesse an einem bestimmten Produkt bekundet haben.

Bearbeiten von Variablen

Bearbeiten von Variablen. Bildnachweise: Tavus

Unternehmen können Hunderte dieser Nachbildungen mit unterschiedlichem Personal und unterschiedlichem Hintergrund für unterschiedliche Zielmärkte erstellen.

Mit dem In-App-Editor ist es möglich, eine beliebige Anzahl verschiedener Skripte zu generieren, die an jeden Anwendungsfall angehängt werden können – ohne dass das Originalvideo neu aufgenommen werden muss.

Die verschiedenen Avatare von Tavus

Die verschiedenen Avatare von Tavus. Bildnachweise: Tavus

Auch wenn dieses SaaS-Kernprodukt nicht verschwinden wird, stellt Tavus heute eine neue, turbogeladene Version seiner Technologie vor, zusammen mit der ersten Version einer Reihe von Entwickler-APIs, die es Dritten ermöglichen, Tavus in ihre eigenen Anwendungen zu integrieren.

Replizieren

Die erste Facette der neuen Entwicklerplattform von Tavus ist die „Replica-API“, bei der es um die Erstellung „fotorealistischer“ digitaler Repliken mit Text-zu-Video-Generierung geht. Damit kann ein Unternehmen eine Person (z. B. einen Marketingleiter oder CEO) nachbilden, indem es ein neues proprietäres Modell namens „Phoenix“ von Tavus verwendet, das auf einer Deep-Learning-Methode namens Neural Radiance Field (NeRF) basiert. Dadurch kann in nur wenigen Minuten aus 2D-Bildern ein 3D-Konstrukt einer Person erstellt werden.

„Es ermöglicht Ihnen im Wesentlichen, ganze Videos mit nur zwei Minuten Trainingsdaten zu erstellen, was einen großen Fortschritt gegenüber der bisherigen Vorgehensweise bei der Personalisierung in großem Maßstab darstellt“, sagte Raza gegenüber TechCrunch. „Und jetzt müssen Sie nur noch zwei Minuten Trainingsdaten aufzeichnen, und schon wird ein vollständiges Abbild von Ihnen erstellt. Und sobald Sie Replica haben, können Sie so viele Videos erstellen, wie Sie möchten – aus einem, zwei oder tausend Skripten.“

Tavus: Simulation, die zeigt, wie das Phoenix NeRF-Modell das Gesicht eines Benutzers abbildet, um eine realistische Nachbildung zu erstellen

Simulation, die zeigt, wie Tavus das Gesicht eines Benutzers kartiert, um eine realistische Nachbildung zu erstellen. Bildnachweise: Tavus

Das Phoenix-Modell von Tavus erstellt ein 3D-Modell unter Verwendung von 2D-Videoeingaben über neuronale Strahlungsfelder (NeRF).

Ausgabe: Das Phoenix-Modell von Tavus erstellt ein 3D-Modell mithilfe der 2D-Videoeingabe über NeRF. Bildnachweise: Tavus

Die erste Replika-API basiert auf der gesamten Funktionalität des Phoenix-Modells und erfasst die Gesichtsbewegungen einer Person, einschließlich Wangen, Nase, Augenbrauen und Lippen.

„Die Bewegung Ihres gesamten Gesichts fördert Realismus, Natürlichkeit und Qualität – wenn Sie sprechen, drückt Ihr Gesicht Emotionen aus, die über die Bewegung Ihrer Lippen hinausgehen“, erklärte Raza. „Wenn Sie aus einem Skript ein ganzes Video generieren möchten – in dem Sie sprechen, das natürlich aussieht und von unglaublich hoher Qualität ist –, sollten Sie die Replika-API verwenden.“

Allerdings entwickelt Tavus auch eine Reihe zusätzlicher APIs, darunter eine speziell für die Lippensynchronisation, eine für die Synchronisation und eine für die Durchführung personalisierter Massenvideokampagnen.

Die Lippensynchronisations-API wird laut Raza „geringere Einstiegskosten“ haben und eignet sich besser für Situationen, in denen ein „hohes Maß an Qualität und Realismus nicht erforderlich ist“.

Die Synchronisierungs-API nutzt ebenfalls das Lip-Sync-Modell, beinhaltet aber auch mehrsprachiges Voice-Cloning, was bedeutet, dass ein monolinguistischer Benutzer Videokampagnen in beliebig vielen Sprachen mit seiner eigenen Stimme versenden kann. Da in diesem Fall der größte Teil des Videos gleich bleibt, ermöglicht die API das einfache Ersetzen von Lippenbewegungen, um sie an die unterschiedlichen Geräusche anzupassen, die aus dem Mund des Benutzers kommen. Dies könnte sich beispielsweise für die Entwickler einer Videobearbeitungssoftware-Suite als nützlich erweisen, wenn sie ihren Benutzern ermöglichen möchten, ihren Videos Lippensynchronisation, Bearbeitung und Synchronisierung hinzuzufügen.

Und dann bündelt die Videokampagnen-API im Grunde die Replika-API mit einer Reihe zusätzlicher Tools – wie Hosting, Variablenzuordnung, Miniaturansichten und Analysen – für diejenigen, die groß angelegte Videokampagnen starten möchten.

„Wir bieten jedem Entwickler die Möglichkeit, sofort ein End-to-End-Videokampagnenerlebnis in seinen eigenen Lösungen bereitzustellen“, sagte Raza. „Während es sich bei den Replica- und Lip-Sync-APIs eher um „Model-as-a-Service“ handelt, bietet Ihnen die Kampagnen-API Tools zum einfachen Aufbau einer KI-Videokampagnenplattform.“

Raza blieb zurückhaltend, wer einige der ersten Nutzer der Tavus-Plattform seien, sagte jedoch, dass sie „mit einer der größten Videoplattformen“ zur Kundenbindung zusammenarbeite. „Sie möchten dies ihren Millionen Kunden zugänglich machen, die ihre Plattform bereits täglich zum Erstellen von Videos nutzen“, sagte Raza.

Deepfake-Dilemma

Instinktiv sind Plattformen wie Tavus anfällig für Missbrauch – was hindert schließlich jemanden daran, ein bereits vorhandenes Video hochzuladen, um eine digitale Kopie zu erstellen? Deepfakes sind tatsächlich ein wachsendes Problem in der aufkeimenden KI-Bewegung, aber Raza sagt, dass es Kontrollen gibt, um Schikanen zu verhindern. Wenn ein Benutzer beispielsweise sein zweiminütiges Schulungsmaterial einreicht, muss er auch eine spezifische mündliche Einwilligungserklärung abgeben, die dann mit dem Ton im Schulungsmaterial abgeglichen wird, um sicherzustellen, dass eine Übereinstimmung besteht.

„Wir führen diese Prüfungen automatisch durch und führen dann eine menschliche Prüfung für jedes Replikat durch, das die automatisierten Prüfungen durchläuft, um die Sicherheit zu gewährleisten“, sagte Raza.

Es ist leicht vorstellbar, wie das mit Tavus als eigenständiger SaaS-App funktionieren könnte, aber jetzt, da es sich um eine Plattform handelt, auf die eine beliebige Anzahl von Unternehmen über eine API zugreifen, wer hat dann die Kontrolle über die Verifizierung? Nun, wie sich herausstellt, ist das bei Tavus der Fall – das Unternehmen möchte das Verifizierungsrad in der Hand behalten, auch wenn es lediglich die Engine für Drittentwickler bereitstellt.

„Wir führen die gleichen Kontrollen durch und übernehmen die Verantwortung für die Überprüfungen mit [the] API auch“, fuhr Raza fort.

Die Realität erweitern

Während OpenAI fast zum öffentlichen Aushängeschild der generativen KI geworden ist, gibt es mehr als genug Raum für verschiedene Akteure, die etwas Anderes in den Mix einbringen. Während es beim kürzlich veröffentlichten Sora-Modell von DALL-E und OpenAI vor allem darum geht, Menschen dabei zu helfen, aus Textaufforderungen visuelle Darstellungen zu erstellen, geht es laut Raza bei Tavus eher darum, die eigene Realität einer Person zu „erweitern“.

„Wir sehen eine Zukunft, in der jeder eine digitale Nachbildung von sich selbst haben möchte; Sie kontrollieren das und haben die volle Autorität darüber“, sagte Raza. „Und es wird wichtig sein, dass es letztendlich immer mehr von Ihrer Persönlichkeit, immer mehr Ihrer Gesten und Eigenschaften einfängt. So sehen wir die Zukunft: Es wird Modelle geben, die Dinge erschaffen, die es nicht gibt, und dann wird es Modelle geben, die Ihre Realität erweitern.“

Mit 18 Millionen US-Dollar auf der Bank sagte Raza, dass die jüngste Finanzspritze dazu verwendet werde, „das Feuer anzuheizen, das bereits in den Tavus-Türmen brennt“.

„Wir sind ein KI-Forschungsunternehmen und möchten daher in der Lage sein, die Entwicklung neuerer Modelle wie Phoenix fortzusetzen“, sagte Raza. „Aber wir wollen auch einfach unser Wachstum aufrechterhalten, wir hatten kontinuierlich eine enorme Nachfrage. Und wir möchten in der Lage sein, unsere Teams für maschinelles Lernen und Engineering kontinuierlich zu verstärken, um unsere Entwickler und SaaS-Kunden zu unterstützen.“

source-116

Leave a Reply