Kannst du mich jetzt hören? KI-Kostik zur Bekämpfung von lautem Audio mit generativer KI


Laute Aufzeichnungen von Interviews und Reden sind der Fluch der Existenz eines Tontechnikers. Doch ein deutsches Startup hofft, dieses Problem mit einem einzigartigen technischen Ansatz zu lösen, der generative KI nutzt, um die Klarheit von Stimmen in Videos zu verbessern.

Heute, KI-Kustik kam mit einer Finanzierung von 1,9 Millionen Euro aus der Tarnung heraus. Laut Mitbegründer und CEO Fabian Seipel geht die Technologie von AI-coustics über die standardmäßige Geräuschunterdrückung hinaus und funktioniert auf allen Geräten und Lautsprechern.

„Unsere Hauptaufgabe besteht darin, jede digitale Interaktion, sei es bei einer Telefonkonferenz, einem Verbrauchergerät oder einem gelegentlichen Social-Media-Video, so klar wie eine Übertragung aus einem professionellen Studio zu machen“, sagte Seipel in einem Interview mit TechCrunch.

Seipel, ein ausgebildeter Audio-Ingenieur, gründete 2021 zusammen mit Corvin Jaedicke, Dozent für maschinelles Lernen an der Technischen Universität Berlin, AI-coustics. Seipel und Jaedicke lernten sich während ihres Audiotechnik-Studiums an der TU Berlin kennen, wo sie häufig auf schlechte Audioqualität stießen Qualität der Online-Kurse und Tutorials, die sie absolvieren mussten.

„Unsere persönliche Mission ist es, das allgegenwärtige Problem der schlechten Audioqualität in der digitalen Kommunikation zu überwinden“, sagte Seipel. „Während mein Gehör durch die Musikproduktion in meinen frühen Zwanzigern leicht beeinträchtigt ist, hatte ich immer Probleme mit Online-Inhalten und Vorträgen, was uns dazu veranlasste, uns zunächst mit dem Thema Sprachqualität und Sprachverständlichkeit zu beschäftigen.“

Der Markt für KI-gestützte Software zur Geräuschunterdrückung und Sprachverbesserung ist bereits sehr robust. Zu den Konkurrenten von AI-coustics gehören Insoundz, das generative KI nutzt, um gestreamte und vorab aufgezeichnete Sprachclips zu verbessern, und Veed.io, eine Videobearbeitungssuite mit Tools zum Entfernen von Hintergrundgeräuschen aus Clips.

Seipel sagt jedoch, dass AI-coustics einen einzigartigen Ansatz zur Entwicklung der KI-Mechanismen verfolgt, die die eigentliche Lärmreduzierungsarbeit leisten.

Das Startup verwendet ein Modell, das auf Sprachproben trainiert wurde, die im Studio des Startups in Berlin, der Heimatstadt von AI-coustics, aufgezeichnet wurden. Menschen werden dafür bezahlt, Proben aufzunehmen – Seipel würde nicht sagen, wie viel –, die dann zu einem Datensatz hinzugefügt werden, um das geräuschreduzierende Modell von AI-coustics zu trainieren.

„Wir haben einen einzigartigen Ansatz entwickelt, um Audioartefakte und -probleme – z. B. Rauschen, Nachhall, Komprimierung, bandbegrenzte Mikrofone, Verzerrung, Übersteuerung usw. – während des Trainingsprozesses zu simulieren“, sagte Seipel.

Ich wette, dass einige Probleme mit dem einmaligen Vergütungssystem von AI-coustics für Entwickler haben werden, da sich das Modell, das das Startup ausbildet, auf lange Sicht als recht lukrativ erweisen könnte. (Es gibt eine gesunde Debatte darüber, ob die Ersteller von Trainingsdaten für KI-Modelle Residuen für ihre Beiträge verdienen.) Aber vielleicht ist die größere und unmittelbarere Sorge die Voreingenommenheit.

Es ist allgemein bekannt, dass Spracherkennungsalgorithmen Vorurteile entwickeln können – Vorurteile, die letztendlich den Benutzern schaden. A Studie Eine in den Proceedings of the National Academy of Sciences veröffentlichte Studie zeigte, dass die Wahrscheinlichkeit, dass Spracherkennungsgeräte von führenden Unternehmen Audio von schwarzen Sprechern falsch transkribieren, doppelt so hoch ist wie von weißen Sprechern.

Um dem entgegenzuwirken, konzentriert sich AI-coustics laut Seipel auf die Rekrutierung „verschiedener“ Mitwirkender an Sprachproben. Er fügte hinzu: „Größe und Vielfalt sind der Schlüssel zur Beseitigung von Vorurteilen und dafür, dass die Technologie für alle Sprachen, Sprecheridentitäten, Altersgruppen, Akzente und Geschlechter funktioniert.“

Es war nicht der wissenschaftlichste Test, aber ich habe drei Videoclips hochgeladen – einen Interview mit einem Bauern aus dem 18. JahrhundertA Autofahrdemo und ein Protest gegen den israelisch-palästinensischen Konflikt – zur Plattform von AI-coustics, um zu sehen, wie gut sie mit jeder Plattform funktioniert. AI-coustics hat tatsächlich sein Versprechen gehalten, die Klarheit zu verbessern; Meiner Meinung nach hatten die verarbeiteten Clips weitaus weniger Hintergrundgeräusche, die die Lautsprecher übertönten.

Hier ist der Bauernclip aus dem 18. Jahrhundert davor:


Und danach:

Seipel geht davon aus, dass die Technologie von AI-coustics sowohl für die Sprachverbesserung in Echtzeit als auch für aufgezeichnete Sprache eingesetzt wird und möglicherweise sogar in Geräte wie Soundbars, Smartphones und Kopfhörer eingebettet wird, um die Sprachverständlichkeit automatisch zu verbessern. Momentan, AI-coustics bietet eine Web-App und API für die Nachbearbeitung von Audio- und Videoaufnahmen sowie ein SDK, das die Plattform von AI-coustics in bestehende Arbeitsabläufe, Apps und Hardware integriert.

Seipel sagt, dass AI-coustics – das Geld durch eine Mischung aus Abonnements, On-Demand-Preisen und Lizenzen verdient – ​​derzeit fünf Unternehmenskunden und 20.000 Benutzer (wenn auch nicht alle zahlend) hat. Auf der Roadmap für die nächsten Monate stehen die Erweiterung des vierköpfigen Teams des Unternehmens und die Verbesserung des zugrunde liegenden Sprachverbesserungsmodells.

„Vor unserer Erstinvestition betrieb AI-coustics einen relativ schlanken Betrieb mit einer geringen Burn-Rate, um die Schwierigkeiten des VC-Investmentmarktes zu überstehen“, sagte Seipel. „AI-coustics verfügt mittlerweile über ein umfangreiches Netzwerk von Investoren und Mentoren in Deutschland und Großbritannien zur Beratung. Eine starke Technologiebasis und die Fähigkeit, verschiedene Märkte mit derselben Datenbank und Kerntechnologie anzusprechen, geben dem Unternehmen Flexibilität und die Möglichkeit für kleinere Pivots.“

Gefragt, ob Audio-Mastering-Technologien wie AI-Coustics Arbeitsplätze stehlen könnten wie manche Experten befürchtenSeipel verwies auf das Potenzial der KI-Kustik, zeitaufwändige Aufgaben zu beschleunigen, die derzeit menschlichen Audioingenieuren obliegen.

„Ein Content-Creation-Studio oder ein Broadcast-Manager kann Zeit und Geld sparen, indem er Teile des Audioproduktionsprozesses mit AI-Coustics automatisiert und gleichzeitig die höchste Sprachqualität beibehält“, sagte er. „Sprachqualität und -verständlichkeit sind bei fast jedem Verbraucher- oder Profigerät sowie bei der Produktion oder dem Konsum von Inhalten immer noch ein lästiges Problem. Jede Anwendung, bei der Sprache aufgezeichnet, verarbeitet oder übertragen wird, kann potenziell von unserer Technologie profitieren.“

Die Finanzierung erfolgte in Form einer Eigenkapital- und Fremdkapitaltranche von Connect Ventures, Inovia Capital, FOV Ventures und Ableton-CFO Jan Bohl.

source-116

Leave a Reply