Stimmerkennung mit KI – So können Roboter Emotionen heraushören

München Aus der menschlichen Stimme lässt sich viel heraushören. „Wenn Sie Fieber haben, sprechen Sie ganz anders“, sagt Dagmar Schuller. Die Technologie ihres Unternehmens Audeering kann mithilfe Künstlicher Intelligenz (KI) die stimmlichen und emotionalen Ausdrücke der Sprecher erkennen, Callcenter-Mitarbeiter unterstützen und sogar Coronainfektionen erkennen. Nun soll die Technologie auch eingesetzt werden, um Roboter zum Beispiel für den Einsatz in der Pflege empathiefähiger zu machen.

Der Hersteller Hanson Robotics will die automatisierte Emotionserkennung von Audeering in seine Serviceroboter integrieren und so menschenähnliche Pflegekräfte bauen. Hanson nutzt bereits Sensoren, um die Mimik des Gegenübers zu analysieren – nun kommt die Stimme hinzu.

Mithilfe von sogenannter sozialer KI sollen die Roboter dann die Emotionen ihres Gegenübers analysieren und empathisch darauf reagieren. Erkennt ein Roboter zum Beispiel über die Stimme Wut, könnte er ruhig und beschwichtigend reagieren, heißt es bei Audeering. Auch Ironie sollen die Maschinen künftig erkennen können.

An der Stimme kann man Erkrankungen erkennen

„Mit der Emotionserkennung kommen wir unserem Ziel, einem natürlichen Miteinander zwischen Menschen und Robotern, einen großen Schritt näher“, sagt Hanson-Gründer David Hanson. Wichtig sei es gewesen, dass die Datenanalyse „nach ethisch höchsten Standards“ erfolgt.

Zusätzlich sollen die Roboter auch den Gesundheitszustand der Pflegepatienten überwachen. So konnte Audeering kürzlich in einer Studie nach eigenen Angaben zeigen, dass durch kurze, regelmäßige Sprachtests krankheitsbezogene Indikatoren für Multiple Sklerose, Erschöpfungssyndrom und Depression erkannt werden können.

„Der Roboter soll die medizinische Diagnose eines Arztes nicht ersetzen und auch nicht die menschliche Pflegekraft“, sagt Audeering-Chefin Schuller. In Zeiten des Fachkräftemangels könnten die Serviceroboter aber eine sinnvolle Ergänzung sein.

Weil weltweit in vielen Branchen das Personal fehlt, boomt das Segment der Serviceroboter. Im Jahr 2021 wurden im professionellen Bereich – also zum Beispiel ohne private Saug- oder Mähroboter – 121.000 Maschinen verkauft, ein Anstieg von 37 Prozent im Vergleich zum Vorjahr.

Neuere Zahlen liegen dem Branchenverband IFR noch nicht vor, doch dürfte sich der Wachstumstrend fortgesetzt haben. Auf den Medizin- und Pflegebereich entfielen knapp 15.000 Serviceroboter.

Damit der Durchbruch auf breiter Front gelingt, muss die Mensch-Maschine-Kommunikation weiter vereinfacht und verbessert werden. Daran arbeiten viele in der Branche. So hat das Start-up Fruitcore aus Konstanz ein Betriebssystem entwickelt, mit dessen Hilfe Roboter mit Alltagssprache programmiert werden können.

Audeering gilt als technisch führend

So können Nutzer der Maschine zum Beispiel sagen: „Fahre zur rechten Ecke der Tischplatte“ oder „Hebe das Glas zehn Zentimeter hoch“. Bislang war dafür aufwendige Programmierung notwendig. „Der Einsatz von Robotik wird bezahlbar, und er wird vor allem zugänglich“, sagt Fruitcore-Chef Jens Riegger.

Dagmar Schuller

Die Gründerin von Audeering arbeitet schon lange auf dem Feld der Spracherkennung.

(Foto: Gorjan Gajanin)

Mithilfe der Software von Audeering sollen die Roboter nun nicht nur die Sprache verstehen, sondern auch Emotionen heraushören können. Schuller arbeitet schon lange an diesem Thema. Sie hat Audeering gemeinsam mit Florian Eyben, Felix Weninger und Martin Wöllmer aus einer KI-Forschungsgruppe bereits vor mehr als zehn Jahren an der TU München gegründet.

Die Spracherkennung war damals schon relativ weit, der nächste logische Schritt war die Stimmanalyse. „Da es ein interdisziplinäres Feld ist, in das Themen wie KI, Elektrotechnik, Phonetik, Psychologie und Medizin mit reinspielen, gab es nicht viele Anbieter“, sagt Schuller. „Den Vorsprung haben wir bis heute gehalten und ausgebaut.“

Ein Insider aus der Branche bestätigt, dass Audeering technologisch zu den führenden Unternehmen gehört. Man müsse allerdings abwarten, welche Rolle künftig Techriesen wie Google, Apple und Co. spielen, die sich ebenfalls intensiv mit KI sowie Sprach- und Stimmerkennung beschäftigen.

Die ersten Anwendungen für Audeering kamen aus der Marktforschung. Potenzielle Kunden sagten zum Beispiel, was sie von einem Produkt oder einer Marke halten. Die Plattform analysiert parallel, wie groß die Begeisterung ist. Dabei werden inzwischen rund 7000 Parameter genutzt, um Emotionsausdrücke zu bestimmen, aber auch, um zum Beispiel Fortschritte bei der Behandlung von psychischen Erkrankungen zu dokumentieren.

Audeering verarbeitet Daten nur auf eigenen Servern

„Es ist eine Technologie, die überall einsetzbar ist. Man braucht nur ein Mikrofon“, sagt Schuller. So führten in einem Projekt Crewmitglieder einer Nichtregierungsorganisation auf einem Schiff ein Audio-Tagebuch. Stressmomente konnten so analysiert werden.

In Zeiten, in denen es in Ländern wie China umfassende Videoüberwachung und Punktsysteme für Sozialverhalten gibt, sind solche Technologien heikel. Man verarbeite Daten nur auf den eigenen Servern in Deutschland und erfülle die höchsten Standards, beteuern die Gründer.

Es würden nur benutzerdefinierte Funktionen gespeichert, der Anwender behalte die Verantwortung für seine persönlichen Daten. Immer muss als Erstes die Zustimmung des Sprechenden eingeholt werden. Zudem sagt Schuller: „Was inhaltlich gesagt wird, interessiert uns erst einmal nicht.“

>> Lesen Sie auch: Robotik als Chefsache – VDMA fordert von Bundesregierung gemeinsamen Ausbau der Automation

Die Stimmung von Kunden oder auch Veranstaltungsteilnehmern wollen viele gern kennen. Die Eventagentur Avantgarde hat eine Technologie entwickelt, die mithilfe von Sensoren und dem Einsatz Künstlicher Intelligenz misst, wie gut zum Beispiel ein Redner auf einer Tagung oder ein Verkäufer im Geschäft bei Teilnehmern und Besuchern ankommt. Dazu werden optische Sensoren eingesetzt, die aber aus Datenschutzgründen kein Bild erzeugen.

Der stimmbasierte Ansatz bietet nach Einschätzung von Audeering-Gründerin Schuller noch viele Chancen. Allerdings gelte: „Ich brauche Daten, um die Modelle zu trainieren.“ Hier drohe neben der Datenschutz-Grundverordnung mit dem sogenannten AI Act der EU eine zusätzliche Überregulierung.

Selbst wer vor den Möglichkeiten neuer Technologien Angst habe, müsse ihre Entwicklung unterstützen, sagt Schuller: „Ich muss eine Technologie verstehen, um sie gezielt einsetzen zu können.“ Wer einfach nur verbiete, überlasse anderen Spielern das Feld – ohne die Chance, Einfluss auf die Entwicklung zu nehmen.

Audeering hat bereits kommerzielle Anwendungen am Markt. In der Marktforschung gibt das Werkzeug dem Mitarbeiter ein Bild, wie er beim Gegenüber ankommt und welche Emotionen seine eigene Stimme transportiert. Unterbricht er das Gegenüber zu oft, schlägt das System Alarm. „Das führt automatisch zu besseren Gesprächen“, sagt Schuller.

Mehr: Industrieroboter hören jetzt auf jedes Wort

source site-13