Letzte Woche hat Nvidia eine neue Version von veröffentlicht Nvidia-Broadcast (öffnet in neuem Tab) – die Deep-Learning- und KI-gestützte Software, die Rauschunterdrückung, Hintergrundentfernung/-ersatz, Kameraeinstellung und jetzt … Augenkontakt ausführen kann. Letzteres befindet sich derzeit in der Beta-Phase und … sollte wahrscheinlich in der Beta-Phase bleiben.
KI und Deep Learning waren in letzter Zeit aus gutem Grund viel in den Nachrichten. Sachen wie Dall-E, Midjourney und Stable Diffusion schaffen Kunst aus Text, oft mit ziemlich beeindruckenden Ergebnissen. Zu anderen Zeiten landen Sie natürlich mit verstümmelten mutierten Kreaturen mit zweieinhalb Köpfen und zu vielen Gliedmaßen. Auf der Textseite produziert ChatGPT lesbare Schriften, von denen viele befürchten, dass sie den Todesstoß für englische Essays und Journalismus bedeuten (und nein, es hat diesen Nachrichtenbeitrag nicht geschrieben).
Die Idee hinter Augenkontakt ist einfach genug: Wenn Sie an einem Webcast oder Meeting teilnehmen, schauen Sie oft von der Kamera weg. Tatsächlich besteht eine reelle Chance, dass Sie es sind stets Blick von der Kamera weg – weil sie sich oben auf dem Bildschirm befindet und die Dinge, die Sie sehen möchten, auf dem Bildschirm sind. Aber was wäre, wenn es eine Möglichkeit gäbe, so auszusehen, als würden Sie in Ihre Kamera schauen, ohne in Ihre Kamera zu schauen?
Was wäre, wenn Sie ein KI-Modell auf Gesichtern trainieren und ihm beibringen könnten, Bilder zu korrigieren, wenn jemand nicht direkt in die Linse schaut? Holen Sie sich Millionen von Bildern, die entsprechend getaggt sind, speisen Sie sie in das Netzwerk ein und heraus kommt ein erstaunliches Tool, richtig?
Die Umsetzung ist nicht ganz so einfach; Nvidia spricht seit weit über einem Jahr über seine Eye Contact-Funktion, und sie geht erst jetzt in die öffentliche (Beta-) Veröffentlichung. Unterschiede zwischen unzähligen Gesichtern auf der ganzen Welt machen es zu einem schwierigen Problem, es zu “lösen”, und selbst jetzt sind die Ergebnisse … unvollkommen (und das ist nett ausgedrückt).
Ich habe es trotzdem auf einem System mit einer RTX 3090 Ti getestet:
Eines der Dinge, die mir beim Testen aufgefallen sind, ist, dass der Live-Video-Feed oft zwischen meinem Blick in die Kamera und meinem Blick in eine andere Richtung oszillierte, obwohl mein Fokus auf derselben Stelle blieb. Ich schätze, das könnte beabsichtigt sein, denn es wäre ein wenig gruselig, wenn jemand während eines gesamten Video-Chats direkt in die Kamera starrt – aber wenn dies der Fall ist, müssen einige Anpassungen am Timing vorgenommen werden.
Schwieriger zu sagen ist, ob eine solche Wirkung überhaupt von Vorteil ist. Wenn Sie so aussehen möchten, als würden Sie in die Kamera schauen, sollten Sie wahrscheinlich lernen, in die Kamera zu schauen. Das Lösen menschlicher Fehler durch KI könnte am Ende nur dazu führen, schlechte Gewohnheiten zu fördern – was passiert, wenn Sie auf einem Video-Feed landen, der den Augenkontakt nicht korrigiert?
Unabhängig davon steht Nvidia Broadcast mit Augenkontakt jetzt RTX-Besitzern zum Testen zur Verfügung. Ich habe es mit einer RTX 3090 Ti getestet, aber Nvidia listet die RTX 2060 als Einstiegspunkt auf (und dazu sollten meines Wissens mobile RTX 3050-GPUs gehören). Langfristig vermute ich, dass Nvidia irgendwann einige KI-Modelle entwickeln wird, die komplexer sind und schnellere Hardware erfordern als eine RTX 2060 – genau wie die Frame Generation-Funktion von DLSS 3 eine Grafikkarte der RTX 40-Serie erfordert – aber vorerst jede RTX-GPU, die in den letzten vier Jahren hergestellt wurde, kann diese Funktion unterstützen.
Magst du den Effekt, hasst ihn, findest du ihn gruselig oder etwas anderes? Lassen Sie es uns in den Kommentaren wissen, zusammen mit anderen Effekten, die Sie lieber sehen würden. Ich persönlich freue mich auf die Zeit, in der wir alle virtuelle Cartoon-Avatare wie Toy Jensen haben können, die anstelle von echten Menschen sprechen, vielleicht Artikel lesen, die von KI geschrieben wurden, wobei die Videos und Artikel beide von KI konsumiert werden.
Von da unten sind es Bots!