Forscher rekonstruieren 3D-Umgebungen aus Augenreflexionen


Forscher der University of Maryland haben Augenreflexionen in (einigermaßen erkennbare) 3D-Szenen umgewandelt. Die Arbeit basiert auf Neural Radiance Fields (NeRF), einer KI-Technologie, die Umgebungen aus 2D-Fotos rekonstruieren kann. Obwohl der Ansatz der Augenreflexion noch einen langen Weg vor sich hat, bevor er praktische Anwendungen hervorbringt, ist der lernen (Erste berichtet von Tech Xplore) bietet einen faszinierenden Einblick in eine Technologie, die aus einer Reihe einfacher Porträtfotos schließlich eine Umgebung offenbaren könnte.

Das Team nutzte subtile Lichtreflexionen, die in menschlichen Augen erfasst wurden (unter Verwendung aufeinanderfolgender Bilder, die von einem einzelnen Sensor aufgenommen wurden), um zu versuchen, die unmittelbare Umgebung der Person zu erkennen. Sie begannen mit mehreren hochauflösenden Bildern von einer festen Kameraposition und erfassten eine sich bewegende Person, die in die Kamera blickte. Anschließend vergrößerten sie die Reflexionen, isolierten sie und berechneten, wohin die Augen auf den Fotos blickten.

Die Ergebnisse (hier ist die gesamtes Set animiert) zeigen eine gut erkennbare Umweltrekonstruktion aus menschlicher Sicht in einer kontrollierten Umgebung. Eine mit einem synthetischen Auge aufgenommene Szene (unten) erzeugte eine beeindruckendere, traumhafte Szene. Ein Versuch, Augenreflexionen aus Musikvideos von Miley Cyrus und Lady Gaga zu modellieren, erzeugte jedoch nur vage Kleckse, von denen die Forscher nur vermuten konnten, dass es sich um ein LED-Gitter und eine Kamera auf einem Stativ handelte – was verdeutlicht, wie weit die Technologie vom realen Einsatz entfernt ist.

Eine traumhafte Szene eines Raumes mit einer Wand, die mit verschiedenen Hängerahmen bedeckt ist.  Ein Besen lehnt an der Wand, daneben hängen zwei Hemden.  Weiter links steht eine Kommode.  Wir sehen die Wand leicht schräg.
Rekonstruktionen mit einem künstlichen Auge waren viel lebendiger und lebensechter – mit einer traumhaften Qualität.

Universität von Maryland

Das Team überwand erhebliche Hindernisse, um selbst grobe und unscharfe Szenen zu rekonstruieren. Beispielsweise verursacht die Hornhaut „eigenes Rauschen“, das es schwierig macht, das reflektierte Licht von den komplexen Irisstrukturen des Menschen zu trennen. Um dies zu beheben, führten sie während des Trainings eine Hornhauthaltungsoptimierung (Schätzung der Position und Ausrichtung der Hornhaut) und eine Zerlegung der Iristextur (Extrahierung einzigartiger Merkmale der Iris einer Person) ein. Schließlich trug der radiale Textur-Regularisierungsverlust (eine maschinelle Lerntechnik, die glattere Texturen als das Quellmaterial simuliert) dazu bei, die reflektierte Szenerie weiter zu isolieren und zu verbessern.

Trotz der Fortschritte und cleveren Problemumgehungen bleiben erhebliche Hindernisse bestehen. „Unsere aktuellen realen Ergebnisse stammen aus einem ‚Laboraufbau‘, wie z. B. einer vergrößerten Aufnahme des Gesichts einer Person, Flächenlichtern zur Beleuchtung der Szene und absichtlichen Bewegungen einer Person“, schrieben die Autoren. „Wir glauben, dass uneingeschränktere Einstellungen aufgrund der geringeren Sensorauflösung, des Dynamikbereichs und der Bewegungsunschärfe weiterhin eine Herausforderung darstellen (z. B. Videokonferenzen mit natürlichen Kopfbewegungen).“ Darüber hinaus stellt das Team fest, dass seine universellen Annahmen über die Irisstruktur möglicherweise zu einfach sind, um allgemein angewendet zu werden, insbesondere wenn die Augen normalerweise weiter rotieren als in einer solchen kontrollierten Umgebung.

Dennoch betrachtet das Team seine Fortschritte als Meilenstein, der zukünftige Durchbrüche vorantreiben kann. „Mit dieser Arbeit hoffen wir, zukünftige Erkundungen anzuregen, die unerwartete, zufällige visuelle Signale nutzen, um Informationen über die Welt um uns herum preiszugeben und so den Horizont der 3D-Szenenrekonstruktion zu erweitern.“ Obwohl reifere Versionen dieses Werks einige gruselige und unerwünschte Eingriffe in die Privatsphäre hervorrufen könnten, können Sie zumindest beruhigt sein, wenn Sie wissen, dass die heutige Version selbst unter den idealsten Bedingungen nur vage eine Kirby-Puppe erkennen kann.

source-115

Leave a Reply