Metas Open-Source-ImageBind-KI zielt darauf ab, die menschliche Wahrnehmung nachzuahmen


Meta ist ein Open-Sourcing-Tool namens Meta ImageBind das Zusammenhänge zwischen Daten vorhersagt, ähnlich wie Menschen eine Umgebung wahrnehmen oder sich vorstellen. Während Bildgeneratoren wie Midjourney, Stable Diffusion und DALL-E 2 Wörter mit Bildern koppeln und es Ihnen ermöglichen, visuelle Szenen nur auf der Grundlage einer Textbeschreibung zu generieren, wirft ImageBind ein breiteres Netz. Es kann Text, Bilder/Videos, Audio, 3D-Messungen (Tiefe), Temperaturdaten (thermisch) und Bewegungsdaten (von inertialen Messeinheiten) verknüpfen – und das, ohne dass alle Möglichkeiten vorher trainiert werden müssen. Es handelt sich um ein frühes Stadium eines Frameworks, das schließlich komplexe Umgebungen aus einer so einfachen Eingabe wie einer Textaufforderung, einer Bild- oder Audioaufzeichnung (oder einer Kombination aus diesen dreien) generieren könnte.

Man könnte sich ImageBind als eine Annäherung des maschinellen Lernens an das menschliche Lernen vorstellen. Wenn Sie beispielsweise in einer anregenden Umgebung wie einer belebten Stadtstraße stehen, nimmt Ihr Gehirn (größtenteils unbewusst) die Anblicke, Geräusche und anderen Sinneserlebnisse auf, um daraus Informationen über vorbeifahrende Autos und Fußgänger, hohe Gebäude, das Wetter und vieles mehr abzuleiten. Menschen und andere Tiere haben sich entwickelt, um diese Daten zu unserem genetischen Vorteil zu verarbeiten: zum Überleben und zur Weitergabe unserer DNA. (Je bewusster Sie sich Ihrer Umgebung bewusst sind, desto besser können Sie Gefahren vermeiden und sich für besseres Überleben und Wohlstand an Ihre Umgebung anpassen.) Je näher Computer der Nachahmung der multisensorischen Verbindungen von Tieren kommen, desto mehr können sie diese Verknüpfungen nutzen, um vollständig realisierte Ergebnisse zu generieren Szenen, die nur auf begrenzten Datenblöcken basieren.

Während Sie also Midjourney verwenden können, um „einen Basset im Gandalf-Outfit beim Balancieren auf einem Wasserball“ zu simulieren und ein relativ realistisches Foto dieser bizarren Szene zu erhalten, kann ein multimodales KI-Tool wie ImageBind schließlich ein Video des Hundes erstellen entsprechende Geräusche, darunter ein detailliertes Vorstadtwohnzimmer, die Raumtemperatur und die genauen Standorte des Hundes und aller anderen Personen in der Szene. „Dadurch entstehen einzigartige Möglichkeiten, Animationen aus statischen Bildern zu erstellen, indem diese mit Audioansagen kombiniert werden“, sagten Meta-Forscher heute in einem entwicklerorientierten Blogbeitrag. „Zum Beispiel könnte ein Ersteller ein Bild mit einem Wecker und einem krähenden Hahn verbinden und eine krähende Audioaufforderung verwenden, um den Hahn zu segmentieren, oder den Ton eines Alarms, um die Uhr zu segmentieren und beide zu einer Videosequenz zu animieren.“

Serie von zwei Grafiken mit dem Titel
Das Diagramm von Meta zeigt die Genauigkeit von ImageBind im Vergleich zu Single-Mode-Modellen.

Meta

Was man mit diesem neuen Spielzeug sonst noch machen könnte, weist eindeutig auf eines der Kernambitionen von Meta hin: VR, Mixed Reality und das Metaversum. Stellen Sie sich zum Beispiel ein zukünftiges Headset vor, das im Handumdrehen vollständig realisierte 3D-Szenen (mit Ton, Bewegung usw.) erstellen kann. Oder Entwickler virtueller Spiele könnten es vielleicht irgendwann nutzen, um ihnen einen Großteil der Laufarbeit aus ihrem Designprozess zu nehmen. Ebenso könnten Inhaltsersteller immersive Videos mit realistischen Klanglandschaften und Bewegungen erstellen, die nur auf Text-, Bild- oder Audioeingaben basieren. Man kann sich auch leicht vorstellen, dass ein Tool wie ImageBind neue Türen im Bereich der Barrierefreiheit öffnet und Multimedia-Beschreibungen in Echtzeit generiert, um Menschen mit Seh- oder Hörbehinderungen dabei zu helfen, ihre unmittelbare Umgebung besser wahrzunehmen.

„In typischen KI-Systemen gibt es eine spezifische Einbettung (das heißt Zahlenvektoren, die Daten und ihre Beziehungen beim maschinellen Lernen darstellen können) für jede jeweilige Modalität“, sagte Meta. „ImageBind zeigt, dass es möglich ist, einen gemeinsamen Einbettungsraum über mehrere Modalitäten hinweg zu schaffen, ohne Daten mit jeder unterschiedlichen Kombination von Modalitäten trainieren zu müssen. Dies ist wichtig, da es für Forscher nicht möglich ist, Datensätze mit Proben zu erstellen, die beispielsweise Audiodaten und Wärmedaten einer belebten Stadtstraße oder Tiefendaten und eine Textbeschreibung einer Klippe am Meer enthalten.“

Meta geht davon aus, dass die Technologie letztendlich sozusagen über ihre derzeitigen sechs „Sinne“ hinaus expandiert. „Während wir in unserer aktuellen Forschung sechs Modalitäten untersucht haben, glauben wir, dass die Einführung neuer Modalitäten, die so viele Sinne wie möglich verbinden – wie Berührung, Sprache, Geruch und fMRT-Signale des Gehirns – umfassendere, auf den Menschen ausgerichtete KI-Modelle ermöglichen wird.“ Entwickler, die daran interessiert sind, diese neue Sandbox zu erkunden, können damit beginnen, sich damit zu befassen Metas Open-Source-Code.

source-115

Leave a Reply