So verwenden Sie Jarvis, Microsofts einen KI-Bot, um sie alle zu beherrschen


Bei all dem Gerede über Chatbots wie ChatGPT vergisst man leicht, dass textbasierter Chat nur eine von vielen KI-Funktionen ist. Die ideale generative KI wäre in der Lage, je nach Bedarf über verschiedene Modelle hinweg zu arbeiten und Bilder, Audio und Video zu interpretieren und zu generieren.

Geben Sie Jarvis ein, ein neues Projekt von Microsoft, das verspricht, dass ein Bot sie alle beherrscht. Jarvis verwendet ChatGPT als Controller für ein System, in dem es je nach Bedarf eine Vielzahl anderer Modelle verwenden kann, um auf Ihre Eingabeaufforderung zu reagieren. In einem Papier (öffnet in neuem Tab) Herausgegeben von der Cornell University, erklären Microsoft-Forscher (Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu und Yueting Zhuang), wie dieses Framework funktioniert. Ein Benutzer stellt eine Anfrage an den Bot, er plant die Aufgabe, wählt die benötigten Modelle aus, lässt diese Modelle die Aufgabe ausführen und generiert und gibt dann eine Antwort aus.

Das folgende Diagramm, das in der Forschungsarbeit bereitgestellt wird, zeigt, wie dieser Prozess in der realen Welt funktioniert. Ein Benutzer bittet den Bot, ein Bild zu erstellen, auf dem ein Mädchen ein Buch liest und sie genauso positioniert ist wie ein Junge in einem Beispielbild. Der Bot plant die Aufgabe, verwendet ein Modell, um die Pose des Jungen im Originalbild zu interpretieren, und setzt dann ein anderes Modell ein, um die Ausgabe zu zeichnen.

Microsoft Jarvis-Prozess

(Bildnachweis: Microsoft Research)

Microsoft hat eine Github-Seite (öffnet in neuem Tab) wo Sie Jarvis herunterladen und auf einem Linux-PC ausprobieren können. Das Unternehmen empfiehlt die Verwendung von Ubuntu (speziell die veraltete Version 16 LTS), aber ich konnte die Hauptfunktion davon – einen terminalbasierten Chatbot – zum Laufen auf Ubuntu 22.04 LTS und auf dem Windows-Subsystem für Linux bringen.

source-109

Leave a Reply