2024 - Dies geschah, als die Roboter von Boston Dynamics mit ChatGPT zu sprechen begannen

Was du wissen musst

Eine Gruppe von Ingenieuren hat kürzlich einen Roboter entwickelt, indem sie generative KI-Fähigkeiten nutzte, um als Reiseleiter durch das Gelände von Boston Dynamics zu fungieren.
Boston Dynamics trainierte seine KI-Systeme anhand eines riesigen Datensatzes. Das Entwicklungsteam gibt zu, dass die Erfindung zwar beeindruckend ist, aber auf mehrere Probleme gestoßen ist, darunter auch Halluzinationen.
Der Roboter basiert auf dem GPT-4-Modell von OpenAI, das Entwicklungsteam nutzte jedoch schnelle technische Techniken, um die Kontrolle über seine Reaktionen zu erlangen.

Im wahrsten Sinne des Wortes verändert die generative KI auf die eine oder andere Weise die Art und Weise, wie wir unsere täglichen Aktivitäten erledigen. Von der Unterstützung von Schülern bei der Lösung komplexer mathematischer Probleme über das Schreiben von Gedichten bis hin zur Erstellung von Bildern basierend auf Ihrer Fantasie und Ihren Eingabeaufforderungen. Basierend auf diesen Beispielen sieht die Zukunft rosig aus, da die Technologie den Benutzern dabei helfen wird, mehr Wege und ungenutzte Möglichkeiten zu erkunden.

Apropos ungenutzte Möglichkeiten: Boston Dynamics dokumentierte kürzlich neue Höhen, die das Unternehmen durch die Nutzung generativer KI-Funktionen erreicht hat. Das Unternehmen hat einen Roboter entwickelt, der als Reiseleiter dienen soll unter Verwendung seines Spot-Roboters, integriert mit ChatGPT und anderen KI-Modellen.

Das amerikanische Ingenieurs- und Designunternehmen ist auf die Entwicklung von Robotern spezialisiert, darunter auch auf den berühmten hundeähnlichen „Spot“. Die Roboter sollen den Benutzern die Arbeit bei der Übernahme sich wiederholender, gefährlicher und komplexer Aufgaben erleichtern und so letztendlich die Produktivität steigern und gleichzeitig die Sicherheit des Benutzers gewährleisten.

Insbesondere interessierte uns eine Demo von Spot, bei der Foundation-Modelle als Autonomie-Tools verwendet werden – das heißt, Entscheidungen in Echtzeit auf der Grundlage der Ausgabe von FMs zu treffen. Large Language Models (LLMs) wie ChatGPT sind im Grunde sehr große, sehr leistungsfähige Autovervollständigungsalgorithmen; Sie nehmen einen Textstrom auf und sagen den nächsten Textteil voraus. Wir wurden von der offensichtlichen Fähigkeit von LLMs inspiriert, Rollenspiele zu spielen, Kultur und Nuancen zu reproduzieren, Pläne zu formulieren und Kohärenz über die Zeit aufrechtzuerhalten, sowie von kürzlich veröffentlichten VQA-Modellen (Visual Question Answering), mit denen Bilder beschriftet und einfache Fragen dazu beantwortet werden können.
Matt Klingensmith, Softwareentwickler

Das Aufkommen großer KI-Systeme, die auf einem riesigen Datensatz trainiert wurden, weckte das Interesse von Matt Klingensmith (Principal Software Engineer), hauptsächlich aufgrund des Emergent Behavior, das Teil dieser Modelle ist. Unter Emergent Behavior versteht man die Fähigkeit von KI-gestützten Chatbots, Aufgaben außerhalb der Daten auszuführen, die ihnen zugrunde liegen und auf denen sie trainiert wurden.

Matt betrachtete dies als große Chance, was dazu führte, dass das Projekt Anfang des Jahres im Sommer begann, mit dem Ziel, seine Auswirkungen auf die Robotikentwicklung zu untersuchen.

Wie funktioniert der Roboter-Tourguide?

Der Software-Ingenieur verriet, dass die Entwicklung eines Roboter-Reiseführers der einfachste und schnellste Weg sei, diese Theorie zu testen. Im Wesentlichen verfügt der Roboter über die Fähigkeit, auf dem Firmengelände herumzulaufen und Objekte zu betrachten.

Darüber hinaus nutzt es eine VQA, ein Beschriftungsmodell zur Beschreibung der Objekte in seiner Ansicht, und führt die Beschreibung mithilfe eines großen Sprachmodells (LLM) weiter aus. Durch das LLM kann der Roboter auch Fragen seines Publikums beantworten und sogar die nächsten Aktionen planen, die er durchführen soll.

Während LLMs wie Bing Chat eine ganze Reihe von Rückschlägen, einschließlich Halluzinationen, erlebt haben, war dies für das Entwicklungsteam des Roboters kein großes Problem. Stattdessen konzentrierte sich das Team mehr auf die Unterhaltungs- und interaktiven Aspekte. Außerdem wurde die Fähigkeit des Roboters, herumzulaufen, bereits herausgefunden Das Autonomie-SDK von Spot. Boston Dynamics nutzt das Spot SDK, um die Entwicklung autonomer Navigationsverhaltensweisen für den Spot-Roboter zu unterstützen.

Zu Kommunikationszwecken druckte das Team in 3D eine vibrationsfeste Halterung für einen Respeaker V2-Lautsprecher, gebündelt mit einem Ring-Array-Mikrofon mit LEDs, auf dem Roboter-Tourguide. Auf diese Weise kann der Roboter seinem Publikum zuhören und auf seine Fragen antworten.

Aufbauend auf dieser Prämisse integrierte das Team die ChatGPT-API von OpenAI, beginnend mit dem GPT-3.5-Modell, wechselte aber schließlich zu GPT-4, sobald es allgemein verfügbar war, um die Kommunikationsfähigkeiten des Roboters weiter zu verbessern. Um sicherzustellen, dass der Roboter nicht außer Kontrolle gerät oder unangenehme Reaktionen ausgibt, setzte das Team zeitnahe technische Techniken ein.

Laut dem Entwicklungsteam des Roboters:

„Inspiriert von einem Methode von Microsoft, haben wir ChatGPT veranlasst, indem wir es so aussehen ließen, als würde es die nächste Zeile in einem Python-Skript schreiben. Wir haben dem LLM eine englische Dokumentation in Form von Kommentaren zur Verfügung gestellt. Anschließend haben wir die Ausgabe des LLM ausgewertet, als wäre es Python-Code.“

Das Team enthüllte außerdem, dass das in den Roboter integrierte LLM auch Zugriff auf das Spot-Autonomie-SDK hatte, eine detaillierte Karte des Tourgeländes gebündelt mit einzeiligen Beschreibungen jedes Standorts sowie die Möglichkeit, zu antworten und Fragen zu stellen.

Konvertierung von Text in Sprache

Chat-Roboter

Matt Klingensmith interagiert mit dem Chat-Roboter während einer Tour durch Boston Dynamics. (Bildnachweis: Boston Dynamics)

Während der Roboter bei der Kommunikation stark auf ChatGPT angewiesen ist, ist es offensichtlich, dass der Chatbot textbasiert ist. Aus diesem Grund wurde der Cloud-Dienst entwickelt ElfLabsum als Text-to-Speech-Tool zu dienen.

Das Team integrierte außerdem die Greiferkamera und die Frontkörperkamera des Roboters in BLIP-2. Auf diese Weise ist es einfacher, das Gesehene zu interpretieren und einen Kontext bereitzustellen. Nach Angaben des Teams ließ BLIP-2 die Bilder und Visuals mindestens einmal pro Sekunde „entweder im visuellen Frage-Antwort-Modus (mit einfachen Fragen wie „Was ist an diesem Bild interessant?“) oder im Bildunterschriftsmodus“ laufen.

Lebensnahe Gespräche

Das Team wollte dem Publikum außerdem ein lebensechtes Erlebnis bieten, indem es während der Tour mit dem Roboter interagierte. Daher hat das Team eine Standard-Körpersprache integriert, um dieses Erlebnis zum Leben zu erwecken. Danke an die Spot 3.3-VersionDer Roboter ist in der Lage, seinen Arm auf die nächstgelegene Person zu richten und dabei ein bestimmtes Konzept zu erklären.

Der Entwicklungsprozess erwies sich als ein ziemliches Spektakel, da das Team auf einige Überraschungen stieß. Auf die Frage, wer Marc Raibert sei, antwortete der Roboter beispielsweise, dass er es nicht wisse, und empfahl, sich für weitere Hilfe an den IT-Helpdesk zu wenden. Seltsamerweise hat das Entwicklungsteam das LLM nicht dazu aufgefordert, weitere Unterstützung in Anspruch zu nehmen. Laut Matt muss der Roboter den Standort des IT-Helpdesks mit der Aktion, um Hilfe zu bitten, verknüpft haben.

Matt gibt zu, dass der Roboter-Reiseleiter zwar beeindruckend ist, man ihn jedoch dabei beobachtet hat, wie er stark halluzinierte und Dinge erfand. Nicht zu vergessen sind die negativen Auswirkungen auf die Leistung des Roboters, wenn dieser keine stabile Internetverbindung aufbauen kann.

In Zukunft möchte das Team diesen Weg noch weiter erkunden, insbesondere nachdem es entdeckt hat, dass es möglich ist, die Ergebnisse mehrerer allgemeiner KI-Systeme miteinander zu integrieren.

source-108

Razer Iskur V2 Testbericht: Der beste Gaming-Stuhl

Dieser Anker 3-in-1 MagSafe-Ladeständer war noch nie günstiger

Gaza-Krieg: Israels Benjamin Netanjahu spricht am 24. Juli vor dem US-Kongress

EU-Wahlen: Welche Risiken drohen den europäischen Banken?

Dies geschah, als die Roboter von Boston Dynamics mit ChatGPT zu sprechen begannen

Was du wissen musst

Leave a Reply Cancel reply