Ob es Ihnen gefällt oder nicht, wir befinden uns jetzt voll und ganz in der Welt der generativen KI. Riesig komplexe neuronale Netze, die auf riesigen Datenmengen trainiert werden, damit wir damit Bilder von Eseln auf Weltraumraketen machen oder uns sagen können, welche Churro-Beschichtung die beste ist. Ich scherze natürlich, weil große Sprachmodelle (LLMs) sehr nützlich sein können, aber es gibt einen Bereich, in dem sie noch nicht eingesetzt werden, und das ist die Robotik. Nicht mehr, denn Google, die University of California und zahlreiche andere Labore auf der ganzen Welt haben das RT-X-Projekt gestartet, mit dem Ziel, mithilfe von KI ein Allzweck-„Gehirn“ für Roboter zu entwickeln.
Bisher scheint dies niemand wirklich versucht zu haben, aber das liegt nur daran, dass die zum Training neuronaler Netze verwendeten Daten fast ausschließlich auf menschlichen Bemühungen wie Kunst, Musik, Schreiben usw. basieren. So schockierend das auch erscheinen mag, das Internet ist nicht voller Daten über Roboter und wie gut sie bestimmte Aufgaben ausführen.
Aus diesem Grund haben Google und die University of California beschlossen, das einzurichten RT-X-Projekt (über Fudzilla) und engagierte 32 weitere Robotiklabore auf der ganzen Welt, um ihnen bei der Generierung der Daten zu helfen, die zum Trainieren eines neuronalen Netzwerks erforderlich sind. Das bedeutet, Daten aus Millionen und Abermillionen von Roboterinteraktionen zu sammeln, beispielsweise beim Pick-and-Place oder Schweißen in Fertigungslinien.
Ziel ist es, über einen ausreichend großen Datensatz zu verfügen, um ein LLM zu erstellen, mit dem der Code erstellt werden kann, der zum Programmieren eines Roboters für jede beliebige Aufgabe erforderlich ist. Im Wesentlichen handelt es sich um ein Allzweck-Robotergehirn.
Meine eigenen Erfahrungen mit der Programmierung von Roboterarmen aus der Zeit, als ich Ingenieurwissenschaften unterrichtete, waren primitiv, aber ich kann den Reiz und das Potenzial dieser Arbeit leicht erkennen. Anstatt alles manuell selbst zu programmieren, besteht die Idee darin, dass Sie in die Benutzeroberfläche etwas in der Art eingeben: „Legen Sie die Orangen in das graue Feld und lassen Sie die Äpfel in Ruhe.“ Das LLM würde dann die Produktion des dafür erforderlichen Codes übernehmen.
Durch die Verwendung spezifischer Eingaben, beispielsweise eines Video-Feeds von der Kamera des Roboters, würde der Code automatisch angepasst, um nicht nur die Umgebung, in der sich der Roboter befindet, zu berücksichtigen, sondern auch die Marke und das Modell des Roboters, die tatsächlich verwendet werden. Die ersten Tests des RT-X-Modells, wie in berichtet IEEE-Spektrumwaren erfolgreicher als die besten Bemühungen des Labors.
Die nächsten Schritte waren noch beeindruckender. Das menschliche Gehirn ist außergewöhnlich gut im Denken: Sagen Sie jemandem, er solle einen Apfel aufheben und ihn zwischen eine Getränkedose und eine Orange auf dem Tisch legen, und Sie würden erwarten, dass er dies ohne Probleme tut. Bei Robotern ist das nicht der Fall, und normalerweise müsste all dies direkt darin codiert werden.
Google stellte jedoch fest, dass das LLM es „herausfinden“ konnte, obwohl diese spezielle Aufgabe nie Teil des Trainingsdatensatzes für neuronale Netze war.
Auch wenn das RT-X-Projekt noch in den Kinderschuhen steckt, sind die Vorteile der generativen KI klar erkennbar und der Plan besteht nun darin, den Schulungsumfang durch möglichst viele Robotereinrichtungen zu erweitern, um ein vollständig verkörperungsübergreifendes LLM zu erstellen.
Wir sind von Natur aus Cross-Verkörperung (das heißt, unserem Gehirn kann beigebracht werden, viele komplexe Aufgaben zu erledigen, etwa Sport zu treiben, Fahrrad zu fahren oder Auto zu fahren), aber im Moment sind Roboter noch nicht einmal annähernd so verkörpert.
Eines Tages werden wir jedoch in der Lage sein, zu einem Drive-In zu gehen, unser Essen zu bestellen und genau das zu bekommen, was wir bestellt und richtig in unsere Hände gegeben haben! Wenn das kein Fortschritt ist, weiß ich nicht, was es ist. Ich kann es kaum erwarten, unsere KI-Oberherren mit Megahirnen zu begrüßen … ähm … hilfreiche Roboter.