Rabbit baut ein KI-Modell, das versteht, wie Software funktioniert


Was wäre, wenn Sie mit jeder Software in natürlicher Sprache interagieren könnten? Stellen Sie sich vor, Sie geben eine Eingabeaufforderung ein und die KI übersetzt die Anweisungen in maschinenverständliche Befehle und führt Aufgaben auf einem PC oder Telefon aus, um das gerade beschriebene Ziel zu erreichen?

Das ist die Idee dahinter Kanincheneine Umbenennung von Cyber ​​Manufacture Co., das eine benutzerdefinierte, KI-gestützte UI-Ebene entwickelt, die zwischen einem Benutzer und jedem Betriebssystem platziert werden soll.

Rabbit wurde von Jesse Lyu, der einen Bachelor-Abschluss in Mathematik von der University of Liverpool besitzt, und Alexander Liao, zuvor Forscher an der Carnegie Mellon, gegründet und entwickelt eine Plattform, Rabbit OS, die auf einem KI-Modell basiert, das dies kann – so Lyu und Liao beanspruchen – Sehen und handeln Sie auf Desktop- und Mobilschnittstellen auf die gleiche Weise wie Menschen.

„Die Fortschritte in der generativen KI haben eine Vielzahl von Initiativen innerhalb der Technologiebranche ausgelöst, um die nächste Ebene der Mensch-Maschine-Interaktion zu definieren und zu etablieren“, sagte Lyu gegenüber TechCrunch in einem E-Mail-Interview. „Unserer Ansicht nach liegt der entscheidende Faktor für den Erfolg in der Bereitstellung eines außergewöhnlichen Endbenutzererlebnisses. Basierend auf unseren bisherigen Bemühungen und Erfahrungen haben wir erkannt, dass die Revolutionierung des Benutzererlebnisses eine maßgeschneiderte und dedizierte Plattform und ein maßgeschneidertes Gerät erfordert. Dieses Grundprinzip liegt dem aktuellen Produkt- und Technik-Stack zugrunde, den Rabbit gewählt hat.“

Rabbit – das über 20 Millionen US-Dollar an Finanzmitteln verfügt, die von Khosla Ventures, Synergis Capital und Kakao Investment beigesteuert werden, wobei eine mit der Angelegenheit vertraute Quelle sagt, dass das Startup einen Wert zwischen 100 und 150 Millionen US-Dollar hat – ist nicht der erste, der versucht, eine Schnittstelle in natürlicher Sprache zu schichten zusätzlich zu bestehender Software.

Das KI-Forschungslabor von Google, DeepMind, hat erforscht mehrere Ansätze um der KI beizubringen, Computer zu steuern, beispielsweise indem eine KI Tastatur- und Mausbefehle von Personen beobachtet, die „Anweisungen befolgen“-Aufgaben wie die Buchung eines Fluges ausführen. Forscher der Shanghai Jiao Tong University kürzlich Open Source ein webnavigierender KI-Agent, von dem sie behaupten, dass er herausfinden kann, wie man beispielsweise eine Suchmaschine verwendet und Artikel online bestellt. An anderer Stelle gibt es Apps wie das virale Auto-GPT, die die Textgenerierungsmodelle des KI-Startups OpenAI nutzen, um „autonom“ zu agieren und mit Apps, Software und Diensten sowohl online als auch lokal zu interagieren, wie Webbrowser und Textverarbeitungsprogramme.

Aber wenn Rabbit einen direkten Konkurrenten hat, dann ist es wahrscheinlich Adept, ein Startup, das ein Modell namens ACT-1 trainiert, das Befehle wie „einen monatlichen Compliance-Bericht erstellen“ oder „Stufen zwischen diesen beiden Punkten in dieser Blaupause zeichnen“ verstehen und ausführen kann. Verwendung vorhandener Software wie Airtable, Photoshop, Tableau und Twilio. Adept wurde von ehemaligen Ingenieuren und Forschern von DeepMind, OpenAI und Google mitbegründet und hat Hunderte Millionen Dollar von strategischen Investoren wie Microsoft, Nvidia, Atlassian und Workday mit einem Wert von rund 1 Milliarde US-Dollar eingesammelt.

Wie will Rabbit also in dem immer dichter werdenden Feld bestehen? Durch einen anderen technischen Ansatz, sagt Lyu.

Auch wenn es so klingen mag, als ob das, was Rabbit schafft, einer robotergestützten Prozessautomatisierung (RPA) oder Software-Robotern ähnelt, die eine Kombination aus Automatisierung, Computer Vision und maschinellem Lernen nutzen, um sich wiederholende Aufgaben wie das Ausfüllen von Formularen und das Beantworten von E-Mails zu automatisieren, besteht Lyu darauf, dass dies der Fall ist anspruchsvoller. Das zentrale Interaktionsmodell von Rabbit kann „komplexe Benutzerabsichten verstehen“ und „Benutzeroberflächen bedienen“, sagt er, um letztendlich (und vielleicht etwas übertrieben) „menschliche Absichten auf Computern zu verstehen“.

„Das Modell kann bereits mit hochfrequenten, wichtigen Verbraucheranwendungen – darunter Uber, DoorDash, Expedia, Spotify, Yelp, OpenTable und Amazon – über Android und das Web interagieren“, sagte Lyu. „Wir wollen diese Unterstützung nächstes Jahr auf alle Plattformen (z. B. Windows, Linux, MacOS usw.) und Nischen-Consumer-Apps ausweiten.“

Das Modell von Rabbit kann beispielsweise einen Flug buchen oder eine Reservierung vornehmen. Und es kann Bilder in Photoshop mit den entsprechenden integrierten Werkzeugen bearbeiten.

Oder besser gesagt, es wird eines Tages möglich sein. Ich habe es versucht Demo auf der Website von Rabbit und die Funktionalität des Modells ist derzeit etwas eingeschränkt – und es scheint durch diese Tatsache verwirrt zu werden. Ich habe das Modell aufgefordert, ein Foto zu bearbeiten, und es hat mich angewiesen, anzugeben, welches Foto es ist – was unmöglich ist, da in der Demo-Benutzeroberfläche keine Upload-Schaltfläche oder sogar ein Feld zum Einfügen einer Bild-URL fehlt.

Das Rabbit-Modell kann jedoch tatsächlich Fragen beantworten, die eine Recherche im World Wide Web erfordern, à la ChatGPT mit Webzugriff. Ich fragte am 5. Oktober nach den günstigsten verfügbaren Flügen von New York nach San Francisco und erhielt nach etwa 20 Sekunden eine Antwort, die sachlich korrekt oder zumindest plausibel erschien. Und das Modell listete zumindest einige TechCrunch-Podcasts (z. B. „Chain Reaction“) korrekt auf, als es dazu aufgefordert wurde, und übertraf damit eine frühe Version von Bing Chat in dieser Hinsicht.

Das Modell von Rabbit war weniger geneigt, auf problematischere Aufforderungen zu reagieren, etwa auf Anweisungen zum Bau einer schmutzigen Bombe oder auf eine, die die Gültigkeit des Holocaust in Frage stellte. Offensichtlich hat das Team aus einigen Fehlern der großen Sprachmodelle der Vergangenheit gelernt (siehe: Die Tendenz des frühen Bing Chat dazu). Gehe von den Gleisen runter) – zumindest nach meinen sehr kurzen Tests zu urteilen.

Kaninchen

Das Demomodell auf der Website von Rabbit, dessen Funktionalität etwas eingeschränkt ist. Bildnachweis: Kaninchen

„Durch Hebelwirkung [our model]„Die Rabbit-Plattform ermöglicht es jedem Benutzer, unabhängig von seinen beruflichen Fähigkeiten, dem System beizubringen, wie man bestimmte Ziele in Anwendungen erreicht“, erklärt Lyu. „[The model] lernt und imitiert kontinuierlich aus aggregierten Demonstrationen und verfügbaren Daten im Internet und erstellt so einen „konzeptionellen Entwurf“ für die zugrunde liegenden Dienste jeder Anwendung.“

Das Modell von Rabbit sei bis zu einem gewissen Grad robust gegenüber „Störungen“, fügte Lyu hinzu, wie z. B. Schnittstellen, die nicht einheitlich dargestellt werden oder sich im Laufe der Zeit ändern. Es muss lediglich über eine Bildschirmaufzeichnungs-App eine Person „beobachtet“ werden, die mindestens einmal eine Softwareschnittstelle nutzt.

Nun ist es einfach nicht klar Wie Robust ist das Rabbit-Modell. Tatsächlich weiß das Rabbit-Team es selbst nicht – zumindest nicht genau. Und das ist nicht sonderlich überraschend, wenn man bedenkt, dass bei der Navigation auf einem Desktop, einem Smartphone oder einer Web-Benutzeroberfläche unzählige Grenzfälle auftreten können. Aus diesem Grund entwickelt das Unternehmen zusätzlich zum Aufbau des Modells ein Framework zum Testen, Beobachten und Verfeinern des Modells sowie eine Infrastruktur zur Validierung und Ausführung zukünftiger Versionen des Modells in der Cloud.

Rabbit plant außerdem die Veröffentlichung dedizierter Hardware zum Hosten seiner Plattform. Ich bezweifle die Sinnhaftigkeit dieser Strategie, wenn man bedenkt, wie schwierig die Skalierung der Hardware-Herstellung tendenziell ist, die Verbraucherfeindlichkeit der Herstellerabhängigkeit und die Tatsache, dass das Gerät möglicherweise irgendwann mit den Plänen von OpenAI konkurrieren muss. Aber Lyu – der mir seltsamerweise nicht genau sagen wollte, um welche Hardware es sich handelt wird tun oder warum es notwendig ist – gibt zu, dass die Roadmap derzeit etwas in Bewegung ist.

„Wir entwickeln einen neuen, sehr erschwinglichen und dedizierten Formfaktor für ein mobiles Gerät, um unsere Plattform für Interaktionen in natürlicher Sprache zu betreiben“, sagte Lyu. „Es wird das erste Gerät sein, das auf unsere Plattform zugreift … Wir glauben, dass ein einzigartiger Formfaktor es uns ermöglicht, neue Interaktionsmuster zu entwerfen, die intuitiver und angenehmer sind, und uns die Freiheit gibt, unsere Software und Modelle auszuführen, die die bestehenden Plattformen nicht bieten.“ erlauben oder nicht zulassen.“

Hardware ist nicht die einzige Skalierungsherausforderung für Rabbit, sollte sich das Unternehmen dazu entschließen, seine vorgeschlagene Hardware-Strategie fortzusetzen. Ein Modell wie das, das Rabbit baut, benötigt vermutlich viele Beispiele erfolgreich erledigter Aufgaben in Apps. Und das Sammeln dieser Art von Daten kann ein mühsamer – und kostspieliger – Prozess sein.

In einer der DeepMind-Studien schrieben die Forscher beispielsweise, dass sie zum Sammeln von Trainingsdaten für ihr System 77 Personen bezahlen mussten, um über 2,4 Millionen Demonstrationen von Computeraufgaben durchzuführen. Wenn man das extrapoliert, wird das schiere Ausmaß des Problems deutlich deutlicher.

Jetzt können 20 Millionen Dollar viel bewirken – vor allem, da Rabbit ein kleines Team (neun Leute) ist, das derzeit in Lyus Haus arbeitet. (Er schätzt die Burn-Rate auf etwa 250.000 US-Dollar pro Jahr.) Ich frage mich jedoch, ob Rabbit mit den etablierteren Playern in diesem Bereich mithalten kann – und wie es gegen neue Herausforderer wie Microsofts Copilot für Windows und OpenAI antreten wird Bemühungen zur Förderung eines Plug-in-Ökosystems für ChatGPT.

Rabbit ist jedoch äußerst ehrgeizig – und ist zuversichtlich, durch die Lizenzierung seiner Plattform, die Weiterentwicklung seines Modells und den Verkauf kundenspezifischer Geräte geschäftstragendes Geld verdienen zu können. Wir werden sehen.

„Wir haben noch kein Produkt veröffentlicht, aber unsere frühen Demos haben Zehntausende Benutzer angezogen“, sagte Lyu. „Die letztendlich ausgereifte Form von Modellen, die das Rabbit-Team entwickeln wird, wird mit Daten arbeiten, die es noch sammeln muss, und wird anhand von Benchmarks bewertet, die es noch entwerfen muss.“ Aus diesem Grund erstellt das Rabbit-Team nicht nur das Modell, sondern den gesamten Stapel notwendiger Geräte im Betriebssystem, um es zu unterstützen … Das Rabbit-Team ist davon überzeugt, dass der beste Weg, den Wert der Spitzenforschung zu erkennen, darin besteht, sich auf das zu konzentrieren Endbenutzern und der schnellen Bereitstellung gehärteter und geschützter Systeme in der Produktion.“

source-116

Leave a Reply