Kann sich Rabbit’s R1 Pocket AI durch ein auffälliges Design von einer Schar virtueller Assistenten abheben?


In einem Meer von KI-fähigen Gadgets auf der CES, dem Kaninchen r1 (alles in Kleinbuchstaben, wie sie betonen) zeichnet sich nicht nur durch seine gut sichtbare Lackierung und den einzigartigen Formfaktor aus, sondern auch durch seine Hingabe an das Gebiss. Das Unternehmen hofft, dass Sie ein zweites Gerät mit sich herumtragen können, um sich die Mühe zu ersparen, Ihr Telefon zu öffnen – und hat außerordentliche technische Anstrengungen unternommen, damit es funktioniert.

Die Idee hinter dem 200-Dollar-R1 ist einfach: Sie können Ihr Telefon in der Tasche behalten, wenn Sie eine einfache Aufgabe erledigen müssen, z. B. ein Auto zu Ihrem Standort bestellen, ein paar Restaurants suchen, in denen Sie sich mit Freunden treffen, oder welche finden Unterkunftsmöglichkeiten für ein Wochenende an der Küste.

„Wir versuchen nicht, Ihr Telefon zu zerstören“, sagte CEO und Gründer Jesse Lyu bei einem Pressegespräch im Vorfeld der Tech-Show in Las Vegas. „Das Telefon ist ein Unterhaltungsgerät, aber wenn man versucht, etwas zu erledigen, ist es nicht das Gerät mit der höchsten Effizienz. Um ein Abendessen mit einem Kollegen zu arrangieren, brauchten wir vier bis fünf verschiedene Apps, um zusammenzuarbeiten. Große Sprachmodelle sind eine universelle Lösung für natürliche Sprache. Wir wollen eine universelle Lösung für diese Dienste – sie sollten Sie einfach verstehen können.“

Anstatt Ihr Telefon herauszuziehen, es zu entsperren, die App zu finden, sie zu öffnen und sich durch die Benutzeroberfläche zu arbeiten (so mühsam!), ziehen Sie stattdessen das R1 heraus und geben ihm einen Befehl in natürlicher Sprache:

„Rufen Sie ein Uber XL an, um uns zum Museum of Modern Art zu bringen.“

„Geben Sie mir eine Liste mit fünf günstigen Restaurants im Umkreis von 10 Gehminuten.“

„Listen Sie die am besten bewerteten Hütten für sechs Erwachsene auf Airbnb im Umkreis von 10 Meilen von Seaside auf, nicht mehr als 300 $ pro Nacht.“

Der r1 tut, was Sie ihm sagen, und liefert wenige Sekunden später eine Bestätigung und alle von Ihnen angeforderten Inhalte.

Kommt Ihnen bekannt vor, nicht wahr? Schließlich ist es das, was unsere sogenannten „KI-Assistenten“ angeblich schon seit fünf, sechs Jahren machen. „Siri, mach das“, „Hey Google, mach das.“ Sie haben Recht! Aber es gibt einen einzigen gewaltigen Unterschied.

Siri, Google Assistant, Alexa und alle anderen könnte man besser als „Sprachschnittstellen für benutzerdefinierte Mini-Apps“ beschreiben, ganz anders als die Sprachmodelle, mit denen viele von uns im letzten Jahr begonnen haben, zu chatten. Wenn Sie Google anweisen, Ihnen einen Lyft zu Ihrem aktuellen Standort zu holen, verwendet Google die offizielle Lyft-API, um die relevanten Informationen zu senden und erhält eine Antwort zurück – im Grunde handelt es sich nur um zwei Maschinen, die miteinander kommunizieren.

Daran ist zwar nichts auszusetzen – aber die Möglichkeiten, die Sie per API machen können, sind oft sehr begrenzt. Und natürlich muss zwischen dem Assistenten und der App eine offizielle Beziehung bestehen, eine genehmigte und kostenpflichtige Verbindung. Wenn eine App, die Ihnen gefällt, nicht mit Siri funktioniert oder die API, auf die Alexa Zugriff hat, veraltet ist, haben Sie einfach kein Glück. Und was ist mit einer Nischen-App, die zu klein ist, um einen offiziellen Vertrag mit Google abzuschließen?

Was Rabbit entworfen hat, ähnelt eher den „Agenten“-KIs, die wir im letzten Jahr gesehen haben, maschinellen Lernmodellen, die auf gewöhnlichen Benutzeroberflächen wie Websites und Apps trainiert werden. Dadurch können sie eine Pizza nicht über eine spezielle Domino-API bestellen, sondern auf die gleiche Weise, wie ein Mensch es tun würde: durch Klicken auf gewöhnliche Schaltflächen und Felder in einer gewöhnlichen Web- oder Mobil-App.

Bildnachweis: Kaninchen

Das Unternehmen trainierte sein eigenes „großes Aktionsmodell“ oder LAM anhand unzähliger Screenshots und Videos gängiger Apps. Wenn man ihm also sagt, dass es ein älteres Album von Bob Dylan auf Spotify abspielen soll, geht es nicht auf halbem Weg verloren. Es kann zu Dylans Künstlerseite gehen, die Alben nach Veröffentlichungsdatum ordnen, nach unten scrollen und eines der ältesten in die Warteschlange stellen. Oder wie auch immer Sie es tun.

Sie können den Vorgang sehen im Kaninchenvideo hier.

Bildnachweis: Kaninchen

Es weiß bereits, wie man mit einer Reihe gängiger Apps und Dienste arbeitet, aber wenn Sie eine haben, weiß es es nicht. Rabbit behauptet, dass der R1 lernen kann, indem er einfach zuschaut, wie Sie die App eine Weile nutzen – obwohl dieser Lehrmodus die bessere Wahl ist. Wird zum Start nicht verfügbar sein. (Lyu sagte, sie hätten es in Diablo 4 zum Laufen gebracht, sodass es wahrscheinlich mit AllTrails umgehen kann.)

Aber natürlich kann der r1 diese Tasten in der App nicht wirklich alleine drücken – zum einen hat er keine Finger, mit denen er sie drücken kann, und zum anderen hat er kein Konto. Für das zweite Problem hat Rabbit das sogenannte „Rabbit Hole“ eingerichtet, eine Plattform, auf der Sie Dienste mit Ihren Anmeldedaten aktivieren, die nicht gespeichert werden. Sobald sie aktiv sind, bedient der Server die App mit gewöhnlichen Tastendrücken, so wie Sie es vielleicht tun würden, allerdings in einer Art emulierter Umgebung (sie waren diesbezüglich nicht besonders spezifisch).

„Stellen Sie sich das so vor, als würden Sie Ihr Telefon an Ihren Assistenten weitergeben“, sagte Lyu und ging dabei großzügig davon aus, dass wir alle mit dieser besonderen Annehmlichkeit vertraut sind. „Alles, was wir tun, ist, diese Ding-Knöpfe für Sie drücken zu lassen. Und alles, was sie in ihrem Backend sehen, ist, dass Sie versuchen, Dinge zu tun. Es ist völlig legal und entspricht ihren Nutzungsbedingungen.“

Kleiner, günstiger, schneller

Das Unternehmen hat offensichtlich viel Arbeit in die technische Seite gesteckt, aber die eigentliche Frage ist, ob irgendjemand dieses Ding zusätzlich zu einem Telefon mit sich herumtragen möchte. Der Preis beträgt 200 US-Dollar und es ist kein Abonnement erforderlich. Sie müssen jedoch eine SIM-Karte bereitstellen. Das ist günstiger als AirPods und verspricht jede Menge Spaß.

Bildnachweis: Kaninchen

Eine Sache, die es eindeutig zu bieten hat, ist das Aussehen. Zum Beispiel, wenn es beim Playdate einen Cousin des Startup-Gründers gäbe, der einen knallroten Tesla mit Kosmetikkennzeichen fährt (Sie kennen den Typ). Es wurde von Teenage Engineering entworfen, die heutzutage so ziemlich alles herstellen, was es wert ist, gesehen zu werden.

Sie fragen sich vielleicht: Warum gibt es auf etwas, mit dem Sie sprechen sollen, einen Bildschirm? Nun, der Bildschirm wird benötigt, um Ihnen visuelle Dinge wie die Suchergebnisse anzuzeigen oder Ihren Standort zu bestätigen. Ich bin da zwiegespalten. Man denkt: Wie soll man das sonst machen? Der andere denkt: Wenn Sie all diese Dinge überhaupt bestätigen müssen, warum nutzen Sie dann nicht einfach das Telefon in Ihrer anderen Tasche?

Offensichtlich ist das Team von Rabbit der Meinung, dass es einfacher ist, dieses kleine (3″x3″x0,5″) und leichte (115 Gramm) Gerät hochzuklappen, zu sagen, was Sie wollen, und dann das Scrollrad und die Taste zu verwenden, um durch die Ergebnisse zu navigieren als in vielen Fällen die App zu nutzen. Und ich kann mir vorstellen, dass das wahr sein könnte – viele Apps sind schlecht gestaltet und bergen jetzt auch die zusätzliche Gefahr von Werbung.

Aber warum die Kamera? Das ist eine Funktion, auf die ich keine eindeutige Antwort bekommen konnte. Es verfügt über eine interessante magnetische/freischwebende Achse, sodass es sich waagrecht dreht und in die gewünschte Richtung zeigt. Es scheint, dass einige Features auf uns zukommen, die noch nicht ganz einsatzbereit sind – fragen Sie sich: „Wie viele Kalorien sind in dieser Tüte Süßigkeiten?“ oder „Wer hat dieses Gebäude entworfen?“ und so etwas. Möglicherweise stehen Videoanrufe und soziale Medien an.

Das Gerät kann ab sofort vorbestellt werden und Lyu sagte, dass die Auslieferung in die USA Ende März geplant sei.

Gruseliger Wettbewerb

Die große Frage am Ende des Tages ist jedoch nicht, ob der Hase r1 das schafft, was er sich vorgenommen hat – soweit ich das beurteilen kann –, sondern ob dieser Ansatz angesichts extrem mächtiger Kräfte praktikabel ist Wettbewerb.

Google, Apple, Microsoft, OpenAI, Anthropic, Amazon, Meta – jeder von ihnen und viele mehr arbeiten jeden Tag hart daran, leistungsfähigere Agenten für maschinelles Lernen zu entwickeln. Die größte Gefahr für Rabbit besteht nicht darin, dass niemand es kauft, sondern darin, dass ein 100-Milliarden-Dollar-Unternehmen in sechs Monaten seinen eigenen Action-Agenten herstellt, der 80 % dessen tut, was der Rabbit tut, und ihn kostenlos auf Ihrem Computer zugänglich macht Smartphone.

Ich habe Lyu gefragt, ob das für ihn und sein Unternehmen, das mit 17 Mitarbeitern nicht ganz so groß ist, Anlass zur Sorge gebe.

„Natürlich machen wir uns Sorgen“, antwortete er, „wir sind ein Startup. Aber nur weil sie es können, heißt das nicht, dass wir aufhören müssen.“

Er wies darauf hin, dass diesen Unternehmen trotz ihrer enormen Ressourcen auch die Agilität eines Startups fehlt, das heute das ausliefert, was es später möglicherweise teilweise ausliefert, und auch die Daten. Er wies darauf hin, dass Sprachmodelle „auf einem offenen Rezept basieren – fünf Artikel, das ist alles“. Es gibt kaum Möglichkeiten, dort einen Wassergraben anzulegen. Aber das LAM von Rabbit basiert auf proprietären Daten und ist auf ein ganz bestimmtes Benutzererlebnis auf einem ganz bestimmten Gerät ausgerichtet.

Auch wenn das Kaninchen r1 besser oder niedlicher ist, bevorzugen die Leute Einfachheit und Bequemlichkeit. Warum sollten sie Geld für den Transport eines zweiten Geräts bezahlen, wenn ihr erstes Gerät die meisten dieser Aufgaben erledigt? Kurzfristig lautet die Antwort „Ja“: Laut Lyu häufen sich die Vorbestellungen. Wird Rabbit überleben, um die nächste Generation hervorzubringen, vermutlich den R2? Selbst wenn dies nicht der Fall ist, könnte dieses heiße kleine Gerät in unserer Erinnerung als entsprechend ehrgeiziges Beispiel des KI-Hype-Zeitgeists weiterleben.

Lesen Sie mehr über die CES 2024 auf TechCrunch

source-116

Leave a Reply