Voller Potenzial, aber es wird eine Weile dauern


Auf der I/O 2024 wird Googles Teaser für gab uns einen Einblick in die Zukunft von KI-Assistenten. Es handelt sich um eine multimodale Funktion, die die Intelligenz von Gemini mit den Bilderkennungsfähigkeiten von Google Lens sowie leistungsstarken Antworten in natürlicher Sprache kombiniert. Obwohl das Promo-Video zwar schick war, ist nach dem persönlichen Ausprobieren klar, dass es noch ein langer Weg ist, bis so etwas wie Astra auf Ihrem Handy landet. Hier sind drei Erkenntnisse aus unserer ersten Erfahrung mit der KI der nächsten Generation von Google.

Sams Meinung:

Derzeit interagieren die meisten Menschen mit digitalen Assistenten über ihre Stimme, daher ist die Multimodalität von Astra (dh die Verwendung von Bild und Ton zusätzlich zu Text/Sprache) zur Kommunikation mit einer KI relativ neu. Theoretisch ermöglicht es computergestützten Einheiten, eher wie ein echter Assistent oder Agent zu arbeiten und sich zu verhalten – was eines der großen Schlagworte von Google für die Show war – und nicht wie etwas, das eher roboterhaft ist und einfach auf gesprochene Befehle reagiert.

Die erste Astra-Demo, die wir ausprobiert haben, verwendete einen großen Touchscreen, der mit einer nach unten gerichteten Kamera verbunden war. Die erste Astra-Demo, die wir ausprobiert haben, verwendete einen großen Touchscreen, der mit einer nach unten gerichteten Kamera verbunden war.

Foto von Sam Rutherford/Engadget

In unserer Demo hatten wir die Möglichkeit, Astra zu bitten, eine Geschichte zu erzählen, die auf einigen Objekten basiert, die wir vor der Kamera platziert hatten. Anschließend erzählte es uns eine schöne Geschichte über einen Dinosaurier und sein treues Baguette, die versuchten, einer bedrohlichen roten Ampel zu entkommen. Es hat Spaß gemacht, die Geschichte war süß und die KI funktionierte so gut, wie man es erwarten würde. Aber gleichzeitig war es weit entfernt von dem scheinbar allwissenden Assistenten, den wir im Google-Teaser sahen. Und abgesehen davon, dass Astra vielleicht ein Kind mit einer originellen Gute-Nacht-Geschichte unterhielt, schien es, als würde Astra mit den Informationen nicht so viel anfangen, wie man sich das wünschen würde.

Dann zeichnete meine Kollegin Karissa eine idyllische Szene auf einem Touchscreen, woraufhin Astra die von ihr gemalte Blume und Sonne richtig identifizierte. Aber die fesselndste Demo war, als wir einen zweiten Versuch mit Astra auf einem Pixel 8 Pro machten. Dies ermöglichte es uns, seine Kameras auf eine Ansammlung von Objekten zu richten, während es den Standort jedes einzelnen Objekts verfolgte und sich daran erinnerte. Es war sogar intelligent genug, meine Kleidung und den Ort, an dem ich meine Sonnenbrille verstaut hatte, zu erkennen, obwohl diese Objekte ursprünglich nicht Teil der Demo waren.

In gewisser Weise hat unsere Erfahrung die potenziellen Höhen und Tiefen der KI deutlich gemacht. Allein die Fähigkeit eines digitalen Assistenten, Ihnen zu sagen, wo Sie möglicherweise Ihre Schlüssel gelassen haben oder wie viele Äpfel sich in Ihrer Obstschale befanden, bevor Sie zum Lebensmittelgeschäft gingen, könnte Ihnen dabei helfen, in Echtzeit etwas zu sparen. Aber nach Gesprächen mit einigen der Forscher hinter Astra gibt es noch viele Hürden zu überwinden.

Eine KI-generierte Geschichte über einen Dinosaurier und ein Baguette, erstellt von Googles Project AstraEine KI-generierte Geschichte über einen Dinosaurier und ein Baguette, erstellt von Googles Project Astra

Foto von Sam Rutherford/Engadget

Im Gegensatz zu vielen neuen KI-Funktionen von Google benötigt Astra (das von Google als „Forschungsvorschau“ bezeichnet wird) immer noch Hilfe aus der Cloud, anstatt auf dem Gerät ausgeführt werden zu können. Und obwohl es ein gewisses Maß an Objektpermanenz unterstützt, halten diese „Erinnerungen“ nur für eine einzige Sitzung an, die derzeit nur wenige Minuten dauert. Und selbst wenn Astra sich Dinge länger merken könnte, müssen Dinge wie Speicher und Latenz berücksichtigt werden, denn für jedes Objekt, das Astra zurückruft, besteht die Gefahr, dass die KI verlangsamt wird, was zu einem gestelzteren Erlebnis führt. Obwohl klar ist, dass Astra viel Potenzial hat, wurde meine Vorfreude durch das Wissen getrübt, dass es einige Zeit dauern wird, bis wir mehr Funktionen mit vollem Funktionsumfang erhalten können.

Karissas Meinung:

Von allen generativen KI-Fortschritten hat mich die multimodale KI am meisten fasziniert. So leistungsfähig die neuesten Modelle auch sind, es fällt mir schwer, mich für iterative Updates textbasierter Chatbots zu begeistern. Aber die Idee einer KI, die Ihre Umgebung in Echtzeit erkennen und darauf reagieren kann, erinnert an einen Science-Fiction-Film. Es vermittelt auch ein viel klareres Gefühl dafür, wie die neueste Welle von KI-Fortschritten ihren Weg in neue Geräte wie Datenbrillen finden wird.

Google hat mit Project Astra einen Hinweis darauf gegeben, das vielleicht eines Tages eine Brillenkomponente haben wird, aber vorerst größtenteils experimentell ist (das Video während der I/O-Keynote war offenbar ein „Forschungsprototyp“), allerdings persönlich, Project Astra fühlte sich nicht gerade wie etwas aus einem Science-Fiction-Film an.

Während einer Demo bei Google I/O konnte sich Project Astra die Position von Objekten merken, die von der Kamera eines Telefons gesehen wurden. Während einer Demo bei Google I/O konnte sich Project Astra die Position von Objekten merken, die von der Kamera eines Telefons gesehen wurden.

Foto von Sam Rutherford/Engadget

Es war in der Lage, Objekte, die im Raum verteilt waren, genau zu erkennen und auf differenzierte Fragen zu ihnen zu antworten, wie zum Beispiel „Mit welchem ​​dieser Spielzeuge sollte ein Zweijähriger spielen?“ Es konnte erkennen, was in meinem Gekritzel war, und sich Geschichten über verschiedene Spielzeuge ausdenken, die wir ihm zeigten.

Die meisten Funktionen von Astra schienen jedoch mit denen von Meta mit seinen Datenbrillen vergleichbar zu sein. Die multimodale KI von Meta kann auch Ihre Umgebung erkennen und in Ihrem Namen ein wenig kreativ schreiben. Und obwohl Meta die Funktionen auch als experimentell anpreist, sind sie zumindest allgemein verfügbar.

Die Astra-Funktion, die den Ansatz von Google möglicherweise von anderen unterscheidet, ist die Tatsache, dass es über einen integrierten „Speicher“ verfügt. Nach dem Scannen einer Reihe von Objekten konnte es sich immer noch „merken“, wo bestimmte Objekte platziert wurden. Derzeit scheint Astras Gedächtnis auf ein relativ kurzes Zeitfenster beschränkt zu sein, aber Mitglieder des Forschungsteams sagten uns, dass es theoretisch erweitert werden könnte. Das würde der Technik natürlich noch mehr Möglichkeiten eröffnen und Astra eher wie einen echten Assistenten erscheinen lassen. Ich muss nicht wissen, wo ich meine Brille vor 30 Sekunden gelassen habe, aber wenn Sie sich erinnern könnten, wo ich sie letzte Nacht gelassen habe, würde sich das tatsächlich anfühlen, als würde Science-Fiction zum Leben erweckt.

Aber wie so vieles in der generativen KI sind die aufregendsten Möglichkeiten diejenigen, die noch nicht ganz umgesetzt wurden. Astra könnte es vielleicht irgendwann schaffen, aber im Moment fühlt es sich so an, als ob Google noch viel Arbeit vor sich hat, um dorthin zu gelangen.

Informieren Sie sich über alle Neuigkeiten von Google I/O 2024 Hier!

source-115

Leave a Reply