Google hat diese Woche Gemini angekündigt. Gemini wird mit ChatGPT konkurrieren und ist eine multimodale KI, das heißt, sie kann mit Text, Bildern, Audio, Video und Code interagieren. Der Hype um Gemini war danach groß Google I/Oaber wir fangen jetzt an, einen Blick hinter die Kulissen des KI-Modells zu werfen, und es ist nicht schön.
Obwohl Gemini vielversprechend ist, müssen wir alle die Erwartungen an das neue Tool dämpfen, da das von Google geteilte praktische Video gefälscht ist. Das mag wie ein starkes Wort erscheinen, aber Parmy Olson von Bloomberg hat gezeigt, dass das Video von Google nicht darstellt, wie Gemini in der realen Welt funktionieren wird.
Bevor ich darauf eingehe, wie Google das Video erstellt hat, möchte ich klarstellen, dass es sich bei dem Clip nicht vollständig um eine Erfindung handelt. Google nutzte Gemini, um Objekte zu identifizieren und herauszufinden, was in Bildern vor sich ging. Was Google jedoch nicht getan hat, war, ein echtes praktisches Video zu erstellen, das die tatsächliche Erfahrung zeigt, die Sie bei der Verwendung von Gemin machen werden.
Wenn Sie ein praktisches Video zu einem Produkt sehen, erwarten Sie Inhalte, die die reale Nutzung widerspiegeln. Wenn beispielsweise ein YouTube-Rezensent ein neues VR-Headset praktisch ausprobiert, möchten Sie, dass dieses Video das tatsächliche Gameplay zeigt, wie das Sichtfeld aussieht und wie gut die Steuerung funktioniert. Ebenso sollte ein Hands-on mit einem Telefon zeigen, wie das Telefon tatsächlich funktioniert, und nicht, wie es beschleunigt und zusammengesteckt wird.
Man könnte argumentieren, dass die meisten, wenn nicht alle Produktdemos zusammengeschnitten sind und keine Mängel der hervorgehobenen Produkte aufweisen. Aber wie heißt es so schön: Zwei Fehler machen noch kein Recht.
Wie Google seine Gemini praktisch gefälscht hat
In dem Video führt ein Benutzer verschiedene Aufgaben aus, z. B. den Versuch, einen Ball in einem Becher zu verstecken, eine Ente zu zeichnen und ein Spiel mit einer Karte zu spielen. Während des gesamten Clips erzählt Gemini in Echtzeit, was vor sich geht, und findet alles im Handumdrehen heraus. Was Sie im Video jedoch nicht sehen, ist, dass Google bei der Erstellung der Gemini-Demo Textaufforderungen verwendet und Kontext bereitgestellt hat.
Google gab Gemini Aufforderungen basierend auf Standbildern aus den erfassten Inhalten. Anschließend forderte das Unternehmen das KI-Modell mit Text an. Im Nachwort wurde dann eine Erzählung hinzugefügt.
Tatsächlich sind die im Video gezeigten Aufforderungen nicht einmal die, die Gemin erhalten hat. Das Video erweckt den Eindruck, als ob Gemini drei auf einem Tisch platzierte Tassen sieht und sofort erkennt, dass der Benutzer versucht, ein Spiel zu spielen. Tatsächlich hat Google Gemini beigebracht, wie man das Spiel spielt. Anschließend testete es Gemini auf seine Fähigkeit, sehr spezifische Anweisungen zu befolgen. Selbst unter diesen Umständen ist der Zwilling nicht perfekt für diese Aufgabe geeignet.
„Natürlich wird es dieser Herausforderung nicht immer gelingen. Manchmal scheint die vorgetäuschte Aktion (bei der man zwei leere Tassen austauscht) ein Problem zu sein, aber manchmal schafft es das auch. Aber einfache Aufforderungen wie diese machen es wirklich lustig „Gemini schnell testen“, erklärte Google.
Es ist ziemlich passend, dass Googles praktisches Video für Gemini einen Trick verwendet, der für Taschenspielertricks bekannt ist.
Google verteidigt sein gefälschtes Gemini-Video
Ich freue mich sehr über das Interesse an unserem Video „Hands-on with Gemini“. In unserem Entwicklerblog gestern haben wir aufgeschlüsselt, wie Gemini bei der Erstellung verwendet wurde. https://t.co/50gjMkaVc0Wir gaben Gemini Sequenzen verschiedener Modalitäten – in diesem Fall Bild und Text – und ließen es antworten … pic.twitter.com/Beba5M5dHP7. Dezember 2023
Oriol Vinyals, Vizepräsident für Forschung und Deep Learning bei Google, verteidigte das Video auf X.
„Alle Benutzeraufforderungen und -ausgaben im Video sind echt und der Kürze halber gekürzt. Das Video veranschaulicht, was der multimodale Benutzer erlebt, der mit Gemini erstellt wurde.“ könnte aussehen. Wir haben es geschaffen, um Entwickler zu inspirieren“, sagte Vinyals (Hervorhebung hinzugefügt).
Ich bin überrascht, dass ich das sagen muss. Wie etwas „aussehen könnte“, ist kein praktisches Video.
Google hat auf a verlinkt Blog-Post beschreibt in seinem Video, wie das Unternehmen die Inhalte erstellt hat. Dieser Blog-Beitrag verbirgt nicht die Tatsache, dass Google mehrere Aufforderungen und Hinweise verwendet hat, um Gemini zu einer solchen Reaktion zu bewegen. Aber ein Blog-Post-Link unter dem Abschnitt „…mehr“ einer Videobeschreibung ist nicht dasselbe wie eine Erklärung, was im Video vor sich geht. Es korrigiert sicherlich nicht die falsche Verwendung des Ausdrucks „hands-on“.
Wir brauchen einfach etwas mehr Transparenz
Ich verstehe, warum Google getan hat, was es getan hat. Amazon versuchte Anfang des Jahres, den Echo Show 8 mit einer echten Live-Demo zu präsentieren, aber es lief nicht gut. Das Aufrufen des Geräts mit „Hey Alexa“ führte zu langsamen Antworten. Auch die Leistung war nicht besonders gut, was das Gerät in ein schlechtes Licht rückt.
Aber ich würde sagen, dass die Leute das wissen sollten, wenn eine echte Live-Demo eines Produkts dafür sorgt, dass das Produkt schlecht aussieht. Wenn ein Spieltrailer fantastisch aussieht und das Spiel schrecklich ist, würden sich die Leute darüber aufregen, in die Irre geführt zu werden. Ich sehe keinen Unterschied zwischen dem praktischen Video von Google.