Demis Hassabis von Google DeepMind sagt, Gemini sei eine neue Art von KI


Demis Hassabis hat sich nie davor gescheut, große Fortschritte in der künstlichen Intelligenz zu verkünden. Berühmt wurde er vor allem im Jahr 2016, nachdem sich ein Bot namens AlphaGo selbst beigebracht hatte, das komplexe und subtile Brettspiel Go mit übermenschlichem Geschick und Einfallsreichtum zu spielen.

Heute sagt Hassabis, sein Team bei Google habe einen größeren Schritt nach vorne gemacht – für ihn, das Unternehmen und hoffentlich für den weiteren Bereich der KI. Gemini, das heute von Google angekündigte KI-Modell, eröffnet seiner Meinung nach einen neuen Weg in der KI, der zu großen neuen Durchbrüchen führen könnte.

„Als Neurowissenschaftler und Informatiker wollte ich schon seit Jahren versuchen, eine Art neue Generation von KI-Modellen zu schaffen, die von der Art und Weise inspiriert sind, wie wir mit allen Sinnen interagieren und die Welt verstehen“, sagte Hassabis WIRED vor der heutigen Ankündigung. Gemini sei „ein großer Schritt in Richtung eines solchen Modells“, sagt er. Google bezeichnet Gemini als „multimodal“, da es Informationen in Form von Text, Audio, Bildern und Video verarbeiten kann.

Eine erste Version von Gemini wird ab heute über Googles Chatbot Bard verfügbar sein. Das Unternehmen sagt, dass die leistungsstärkste Version des Modells, Gemini Ultra, nächstes Jahr veröffentlicht wird und GPT-4, das Modell hinter ChatGPT, in mehreren gängigen Benchmarks übertrifft. Von Google veröffentlichte Videos zeigen Gemini beim Lösen von Aufgaben, die komplexe Überlegungen erfordern, sowie Beispiele für das Modell, das Informationen aus Text, Bildern, Audio und Video kombiniert.

„Bisher haben sich die meisten Modelle der Multimodalität angenähert, indem sie separate Module trainierten und diese dann zusammenfügten“, sagt Hassabis in einer scheinbar verschleierten Anspielung auf die Technologie von OpenAI. „Für einige Aufgaben ist das in Ordnung, aber im multimodalen Raum kann man diese Art von tiefgründigem, komplexem Denken nicht haben.“

OpenAI hat im September ein Upgrade auf ChatGPT eingeführt, das dem Chatbot die Möglichkeit gab, neben Text auch Bilder und Audio als Eingabe zu verwenden. OpenAI hat keine technischen Details darüber bekannt gegeben, wie GPT-4 dies tut oder welche technischen Grundlagen seine multimodalen Fähigkeiten haben.

Catchup spielen

Google hat Gemini im Vergleich zu früheren KI-Projekten des Unternehmens mit erstaunlicher Geschwindigkeit entwickelt und auf den Markt gebracht, angetrieben durch die jüngste Besorgnis über die Bedrohung, die Entwicklungen von OpenAI und anderen für die Zukunft von Google darstellen könnten.

Ende 2022 galt Google als KI-Führer unter den großen Technologieunternehmen, wobei zahlreiche KI-Forscher wichtige Beiträge auf diesem Gebiet leisteten. CEO Sundar Pichai hatte seine Strategie für das Unternehmen als „KI an erster Stelle“ erklärt und Google hatte erfolgreich KI in viele seiner Produkte integriert, von der Suche bis hin zu Smartphones.

Kurz nachdem ChatGPT von OpenAI, einem eigenwilligen Startup mit weniger als 800 Mitarbeitern, ins Leben gerufen wurde, galt Google nicht mehr als Erster im Bereich KI. Die Fähigkeit von ChatGPT, alle möglichen Fragen mit einer Cleverness zu beantworten, die übermenschlich erscheinen könnte, ließ die Aussicht auf einen Abzug der beliebten Suchmaschine von Google aufkommen – insbesondere, als Microsoft, ein Investor in OpenAI, die zugrunde liegende Technologie in seine eigene Bing-Suchmaschine einbaute.

Überrascht startete Google beeilt sich, Bard, einen Konkurrenten von ChatGPT, auf den Markt zu bringen, überarbeitete seine Suchmaschine und brachte eilig ein neues Modell auf den Markt. Palme 2, um mit demjenigen hinter ChatGPT zu konkurrieren. Hassabis wurde von der Leitung des in London ansässigen KI-Labors befördert, das mit der Übernahme seines Startups DeepMind durch Google gegründet wurde, zum Leiter einer neuen KI-Abteilung, die dieses Team mit Googles primärer KI-Forschungsgruppe, Google Brain, vereint. Im Mai, auf der Google-Entwicklerkonferenz I/O, gab Pichai bekannt dass es einen neuen, leistungsfähigeren Nachfolger von PaLM namens Gemini ausbildete. Er sagte es damals noch nicht, aber der Name des Projekts soll die Partnerschaft der beiden großen KI-Labore von Google markieren und eine Anspielung auf das NASA-Projekt Gemini sein, das den Weg zu den Apollo-Mondlandungen ebnete.

source-114

Leave a Reply