Apples KI-Modell MM1 zeigt, dass ein schlafender Riese aufwacht


Während die Tech-Branche ganz auf generative künstliche Intelligenz setzt, hält sich ein Gigant zurück: Apple. Das Unternehmen hat noch nicht einmal ein KI-generiertes Emoji eingeführt, und laut a New York Times heute berichten Und frühere Berichterstattung Laut Bloomberg befindet man sich in Vorgesprächen mit Google über die Hinzufügung des Gemini-KI-Modells des Suchunternehmens zu iPhones.

Noch ein Forschungsbericht Die von Apple-Ingenieuren am vergangenen Freitag in aller Stille online gestellte Aussage deutet darauf hin, dass das Unternehmen erhebliche neue Investitionen in KI tätigt, die bereits Früchte tragen. Es beschreibt detailliert die Entwicklung eines neuen generativen KI-Modells namens MM1, das mit Text und Bildern arbeiten kann. Die Forscher zeigen es, indem sie Fragen zu Fotos beantworten und die Art von Allgemeinwissensfähigkeiten zeigen, die Chatbots wie ChatGPT an den Tag legen. Der Name des Modells wird nicht erklärt, könnte aber für MultiModal 1 stehen.

MM1 scheint in Design und Komplexität einer Vielzahl aktueller KI-Modelle anderer Technologiegiganten zu ähneln, darunter Metas Open-Source-Modell Llama 2 und Googles Gemini. Arbeiten von Apples Konkurrenten und Wissenschaftlern zeigen, dass Modelle dieser Art verwendet werden können, um leistungsfähige Chatbots zu betreiben oder „Agenten“ zu bauen, die Aufgaben lösen können, indem sie Code schreiben und Aktionen wie die Nutzung von Computerschnittstellen oder Websites ausführen. Das deutet darauf hin, dass MM1 dennoch seinen Weg in die Produkte von Apple finden könnte.

„Die Tatsache, dass sie dies tun, zeigt, dass sie verstehen können, wie man trainiert und wie man diese Modelle baut“, sagt er Ruslan Salakhutdinov, ein Professor an der Carnegie Mellon, der vor einigen Jahren die KI-Forschung bei Apple leitete. „Es erfordert ein gewisses Maß an Fachwissen.“

MM1 ist ein multimodales Large-Language-Modell (MLLM), das heißt, es wird sowohl auf Bildern als auch auf Text trainiert. Dadurch kann das Modell auf Textaufforderungen reagieren und auch komplexe Fragen zu bestimmten Bildern beantworten.

Ein Beispiel im Apple-Forschungspapier zeigt, was passierte, als MM1 ein Foto eines sonnendurchfluteten Restauranttisches mit ein paar Bierflaschen und auch ein Bild der Speisekarte zur Verfügung gestellt wurde. Auf die Frage, wie viel jemand voraussichtlich für „das ganze Bier auf dem Tisch“ zahlen würde, liest das Modell den korrekten Preis korrekt ab und rechnet die Kosten zusammen.

Als ChatGPT im November 2022 auf den Markt kam, konnte es nur Text aufnehmen und generieren, aber in jüngerer Zeit haben sein Erfinder OpenAI und andere daran gearbeitet, die zugrunde liegende Technologie für große Sprachmodelle zu erweitern, um mit anderen Arten von Daten zu arbeiten. Als Google im vergangenen Dezember Gemini auf den Markt brachte (das Modell, das jetzt seine Antwort auf ChatGPT antreibt), pries das Unternehmen seinen multimodalen Charakter als Beginn einer wichtigen neuen Richtung in der KI an. „Nach dem Aufstieg der LLMs entwickeln sich MLLMs zur nächsten Grenze in den Basismodellen“, heißt es in dem Papier von Apple.

MM1 ist gemessen an der Anzahl der „Parameter“ oder der internen Variablen, die beim Training eines Modells angepasst werden, ein relativ kleines Modell. Kate Saenkoein Professor an der Boston University, der sich auf Computer Vision und maschinelles Lernen spezialisiert hat, sagt, dass dies es den Ingenieuren von Apple erleichtern könnte, mit verschiedenen Trainingsmethoden und Verfeinerungen zu experimentieren, bevor sie auf etwas Vielversprechendes stoßen.

Laut Saenko liefert das MM1-Papier überraschend viele Details darüber, wie das Modell für eine Unternehmenspublikation trainiert wurde. Die Ingenieure hinter MM1 beschreiben beispielsweise Tricks zur Verbesserung der Leistung des Modells, einschließlich der Erhöhung der Auflösung von Bildern und der Mischung von Text- und Bilddaten. Apple ist für seine Geheimhaltung bekannt, zeigte jedoch in der Vergangenheit eine ungewöhnliche Offenheit gegenüber der KI-Forschung, da es versucht hat, die Talente anzulocken, die für den Wettbewerb in der entscheidenden Technologie erforderlich sind.

source-114

Leave a Reply