Das neue Megabyte-System von Meta löst eines der größten Hindernisse für GPTs

Meta AI kürzlich veröffentlicht Pre-Print-Recherche zeigt ein radikal neues „Megabyte“-Framework für den Aufbau generativer Pre-Trained-Transformer-Systeme (GPT).

Andrej Karpathy von OpenAI, ehemaliger Direktor für künstliche Intelligenz bei Tesla, bezeichnete die neue Architektur als „vielversprechend“. Sie ist darauf ausgelegt, große Datenmengen – wie Bilder, Romane und Videodateien – ohne den Einsatz eines als Tokenisierung bekannten Prozesses zu verarbeiten.

Die Tokenisierung ist ein verlustbehafteter Prozess, der mit der Dateikomprimierung vergleichbar ist. Zur Verarbeitung großer Datenmengen werden GPT-Modelle verwendet Konvertieren Bytes zu Token. Die Token werden dann vom Transformator verarbeitet und zur Generierung von Ausgabetokens verwendet, die dann dekodiert werden.

Der Tokenisierungsprozess ermöglicht es einem KI-System, größere Datenfolgen als Zahlen zu verarbeiten. Die Worte „Meine Lieblingsfarbe ist Rot“ würden beispielsweise bei der Verarbeitung durch ChatGPT von OpenAI zur Verarbeitung in die Token-Zeichenfolge „3666, 4004, 3124, 318, 2266, 13“ umgewandelt.

OpenAI-Demonstration des Tokenisierungsprozesses. Quelle: OpenAI

Leider ist die Datenmenge, die aktuelle Systeme auf dem neuesten Stand der Technik verarbeiten können, auch durch die Tokenisierung immer noch stark begrenzt. Für GPT-3.5 liegt die Grenze bei etwas mehr als 4.000 Token oder etwa 3.000 Wörtern, während GPT-4 bei maximal etwa 32.000 Token oder etwa 24.000 Wörtern liegt.

Das neue Megabyte-System von Meta macht die Tokenisierung zugunsten einer neuartigen mehrschichtigen Vorhersagearchitektur überflüssig, die in der Lage ist, über 1 Million Bytes an Daten durchgängig zu modellieren.

Die meisten standardmäßigen englischsprachigen Kodierungssysteme verwenden die standardmäßige 8-Bit-Kodierung. In diesem Paradigma nimmt jedes Zeichen ein Datenbyte ein. Daher könnte ein KI-System, das in der Lage ist, 1 Million Byte Daten ohne Tokenisierung zu verarbeiten, mit Textdokumenten mit 750.000 Wörtern arbeiten – eine Steigerung von 3.025 % gegenüber GPT-4.

Zum Vergleich: GPT-4 kann derzeit etwa 10 Nachrichtenartikel in Spielfilmlänge in einer einzigen Eingabeaufforderung verarbeiten, während Megabyte in der Lage wäre, den gesamten Artikel von Leo Tolstoi zu analysieren Krieg und Frieden plus zwei weitere Romane mittlerer Länge.

Das Megabyte-Modell von Meta schnitt auch bei ImageNet-Tests und Benchmarks im Zusammenhang mit der Verarbeitung von Audiodateien gut ab und erreichte oder übertraf bestehende bytebasierte Transformer-Modelle wie DeepMinds Perciever AR in beiden Bereichen:

„Megabyte entspricht der hochmodernen Leistung von PerceiverAR und verbraucht dabei nur die Hälfte der Rechenleistung.“

Die Auswirkungen dieser Forschung könnten weitreichend sein. Die Tokenisierung gilt aufgrund ihrer harten Datengrenzen und des Energie- und Zeitaufwands, der zum Trainieren von Systemen erforderlich ist, als Hindernis in diesem Bereich.

Ohne Tokenisierung sollte es möglich sein, KI-Modelle mit einer stärkeren grundlegenden Unterstützung für nicht-englische Sprachen zu trainieren, insbesondere für solche, die nicht einfach in Standard-8-Bit-Zeichen codiert werden können.

Dies könnte zu einer weiteren Demokratisierung dieser Technologien führen und es ermöglichen, dass alles, von Bots für den Kryptowährungshandel bis hin zu dezentralen autonomen Organisationstechnologien, in muttersprachlichen Codes auf der ganzen Welt aufgebaut werden kann.

Verwandt: Sam Altmans Worldcoin sichert 115 Millionen US-Dollar für dezentralen Ausweis

Es würde auch die Fähigkeit von Modellen wie ChatGPT erhöhen, mit Bild-, Video- und Audiodateien zu arbeiten, indem Multimedia-Clips mit etwa der gleichen Zeit und demselben Energieverbrauch wie Text erstellt werden.