Der Eos-Supercomputer von NVIDIA hat gerade seinen eigenen KI-Trainings-Benchmark-Rekord gebrochen


Abhängig von der verwendeten Hardware kann das Training eines großen Sprachmodells von nennenswerter Größe Wochen, Monate oder sogar Jahre dauern. So kann man keine Geschäfte machen – niemand hat den Strom und die Zeit, so lange zu warten. Am Mittwoch stellte NVIDIA die neueste Version seines Eos-Supercomputers vor, der von mehr als 10.000 H100-Tensor-Core-GPUs angetrieben wird und in der Lage ist, ein GPT-3-Modell mit 175 Milliarden Parametern auf 1 Milliarde Token in weniger als vier Minuten zu trainieren. Das ist dreimal schneller als der vorherige Benchmark auf dem MLPerf AI-Industriestandarddie NVIDIA erst vor sechs Monaten festgelegt hat.

Eos stellt eine enorme Menge an Rechenleistung dar. Es nutzt 10.752 aneinandergereihte GPUs NVIDIAs Infiniband-Netzwerk (Verschiebung eines Petabytes an Daten pro Sekunde) und 860 Terabyte Speicher mit hoher Bandbreite (36 PB/Sek. Gesamtbandbreite und 1,1 PB/Sek. miteinander verbunden) zur Bereitstellung 40 Exaflops der KI-Rechenleistung. Die gesamte Cloud-Architektur besteht aus 1344 Knoten – einzelnen Servern, auf die Unternehmen für rund 37.000 US-Dollar pro Monat Zugriff mieten können, um ihre KI-Funktionen zu erweitern, ohne eine eigene Infrastruktur aufzubauen.

Insgesamt stellte NVIDIA in neun Benchmark-Tests sechs Rekorde auf: die 3,9-Minuten-Marke für GPT-3 und eine 2,5-Minuten-Marke für das Training eines Stable Diffusion-Modells mit 1.024 Hopper-GPUs, Eine Minute dauerte sogar das Training von DLRM, 55,2 Sekunden für RetinaNet, 46 Sekunden für 3D U-Net und das BERT-Large-Modell benötigte nur 7,2 Sekunden zum Trainieren.

NVIDIA stellte schnell fest, dass die im Benchmarking verwendete 175-Milliarden-Parameter-Version von GPT-3 nicht die vollständige Iteration des Modells ist (und auch nicht das Stable Diffusion-Modell). Der größere GPT-3 bietet rund 3,7 Billionen Parameter und ist für den Einsatz als Benchmarking-Test einfach zu groß und unhandlich. Beispielsweise würde es 18 Monate dauern, es auf dem älteren A100-System mit 512 GPUs zu trainieren – Eos benötigt jedoch nur acht Tage.

Stattdessen nutzen NVIDIA und MLCommons, die den MLPerf-Standard verwalten, eine kompaktere Version, die 1 Milliarde Token verwendet (die kleinste Dateneinheit im Nenner, die generative KI-Systeme verstehen). Dieser Test verwendet eine GPT-3-Version mit der gleichen Anzahl potenzieller Schalter zum Umlegen (wie in voller Größe (diese 175 Milliarden Parameter), nur mit einem viel überschaubareren Datensatz, der darin verwendet werden kann (eine Milliarde Token gegenüber 3,7 Billionen).

Die beeindruckende Leistungssteigerung ist zugegebenermaßen auf die Tatsache zurückzuführen, dass in dieser jüngsten Testrunde 10.752 H100-GPUs im Vergleich zu 3.584 Hopper-GPUs eingesetzt wurden Das Unternehmen verwendete es in den Benchmarking-Versuchen im Juni. NVIDIA erklärt jedoch, dass es trotz der Verdreifachung der Anzahl der GPUs durch den großzügigen Einsatz von Softwareoptimierung gelungen sei, eine 2,8-fache Leistungsskalierung aufrechtzuerhalten – eine Effizienzrate von 93 Prozent.

„Skalierung ist eine wunderbare Sache“, sagte Salvator. „Aber bei der Skalierung geht es um mehr Infrastruktur, was auch höhere Kosten bedeuten kann. Eine effizient skalierte Steigerung bedeutet, dass Benutzer „ihre Infrastruktur optimal nutzen.“ damit Sie Ihre Arbeit im Grunde genauso schnell erledigen können [as possible] und holen Sie den größtmöglichen Nutzen aus der Investition, die Ihr Unternehmen getätigt hat.“

Der Chiphersteller war mit seinen Entwicklungsbemühungen nicht allein. Das Azure-Team von Microsoft reichte für diese Benchmarking-Runde ein ähnliches 10.752 H100-GPU-System ein und erzielte Ergebnisse, die nur zwei Prozent von denen von NVIDIA entfernt waren.

“[The Azure team have] „Wir konnten eine Leistung erzielen, die mit der des Eos-Supercomputers mithalten kann“, sagte Dave Salvator, Direktor für Accelerated Computing Products bei NVIDIA, gegenüber Reportern während einer Vorbesprechung am Dienstag. Darüber hinaus „verwenden sie Infiniband, aber dies ist eine kommerziell erhältliche Instanz.“ Dabei handelt es sich nicht um ein makelloses Laborsystem, dessen Vorteile niemals echte Kunden erkennen werden. Dies ist die eigentliche Instanz, die Azure seinen Kunden zur Verfügung stellt.“

NVIDIA plant, diese erweiterten Rechenfähigkeiten auf eine Vielzahl von Aufgaben anzuwenden, einschließlich der laufenden Arbeit des Unternehmens in den Bereichen grundlegende Modellentwicklung, KI-gestütztes GPU-Design, neuronales Rendering, multimodale generative KI und autonome Fahrsysteme.

„Jeder gute Benchmark, der seine Marktrelevanz aufrechterhalten will, muss die Arbeitslasten, die er auf die Hardware wirft, kontinuierlich aktualisieren, um den Markt, den er bedienen möchte, bestmöglich widerzuspiegeln“, sagte Salvator und wies darauf hin, dass MLCommons kürzlich einen zusätzlichen Benchmark zum Testen der Modellleistung hinzugefügt hat zu stabilen Diffusionsaufgaben. „Dies ist ein weiterer spannender Bereich der generativen KI, in dem alle möglichen Dinge entstehen“ – vom Programmiercode bis zur Entdeckung von Proteinketten.

Diese Benchmarks sind wichtig, da der aktuelle Stand des generativen KI-Marketings, wie Salvator betont, ein wenig an den „Wilden Westen“ erinnern kann. Der Mangel an strenger Aufsicht und Regulierung bedeutet: „Manchmal kommt es vor, dass man sich bei bestimmten Angaben zur KI-Leistung nicht ganz sicher ist, welche Parameter in die Generierung dieser bestimmten Angaben eingeflossen sind.“ MLPerf bietet die professionelle Gewissheit, dass die Benchmark-Zahlen, die Unternehmen mithilfe seiner Tests generieren, „von anderen Mitgliedern des Konsortiums überprüft, überprüft und in einigen Fällen sogar angefochten oder in Frage gestellt wurden“, sagte Salvator. „Es ist diese Art von Peer-Review-Prozess, der diesen Ergebnissen wirklich Glaubwürdigkeit verleiht.“

NVIDIA hat sich in den letzten Monaten kontinuierlich auf seine KI-Fähigkeiten und -Anwendungen konzentriert. „Wir sind im iPhone-Moment für KI“, sagte CEO Jensen Huang während seiner GTC-Keynote im März. Damals kündigte das Unternehmen sein DGX-Cloud-System an, das Teile der Rechenleistung des Supercomputers aufteilt – konkret durch entweder acht H100- oder A100-Chips mit 60 GB VRAM (insgesamt 640 Speicher). Das Unternehmen erweiterte sein Supercomputing-Portfolio mit der Veröffentlichung des DGX GH200 auf der Computex im Mai.

source-115

Leave a Reply