AMD hat angekündigt die offizielle Einführung seines Flaggschiff-KI-GPU-Beschleunigers MI300X, der eine bis zu 60 % bessere Leistung als NVIDIAs H100 bietet.
AMD hat endlich die GPU, die es mit NVIDIA im KI-Segment aufnehmen kann: MI300X bis zu 60 % schneller als H100
Die AMD Instinct MI300-Klasse von KI-Beschleunigern wird ein weiteres Chiplet-Kraftpaket sein und fortschrittliche Verpackungstechnologien von TSMC nutzen. Heute hat AMD nicht nur die Einführung dieser Chips angekündigt, sondern auch die ersten Leistungsbenchmarks des MI300X veröffentlicht, die großartig aussehen. AMD nutzte zunächst die allgemeinen Spezifikationen als Vergleich und ihre CDNA 3-Beschleunigerangebote (im Vergleich zu NVIDIA H100):
- 2,4-mal höhere Speicherkapazität
- 1,6-fach höhere Speicherbandbreite
- 1,3X FP8 TFLOPS
- 1,3X FP16 TFLOPS
- Bis zu 20 % schneller im Vergleich zu H100 (Llama 2 70B) im 1v1-Vergleich
- Bis zu 20 % schneller im Vergleich zu H100 (FlashAttention 2) im 1v1-Vergleich
- Bis zu 40 % schneller im Vergleich zu H100 (Llama 2 70B) im 8v8-Server
- Bis zu 60 % schneller im Vergleich zu H100 (Bloom 176B) im 8v8-Server
Im Vergleich zu allgemeinen LLM-Kernel-TFLOPs bietet der MI300X eine bis zu 20 % höhere Leistung in FlashAttention-2 und Llama 2 70B. Aus der Plattformperspektive, die eine 8x MI300X-Lösung mit einer 8x H100-Lösung vergleicht, sehen wir einen viel größeren Zuwachs von 40 % bei Llama 2 70B und einen Zuwachs von 60 % bei Bloom 176B.
AMD erwähnt, dass der MI300X bei der Trainingsleistung auf Augenhöhe mit der Konkurrenz (H100) liegt und ein konkurrenzfähiges Preis-Leistungs-Verhältnis bietet, während er bei der Inferenz-Workload glänzt.
Die treibende Kraft hinter den neuesten MI300-Beschleunigern ist ROCm 6.0. Der Software-Stack wurde mit leistungsstarken neuen Funktionen auf die neueste Version aktualisiert, darunter die Unterstützung verschiedener KI-Workloads wie generative KI und große Sprachmodelle.
Der neue Software-Stack unterstützt die neuesten Rechenformate wie FP16, Bf16 und FP8 (einschließlich Sparsity). Die Optimierungen bieten zusammen eine bis zu 2,6-fache Beschleunigung in vLLM durch optimierte Inferenzbibliotheken, eine 1,4-fache Beschleunigung in HIP Graph durch optimierte Laufzeit und eine 1,3-fache Beschleunigung von Flash Attention durch optimierte Kernel. ROCm 6 wird noch in diesem Monat zusammen mit den MI300-KI-Beschleunigern erwartet. Es wird interessant sein zu sehen, wie ROCm 6 im Vergleich zur neuesten Version des CUDA-Stacks von NVIDIA abschneidet, der seine eigentliche Konkurrenz darstellt.
AMD Instinct MI300X – Fordern Sie NVIDIAs KI-Überlegenheit mit CDNA 3 und riesigem Speicher heraus
Der AMD Instinct MI300X ist der Chip, der am meisten hervorgehoben wird, da er auf NVIDIAs Hopper- und Intels Gaudi-Beschleuniger im KI-Segment abzielt. Dieser Chip wurde ausschließlich auf der CDNA 3-Architektur entwickelt und es ist eine Menge los. Der Chip wird eine Mischung aus 5-nm- und 6-nm-IPs beherbergen, die zusammen bis zu 153 Milliarden Transistoren (MI300X) liefern.
Beginnend mit dem Design wird der Hauptinterposer mit einem Passivchip ausgelegt, der die Verbindungsschicht unter Verwendung einer Infinity Fabric-Lösung der 4. Generation beherbergt. Der Interposer umfasst insgesamt 28 Dies, darunter acht HBM3-Pakete, 16 Dummy-Dies zwischen den HBM-Paketen und vier aktive Dies, und jeder dieser aktiven Dies erhält zwei Rechen-Dies.
Jeder GCD, der auf der CDNA 3-GPU-Architektur basiert, verfügt über insgesamt 40 Recheneinheiten, was 2560 Kernen entspricht. Insgesamt gibt es acht Compute-Dies (GCDs), sodass wir insgesamt 320 Compute- und 20.480 Kerneinheiten haben. Aus Ertragsgründen wird AMD einen kleinen Teil dieser Kerne reduzieren und wir werden insgesamt 304 Recheneinheiten (38 CUs pro GPU-Chiplet) sehen, die für insgesamt 19.456 Stream-Prozessoren aktiviert sind.
Der Speicher ist ein weiterer Bereich, in dem Sie eine enorme Verbesserung erleben werden: Der MI300X verfügt über 50 % mehr HBM3-Kapazität als sein Vorgänger, der MI250X (128 GB). Um einen Speicherpool von 192 GB zu erreichen, stattet AMD den MI300X mit 8 HBM3-Stacks aus, wobei jeder Stack 12-Hi groß ist und gleichzeitig 16-Gbit-ICs enthält, was uns eine Kapazität von 2 GB pro IC oder 24 GB pro Stack bietet.
Der Speicher bietet eine Bandbreite von bis zu 5,3 TB/s und eine Infinity Fabric-Bandbreite von 896 GB/s. Zum Vergleich: NVIDIAs kommender KI-Beschleuniger H200 bietet 141 GB Kapazität, während Gaudi 3 von Intel 144 GB Kapazität bieten wird. Große Speicherpools sind in LLMs, die größtenteils speichergebunden sind, von großer Bedeutung, und AMD kann seine KI-Fähigkeiten unter Beweis stellen, indem es in der Speicherabteilung führend ist. Zum Vergleich:
- Instinkt MI300X – 192 GB HBM3
- Gaudí 3 – 144 GB HBM3
- H200 – 141 GB HBM3e
- MI300A – 128 GB HBM3
- MI250X – 128 GB HBM2e
- H100 – 96 GB HBM3
- Gaudí 2 – 96 GB HBM2e
In Bezug auf den Stromverbrauch wird der AMD Instinct MI300X mit 750 W bewertet, was einer Steigerung von 50 % gegenüber den 500 W des Instinct MI250X und 50 W mehr als dem NVIDIA H200 entspricht.
Eine Konfiguration präsentiert ist die G593-ZX1/ZX2-Serverserie von Gigabyte, die bis zu 8 MI300X-GPU-Beschleuniger und zwei AMD EPYC 9004-CPUs bietet. Diese Systeme werden mit bis zu acht 3000-W-Netzteilen ausgestattet, was einer Gesamtleistung von 18000 W entspricht. AMD stellte außerdem seine eigene Instinct MI300X-Plattform vor, die 8 dieser KI-Beschleunigerchips umfasst und einige solide Zahlen gegenüber der NVIDIA HGX H100-Plattform bietet. Zu den von AMD geteilten Zahlen gehören:
- 2,4-mal höherer HBM3-Speicher (1,5 TB gegenüber 640 GB)
- 1,3-mal mehr Rechen-FLOPS (10,4 PF gegenüber 7,9 PF)
- Ähnliche bidirektionale Bandbreite (896 GB/s vs. 900 GB/s)
- Ähnliche Single-Node-Ringbandbreite (448 GB/s vs. 450 GB/s)
- Ähnliche Netzwerkfunktionen (400 GbE vs. 400 GbE)
- Ähnliches PCIe-Protokoll (PCIe Gen 5 128 GB/s)
Im Moment sollte sich AMD darüber im Klaren sein, dass auch seine Konkurrenten den KI-Boom mit Volldampf vorantreiben, da NVIDIA bereits einige große Zahlen für seine Hopper H200-GPUs und Blackwell B100-GPUs für 2024 verkündet und Intel seine Guadi 3- und Falcon Shores-GPUs für die Markteinführung im Jahr 2024 vorbereitet auch die kommenden Jahre. Unternehmen wie Oracle, Dell, META und OpenAI haben die Unterstützung der Instinct MI300 AI-Chips von AMD in ihrem Ökosystem angekündigt.
Eines ist im Moment sicher: KI-Kunden werden fast alles verschlingen, was sie bekommen können, und jeder wird davon profitieren. Aber AMD hat eine sehr beeindruckende Lösung, die nicht nur darauf abzielt, eine Alternative zu NVIDIA zu sein, sondern auch führend im KI-Segment zu sein.
AMD Radeon Instinct-Beschleuniger
Beschleunigername | AMD Instinct MI400 | AMD Instinct MI300X | AMD Instinct MI300A | AMD Instinct MI250X | AMD Instinct MI250 | AMD Instinct MI210 | AMD Instinct MI100 | AMD Radeon Instinct MI60 | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI25 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI6 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
CPU-Architektur | Zen 5 (Exascale APU) | N / A | Zen 4 (Exascale APU) | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A |
GPU-Architektur | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Arcturus (CDNA 1) | Vega 20 | Vega 20 | Vega 10 | Fidschi XT | Polaris 10 |
GPU-Prozessknoten | 4nm | 5nm+6nm | 5nm+6nm | 6nm | 6nm | 6nm | 7-nm-FinFET | 7-nm-FinFET | 7-nm-FinFET | 14-nm-FinFET | 28nm | 14-nm-FinFET |
GPU-Chiplets | Noch offen | 8 (MCM) | 8 (MCM) | 2 (MCM) 1 (pro Würfel) |
2 (MCM) 1 (pro Würfel) |
2 (MCM) 1 (pro Würfel) |
1 (monolithisch) | 1 (monolithisch) | 1 (monolithisch) | 1 (monolithisch) | 1 (monolithisch) | 1 (monolithisch) |
GPU-Kerne | Noch offen | 19.456 | 14.592 | 14.080 | 13.312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
GPU-Taktgeschwindigkeit | Noch offen | 2100 MHz | 2100 MHz | 1700 MHz | 1700 MHz | 1700 MHz | 1500 MHz | 1800 MHz | 1725 MHz | 1500 MHz | 1000 MHz | 1237 MHz |
INT8 Berechnen | Noch offen | 2614 TOPS | 1961 TOPS | 383 TOPs | 362 TOPS | 181 TOPS | 92,3 TOPS | N / A | N / A | N / A | N / A | N / A |
FP16 Computing | Noch offen | 1,3 PFLOPs | 980,6 TFLOPs | 383 TFLOPs | 362 TFLOPs | 181 TFLOPs | 185 TFLOPs | 29,5 TFLOPs | 26,5 TFLOPs | 24,6 TFLOPs | 8,2 TFLOPs | 5,7 TFLOPs |
FP32-Berechnung | Noch offen | 163,4 TFLOPs | 122,6 TFLOPs | 95,7 TFLOPs | 90,5 TFLOPs | 45,3 TFLOPs | 23,1 TFLOPs | 14,7 TFLOPs | 13,3 TFLOPs | 12,3 TFLOPs | 8,2 TFLOPs | 5,7 TFLOPs |
FP64-Rechner | Noch offen | 81,7 TFLOPs | 61,3 TFLOPs | 47,9 TFLOPs | 45,3 TFLOPs | 22,6 TFLOPs | 11,5 TFLOPs | 7,4 TFLOPs | 6,6 TFLOPs | 768 GFLOPs | 512 GFLOPs | 384 GFLOPs |
VRAM | Noch offen | 192 GB HBM3 | 128 GB HBM3 | 128 GB HBM2e | 128 GB HBM2e | 64 GB HBM2e | 32 GB HBM2 | 32 GB HBM2 | 16 GB HBM2 | 16 GB HBM2 | 4 GB HBM1 | 16 GB GDDR5 |
Infinity-Cache | Noch offen | 256 MB | 256 MB | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A |
Erinnerungsuhr | Noch offen | 5,2 Gbit/s | 5,2 Gbit/s | 3,2 Gbit/s | 3,2 Gbit/s | 3,2 Gbit/s | 1200 MHz | 1000 MHz | 1000 MHz | 945 MHz | 500 MHz | 1750 MHz |
Speicherbus | Noch offen | 8192-Bit | 8192-Bit | 8192-Bit | 8192-Bit | 4096-Bit | 4096-Bit-Bus | 4096-Bit-Bus | 4096-Bit-Bus | 2048-Bit-Bus | 4096-Bit-Bus | 256-Bit-Bus |
Speicherbandbreite | Noch offen | 5,3 TB/s | 5,3 TB/s | 3,2 TB/s | 3,2 TB/s | 1,6 TB/s | 1,23 TB/s | 1 TB/s | 1 TB/s | 484 GB/s | 512 GB/s | 224 GB/s |
Formfaktor | Noch offen | OAM | APU SH5-Sockel | OAM | OAM | Dual-Slot-Karte | Dual-Slot, volle Länge | Dual-Slot, volle Länge | Dual-Slot, volle Länge | Dual-Slot, volle Länge | Doppelschlitz, halbe Länge | Einzelschlitz, volle Länge |
Kühlung | Noch offen | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung | Passive Kühlung |
TDP (max.) | Noch offen | 750W | 760W | 560W | 500W | 300W | 300W | 300W | 300W | 300W | 175W | 150W |