2024 - AMD bringt Instinct MI300X AI GPU Accelerator auf den Markt, bis zu 60 % schneller als NVIDIA H100

AMD hat angekündigt die offizielle Einführung seines Flaggschiff-KI-GPU-Beschleunigers MI300X, der eine bis zu 60 % bessere Leistung als NVIDIAs H100 bietet.

AMD hat endlich die GPU, die es mit NVIDIA im KI-Segment aufnehmen kann: MI300X bis zu 60 % schneller als H100

Die AMD Instinct MI300-Klasse von KI-Beschleunigern wird ein weiteres Chiplet-Kraftpaket sein und fortschrittliche Verpackungstechnologien von TSMC nutzen. Heute hat AMD nicht nur die Einführung dieser Chips angekündigt, sondern auch die ersten Leistungsbenchmarks des MI300X veröffentlicht, die großartig aussehen. AMD nutzte zunächst die allgemeinen Spezifikationen als Vergleich und ihre CDNA 3-Beschleunigerangebote (im Vergleich zu NVIDIA H100):

2,4-mal höhere Speicherkapazität
1,6-fach höhere Speicherbandbreite
1,3X FP8 TFLOPS
1,3X FP16 TFLOPS
Bis zu 20 % schneller im Vergleich zu H100 (Llama 2 70B) im 1v1-Vergleich
Bis zu 20 % schneller im Vergleich zu H100 (FlashAttention 2) im 1v1-Vergleich
Bis zu 40 % schneller im Vergleich zu H100 (Llama 2 70B) im 8v8-Server
Bis zu 60 % schneller im Vergleich zu H100 (Bloom 176B) im 8v8-Server

Im Vergleich zu allgemeinen LLM-Kernel-TFLOPs bietet der MI300X eine bis zu 20 % höhere Leistung in FlashAttention-2 und Llama 2 70B. Aus der Plattformperspektive, die eine 8x MI300X-Lösung mit einer 8x H100-Lösung vergleicht, sehen wir einen viel größeren Zuwachs von 40 % bei Llama 2 70B und einen Zuwachs von 60 % bei Bloom 176B.

AMD erwähnt, dass der MI300X bei der Trainingsleistung auf Augenhöhe mit der Konkurrenz (H100) liegt und ein konkurrenzfähiges Preis-Leistungs-Verhältnis bietet, während er bei der Inferenz-Workload glänzt.

Die treibende Kraft hinter den neuesten MI300-Beschleunigern ist ROCm 6.0. Der Software-Stack wurde mit leistungsstarken neuen Funktionen auf die neueste Version aktualisiert, darunter die Unterstützung verschiedener KI-Workloads wie generative KI und große Sprachmodelle.

Der neue Software-Stack unterstützt die neuesten Rechenformate wie FP16, Bf16 und FP8 (einschließlich Sparsity). Die Optimierungen bieten zusammen eine bis zu 2,6-fache Beschleunigung in vLLM durch optimierte Inferenzbibliotheken, eine 1,4-fache Beschleunigung in HIP Graph durch optimierte Laufzeit und eine 1,3-fache Beschleunigung von Flash Attention durch optimierte Kernel. ROCm 6 wird noch in diesem Monat zusammen mit den MI300-KI-Beschleunigern erwartet. Es wird interessant sein zu sehen, wie ROCm 6 im Vergleich zur neuesten Version des CUDA-Stacks von NVIDIA abschneidet, der seine eigentliche Konkurrenz darstellt.

AMD Instinct MI300X – Fordern Sie NVIDIAs KI-Überlegenheit mit CDNA 3 und riesigem Speicher heraus

Der AMD Instinct MI300X ist der Chip, der am meisten hervorgehoben wird, da er auf NVIDIAs Hopper- und Intels Gaudi-Beschleuniger im KI-Segment abzielt. Dieser Chip wurde ausschließlich auf der CDNA 3-Architektur entwickelt und es ist eine Menge los. Der Chip wird eine Mischung aus 5-nm- und 6-nm-IPs beherbergen, die zusammen bis zu 153 Milliarden Transistoren (MI300X) liefern.

AMD Instinct MI300X und MI300A KI-Beschleuniger im Detail: CDNA 3 und Zen 4 kommen in einem fortschrittlichen Marvel 2-Paket zusammen — AMD Instinct MI300X Beschleuniger.

Beginnend mit dem Design wird der Hauptinterposer mit einem Passivchip ausgelegt, der die Verbindungsschicht unter Verwendung einer Infinity Fabric-Lösung der 4. Generation beherbergt. Der Interposer umfasst insgesamt 28 Dies, darunter acht HBM3-Pakete, 16 Dummy-Dies zwischen den HBM-Paketen und vier aktive Dies, und jeder dieser aktiven Dies erhält zwei Rechen-Dies.

Jeder GCD, der auf der CDNA 3-GPU-Architektur basiert, verfügt über insgesamt 40 Recheneinheiten, was 2560 Kernen entspricht. Insgesamt gibt es acht Compute-Dies (GCDs), sodass wir insgesamt 320 Compute- und 20.480 Kerneinheiten haben. Aus Ertragsgründen wird AMD einen kleinen Teil dieser Kerne reduzieren und wir werden insgesamt 304 Recheneinheiten (38 CUs pro GPU-Chiplet) sehen, die für insgesamt 19.456 Stream-Prozessoren aktiviert sind.

AMD Instinct MI300X Accelerator mit CDNA 3 stirbt.

Der Speicher ist ein weiterer Bereich, in dem Sie eine enorme Verbesserung erleben werden: Der MI300X verfügt über 50 % mehr HBM3-Kapazität als sein Vorgänger, der MI250X (128 GB). Um einen Speicherpool von 192 GB zu erreichen, stattet AMD den MI300X mit 8 HBM3-Stacks aus, wobei jeder Stack 12-Hi groß ist und gleichzeitig 16-Gbit-ICs enthält, was uns eine Kapazität von 2 GB pro IC oder 24 GB pro Stack bietet.

Der Speicher bietet eine Bandbreite von bis zu 5,3 TB/s und eine Infinity Fabric-Bandbreite von 896 GB/s. Zum Vergleich: NVIDIAs kommender KI-Beschleuniger H200 bietet 141 GB Kapazität, während Gaudi 3 von Intel 144 GB Kapazität bieten wird. Große Speicherpools sind in LLMs, die größtenteils speichergebunden sind, von großer Bedeutung, und AMD kann seine KI-Fähigkeiten unter Beweis stellen, indem es in der Speicherabteilung führend ist. Zum Vergleich:

Instinkt MI300X – 192 GB HBM3
Gaudí 3 – 144 GB HBM3
H200 – 141 GB HBM3e
MI300A – 128 GB HBM3
MI250X – 128 GB HBM2e
H100 – 96 GB HBM3
Gaudí 2 – 96 GB HBM2e

In Bezug auf den Stromverbrauch wird der AMD Instinct MI300X mit 750 W bewertet, was einer Steigerung von 50 % gegenüber den 500 W des Instinct MI250X und 50 W mehr als dem NVIDIA H200 entspricht.

Eine Konfiguration präsentiert ist die G593-ZX1/ZX2-Serverserie von Gigabyte, die bis zu 8 MI300X-GPU-Beschleuniger und zwei AMD EPYC 9004-CPUs bietet. Diese Systeme werden mit bis zu acht 3000-W-Netzteilen ausgestattet, was einer Gesamtleistung von 18000 W entspricht. AMD stellte außerdem seine eigene Instinct MI300X-Plattform vor, die 8 dieser KI-Beschleunigerchips umfasst und einige solide Zahlen gegenüber der NVIDIA HGX H100-Plattform bietet. Zu den von AMD geteilten Zahlen gehören:

2,4-mal höherer HBM3-Speicher (1,5 TB gegenüber 640 GB)
1,3-mal mehr Rechen-FLOPS (10,4 PF gegenüber 7,9 PF)
Ähnliche bidirektionale Bandbreite (896 GB/s vs. 900 GB/s)
Ähnliche Single-Node-Ringbandbreite (448 GB/s vs. 450 GB/s)
Ähnliche Netzwerkfunktionen (400 GbE vs. 400 GbE)
Ähnliches PCIe-Protokoll (PCIe Gen 5 128 GB/s)

Im Moment sollte sich AMD darüber im Klaren sein, dass auch seine Konkurrenten den KI-Boom mit Volldampf vorantreiben, da NVIDIA bereits einige große Zahlen für seine Hopper H200-GPUs und Blackwell B100-GPUs für 2024 verkündet und Intel seine Guadi 3- und Falcon Shores-GPUs für die Markteinführung im Jahr 2024 vorbereitet auch die kommenden Jahre. Unternehmen wie Oracle, Dell, META und OpenAI haben die Unterstützung der Instinct MI300 AI-Chips von AMD in ihrem Ökosystem angekündigt.

Eines ist im Moment sicher: KI-Kunden werden fast alles verschlingen, was sie bekommen können, und jeder wird davon profitieren. Aber AMD hat eine sehr beeindruckende Lösung, die nicht nur darauf abzielt, eine Alternative zu NVIDIA zu sein, sondern auch führend im KI-Segment zu sein.

AMD Radeon Instinct-Beschleuniger

Beschleunigername	AMD Instinct MI400	AMD Instinct MI300X	AMD Instinct MI300A	AMD Instinct MI250X	AMD Instinct MI250	AMD Instinct MI210	AMD Instinct MI100	AMD Radeon Instinct MI60	AMD Radeon Instinct MI50	AMD Radeon Instinct MI25	AMD Radeon Instinct MI8	AMD Radeon Instinct MI6
CPU-Architektur	Zen 5 (Exascale APU)	N / A	Zen 4 (Exascale APU)	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A
GPU-Architektur	CDNA 4	Aqua Vanjaram (CDNA 3)	Aqua Vanjaram (CDNA 3)	Aldebaran (CDNA 2)	Aldebaran (CDNA 2)	Aldebaran (CDNA 2)	Arcturus (CDNA 1)	Vega 20	Vega 20	Vega 10	Fidschi XT	Polaris 10
GPU-Prozessknoten	4nm	5nm+6nm	5nm+6nm	6nm	6nm	6nm	7-nm-FinFET	7-nm-FinFET	7-nm-FinFET	14-nm-FinFET	28nm	14-nm-FinFET
GPU-Chiplets	Noch offen	8 (MCM)	8 (MCM)	2 (MCM) 1 (pro Würfel)	2 (MCM) 1 (pro Würfel)	2 (MCM) 1 (pro Würfel)	1 (monolithisch)	1 (monolithisch)	1 (monolithisch)	1 (monolithisch)	1 (monolithisch)	1 (monolithisch)
GPU-Kerne	Noch offen	19.456	14.592	14.080	13.312	6656	7680	4096	3840	4096	4096	2304
GPU-Taktgeschwindigkeit	Noch offen	2100 MHz	2100 MHz	1700 MHz	1700 MHz	1700 MHz	1500 MHz	1800 MHz	1725 MHz	1500 MHz	1000 MHz	1237 MHz
INT8 Berechnen	Noch offen	2614 TOPS	1961 TOPS	383 TOPs	362 TOPS	181 TOPS	92,3 TOPS	N / A	N / A	N / A	N / A	N / A
FP16 Computing	Noch offen	1,3 PFLOPs	980,6 TFLOPs	383 TFLOPs	362 TFLOPs	181 TFLOPs	185 TFLOPs	29,5 TFLOPs	26,5 TFLOPs	24,6 TFLOPs	8,2 TFLOPs	5,7 TFLOPs
FP32-Berechnung	Noch offen	163,4 TFLOPs	122,6 TFLOPs	95,7 TFLOPs	90,5 TFLOPs	45,3 TFLOPs	23,1 TFLOPs	14,7 TFLOPs	13,3 TFLOPs	12,3 TFLOPs	8,2 TFLOPs	5,7 TFLOPs
FP64-Rechner	Noch offen	81,7 TFLOPs	61,3 TFLOPs	47,9 TFLOPs	45,3 TFLOPs	22,6 TFLOPs	11,5 TFLOPs	7,4 TFLOPs	6,6 TFLOPs	768 GFLOPs	512 GFLOPs	384 GFLOPs
VRAM	Noch offen	192 GB HBM3	128 GB HBM3	128 GB HBM2e	128 GB HBM2e	64 GB HBM2e	32 GB HBM2	32 GB HBM2	16 GB HBM2	16 GB HBM2	4 GB HBM1	16 GB GDDR5
Infinity-Cache	Noch offen	256 MB	256 MB	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A
Erinnerungsuhr	Noch offen	5,2 Gbit/s	5,2 Gbit/s	3,2 Gbit/s	3,2 Gbit/s	3,2 Gbit/s	1200 MHz	1000 MHz	1000 MHz	945 MHz	500 MHz	1750 MHz
Speicherbus	Noch offen	8192-Bit	8192-Bit	8192-Bit	8192-Bit	4096-Bit	4096-Bit-Bus	4096-Bit-Bus	4096-Bit-Bus	2048-Bit-Bus	4096-Bit-Bus	256-Bit-Bus
Speicherbandbreite	Noch offen	5,3 TB/s	5,3 TB/s	3,2 TB/s	3,2 TB/s	1,6 TB/s	1,23 TB/s	1 TB/s	1 TB/s	484 GB/s	512 GB/s	224 GB/s
Formfaktor	Noch offen	OAM	APU SH5-Sockel	OAM	OAM	Dual-Slot-Karte	Dual-Slot, volle Länge	Dual-Slot, volle Länge	Dual-Slot, volle Länge	Dual-Slot, volle Länge	Doppelschlitz, halbe Länge	Einzelschlitz, volle Länge
Kühlung	Noch offen	Passive Kühlung	Passive Kühlung	Passive Kühlung	Passive Kühlung	Passive Kühlung	Passive Kühlung	Passive Kühlung	Passive Kühlung	Passive Kühlung	Passive Kühlung	Passive Kühlung
TDP (max.)	Noch offen	750W	760W	560W	500W	300W	300W	300W	300W	300W	175W	150W

source-99

So lösen Sie das Zero Hour Vault-Puzzle in Destiny 2 (Woche 3)

Monatliche PlayStation Plus-Spiele; Bonustitel aus dem Game Catalog, PS VR2 und PS2 Classics Catalog für Juni 2024 angekündigt

Fantastische Bewegungen in Superheldenspielen gab es schon lange vor Spider-Man

Eine von Ben Stillers besten Rollen kam in einem Überraschungs-Remake

AMD bringt Instinct MI300X AI GPU Accelerator auf den Markt, bis zu 60 % schneller als NVIDIA H100

AMD hat endlich die GPU, die es mit NVIDIA im KI-Segment aufnehmen kann: MI300X bis zu 60 % schneller als H100

AMD Instinct MI300X – Fordern Sie NVIDIAs KI-Überlegenheit mit CDNA 3 und riesigem Speicher heraus

AMD Radeon Instinct-Beschleuniger

Leave a Reply Cancel reply