AMD bringt Instinct MI300X AI GPU Accelerator auf den Markt, bis zu 60 % schneller als NVIDIA H100


AMD hat angekündigt die offizielle Einführung seines Flaggschiff-KI-GPU-Beschleunigers MI300X, der eine bis zu 60 % bessere Leistung als NVIDIAs H100 bietet.

AMD hat endlich die GPU, die es mit NVIDIA im KI-Segment aufnehmen kann: MI300X bis zu 60 % schneller als H100

Die AMD Instinct MI300-Klasse von KI-Beschleunigern wird ein weiteres Chiplet-Kraftpaket sein und fortschrittliche Verpackungstechnologien von TSMC nutzen. Heute hat AMD nicht nur die Einführung dieser Chips angekündigt, sondern auch die ersten Leistungsbenchmarks des MI300X veröffentlicht, die großartig aussehen. AMD nutzte zunächst die allgemeinen Spezifikationen als Vergleich und ihre CDNA 3-Beschleunigerangebote (im Vergleich zu NVIDIA H100):

  • 2,4-mal höhere Speicherkapazität
  • 1,6-fach höhere Speicherbandbreite
  • 1,3X FP8 TFLOPS
  • 1,3X FP16 TFLOPS
  • Bis zu 20 % schneller im Vergleich zu H100 (Llama 2 70B) im 1v1-Vergleich
  • Bis zu 20 % schneller im Vergleich zu H100 (FlashAttention 2) im 1v1-Vergleich
  • Bis zu 40 % schneller im Vergleich zu H100 (Llama 2 70B) im 8v8-Server
  • Bis zu 60 % schneller im Vergleich zu H100 (Bloom 176B) im 8v8-Server

Im Vergleich zu allgemeinen LLM-Kernel-TFLOPs bietet der MI300X eine bis zu 20 % höhere Leistung in FlashAttention-2 und Llama 2 70B. Aus der Plattformperspektive, die eine 8x MI300X-Lösung mit einer 8x H100-Lösung vergleicht, sehen wir einen viel größeren Zuwachs von 40 % bei Llama 2 70B und einen Zuwachs von 60 % bei Bloom 176B.

AMD erwähnt, dass der MI300X bei der Trainingsleistung auf Augenhöhe mit der Konkurrenz (H100) liegt und ein konkurrenzfähiges Preis-Leistungs-Verhältnis bietet, während er bei der Inferenz-Workload glänzt.

Die treibende Kraft hinter den neuesten MI300-Beschleunigern ist ROCm 6.0. Der Software-Stack wurde mit leistungsstarken neuen Funktionen auf die neueste Version aktualisiert, darunter die Unterstützung verschiedener KI-Workloads wie generative KI und große Sprachmodelle.

Der neue Software-Stack unterstützt die neuesten Rechenformate wie FP16, Bf16 und FP8 (einschließlich Sparsity). Die Optimierungen bieten zusammen eine bis zu 2,6-fache Beschleunigung in vLLM durch optimierte Inferenzbibliotheken, eine 1,4-fache Beschleunigung in HIP Graph durch optimierte Laufzeit und eine 1,3-fache Beschleunigung von Flash Attention durch optimierte Kernel. ROCm 6 wird noch in diesem Monat zusammen mit den MI300-KI-Beschleunigern erwartet. Es wird interessant sein zu sehen, wie ROCm 6 im Vergleich zur neuesten Version des CUDA-Stacks von NVIDIA abschneidet, der seine eigentliche Konkurrenz darstellt.

AMD Instinct MI300X – Fordern Sie NVIDIAs KI-Überlegenheit mit CDNA 3 und riesigem Speicher heraus

Der AMD Instinct MI300X ist der Chip, der am meisten hervorgehoben wird, da er auf NVIDIAs Hopper- und Intels Gaudi-Beschleuniger im KI-Segment abzielt. Dieser Chip wurde ausschließlich auf der CDNA 3-Architektur entwickelt und es ist eine Menge los. Der Chip wird eine Mischung aus 5-nm- und 6-nm-IPs beherbergen, die zusammen bis zu 153 Milliarden Transistoren (MI300X) liefern.

AMD Instinct MI300X Beschleuniger.

Beginnend mit dem Design wird der Hauptinterposer mit einem Passivchip ausgelegt, der die Verbindungsschicht unter Verwendung einer Infinity Fabric-Lösung der 4. Generation beherbergt. Der Interposer umfasst insgesamt 28 Dies, darunter acht HBM3-Pakete, 16 Dummy-Dies zwischen den HBM-Paketen und vier aktive Dies, und jeder dieser aktiven Dies erhält zwei Rechen-Dies.

Jeder GCD, der auf der CDNA 3-GPU-Architektur basiert, verfügt über insgesamt 40 Recheneinheiten, was 2560 Kernen entspricht. Insgesamt gibt es acht Compute-Dies (GCDs), sodass wir insgesamt 320 Compute- und 20.480 Kerneinheiten haben. Aus Ertragsgründen wird AMD einen kleinen Teil dieser Kerne reduzieren und wir werden insgesamt 304 Recheneinheiten (38 CUs pro GPU-Chiplet) sehen, die für insgesamt 19.456 Stream-Prozessoren aktiviert sind.

AMD Instinct MI300X Accelerator mit CDNA 3 stirbt.

Der Speicher ist ein weiterer Bereich, in dem Sie eine enorme Verbesserung erleben werden: Der MI300X verfügt über 50 % mehr HBM3-Kapazität als sein Vorgänger, der MI250X (128 GB). Um einen Speicherpool von 192 GB zu erreichen, stattet AMD den MI300X mit 8 HBM3-Stacks aus, wobei jeder Stack 12-Hi groß ist und gleichzeitig 16-Gbit-ICs enthält, was uns eine Kapazität von 2 GB pro IC oder 24 GB pro Stack bietet.

Der Speicher bietet eine Bandbreite von bis zu 5,3 TB/s und eine Infinity Fabric-Bandbreite von 896 GB/s. Zum Vergleich: NVIDIAs kommender KI-Beschleuniger H200 bietet 141 GB Kapazität, während Gaudi 3 von Intel 144 GB Kapazität bieten wird. Große Speicherpools sind in LLMs, die größtenteils speichergebunden sind, von großer Bedeutung, und AMD kann seine KI-Fähigkeiten unter Beweis stellen, indem es in der Speicherabteilung führend ist. Zum Vergleich:

  • Instinkt MI300X – 192 GB HBM3
  • Gaudí 3 – 144 GB HBM3
  • H200 – 141 GB HBM3e
  • MI300A – 128 GB HBM3
  • MI250X – 128 GB HBM2e
  • H100 – 96 GB HBM3
  • Gaudí 2 – 96 GB HBM2e

In Bezug auf den Stromverbrauch wird der AMD Instinct MI300X mit 750 W bewertet, was einer Steigerung von 50 % gegenüber den 500 W des Instinct MI250X und 50 W mehr als dem NVIDIA H200 entspricht.

Eine Konfiguration präsentiert ist die G593-ZX1/ZX2-Serverserie von Gigabyte, die bis zu 8 MI300X-GPU-Beschleuniger und zwei AMD EPYC 9004-CPUs bietet. Diese Systeme werden mit bis zu acht 3000-W-Netzteilen ausgestattet, was einer Gesamtleistung von 18000 W entspricht. AMD stellte außerdem seine eigene Instinct MI300X-Plattform vor, die 8 dieser KI-Beschleunigerchips umfasst und einige solide Zahlen gegenüber der NVIDIA HGX H100-Plattform bietet. Zu den von AMD geteilten Zahlen gehören:

  • 2,4-mal höherer HBM3-Speicher (1,5 TB gegenüber 640 GB)
  • 1,3-mal mehr Rechen-FLOPS (10,4 PF gegenüber 7,9 PF)
  • Ähnliche bidirektionale Bandbreite (896 GB/s vs. 900 GB/s)
  • Ähnliche Single-Node-Ringbandbreite (448 GB/s vs. 450 GB/s)
  • Ähnliche Netzwerkfunktionen (400 GbE vs. 400 GbE)
  • Ähnliches PCIe-Protokoll (PCIe Gen 5 128 GB/s)

Im Moment sollte sich AMD darüber im Klaren sein, dass auch seine Konkurrenten den KI-Boom mit Volldampf vorantreiben, da NVIDIA bereits einige große Zahlen für seine Hopper H200-GPUs und Blackwell B100-GPUs für 2024 verkündet und Intel seine Guadi 3- und Falcon Shores-GPUs für die Markteinführung im Jahr 2024 vorbereitet auch die kommenden Jahre. Unternehmen wie Oracle, Dell, META und OpenAI haben die Unterstützung der Instinct MI300 AI-Chips von AMD in ihrem Ökosystem angekündigt.

Eines ist im Moment sicher: KI-Kunden werden fast alles verschlingen, was sie bekommen können, und jeder wird davon profitieren. Aber AMD hat eine sehr beeindruckende Lösung, die nicht nur darauf abzielt, eine Alternative zu NVIDIA zu sein, sondern auch führend im KI-Segment zu sein.

AMD Radeon Instinct-Beschleuniger

Beschleunigername AMD Instinct MI400 AMD Instinct MI300X AMD Instinct MI300A AMD Instinct MI250X AMD Instinct MI250 AMD Instinct MI210 AMD Instinct MI100 AMD Radeon Instinct MI60 AMD Radeon Instinct MI50 AMD Radeon Instinct MI25 AMD Radeon Instinct MI8 AMD Radeon Instinct MI6
CPU-Architektur Zen 5 (Exascale APU) N / A Zen 4 (Exascale APU) N / A N / A N / A N / A N / A N / A N / A N / A N / A
GPU-Architektur CDNA 4 Aqua Vanjaram (CDNA 3) Aqua Vanjaram (CDNA 3) Aldebaran (CDNA 2) Aldebaran (CDNA 2) Aldebaran (CDNA 2) Arcturus (CDNA 1) Vega 20 Vega 20 Vega 10 Fidschi XT Polaris 10
GPU-Prozessknoten 4nm 5nm+6nm 5nm+6nm 6nm 6nm 6nm 7-nm-FinFET 7-nm-FinFET 7-nm-FinFET 14-nm-FinFET 28nm 14-nm-FinFET
GPU-Chiplets Noch offen 8 (MCM) 8 (MCM) 2 (MCM)
1 (pro Würfel)
2 (MCM)
1 (pro Würfel)
2 (MCM)
1 (pro Würfel)
1 (monolithisch) 1 (monolithisch) 1 (monolithisch) 1 (monolithisch) 1 (monolithisch) 1 (monolithisch)
GPU-Kerne Noch offen 19.456 14.592 14.080 13.312 6656 7680 4096 3840 4096 4096 2304
GPU-Taktgeschwindigkeit Noch offen 2100 MHz 2100 MHz 1700 MHz 1700 MHz 1700 MHz 1500 MHz 1800 MHz 1725 MHz 1500 MHz 1000 MHz 1237 MHz
INT8 Berechnen Noch offen 2614 TOPS 1961 TOPS 383 TOPs 362 TOPS 181 TOPS 92,3 TOPS N / A N / A N / A N / A N / A
FP16 Computing Noch offen 1,3 PFLOPs 980,6 TFLOPs 383 TFLOPs 362 TFLOPs 181 TFLOPs 185 TFLOPs 29,5 TFLOPs 26,5 TFLOPs 24,6 TFLOPs 8,2 TFLOPs 5,7 TFLOPs
FP32-Berechnung Noch offen 163,4 TFLOPs 122,6 TFLOPs 95,7 TFLOPs 90,5 TFLOPs 45,3 TFLOPs 23,1 TFLOPs 14,7 TFLOPs 13,3 TFLOPs 12,3 TFLOPs 8,2 TFLOPs 5,7 TFLOPs
FP64-Rechner Noch offen 81,7 TFLOPs 61,3 TFLOPs 47,9 TFLOPs 45,3 TFLOPs 22,6 TFLOPs 11,5 TFLOPs 7,4 TFLOPs 6,6 TFLOPs 768 GFLOPs 512 GFLOPs 384 GFLOPs
VRAM Noch offen 192 GB HBM3 128 GB HBM3 128 GB HBM2e 128 GB HBM2e 64 GB HBM2e 32 GB HBM2 32 GB HBM2 16 GB HBM2 16 GB HBM2 4 GB HBM1 16 GB GDDR5
Infinity-Cache Noch offen 256 MB 256 MB N / A N / A N / A N / A N / A N / A N / A N / A N / A
Erinnerungsuhr Noch offen 5,2 Gbit/s 5,2 Gbit/s 3,2 Gbit/s 3,2 Gbit/s 3,2 Gbit/s 1200 MHz 1000 MHz 1000 MHz 945 MHz 500 MHz 1750 MHz
Speicherbus Noch offen 8192-Bit 8192-Bit 8192-Bit 8192-Bit 4096-Bit 4096-Bit-Bus 4096-Bit-Bus 4096-Bit-Bus 2048-Bit-Bus 4096-Bit-Bus 256-Bit-Bus
Speicherbandbreite Noch offen 5,3 TB/s 5,3 TB/s 3,2 TB/s 3,2 TB/s 1,6 TB/s 1,23 TB/s 1 TB/s 1 TB/s 484 GB/s 512 GB/s 224 GB/s
Formfaktor Noch offen OAM APU SH5-Sockel OAM OAM Dual-Slot-Karte Dual-Slot, volle Länge Dual-Slot, volle Länge Dual-Slot, volle Länge Dual-Slot, volle Länge Doppelschlitz, halbe Länge Einzelschlitz, volle Länge
Kühlung Noch offen Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung
TDP (max.) Noch offen 750W 760W 560W 500W 300W 300W 300W 300W 300W 175W 150W

Teilen Sie diese Geschichte

Facebook

Twitter

source-99

Leave a Reply