Wir sind der offiziellen Ankündigung von AMDs KI-Rechenzentrumsbeschleuniger MI300X immer noch auf den Fersen. Es ist sicherlich eine Rechenleistung, mit der man rechnen muss – eine, die AMD als Knüppel nutzen will, um Nvidia von seiner Position als dominierender Akteur in der Welt der KI-Beschleunigung zu verdrängen. Aber eine Leistungssteigerung führt manchmal zu einem höheren Stromverbrauch, obwohl jede neue Architektur in der Regel die Energieeffizienz verbessert (sie verbraucht weniger Energie für die gleiche Arbeitseinheit). Und AMDs OAM-basiertes (OCP Accelerator Module) – das MI300X – ist sicherlich ein Stromfresser: Mit 750 W ist es tatsächlich das Produkt mit der höchsten TDP aller Zeiten in seinem Formfaktor. Aber keine Sorge: Die Spezifikationen für OAM-Lösungen reichen bis zu einer lieferbaren Leistung von 1000 W, sodass noch Spielraum für eine weitere Skalierung der Leistung besteht.
Während 750 W eine ungeheure Menge an Strom sind, die von jedem einzelnen PC-Gerät verbraucht wird (zumindest aus der Sicht eines Einzelnen), müssen wir bedenken, dass diese Watt Hardware antreiben, die viel schneller und spezialisierter ist als sogar die leistungsstärksten Grafikkarten von AMD. Für diese Leistung bietet AMD den angeblich leistungsstärksten Beschleuniger für KI-bezogene Workloads (sowohl in der generativen KI als auch im Large Language Model). [LLM] wird bearbeitet).
Wenn man bedenkt, wie AMD es geschafft hat, 12 Chiplets zu stopfen, die in zwei Herstellungsprozessen (8x 5 nm) hergestellt wurden [GPU] und 4x 6-nm-Knoten [I/O die] Bei einer Gesamtzahl von 153 Milliarden Transistoren könnte diese Behauptung durchaus begründet sein. Hinzu kommt natürlich noch, dass AMD es geschafft hat, ein LLM-Modell mit 40 Milliarden Parametern (Falcon 40-B) auf einem einzigen MI300X laufen zu lassen. Das ist beeindruckend, insbesondere wenn man bedenkt, dass AMD den MI300X auf bis zu acht Beschleuniger in einem einzigen Paket skalieren möchte.
Zeile 0 – Zelle 0 | AMD MI300X | AMD MI300A | AMD MI250X | AMD RX 7900 XTX |
CPU-Kerne | 0 | 3x 8-Kern-CCD (24-Kerne) [Zen 4] | – | – |
GPU-Kerne | 8x GCD (304 CUs) [CDNA 3] | 6x GCD (228 CUs) [CDNA 3] | (220 CUs) [CDNA 2] | (RDNA 3) |
Adressierbarer Speicher | 192 GB (8x 24 GB HBM3) | 128 GB (8x 16 GB HBM3) | 128 GB (8x 16 GB HBM2e) | 24 GB GDDR6 |
Speicherbandbreite | 5,2 TB/s | 5,2 TB/s | ~ 3,28 TB/s | 960 GB/s |
Unendliche Stoffbandbreite | 896 GB/s | 896 GB/s | 800 GB/s | – |
Anzahl der Transistoren | 153 Milliarden | 146 Milliarden | ~ 58,2 Milliarden | ~ 57 Milliarden |
TDP | 750 W | ? | 560 W | 355 W |
Wie wir aus der obigen Tabelle ersehen können, hat AMDs Fokus auf eine höhere Energieeffizienz nicht ausgereicht, um die steigenden Rechenanforderungen für High Performance Computing (HPC)-Szenarien auszugleichen, zu denen nun auch die Verarbeitung von LLM-Modellen gehört, die scheinbar nach links und rechts springen . Erhöhte Leistungsanforderungen bedeuten, dass trotz der neuesten Energiespartechnologien und -techniken von AMD und der neuesten Fertigungstechnologie von TSMC immer noch die Notwendigkeit bestand, die Leistungshüllkurve um 190 W zu erhöhen.
Aber dieser TDP-Anstieg um 190 W (etwa 33 % höhere Leistungsaufnahme) führt im Vergleich zum MI250X zu etwa dem Dreifachen der eingeschalteten Transistoren – eine beeindruckende Darstellung der Effizienzsteigerungen, selbst wenn man die verbesserte Unterstützung des MI300X für Sparse-Algorithmen außer Acht lässt (unglaublich wichtig). für LLM- und KI-Verarbeitung). Das soll nichts über den Unterschied zwischen AMDs Rechenbeschleunigern und der Flaggschiff-Gaming-GPU des Unternehmens, der vergleichsweise mickrigen RX 7900 XTX, sagen.