Nur wenige Tage vor dem Start von Supercomputing 22 hat Intel eingeführt (öffnet in neuem Tab) seine Xeon Max-CPU der nächsten Generation mit dem früheren Codenamen Sapphire Rapids HBM und die Rechen-GPUs der Data Center GPU Max-Serie, bekannt als Ponte Vecchio. Die neuen Produkte sind auf verschiedene Arten von Hochleistungs-Computing-Workloads ausgerichtet oder arbeiten zusammen, um die komplexesten Supercomputing-Aufgaben zu lösen.
Die Xeon Max-CPU: Sapphire Rapids erhält 64 GB HBM2E
Allzweck-x86-Prozessoren werden seit Jahrzehnten für praktisch alle Arten des technischen Rechnens verwendet und unterstützen daher viele Anwendungen. Während die Leistung von Mehrzweck-CPU-Kernen jedoch seit Jahren ziemlich schnell skaliert, haben heutige Prozessoren zwei erhebliche Einschränkungen in Bezug auf die Leistung bei künstlicher Intelligenz und HPC-Workloads: Parallelisierung und Speicherbandbreite. Intels Xeon Max „Sapphire Rapids HBM“-Prozessoren versprechen, beide Grenzen aufzuheben.
Intels Xeon Max-Prozessor verfügt über bis zu 56 hochleistungsfähige Golden Cove-Kerne (verteilt auf vier Chiplets, die mit Intels EMIB-Technologie miteinander verbunden sind), die mit mehreren Beschleuniger-Engines für KI- und HPC-Workloads und 64 GB integriertem HBM2E-Speicher weiter verbessert wurden. Wie andere Sapphire Rapids-CPUs wird der Xeon Max weiterhin acht DDR5-Speicherkanäle und eine PCIe-Gen-5-Schnittstelle mit dem CXL 1.1-Protokoll an der Spitze unterstützen, sodass er all diese CXL-fähigen Beschleuniger nutzen kann, wenn es sinnvoll ist.
Zusätzlich zur Unterstützung der Vektor-AVX-512- und Deep-Learning-Boost-Beschleuniger (AVX512_VNNI und AVX512_BF16) bringen die neuen Kerne auch den gekachelten Matrix-Multiplikationsbeschleuniger Advanced Matrix Extensions (AMX), der im Wesentlichen ein Raster aus verschmolzenen Multiply-Add-Einheiten ist, die BF16 und INT8 unterstützen Eingangstypen, die mit nur 12 Anweisungen programmiert werden können und bis zu 1024 TMUL BF16- oder 2048 TMUL INT8-Operationen pro Zyklus pro Kern ausführen. Außerdem unterstützt die neue CPU den Data Streaming Accelerator (DSA), der Datenkopier- und Transformationsarbeitslasten von der CPU entlastet.
64 GB integrierter HBM2E-Speicher (vier Stacks mit 16 GB) bieten eine Spitzenbandbreite von etwa 1 TB/s, was ~1,14 GB HBM2E pro Kern bei 18,28 GB/s pro Kern entspricht. Um die Zahlen in einen Zusammenhang zu bringen: Ein 56-Kern-Sapphire-Rapids-Prozessor, der mit acht DDR5-4800-Modulen ausgestattet ist, erreicht eine Bandbreite von bis zu 307,2 GB/s, was 5,485 GB/s pro Kern bedeutet. In der Zwischenzeit kann Xeon Max seinen HBM2E-Speicher auf verschiedene Arten verwenden: Verwenden Sie ihn als Systemspeicher, der keine Codeänderung erfordert; Verwenden Sie es als Hochleistungs-Cache für das DDR5-Speichersubsystem, das keinen Änderungscode erfordert. Verwenden Sie es als Teil eines einheitlichen Speicherpools (HBM-Flat-Modus), der Softwareoptimierungen beinhaltet.
Je nach Workload kann Intels AMX-fähiger Xeon Max-Prozessor eine 3- bis 5,3-fache Leistungssteigerung gegenüber dem derzeit erhältlichen Xeon Scalable 8380-Prozessor bieten, der herkömmliche FP32-Verarbeitung für die gleichen Workloads verwendet. In Anwendungen wie der Modellentwicklung für die Molekulardynamik sind die neuen mit HBM2E ausgestatteten CPUs bis zu 2,8-mal schneller als der EPYC 7773X von AMD, der über 3D V-Cache verfügt.
HBM2E hat jedoch eine weitere wichtige Auswirkung für Intel, da es den Datenbewegungsaufwand zwischen CPU und GPU etwas reduziert, was für verschiedene HPC-Workloads unerlässlich ist. Das bringt uns zur zweiten der heutigen Ankündigungen: die Rechen-GPUs der Data Center GPU Max-Serie.
The Data Center GPU Max: Der Höhepunkt der Rechenzentrumsinnovationen von Intel
Die Compute-GPU-Serie Data Center GPU Max von Intel wird die Architektur des Unternehmens mit dem Codenamen Ponte Vecchio verwenden, die erstmals 2019 eingeführt und dann 2020 bis 2021 detailliert wurde. Intels Ponte Vecchio ist der komplexeste Prozessor, der jemals entwickelt wurde, da er über 100 Milliarden Transistoren (ohne Speicher) über 47 Kacheln (einschließlich 8 HBM2E-Kacheln). Darüber hinaus nutzt das Produkt ausgiebig Intels fortschrittliche Verpackungstechnologien (z. B. EMIB), da andere Kacheln von anderen Herstellern mit unterschiedlichen Prozesstechnologien hergestellt werden.
Intels Rechen-GPUs Data Center GPU Max werden auf der Xe-HPC-Architektur des Unternehmens basieren, die explizit auf KI- und HPC-Workloads zugeschnitten ist, und unterstützen daher geeignete Datenformate und Anweisungen sowie 512-Bit-Vektor- und 4096-Bit-Matrix-(Tensor-)Engines.
Rechenzentrum Max 1100 | Rechenzentrum Max 1350 | Rechenzentrum Max 1550 | AMD Instinct MI250X | NVIDIA H100 | NVIDIA H100 | Rialtobrücke | |
---|---|---|---|---|---|---|---|
Formfaktor | PCIe | OAM | OAM | OAM | SXM | PCIe | OAM |
Fliesen + Speicher | ? | ? | 39+8 | 2+8 | 1+6 | 1+6 | viele |
Transistoren | ? | ? | 100 Milliarden | 58 Milliarden | 80 Milliarden | 80 Milliarden | jede Menge davon |
Xe HPC-Kerne | Recheneinheiten | 56 | 112 | 128 | 220 | 132 | 114 | 160 verbesserte Xe-HPC-Kerne |
RT-Kerne | 56 | 112 | 128 | – | – | – | ? |
512-Bit-Vektor-Engines | 448 | 896 | 1024 | ? | ? | ? | ? |
4096-Bit-Matrix-Engines | 448 | 896 | 1024 | ? | ? | ? | ? |
L1-Cache | ? | ? | 64 MB bei 105 TB/s | ? | ? | ? | ? |
L2-Rambo-Cache | ? | ? | 408 MB bei 13 TB/s | ? | 50 MB | 50 MB | ? |
HBM2E | 48GB | 96 GB | 128 GB bei 3,2 TB/s | 128 GB/s bei 3,2 TB/s | 80 GB bei 3,35 TB/s | 8 GB bei 2 TB/s | ? |
Multi-GPU-IO | 8 | 16 | 16 | 8 | 8 | 8 | ? |
Leistung | 300W | 450W | 600 W | 560W | 700 W | 350W | 800 W |
Im Vergleich zu Xe-HPG verfügt Xe-HPC über erheblich ausgeklügeltere Speicher- und Caching-Subsysteme, unterschiedlich konfigurierte Xe-Kerne (jeder Xe-HPG-Kern verfügt über 16 256-Bit-Vektor- und 16 1024-Bit-Matrix-Engines, während jeder Xe-HPC-Kern über acht verfügt 512-Bit-Vektor- und acht 4096-Bit-Vektor-Engines). Darüber hinaus verfügen Xe-HPC-GPUs nicht über Texturierungseinheiten oder Render-Backends, sodass sie Grafiken nicht mit herkömmlichen Methoden rendern können. Unterdessen unterstützt Xe-HPG überraschenderweise Raytracing für die Supercomputer-Visualisierung.
Einer der wichtigsten Bestandteile von Xe-HPC sind Intels Xe Matrix Extensions (XMX), die eine ziemlich beeindruckende Tensor-/Matrixleistung von Intels Data Center GPU Max 1550 (siehe Tabelle unten) ermöglichen – bis zu 419 TF32 TFLOPS und bis zu 1678 INT8 TOP, laut Intel. Natürlich sind die von GPU-Entwicklern bereitgestellten Spitzenleistungszahlen wichtig, spiegeln jedoch möglicherweise nicht die Leistung wider, die auf realen Supercomputern in realen Anwendungen erreichbar ist. Dennoch müssen wir feststellen, dass Intels Spitzenreiter Ponte Vecchio in den meisten Fällen deutlich hinter Nvidias H100 zurückbleibt und keine greifbaren Vorteile gegenüber AMDs Instinct MI250X in allen Fällen außer FP32 Tensor (TF32) bietet.
Rechenzentrum Max 1550 | AMD Instinct MI250X | NVIDIA H100 | NVIDIA H100 | |
---|---|---|---|---|
Formfaktor | OAM | OAM | SXM | PCIe |
HBM2E | 128 GB bei 3,2 TB/s | 128 GB/s bei 3,2 TB/s | 80 GB bei 3,35 TB/s | 80 GB bei 2 TB/s |
Leistung | 600 W | 560W | 700 W | 350W |
Peak INT8-Vektor | ? | 383 TOPS | 133,8 TFLOPS | 102,4 TFLOPS |
Spitzen-FP16-Vektor | 104 TFLOPS | 383 TFLOPS | 134 TFLOPS | 102,4 TFLOPS |
Spitzen-BF16-Vektor | ? | 383 TFLOPS | 133,8 TFLOPS | 102,4 TFLOPS |
Spitzen-FP32-Vektor | 52 TFLOPS | 47,9 TFLOPS | 67 TFLOPS | 51 TFLOPS |
Spitzen-FP64-Vektor | 52 TFLOPS | 47,9 TFLOPS | 34 TFLOPS | 26 TFLOPS |
Peak INT8 Tensor | 1678 TOPS | ? | 1979 SPITZEN | 3958 TOPS* | 1513 TOPS | 3026 TOPS* |
Peak FP16-Tensor | 839 TFLOPS | ? | 989 TFLOPS | 1979 TFLOPS* | 756 TFLOPS | 1513 TFLOPS* |
Peak BF16 Tensor | 839 TFLOPS | ? | 989 TFLOPS | 1979 TFLOPS* | 756 TFLOPS | 1513 TFLOPS* |
Spitzen-FP32-Tensor | 419 TFLOPS | 95,7 TFLOPS | 989 TFLOPS | 756 TFLOPS |
Spitzen-FP64-Tensor | – | 95,7 TFLOPS | 67 TFLOPS | 51 TFLOPS |
In der Zwischenzeit sagt Intel, dass seine Data Center GPU Max 1550 2,4-mal schneller ist als Nvidias A100 auf Riskfuel-Kreditoptionspreisen und eine 1,5-fache Leistungssteigerung gegenüber A100 für virtuelle NekRS-Reaktor-Simulationen bietet.
Intel plant, drei Ponte-Vecchio-Produkte anzubieten: die Data Center GPU Max 1550 der Spitzenklasse im OAM-Formfaktor mit 128 Xe-HPC-Kernen, 128 GB HBM2E-Speicher und einer Auslegungsleistung von bis zu 600 W; die abgespeckte Data Center GPU Max 1350 im OAM-Formfaktor mit 112 Xe-HPC-Kernen, 96 GB Speicher und einer TDP von 450 W; und die Data Center GPU Max 1100 der Einstiegsklasse, die in einem FLFH-Formfaktor mit doppelter Breite geliefert wird und einen Prozessor mit 56 Xe-HPC-Kernen trägt, über 56 GB HBM2E-Speicher verfügt und für eine TDP von 300 W ausgelegt ist.
In der Zwischenzeit wird Intel seinen Supercomputer-Kunden Subsysteme der Max-Serie mit vier OAM-Modulen auf einem Trägerboard anbieten, das für eine TDP von 1.800 W und 2.400 W ausgelegt ist.
Intels Rialto-Brücke: Steigerung des Maximums
Neben der offiziellen Enthüllung seiner Data Center GPU Max-Rechen-GPUs gab Intel heute auch einen Vorgeschmack auf seine Rechenzentrums-GPU der nächsten Generation mit dem Codenamen Rialto Bridge, die 2024 auf den Markt kommt. Diese KI- und HPC-Rechen-GPU wird auf dem verbesserten Xe- HPC-Kerne, vermutlich mit einer etwas anderen Architektur, werden aber die Kompatibilität mit Ponte-Vecchi-basierten Anwendungen beibehalten. Leider wird diese zusätzliche Komplexität die TDP der Flaggschiff-Rechen-GPU der nächsten Generation auf 800 W erhöhen, obwohl es einfachere und weniger stromhungrige Versionen geben wird.
Verfügbarkeit
Einer der ersten Kunden, der sowohl Intel Xeon Max- als auch Intel Data Center GPU Max-Produkte erhält, wird das Argonne National Laboratory sein, das seine >2 ExaFLOPS-Supercomputer basierend auf über 10.000 Blades mit Xeon Max-CPUs und Data Center GPU Max-Geräten (zwei CPUs) baut und sechs GPUs pro Blade). Darüber hinaus schließen Intel und Argonne den Bau von Sunspot ab, dem Testentwicklungssystem von Aurora, das aus 128 Produktions-Blades besteht und Ende 2022 für Interessenten verfügbar sein wird. Der Supercomputer Aurora soll 2023 ans Netz gehen.
Intels Partner unter den Serverherstellern werden im Januar 2023 Maschinen auf den Markt bringen, die auf Xeon Max-CPUs und Data Center GPU Max-Geräten basieren.