Das Argonne National Laboratory und Intel gaben am Donnerstag bekannt, dass die Installation von 10.624 Blades für den Aurora-Supercomputer abgeschlossen ist und das System später im Jahr 2023 online gehen wird. Die Maschine verwendet Zehntausende Xeon Max „Sapphire Rapids“-Prozessoren mit HBM2E-Speicher sowie Zehntausende Data Center GPU Max „Ponte Vecchio“-Rechen-GPUs erreichen eine Leistung von über 2 FP64 ExaFLOPS.
Der von HPE gebaute Aurora-Supercomputer besteht aus 166 Racks mit 64 Blades pro Rack, also insgesamt 10.624 Blades. Jeder Aurora-Blade basiert auf zwei Xeon Max-CPUs mit 64 GB integriertem HBM2E-Speicher sowie sechs Intel Data Center Max „Ponte Vecchio“-Rechen-GPUs. Diese CPUs und GPUs werden mit einem maßgeschneiderten Flüssigkeitskühlsystem gekühlt.
Insgesamt verfügt der Aurora-Supercomputer über 21.248 Allzweck-CPUs mit über 1,1 Millionen Hochleistungskernen, 19,9 Petabyte (PB) DDR5-Speicher, 1,36 PB an den CPUs angeschlossenem HBM2E-Speicher und 63.744 Rechen-GPUs, die für massiv parallele KI- und HPC-Workloads konzipiert sind mit 8,16 PB HBM2E-Speicher an Bord. Die Blades sind mithilfe der Slingshot-Struktur von HPE miteinander verbunden, die speziell für Supercomputer entwickelt wurde.
„Aurora ist der erste Einsatz von Intels GPU der Max-Serie, dem größten Xeon-Max-CPU-basierten System und dem größten GPU-Cluster der Welt“, sagte Jeff McVeigh, Corporate Vice President von Intel und General Manager der Super Compute Group. „Wir sind stolz, Teil dieses historischen Systems zu sein und freuen uns auf die bahnbrechende KI, Wissenschaft und Technik, die Aurora ermöglichen wird.“
Der Aurora-Supercomputer nutzt eine Reihe von 1.024 Speicherknoten, die aus Solid-State-Speichergeräten bestehen und eine Kapazität von 220 TB sowie eine Gesamtbandbreite von 31 TB/s bieten. wissenschaftliche Technik, physikalische Simulationen, Heilmittelforschung, Wettervorhersage und andere Aufgaben.
Während die Installation der Aurora-Blades abgeschlossen ist, muss der Supercomputer noch die Abnahmeprüfung bestehen. Wenn dies der Fall ist und später in diesem Jahr online geht, verspricht er eine theoretische Spitzenleistung von mehr als 2 ExaFLOPS und ist damit der erste Supercomputer, der dieses Leistungsniveau erreicht, wenn er in die Top500-Liste aufgenommen wird.
„Während wir an Akzeptanztests arbeiten, werden wir Aurora verwenden, um einige groß angelegte generative Open-Source-KI-Modelle für die Wissenschaft zu trainieren“, sagte Rick Stevens, stellvertretender Laborleiter des Argonne National Laboratory. „Aurora ist mit über 60.000 Intel Max-GPUs, einem sehr schnellen I/O-System und einem reinen Solid-State-Massenspeichersystem die perfekte Umgebung, um diese Modelle zu trainieren.“
Während der Aurora-Supercomputer noch Tests bestehen muss und ANL seine Leistungsergebnisse noch bei Top500.org einreichen muss, nutzte Intel die Gelegenheit, die Leistungsvorteile seiner Hardware gegenüber Konkurrenzlösungen von AMD und Nvidia mitzuteilen.
Laut Intel zeigen vorläufige Tests mit den GPUs der Max-Serie, dass sie sich bei „realen wissenschaftlichen und technischen Arbeitslasten“ auszeichnen, eine doppelt so hohe Leistung wie AMD Instinct MI250X-GPUs auf OpenMC liefern und nahezu perfekt über Hunderte von Knoten skalierbar sind. Darüber hinaus gibt Intel an, dass die CPU der Intel