NVIDIA Grace CPU liefert bis zu 30 % höhere Leistung bei 70 % besserer Effizienz im Vergleich zu den neuesten x86-Chips für Rechenzentren


NVIDIA hat eine Bemusterung seines Grace-CPU-Superchips angekündigt, der im Vergleich zu x86-Chips einige erhebliche Leistungssteigerungen bieten wird.

NVIDIA Grace CPU jetzt lieferbar: Liefert bis zu 30 % höhere Leistung und 70 % bessere Effizienz

NVIDIA hat seine Grace-CPU und das entsprechende Superchip-Design erstmals auf der GTC 2022 angekündigt. Die Grace-CPU ist NVIDIAs erster Prozessor, der auf einer benutzerdefinierten ARM-Architektur basiert und auf das Server-/HPC-Segment abzielen wird. Die CPU ist in zwei Superchip-Konfigurationen erhältlich, einem Grace-Superchip-Modul mit zwei Grace-CPUs und einem Grace+Hopper-Superchip mit einer Grace-CPU, die mit einer Hopper H100-GPU verbunden ist.

nvidia-grace-superchip-cpu-gtc-2023-_1
nvidia-grace-superchip-cpu-gtc-2023-_4

Heute, auf der GTC 2023, hat NVIDIA den Grace CPU Superchip zum ersten Mal der Öffentlichkeit vorgestellt. Die gesamte Einheit misst 5 x 8 Zoll und kann sowohl luftgekühlt als auch passiv gekühlt werden. NVIDIA zeigte sowohl einen standardmäßigen passiven Kühlkörper als auch ein großes 1U-Rack-Kühlkörperdesign. Zwei Grace CPU-Superchip-Module passen in einen einzigen luftgekühlten 1U-Server.

Das Unternehmen teilte auch einige neue Leistungsmetriken in Microservices- und Big Data-Workloads mit, bei denen der NVIDIA Grace CPU Superchip die neueste Klasse von x86-CPUs von Intel und AMD um bis zu 30 % schlagen konnte, während er eine 70 % höhere Effizienz und den doppelten Datendurchsatz lieferte . NVIDIA gibt an, dass CSPs ein Rechenzentrum mit begrenzter Leistung mit 1,7-mal mehr Grace-Servern ausstatten können, die jeweils einen 25 % höheren Durchsatz liefern. Bei ISO-Leistung bietet Grace CPU Superchip CSPs die doppelte Wachstumschance.

Einige der wichtigsten Highlights von Grace sind:

  • Hochleistungs-CPU für HPC und Cloud Computing
  • Super-Chip-Design mit bis zu 144 ARM v9-CPU-Kernen
  • Der weltweit erste LPDDR5x mit ECC-Speicher, 1 TB/s Gesamtbandbreite
  • SPECrate2017_int_base über 740 (geschätzt)
  • 900 GB/s kohärente Schnittstelle, 7x schneller als PCIe Gen 5
  • Doppelte Packungsdichte von DIMM-basierten Lösungen
  • Doppelte Leistung pro Watt im Vergleich zu den führenden CPUs von heute
  • Führt alle NVIDIA-Software-Stacks und -Plattformen aus, einschließlich RTX, HPC, AI und Omniverse
NVIDIA Grace CPU-Superchip-Architekturfunktionen
Core-Architektur Neoverse V2-Kerne: Armv9 mit 4x128b SVE2
Anzahl der Kerne 144
Zwischenspeicher L1: 64 KB I-Cache + 64 KB D-Cache pro Kern L2: 1 MB pro Kern L3: 234 MB pro Superchip
Speichertechnologie LPDDR5X mit ECC, mitverpackt
Rohspeicher BW Bis zu 1 TB/s
Speichergröße Bis zu 960 GB
FP64-Spitze 7.1 TFLOPS
PCI-Express 8x PCIe Gen 5 x16-Schnittstellen; Option zur Aufteilung der PCIe-Gesamtbandbreite von 1 TB/s. Zusätzliche Low-Speed-PCIe-Konnektivität für die Verwaltung.
Leistung 500 W TDP mit Speicher, 12 V Versorgung

Als erste Server-CPU von NVIDIA verfügt Grace über 72 ARM v9.0-Kerne, die Unterstützung für SVE2 und verschiedene Virtualisierungserweiterungen wie Nested Virtualization und S-EL2 bieten. Die CPU wird auf dem 4N-Prozessknoten von TSMC hergestellt, einer optimierten Version des 5-nm-Prozessknotens, der exklusiv für NVIDIA hergestellt wird. Die neue Architektur kann bis zu 7,1 TFLOPs FP64-Spitzenleistung bereitstellen.

Grace ist so konzipiert, dass es gepaart werden kann, und daher ist einer der wichtigsten Aspekte des Designs seine C2C-Verbindung (Chip-To-Chip). Grace erreicht dies mit NVLINK, das zur Herstellung der Superchips verwendet wird, und beseitigt alle Engpässe, die mit einer typischen Cross-Socket-Konfiguration verbunden sind.

Die C2C NVLINK-Verbindung bietet 900 GB/s bidirektionale Rohbandbreite (dieselbe Bandbreite wie ein GPU-zu-GPU-NVLINK-Switch auf Hopper), während sie mit einer Schnittstelle mit sehr geringem Stromverbrauch von nur 1,3 pJ/Bit oder 5-mal effizienter als die läuft PCIe-Protokoll.

Die NVIDIA Grace CPU verfügt über eine skalierbare Kohärenzstruktur mit verteiltem Cache-Design. Der Chip hat bis zu 3,225 TB/s Bandbreite in zwei Abschnitten, ist über 72 Kerne (144 auf Superchip) hinaus skalierbar, integriert 117 MB L3-Cache pro Kern oder 234 MB pro Superchip und bietet Unterstützung für ARM-Speicherpartitionierung und -überwachung ( MPAM). Grace ermöglicht auch eine einheitliche Speicherarchitektur mit gemeinsam genutzten Seitentabellen. Zwei NVIDIA Grace+Hopper Superchips können über einen NVSwitch miteinander verbunden werden, und eine Grace-CPU auf einem Superchip kann direkt mit der GPU auf dem anderen Chip kommunizieren oder sogar mit nativer NVLINK-Geschwindigkeit auf dessen VRAM zugreifen.

Einen genaueren Blick auf das Speicherdesign von Grace werfend, verwendet NVIDIA bis zu 960 GB LPDDR5X (ECC) über 32 Kanäle und liefert eine Speicherbandbreite von bis zu 1 TB/s. NVIDIA gibt an, dass LPDDR5X das beste Preis-Leistungs-Verhältnis bietet, wenn man die Gesamtbandbreite, die Kosten und den Leistungsbedarf berücksichtigt. Beispielsweise bietet das LPDDR5X-Subsystem im Vergleich zu DDR5 53 % mehr Bandbreite bei einem Achtel der Leistung pro Gigabyte pro Sekunde und zu ähnlichen Kosten. Darüber hinaus hätte der HBM2e-Speicher mehr Bandbreite und Effizienz bieten können, jedoch zum Dreifachen der Kosten.

nvidia-grace-cpu-superchips-_-hot-chips-34-_9
nvidia-grace-cpu-superchips-_-hot-chips-34-_10

Für I/O stehen 68 PCIe-Gen-5.0-Lanes zur Verfügung, von denen vier für x16-Links mit 128 GB/s verwendet werden können und die restlichen beiden für MISC verwendet werden. Es gibt auch 12 Lanes kohärenter NVLINK-Lanes, die mit zwei Gen 5 PCIe x16-Links geteilt werden.

In Bezug auf TDP ist der NVIDIA Grace (nur CPU) Superchip für Single-Core-Leistung optimiert und bietet bis zu 1 TB/s Speicherbandbreite und eine TDP von 500 W für die 144-Core-Dual-Chip-Konfiguration.

NVIDIA bestätigte auch, dass der Grace CPU Superchip jetzt bemustert wird und führende Partner wie ASUS, ATOS, Gigabyte, HPE, Supermicro, m Wistron, ZT Systems und QCT jetzt Systeme bauen.

Teilen Sie diese Geschichte

Facebook

Twitter

source-99

Leave a Reply