Als Nvidia Anfang dieser Woche seine Ada Lovelace-Familie von Grafikprozessoren vorstellte, konzentrierte es sich hauptsächlich auf seine AD102-GPU der Spitzenklasse und seine Flaggschiff-Grafikkarte GeForce RTX 4090. Es hat nicht zu viele Details über seine AD103- und AD104-Grafikchips veröffentlicht. Glücklicherweise hat Nvidia heute sein Whitepaper Ada Lovelace hochgeladen, das jede Menge Daten über die neuen GPUs enthält und viele Lücken füllt. Wir haben die GPUs der RTX 40-Serie mit allem, was wir wissen, mit den neuen Details aktualisiert, aber hier ist die Übersicht der neuen und interessanten Informationen.
Große GPUs für großes Gaming
Wir wissen bereits, dass Nvidias Spitzenreiter AD102 eine 608-mm^2-GPU ist, die 76,3 Milliarden Transistoren, 18.432 CUDA-Kerne und 96 MB L2-Cache enthält. Wir wissen jetzt auch, dass AD103 ein 378,6 mm² großer Grafikprozessor mit 45,9 Milliarden Transistoren, 10.240 CUDA-Kernen und 64 MB L2-Cache ist. Der AD104 hat eine Chipgröße von 294,5 mm^2, 35,8 Milliarden Transistoren, 7680 CUDA-Kerne und 48 MB L2.
GPU/Grafikkarte | Vollständig AD102 | RTX4090 | RTX4080 16GB | RTX4080 12GB | RTX 3090Ti |
---|---|---|---|---|---|
Die Architektur | AD102 | AD102 | AD103 | AD104 | GA102 |
Verfahrenstechnik | TSMC4N | TSMC4N | TSMC4N | TSMC4N | Samsung 8LPP |
Transistoren (Milliarden) | 76.3 | 76.3 | 45.9 | 35.8 | 28.3 |
Die Größe (mm^2) | 608 | 608 | 378.6 | 294.5 | 628.4 |
Streaming-Multiprozessoren | 144 | 128 | 76 | 60 | 84 |
GPU-Kerne (Shader) | 18432 | 16384 | 9728 | 7680 | 10752 |
Tensor-Kerne | 576 | 512 | 320 | 240 | 336 |
Raytracing-Kerne | 144 | 144 | 80 | 60 | 84 |
TMUs | 512 | 512 | 304? | 240 | 336 |
ROPs | 192 | 192 | 112 | 80 | 112 |
L2-Cache (MB) | 96 | 96 | 64 | 48 | 6 |
Boost-Takt (MHz) | ? | 2520 | 2505 | 2600 | 1860 |
TFLOPS FP32 (Boost) | ? | 82.6 | 48.7 | 40.1 | 40.0 |
TFLOPSFP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (nicht zutreffend) |
TFLOPS-Raytracing | ? | 191 | 113 | 82 | 78.1 |
Speicherschnittstelle (Bit) | 384 | 384 | 256 | 192 | 384 |
Speichergeschwindigkeit (GT/s) | ? | 21 | 22.4 | 21 | 21 |
Bandbreite (GBps) | ? | 1008 | 736 | 504 | 1008 |
TDP (Watt) | ? | 450 | 320 | 285 | 450 |
Erscheinungsdatum | ? | 12. Oktober 2022 | November 2022? | November 2022? | März 2022 |
Einführungspreis | ? | 1.599 $ | 1.199 $ | $899 | 1.999 $ |
Eines der interessanten Dinge, die Nvidia in seinem Whitepaper mitteilt, ist, dass Ada Lovelace-GPUs Hochgeschwindigkeitstransistoren in kritischen Pfaden verwenden, um die maximalen Taktraten zu erhöhen. Infolgedessen ist seine voll aktivierte AD102-GPU mit 18.432 CUDA-Kernen „in der Lage, mit Taktraten über 2,5 GHz zu laufen, während die gleiche 450-W-TGP beibehalten wird“. Vor diesem Hintergrund überrascht es uns nicht, dass das Unternehmen von 3,0-GHz-Taktraten für die GeForce RTX 4090 (mit 16.384 CUDA-Kernen) spricht, die in seinen Labors erreicht wurden. Mit 3,0 GHz wird die GeForce RTX 4090 unsere Liste der besten Grafikkarten absolut anführen.
Neben hohen Taktraten bietet die Ada Lovelace-GPU von Nvidia auch massive L2-Caches, die die Leistung bei rechenintensiven Workloads (z. B. Raytracing, Pathtracing, Simulationen usw.) verbessern und die Anforderungen an die Speicherbandbreite reduzieren. Im Wesentlichen nehmen die Ada-GPUs von Nvidia hier eine Seite aus dem Buch von RDNA 2 Infinity Cache, obwohl wir glauben, dass allgemeine Ziele für die neue Architektur lange vor der Einführung der Produkte der Radeon RX 6000-Serie von AMD im Jahr 2020 festgelegt wurden.
Apropos Workloads wie Simulationen: Wir müssen beachten, dass sie in der Welt der Supercomputer mit Zahlen im Gleitkommaformat doppelter Genauigkeit (FP64) ausgeführt werden, um die Genauigkeit der Ergebnisse zu verbessern. FP64 ist sowohl in Bezug auf die Leistung als auch in Bezug auf die Hardwarekomplexität teurer als FP32. Aus diesem Grund verwenden Computergrafiken FP32-Formate und viele Simulationen von nicht kritischen Anlagen werden ebenfalls mit FP32-Präzision durchgeführt. Unterdessen verfügt die AD102-GPU über nur 288 FP64-Kerne (zwei pro Streaming-Multiprozessor), um sicherzustellen, dass alle Programme mit FP64-Code korrekt funktionieren, einschließlich FP64-Tensor-Core-Code.
Dennoch beträgt die FP64-Rate von AD102 1/64 der TFLOP-Rate von FP32-Operationen (was der Ampere-Architektur entspricht). Nvidia stellt seine FP64-Kerne nicht in Diagrammen seiner Streaming-Multiprozessor(SM)-Module dar und gibt die Anzahl solcher Kerne in AD103- und AD104-GPUs nicht bekannt. Der schlechte FP64-Wert der Ada-Grafikprozessoren unterstreicht, dass diese Teile in erster Linie auf Gaming abzielen.
Mehr Transistoren = mehr Leistung
Die Komplexität und Die-Größen von Nvidias Ada Lovelace-Grafikprozessoren im Vergleich zu den Ampere-GPUs des Unternehmens sollten nicht überraschen. Die neuen Ada-GPUs werden mit den 4N-Fertigungstechnologien (5-nm-Klasse) von TSMC hergestellt, während Ampere mit dem 8LPP-Prozess von Samsung Foundry hergestellt wurde (ein Knoten der 10-nm-Klasse mit 10 % optischer Schrumpfung). Diese zusätzliche Komplexität (Transistoranzahl) ermöglicht beeindruckende Leistungssteigerungen bei Dingen wie Raytracing und Qualitätssteigerungen mit DLSS 3.0.
GPU/Grafikkarte | AD102 | RTX4090 | RTX4080 16GB | RTX4080 12GB | RTX 3090Ti |
---|---|---|---|---|---|
Grafikkarte | AD102 | AD102 | AD103 | AD104 | GA102 |
TFLOPS FP32 (Boost) | ? | 82.6 | 48.7 | 40.1 | 40.0 |
TFLOPSFP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (nicht zutreffend) |
TFLOPS-Raytracing | ? | 191 | 113 | 82 | 78.1 |
Zu beachten ist auch, dass die AD102-GPU von Nvidia eine höhere Transistordichte aufweist als ihre kleineren Geschwister. Auf der einen Seite ermöglicht die zusätzliche Transistordichte von 3,6 % es, im Vergleich zu seinen kleineren Brüdern deutlich mehr Ausführungseinheiten in den AD102 zu packen. Andererseits ermöglicht die entspannte Transistordichte von AD103 und AD104 in vielen Fällen bessere Ausbeuten (unter der Annahme, dass die Defektdichte des Knotens im Allgemeinen nicht hoch ist) und höhere Takte.
Es ist schwierig, Vorhersagen über das Frequenzpotential von AD103 und AD104 ohne Zugang zu tatsächlicher Hardware und/oder Kenntnis ihrer tatsächlichen Ertragsraten zu treffen. Wenn der AD102 jedoch mit 2,50 GHz ~ 3,0 GHz betrieben werden kann, ist zu erwarten, dass AD103 und AD104 ein noch höheres Potenzial haben. Wir wissen auch, dass die RTX 4080 12 GB einen voll aktivierten AD104-Chip mit 2610 MHz verwendet, während RTX 4080 16 GB 95 % eines AD103-Chips (76 von 80 SMs) mit 2505 MHz verwendet und RTX 4090 nur 89 % ( 128 von 144 SMs) mit 2510 MHz – ebenfalls mit 25 % des deaktivierten L2-Cache.
Eine extreme Anzahl von Ausführungseinheiten, ermöglicht durch hohe Komplexität, gepaart mit hohen Taktraten, sollte bemerkenswerte Leistungssteigerungen liefern. Die GeForce RTX 4090 von Nvidia hat im Vergleich zur GeForce RTX 3090 Ti (~40 TFLOPS) eine mehr als doppelt so hohe theoretische FP32-Spitzenrechenrate (~82,6 TFLOPS).
Unterdessen zeigt das aktuelle Lineup von Nvidias Ada-GPUs für anspruchsvolle Gamer, dass das Unternehmen mit seinem Drei-Chip-Ansatz auf dem High-End-Gaming-Markt wieder auf Kurs ist. Normalerweise veröffentlicht Nvidia seine Flaggschiff-Gaming-GPU, gefolgt von einem Chip, der ungefähr 66 % bis 75 % der Ressourcen des Flaggschiffs (z. B. CUDA-Kerne) enthält, und stellt dann einen Grafikprozessor vor, der etwa 50 % der Einheiten des Flaggschiffs enthält. Bei der Ampere-Familie wurde diese Strategie etwas angepasst, da Nvidias GA103-Chip hauptsächlich für Laptops entwickelt wurde und es kaum auf Desktops schaffte (er kam auch zu spät zur Party), doch mit der Ada-Generation kehrt Nvidia zu seinem üblichen Ansatz zurück drei Chips.
Weitere SKUs kommen
Ein interessanter Aspekt ist die Diskrepanz zwischen den maximalen Konfigurationen, die von der AD102-GPU und der GeForce RTX 4090-Grafikkarte angeboten werden. AD102 enthält 18.432 CUDA-Kerne, während die GeForce RTX 4090 mit 16.384 aktivierten CUDA-Kernen ausgestattet ist. Ein solcher Ansatz gibt Nvidia eine gewisse zusätzliche Flexibilität in Bezug auf Erträge und die Einführung neuer Grafikkarten in der Zukunft, sodass viel Platz für eine RTX 4090 Ti-, RTX 4080 Ti- und RTX 5500/5000 Ada-Generation für ProViz-Märkte usw. vorhanden ist.
Die GeForce RTX 4080 16 GB und RTX 4080 12 GB verwenden hingegen fast vollständige AD103- bzw. vollwertige AD104-GPUs. Wir wissen nicht, was die Zukunft bringt, aber wir gehen davon aus, dass wir irgendwann abgespeckte Versionen der AD103- und AD104-GPUs sehen werden. Wir können über GeForce RTX 4070 Ti und/oder RTX 4070 basierend auf abgespeckten Behältern des AD104-Chips sowie über das Potenzial für Ultra-High-End-Grafiklösungen für Laptops mit AD103-Grafikprozessor spekulieren, aber wir können nur raten Sie über die Spezifikationen dieser Teile.
Einige Gedanken
Nvidias Ada Lovelace-Architektur ist sowohl qualitativ als auch quantitativ ein Sprung gegenüber der Ampere-Architektur. Nvidia hat nicht nur die Leistung seiner Raytracing-, Tensor-Kerne und einiger anderer Einheiten auf architektonischer Ebene erheblich verbessert, sondern auch ihre Anzahl erhöht und ihre Takte erhöht. Eine wesentliche Verbesserung sind hier die massiv erhöhten L2-Caches von Ada-GPUs im Vergleich zu Ampere-GPUs.
Diese Sprünge wurden zu einem großen Teil durch die Nvidia-GPU-optimierte 4N-Prozesstechnologie von TSMC ermöglicht. Darüber hinaus verwendete das Unternehmen auch Hochgeschwindigkeitstransistoren, um die Frequenzen seiner neuen Grafikprozessoren zu erhöhen, was für zusätzliche Leistungssteigerungen sorgte.
Aber ein hochmoderner Produktionsknoten und große Die-Größen der neuen GPUs von Nvidia machen die Herstellung der Teile auch erheblich teurer, weshalb die Preise der GeForce RTX 4080- und 4090-Grafikkarten erheblich höher sind als bei ihren direkten Vorgängern.
Nvidia hat bisher nur fünf Ada Lovelace-basierte Produkte vorgestellt: GeForce RTX 4080 12 GB, RTX 4080 16 GB und RTX 4090-Grafikkarten für Desktops, neben der RTX 6000 Ada-Generation für Workstations/Rechenzentren und L40 (Lovelace 40)-Boards für High- Endarbeitsplätze und virtualisierte Arbeitsplatzumgebungen.
In Anbetracht der Tatsache, dass das Unternehmen vollwertige AD102- und abgespeckte Versionen von AD102-, AD103- und AD104-GPUs anbieten kann, können wir uns eine große Anzahl neuer Karten der GeForce RTX 40-Serie für Client-Computer und Lösungen der Ada RTX-Serie für Rechenzentren vorstellen. In der Zwischenzeit bereitet Nvidia wahrscheinlich einige kleinere GPUs (AD106, AD107) vor, so dass es so aussieht, als würde die Ada Lovelace-Produktfamilie mindestens so breit sein wie die Ampere-Reihe.