AMDs Ryzen 9 7950X3D ist die schnellste Gaming-CPU der Welt, da AMD beschlossen hat, seine disruptive 3D-Chip-Stacking-Technologie auf Zen 4 zu bringen, aber seltsamerweise hat das Unternehmen keine Details über seinen neuen 3D-V-Cache der zweiten Generation preisgegeben in seinen Ryzen 7000X3D-Briefing-Materialien. Wir haben auf einer kürzlich stattgefundenen Tech-Konferenz zunächst einige Details gefunden, die wir in unseren Test aufgenommen haben, und jetzt hat AMD endlich einige unserer Folgefragen beantwortet und wichtige neue Details geteilt, darunter, dass das Chiplet im 7-nm-Prozess bleibt und jetzt einen hat Spitzenbandbreite von bis zu 2,5 TB/s, während der 3D-V-Cache der ersten Generation bei 2 TB/s lag (neben vielen anderen neuen Informationen). Wir haben auch neue Bilder und Diagramme des neuen 6-nm-E/A-Chips, den AMD für seine Ryzen 7000-Prozessoren verwendet.
AMD ist auf die zweite Generation seines 3D-V-Cache umgestiegen, und Intel hat keine konkurrierende Technologie. Das sichert AMD einen Sieg sowohl bei den besten CPUs für Spiele als auch bei bestimmten Rechenzentrumsanwendungen. Insgesamt ist die 3D-V-Cache-Technologie der zweiten Generation von AMD ein beeindruckender Fortschritt gegenüber der ersten Generation, da sie es dem Unternehmen ermöglicht, den jetzt ausgereiften und weniger teuren 7-nm-Prozessknoten zu nutzen, um die Leistung seiner hochmodernen 5-nm-Rechenleistung zu steigern sterben. Das neue Design stellt AMD dar, das den entscheidenden Vorteil Chiplet-basierter Designmethoden nutzt – unter Verwendung eines älteren und weniger teuren Prozessknotens in Verbindung mit teurer neuer Prozesstechnologie – in die dritte Dimension. Nun zu den nüchternen Details.
Zuerst eine schnelle Auffrischung auf hohem Niveau. Wie Sie oben sehen können, stapelt die 3D-V-Cache-Technologie von AMD ein zusätzliches L3-SRAM-Chiplet direkt in der Mitte des Compute-Die-Chiplets (CCD), um es von den wärmeerzeugenden Kernen zu isolieren. Dieser Cache erhöht die Kapazität des mit 3D V-Cache ausgestatteten Chiplets auf 96 MB und steigert so die Leistung für latenzempfindliche Apps wie Spiele. Wir haben die ausführlichen Details der ersten Generation dieser Technologie hier behandelt.
Wir haben neue Informationen zur Implementierung der zweiten Generation sowohl direkt von AMD als auch von der 2023 International Solid-State Circuits Conference (ISSCC) erhalten, auf der AMD eine Präsentation über die Zen 4-Architektur hielt.
AMDs 3D-V-Cache der vorherigen Generation verwendete ein 7-nm-L3-SRAM-Chiplet, das auf einem 7-nm-Zen-3-CCD gestapelt war. AMD blieb beim 7-nm-Prozess für das neue L3-SRAM-Chiplet, stapelt es aber jetzt auf einem kleineren 5-nm-Zen-4-CCD (siehe Tabelle unten). Dies führt jedoch zu einer Größenabweichung, die einige Änderungen erforderte.
Zeile 0 – Zelle 0 | 7-nm-3D-V-Cache-Die der 2. Generation | 7-nm-3D-V-Cache-Die der ersten Generation | 5-nm-Zen-4-Core-Complex-Chip (CCD) | 7-nm-Zen-3-Core-Complex-Chip (CCD) |
Größe | 36mm^2 | 41mm^2 | 66,3 mm^2 | 80,7 mm^2 |
Transistorzähler | ~4,7 Milliarden | 4,7 Milliarden | 6,57 Milliarden | 4,15 Milliarden |
MTr/mm^2 (Transistordichte) | ~130,6 Millionen | ~114,6 Millionen | ~99 Millionen | ~51,4 Millionen |
Erstens hat AMD den 7-nm-SRAM-Die kleiner gemacht, sodass er jetzt 36 mm2 misst, verglichen mit 41 mm2 der vorherigen Generation. Die Gesamtzahl der Transistoren bleibt jedoch mit ~4,7 Milliarden gleich, sodass der neue Chip deutlich dichter ist als das Chiplet der ersten Generation.
Wie wir beim SRAM-Chiplet der ersten Generation gesehen haben, ist dies eine unglaubliche Transistordichte für das 7-nm-Chiplet – wir sehen fast die dreifache Dichte des 7-nm-Rechenchiplets der ersten Generation, und überraschenderweise ist das 7-nm-SRAM-Chiplet deutlich dichter als das 5-nm-Rechenchiplet. Das liegt daran, dass das Chiplet nach wie vor eine dichteoptimierte Version von 7nm verwendet, die auf SRAM spezialisiert ist. Es fehlt auch die typische Steuerschaltung, die im Cache zu finden ist – diese Schaltung befindet sich auf dem Basis-Die, was auch dazu beiträgt, den Latenz-Overhead zu reduzieren. Im Gegensatz dazu enthält der 5-nm-Die mehrere Arten von Transistoren zusammen mit Datenpfaden und anderen Arten von Strukturen, die im vereinfachten L3-SRAM-Chiplet nicht vorhanden sind.
Wie zuvor wiegt die zusätzliche Latenz des zusätzlichen L3-SRAM-Cache 4 Takte, aber die Bandbreite zwischen dem L3-Chiplet und dem Basis-Die ist auf 2,5 TB/s gestiegen, eine Verbesserung von 25 % gegenüber dem vorherigen Spitzenwert von 2 TB/s.
Das gestapelte L3-SRAM-Chiplet ist über zwei Arten von Through-Silicon-Vias (TSVs – eine vertikale elektrische Verbindung) mit dem Basis-Die verbunden. Die Power-TSVs übertragen Strom zwischen den Chiplets, während die Signal-TSVs Daten zwischen den Einheiten übertragen.
Im Design der ersten Generation befanden sich beide TSV-Typen in der L3-Region des Basis-Chiplets. Der L3-Cache auf dem Basis-Die ist jetzt jedoch aufgrund der erhöhten Dichte des 5-nm-Prozesses kleiner, und obwohl das 7-nm-L3-SRAM-Chiplet kleiner ist, überlappt es jetzt den L2-Cache (die vorherige Generation überlappte nur den L3 auf der Basis sterben). Daher musste AMD die TSV-Verbindungen sowohl im Basischip als auch im L3-SRAM-Chiplet ändern.
Aufgrund der erhöhten Dichte des 5-nm-L3-Cache auf dem Basis-Die musste AMD die Power-TSVs von L3 in die L2-Region erweitern. Für den Basis-Die erreichte AMD eine 0,68-fache effektive Flächenskalierung über den L3-Cache, die Datenpfade und die Steuerlogik im Vergleich zum alten 7-nm-Basis-Chiplet, sodass im L3-Cache physisch weniger Platz für TSVs vorhanden ist.
Die Signal-TSVs verbleiben im L3-Cache-Bereich auf dem Basis-Die, aber AMD hat den TSV-Bereich im L3-Cache um 50 % verkleinert, indem Erkenntnisse aus dem Design der ersten Generation zusammen mit DTCO-Verbesserungen angewendet wurden, um den Overhead-Schaltkreis im neuen Schnittstellendesign zu reduzieren.
Die 3D-Chip-Stacking-Technologie von AMD basiert auf Die SoIC-Technologie von TSMC. Das SoIC von TSMC ist stoßfrei, was bedeutet, dass es keine Mikrohöcker oder Lötmittel verwendet, um die beiden Chips zu verbinden. Hier können Sie viel mehr über das hybride Klebe- und Herstellungsverfahren lesen. AMD teilt uns mit, dass es denselben grundlegenden Bonding-Prozess verwendet hat, gepaart mit kontinuierlichen Prozess- und DTCO-Verbesserungen, aber der minimale TSV-Abstand hat sich nicht geändert.
Toms Hardware-Messungen | Single-Threaded-Peak | Multi-Threaded aufrechterhalten | Spannung (Spitze) | nT-Leistung |
CCD 0 (3D-V-Cache) | 5,25 GHz | 4,85 GHz | 1.152 | 86 W |
CCD 1 (Kein zusätzlicher Cache) | 5,75 GHz | 5,3 GHz | 1.384 | 140 W |
Das L3-SRAM-Chiplet bleibt auch im selben Leistungsbereich wie die CPU-Kerne, sodass sie nicht unabhängig voneinander angepasst werden können. Dies trägt zur niedrigeren Frequenz des mit Cache ausgestatteten Chiplets bei, da die Spannung ~1,15 V nicht überschreiten darf. Hier können Sie unsere ausführlichen Tests der beiden verschiedenen Arten von Chiplets einsehen.
Zeile 0 – Zelle 0 | 6-nm-I/O-Chip (IOD) – Ryzen 7000 | 12-nm-I/O-Chip (IOD) – Ryzen 5000 | 6-nm-I/O-Chip (IOD) – EPYC |
Größe | 117,8 mm^2 | 125 mm^2 | 386,88 mm^2 |
Transistorzähler | 3,37 Milliarden | 2,09 Milliarden | 11 Milliarden |
MTr/mm^2 (Transistordichte) | ~28,6 Millionen | ~16,7 Millionen | ~29,8 Millionen |
Die ISSCC-Präsentation von AMD enthielt auch viele neue Details zu den 6-nm-I/O-Dies (IOD), die in den Prozessoren Ryzen 7000 und EPYC Genoa verwendet werden. Im obigen Album sehen Sie die vergrößerten Bilder und einen kommentierten Die Shot von Chip Detective @Locuza_. Sie können auch den folgenden Tweet erweitern, um Locuzas hervorragende Analyse des Ryzen 7000 IOD zu lesen.
Wir haben die Spezifikationen zum einfachen Vergleich in die Tabelle aufgenommen, und wie Sie sehen können, ist der EPYC Genoa I/O Die im Vergleich zur Ryzen 7000-Variante einfach riesig – das liegt daran, dass AMD bis zu 12 Compute-Chiplets (CCDs) mit dem I verbinden kann /O Die für seine EPYC Genua-Prozessoren.
Im Gegensatz dazu sind die Consumer-Chips auf zwei Chiplets beschränkt, eine unveränderliche Einschränkung, da, wie Sie in Locuzas Diagramm sehen können, der Ryzen 7000 I/O Die nur zwei Global Memory Interconnect 2 (GMI2)-Links hat, die die Compute-Chiplets mit dem verbinden IOD. Das ist schade – die Genoa-Modelle mit niedrigerer Kernzahl und vier CCDs können Dual-GMI3-Links (Wide-Modus) haben, eine neue Fähigkeit, die bei einigen speicherdurchsatzintensiven Aufgaben Vorteile bieten kann. Das wäre interessant gewesen, um die Consumer-Chips hinzuzufügen.
Wir haben auch das vollständige ISSCC 2022-Deck unten für Sie hinzugefügt – es enthält ein paar andere interessante Leckerbissen.
Zen 4 Raphael 6-nm-Client-E/A-Die: – 128b DDR5 PHY + 32b für ECC (8b pro 32b-Kanal) – 2x GMI3-Ports, 3x CCDs sind nicht möglich. :p- 28x PCIe 5, Zen1/2/3 cIOD hatte 32x PCIe-Lanes. AMD reduzierte also die Verschwendung für den Kundenmarkt. – Wirklich nur ein RDNA2 WGP, 128 Shader “Kerne” https://t.co/bkqdVvhgrn pic.twitter.com/erYxTw1p8h4. März 2023