Spricht über CPU- und GPU-Leistung sowie Effizienztrends, Chiplet-Packaging der nächsten Generation und mehr


AMD sprach über die Zukunft des Computing und legte während der seine CPU- und GPU-Trends in Bezug auf Effizienz und Leistung dar ISSCC 2023 Konferenz.

AMD richtet sein Augenmerk auf Zettascale für das nächste Jahrzehnt des Computing: Gespräche über fortschrittliches CPU/GPU-Packaging, Leistungs-/Effizienztrends und mehr

Die CEO von AMD, Dr. Lisa Su, betrat die Bühne und begann den Vortrag, indem sie die Fortschritte hervorhob, die in den letzten 10 Jahren erzielt wurden. Bei ISSCC 2013, sprach AMD über eine seiner frühesten HSA-APUs, Richland, die bis zu 1,3 Milliarden Transistoren, 4 Kerne, 4 Threads, einen monolithischen 32-nm-SOI-Prozess und 4 MB Gesamtcache aufwies. Spulen wir bis 2023 vor, und AMD bietet jetzt 90 Milliarden Transistoren, 96 Kerne, 192 Threads auf einem einzelnen Chip mit 13 Chiplets, die 5-nm- und 6-nm-Prozessknoten mit 386 MB Cache nutzen.

Das ist ein bedeutender Fortschritt, der in den letzten 10 Jahren erzielt wurde, und basierend auf den Leistungstrends des letzten Jahrzehnts hat die Branche die Mainstream-Serverleistung alle 2,4 Jahre um das Zweifache verbessert. Dasselbe gilt für GPUs, bei denen die Leistung etwa alle 2 Jahre um das Zweifache gesteigert wurde. Jetzt hat AMD mit dem Frontier-Supercomputer bereits als erstes Technologieunternehmen der Branche die Exascale-Grenze durchbrochen, sodass das nächste Ziel darin besteht, die noch härtere Zettascale-Marke zu erreichen.

Bei einer Leistungssteigerung von 2x alle 1,2 Jahre wird es etwas mehr als 10 Jahre dauern, bis Zettascale erreicht ist. Das bedeutet, dass alle derzeit verfügbaren Technologien genutzt werden, aber wenn es um Effizienz geht, handelt es sich nicht um eine linear fortschreitende Leistung. Gemäß den CPU- und GPU-Effizienztrends sehen wir allmählich eine Abflachung des Fortschritts, sodass das Erreichen der Zettascale-Leistung in den nächsten 10 Jahren oder so erreichbar sein wird, dies jedoch mit erheblichen Effizienzkosten verbunden sein wird.

amd-isscc-2023-cpu-gpu-performance-efficiency-trends-_-zettascale-computing-advanced-packaging-technologies-_5
amd-isscc-2023-cpu-gpu-performance-efficiency-trends-_-zettascale-computing-advanced-packaging-technologies-_6

Ein Zettascale-Level-System mit einem Wirkungsgrad von 2140 GF/Watt soll unter Verwendung der aktuellen architektonischen Fähigkeiten, die die moderne Welt zu bieten hat, rund 500 MW Strom verbrauchen. Zwei dieser Systeme werden ein echtes Kernkraftwerk mit einer Kapazität von 1000 MW oder 1 GW erfordern. Und das bei einem 2-fachen Effizienzwachstum alle 2,2 Jahre.

Man merkt also sofort, dass etwas Radikales passieren muss. Sogar die Logikdichte trägt dazu bei und es gibt auch einen damit verbundenen Kostenfaktor. Die Herstellung erstklassiger Chips bedeutet auch, dass die Leute viel mehr bezahlen werden als das, was sie der letzten Generation bezahlt haben. Darüber hinaus hat auch die E/A-Verbindung eine allgemeine Abflachung erfahren, wenn es um Energie pro Bit geht. Ein weiterer Faktor, der bei all dem eine Rolle spielt, ist der Speicher und die Speicherbandbreite. Da Datensätze größer werden, gibt es eine massive Nachfrage nach mehr Kapazitäten und Bandbreite, was auch zu einer höheren Leistung und auch zu höheren Kosten beiträgt.

AMD versucht, dieses Problem zu lösen, indem es die richtige Rechentechnologie für die richtige Arbeitslast einsetzt. Dr. Lisa Su sagt, dass der größte Hebel zur Lösung dieser Effizienzkrise der Einsatz fortschrittlicher Gehäusetechnologien war, die auf Chips wie dem Instinct MI250X und EPYC Genoa verwendet werden. Das Stapeln und Zusammenpacken von Chips trägt auch dazu bei, die relativen Bits/Joule-Kosten zu reduzieren. Bisher hat allein das fortschrittliche Packaging eine 50-fache Reduzierung der Kommunikationsleistung im Vergleich zu der Zeit bewirkt, als diese Chips alle eigenständig und weit voneinander entfernt waren.

Die nächste Entwicklung auf dieser Reise wird in Form des AMD Instinct MI300 kommen, der den Cache und den Fabric-Die unten und die CPU-/GPU-Kerne 3D Stacked darüber hat, zusammen mit einer 2,5D-Integration von Speicher und Interconnect-Fabric. Der AMD MI300-Beschleuniger verfügt außerdem über eine Unified Memory APU-Architektur der nächsten Generation, die es den CPU- und GPU-Kernen ermöglicht, denselben Speicherpool mit schnellem HBM-Speicher zu teilen.

AMD MI250 Accelerator (CDNA 2 kohärente Speicherarchitektur):

  • Vereinfacht die Programmierung
  • Weniger Overhead Infinity Interconnect der 3. Generation
  • Modulares Design nach Industriestandard

AMD MI300 Accelerator (CDNA 3 Unified Memory APU-Architektur):

  • Eliminiert redundante Speicherkopien
  • Kommunikation mit hoher Bandbreite und geringer Latenz
  • Niedrige Gesamtbetriebskosten mit einheitlichem Speicher-APU-Paket

Chips wie der MI300 werden AMD dabei helfen, sein 30×25-Ziel zu beschleunigen, das bis 2025 eine 30-fache Effizienzsteigerung liefern soll. Es gibt jedoch noch mehr, AMD spricht über zukünftige Gehäuse- und Chiplet-Architekturen, die eine noch engere Integration von Rechenleistung und Speicher mit etwa 0,2 aufweisen werden pj/bit- und PIM-Designs (Processing-In-Memory), die die Zugriffsenergie um bis zu 85 % reduzieren. AMD gibt auch bekannt, dass sie mit DARPA an optischen Kommunikationsmethoden für energieeffiziente große Reichweiten arbeiten.

Der Höhepunkt der Konferenz war ein Top-Level-Blockdiagramm einer zukünftigen System-in-Package-Architektur, die eine Schlüsselrolle beim Erreichen der Leistung von Zettascale spielen wird. Der Chip, den AMD zeigte, verfügt über ein fortschrittliches Packaging, um eine maximal effiziente Integration von Rechenelementen und Speicher zusammen mit einer Kommunikation auf Systemebene zu ermöglichen, die mit Low-Power- und High-Bandwidth-Optics erreicht wird.

Die APU-Architektur der nächsten Generation bietet eine Mischung aus fortschrittlichen 2D/2,5D/3D-Gehäusetechnologien mit einer Reihe von domänenspezifischen Beschleunigern, heterogenen Rechenkernen, Hochgeschwindigkeits-Chip-zu-Chip-Schnittstelle (UCIe), Co-Package Optics, Speicherschichten und mehr. Insgesamt können wir 13 Chiplets auf der obersten Ebene zusammenstellen, aber in der endgültigen Version, die wir in den kommenden Jahren sehen werden, könnten es definitiv noch mehr sein.

Insgesamt wird es AMD durch die Kombination all dieser Faktoren ermöglichen, ein beeindruckendes Zettascale-System mit 10.000 GFLOPs/Watt in einer Kapazität von 100 MW zu erreichen, was weit unter dem 500-MW-Design bestehender Technologien liegt. Wenn es um Chiplet- und Advanced-Packaging-Technologien geht, ist AMD zweifellos ein Branchenführer, und es sieht so aus, als ob das Unternehmen das erste sein könnte, das die Barriere der Zetta-Scale erreicht, genau wie sie es mit Exascale getan haben.

Teilen Sie diese Geschichte

Facebook

Twitter



source-99

Leave a Reply