Auf der Hot Chips 2023 stellte Intel die ersten detaillierten Details seiner künftigen Xeon Sierra Forest- und Granite Rapids-Prozessoren mit 144 Kernen vor, wobei Ersterer aus den neuen Sierra Glen E-Kernen von Intel besteht, während Letzterer die neuen Redwood Cove P-Kerne verwendet . Die kommenden Xeon-Chips der nächsten Generation werden in der ersten Hälfte des nächsten Jahres mit einer neuen kachelbasierten Architektur auf den Markt kommen, die über zwei I/O-Chiplets auf dem „Intel 7“-Prozess gepaart mit unterschiedlichen Konfigurationen von Rechenkernen auf dem „Intel 3“-Prozessor verfügt. Verfahren. Dieses Design ermöglicht es Intel, mehrere Produkte auf Basis unterschiedlicher Kerntypen zu entwickeln und dabei die gleiche zugrunde liegende Konfiguration beizubehalten.
Sierra Forest und Granite Rapids integrieren sich in die Birch Stream-Plattform mit Sockel-, Speicher-, Firmware- und I/O-Kompatibilität und bieten einen optimierten Hardware-Validierungsprozess. Sie sind außerdem mit denselben Software-Stacks kompatibel, sodass Kunden je nach Bedarf einen der Chips verwenden können.
Intel behauptet, dass das E-Core-basierte Design des Xeon Sierra Forest der nächsten Generation eine bis zu 2,5-mal bessere Rackdichte und eine 2,4-mal höhere Leistung pro Watt als seine Xeon-Chips der vierten Generation bieten wird, während die Granite Rapids mit P-Core-Antrieb 2 bieten werden bis zum Dreifachen der Leistung bei gemischten KI-Workloads, was teilweise auf eine „bis zu“ 2,8-fache Verbesserung der Speicherbandbreite zurückzuführen ist. Lass uns eintauchen.
Sierra Forest und Granite Rapids Architektur
Intel ist mit seinen Xeon Sapphire Rapids-Prozessoren der vierten Generation zunächst zu einer kachelbasierten (Chiplet-ähnlichen) Architektur übergegangen, doch Sierra Forest und Granite Rapids bringen eine neue Ebene der Disaggregation in den Ansatz.
Intel verwendete bei Sapphire Rapids ein Vier-Chip-Design, wobei jeder Chip einen Teil der relevanten I/O-Funktionen wie Speicher und PCIe-Controller enthielt. Die neuen Prozessoren verteilen einige I/O-Funktionen vollständig auf zwei separate HSIO-Chiplets, die auf dem Intel 7-Prozess basieren, was das beste Gleichgewicht zwischen Kosten, Leistung und Leistung für I/O bietet, während die CPU-Kerne und Speichercontroller eigenständig untergebracht sind dedizierte Rechenchiplets.
Die beiden HSIO-Chips werden oben und unten im Chipgehäuse platziert, mit ein bis drei Rechenchips in der Mitte, alle miteinander verbunden durch eine nicht spezifizierte Anzahl von EMIB-Verbindungen (Embedded Multi-Die Interconnect Bridge), die im Substrat verschmolzen und miteinander verbunden sind eine Die-zu-Die-Verbindung an jedem Ende der Brücke.
Die Rechenkacheln werden entweder Redwood Cove P-Kerne (Performance-Kerne) für Granite Rapids oder Sierra Glen E-Kerne für Sierra Forest verwenden – Intel wird keine Modelle mit beiden Kerntypen im selben Paket anbieten. Die Rechenchiplets sind mit dem EUV-fähigen Intel 3-Prozess ausgestattet, der über hochdichte Bibliotheken verfügt, die im Intel 4-Prozess nicht enthalten waren. Intel hat die Veröffentlichung seiner Granite Rapids
Granite Rapids ist das, was wir als traditionellen Xeon-Rechenzentrumsprozessor wahrnehmen würden – diese Modelle sind ausschließlich mit P-Kernen ausgestattet, die die volle Leistung der schnellsten Architekturen von Intel liefern können. Jeder P-Core verfügt über 2 MB L2-Cache und 4 MB L3. Intel hat die Anzahl der Kerne für Granite Rapids noch nicht bekannt gegeben, hat jedoch verraten, dass die Plattform einen bis acht Sockel in einem einzelnen Server unterstützt.
Unterdessen besteht die E-Core-Reihe (Efficiency Core) von Sierra Forest aus Chips mit nur kleineren Effizienzkernen, ähnlich wie wir es bei Intels Alder- und Raptor-Lake-Chips sehen, was sie gut positioniert, um mit den Arm-Prozessoren zu konkurrieren, die in den Daten immer häufiger auftreten Center. Die E-Kerne sind entweder in Zwei- oder Vier-Kern-Clustern angeordnet, die sich einen 4 MB großen L2-Cache-Slice und 3 MB L3-Cache teilen. Die mit E-Core ausgestatteten Prozessoren verfügen über bis zu 144 Kerne und sind auf höchste Energieeffizienz, Flächeneffizienz und Leistungsdichte optimiert. Bei den Modellen mit hoher Kernanzahl verfügt jedes E-Core-Rechenchiplet über 48 Kerne. Sierra Forest kann in Einzel- und Doppelsockelsysteme integriert werden und hat eine TDP von „nur“ 200 W.
Unabhängig vom Kerntyp enthält jeder Rechenchip die Kerne, den L2- und L3-Cache sowie den Fabric- und Caching-Home-Agent (CHA). Sie beherbergen außerdem DDR5-6400-Speichercontroller an jedem Ende des Chips mit insgesamt bis zu 12 Kanälen (1DPC oder 2DPC) entweder mit Standard-DDR-Speicher oder dem neuen MCR-Speicher, der 30–40 % mehr Speicherbandbreite als Standard-DIMMs bietet.
Wie Sie oben sehen können, werden die Rechenchiplets je nach Modell in unterschiedlichen Größen erhältlich sein, wobei Produkte mit einem Rechenchip über einen größeren Rechencluster verfügen. Intel wird auch die Anzahl der Speicherkanäle pro Rechenchiplet variieren – hier sehen wir drei Speichercontroller am Produkt mit einem einzelnen Rechenchiplet, während Designs mit zwei oder mehr Rechenchiplets jeweils zwei Speichercontroller haben. Die Entscheidung von Intel, seine Speichercontroller eng in das Rechenchiplet zu integrieren, sollte bei einigen Workloads zu einer besseren Speicherleistung im Vergleich zu AMDs EPYC-Designs führen, die alle Speichercontroller auf einem zentralen I/O-Chip verwenden, was zu erhöhter Latenz und Konfliktpunkten führt.
Die Rechenchips teilen ihren L3-Cache mit allen anderen Kernen in einem von Intel als „logisch monolithisches Netz“ bezeichneten Netz. Sie können jedoch auch in Sub-NUMA-Cluster partitioniert werden, um die Latenz für bestimmte Arbeitslasten zu optimieren. Das Mesh verbindet die L3-Cache-Slices zu einem einheitlichen gemeinsamen Cache, der insgesamt über ein halbes Gigabyte Gesamtkapazität haben kann – fast fünfmal größer als Sapphire Rapids. Jede Chip-Grenze unterstützt eine Bandbreite von über einem TB/s zwischen den Chips.
Zusammen unterstützen die beiden HSIO-Chips bis zu 136 Lanes von PCIe 5.0/CXL 2.0 (Geräte vom Typ 1, 2 und 3), bis zu 6 UPI-Links (144 Lanes) sowie Komprimierungs-, Kryptografie- und Datenstreaming-Beschleuniger in ähnlicher Weise Mode zu den Beschleunigungsmotoren von Sapphire Rapids. Jeder HSIO-Chip verfügt außerdem über eine Leistungssteuerungsschaltung, die die Rechenchiplets verwaltet. Allerdings verfügt jeder Rechenchiplet auch über eine eigene Leistungssteuerung, die bei Bedarf unabhängig arbeiten kann. Intel hat nun auf die Notwendigkeit eines Chipsatzes (PCH) verzichtet und ermöglicht so, dass die Prozessoren ähnlich wie die EPYC-Prozessoren von AMD selbststarten können.
Intel Sierra Glen E-Core-Mikroarchitektur
Die Mikroarchitektur von Sierra Glen ist für die beste Effizienz bei Arbeitslasten mit skalarem Durchsatz optimiert, z. B. in Scale-out-, Cloud-nativen und Container-Umgebungen. Die Architektur umfasst entweder Zwei- oder Vier-Kern-Cluster, sodass Intel bestimmte Modelle mit einer höheren L2-Cache-Kapazität pro Kern und mehr Leistung pro Kern anbieten kann (durch höhere Leistungsabgabe für Zwei-Kern-Module). Jeder Kerncluster befindet sich in derselben Takt- und Spannungsdomäne. Die E-Core-Cluster teilen sich einen 4 MB großen L2-Cache-Slice und 3 MB gemeinsamen L3-Cache.
Wie bei früheren Generationen ist jeder E-Kern Single-Threaded. Intel hat außerdem den L1-Cache auf 64 KB verdoppelt und verwendet eine 6-weite Dekodier-Engine (zwei 3-weite zur Verbesserung der Latenz und des Stromverbrauchs), eine 5-weite Zuweisung und eine 8-weite Retire. Die Sierra Glen-Kerne unterstützen weder AMX noch AVX-512, sie verlassen sich stattdessen auf AVX10, aber Intel hat Unterstützung für BF16, FP16, AVX-IFMA und AVX-DOT-PROD-INT8 hinzugefügt.
Intel Redwood Cove P-Core-Mikroarchitektur
Die Redwood Cove-Architektur für die P-Cores unterstützt jetzt AMX mit FP16-Beschleunigung, eine wichtige Ergänzung, die die Leistung bei KI-Inferenz-Workloads steigern wird. Intel hat außerdem die Kapazität des L1-Befehlscache auf 64 KB verdoppelt, um codeintensive Rechenzentrums-Workloads besser bewältigen zu können. Redwood Cove verwendet außerdem softwareoptimierte Vorabrufe sowie eine verbesserte Engine zur Verzweigungsvorhersage und Fehlwiederherstellung. Intel verbesserte außerdem die Gleitkommaleistung durch die Umstellung von 4- und 5-Zyklen-FP-Operationen auf 3 Zyklen, was den IPC steigert.
Intel Xeon-Roadmap
Eine gute Nachricht für Intel ist, dass die Rechenzentrums-Roadmap des Unternehmens weiterhin auf Kurs ist. Sierra Forest wird im ersten Halbjahr 2024 auf den Markt kommen, Granite Rapids folgt kurz darauf.
Zeile 0 – Zelle 0 | 2023 | 2024 | 2025 |
Intel P-Cores | Emerald Rapids – Intel 7 | Sapphire Rapids HBM | Granite Rapids – Intel 3 | Zeile 1 – Zelle 3 |
AMD P-Cores | 5 nm Genua-X | Turin – Zen 5 | — |
Intel E-Cores | — | 1H – Sierra Forest – Intel 3 | Clearwater Forest – Intel 18A |
AMD E-Cores | 1H – Bergamo – 5 nm – 128 Kerne | — | — |
Hier können wir sehen, wie die Roadmap von Intel neben der Rechenzentrums-Roadmap von AMD aussieht. Der aktuelle Hochleistungskampf zwischen AMDs EPYC Genoa, der letztes Jahr auf den Markt kam, und Intels Sapphire Rapids, der Anfang dieses Jahres auf den Markt kam, tobt weiter. Intel bringt im vierten Quartal dieses Jahres seine Emerald Rapids-Refresh-Generation auf den Markt, die nach Angaben des Unternehmens mit mehr Kernen und schnelleren Taktraten ausgestattet sein wird, und hat bereits seine HBM-infundierten Xeon Max-CPUs auf den Markt gebracht. AMD hat kürzlich seine 5-nm-Genoa-X-Produkte veröffentlicht. Nächstes Jahr werden Intels Granite Rapids der nächsten Generation mit AMDs Turin konkurrieren.
Im Hinblick auf die Effizienz verfolgt Bergamo von AMD einen sehr ähnlichen kernlastigen Ansatz wie Sierra Forest, indem es die dichten Zen 4c-Kerne von AMD nutzt. Bergamo ist bereits auf dem Markt, während Intels Sierra Forrest erst in der ersten Hälfte des Jahres 2024 auf den Markt kommen wird. AMDs EPYC-Turin-Chips der 5. Generation kommen vor Ende 2024 auf den Markt, das Unternehmen hat jedoch noch keine Vorstellung seines Zen 4c-Modells der zweiten Generation gemacht . Intel hat jetzt seinen E-Core-betriebenen Clearwater Forest der zweiten Generation auf der Roadmap für 2025.