Für die Computex 2023 gab Intel neue Details zu seinem neuen KI-fokussierten VPU-Silizium bekannt, das in den neuen Meteor-Lake-Chips des Unternehmens erstmals zum Einsatz kommen wird. Das Unternehmen erläuterte außerdem seine Bemühungen, das KI-Ökosystem für seine kommenden Meteor-Lake-Chips zu ermöglichen. Intel plant, bis Ende des Jahres die Meteor-Lake-Prozessoren auf den Markt zu bringen. Dabei handelt es sich um die ersten Prozessoren, die ein gemischtes Chiplet-basiertes Design verwenden, das Intel- und TSMC-Technologie in einem Paket vereint. Die Chips werden zuerst in Laptops landen und sich auf Energieeffizienz und Leistung bei lokalen KI-Workloads konzentrieren, aber verschiedene Versionen des Designs werden auch auf Desktop-PCs verfügbar sein.
Sowohl Apple als auch AMD haben mit leistungsstarken KI-Beschleunigungs-Engines, die direkt in ihre Chips integriert sind, bereits Fortschritte gemacht, und Microsoft war auch damit beschäftigt, Windows mit neuen Funktionen auszustatten, um benutzerdefinierte KI-Beschleunigungs-Engines zu nutzen. Nach Ankündigungen von Intel, AMD und Microsoft letzte Woche über das kommende Zeitalter der KI für PCs befasste sich Intel eingehender mit der Frage, wie es die aufkommende Klasse von KI-Workloads mit eigenen benutzerdefinierten Beschleunigungsblöcken auf seinen Consumer-PC-Chips bewältigen wird.
Intel hat ein paar neue Renderings der Meteor-Lake-Chips geteilt, und wir haben bereits während der Hot Chips 2022 über das gesamte Hardware-Design berichtet. Diese Chips werden die ersten sein, die den Intel 4-Prozessknoten und eine Reihe von TSMC-gefertigten Chiplets auf dem N5 und nutzen N6-Prozesse für andere Funktionen, wie die GPU- und SoC-Kacheln. Hier sehen wir, dass der Chip in vier Einheiten aufgeteilt ist, wobei eine CPU, eine GPU, ein SoC/VPU und eine I/O-Kachel mithilfe der 3D-Foveros-Verpackungstechnik von Intel vertikal auf einem Interposer gestapelt sind. Am Ende des Artikels haben wir außerdem eine weitere Folie mit detaillierteren Architekturdetails von der Hot-Chips-Konferenz eingefügt.
Der Fokus liegt hier auf der VPU-Einheit, aber lassen Sie sich nicht vom ersten Bild, bei dem es sich um die vereinfachte Illustration von Intel für die heutige Ankündigung handelt, in die Irre führen – die gesamte Kachel ist nicht der VPU gewidmet. Stattdessen handelt es sich um eine SoC-Kachel mit verschiedenen anderen Funktionen, wie I/O, VPU, GNA-Kernen, Speichercontrollern und anderen Funktionen. Diese Kachel basiert auf dem N6-Prozess von TSMC, verfügt jedoch über die Intel SoC-Architektur und die VPU-Kerne. Die VPU-Einheit verbraucht nicht die gesamte Die-Fläche, was gut ist – das würde bedeuten, dass Intel fast 30 % seiner Die-Fläche für eine Einheit verwendet, die zumindest zunächst nicht häufig verwendet wird. Wie wir weiter unten erläutern werden, wird es jedoch einige Zeit dauern, bis Entwickler das Anwendungsökosystem bereitstellen, das für die vollständige Nutzung der VPU-Kerne erforderlich ist.
Im obigen Album habe ich ein Bild von Intels Hot-Chips-Präsentation eingefügt, das die offizielle grafische Darstellung des Unternehmens der Funktionen auf dem I/O-Chip bietet. Ich habe auch eine Folie mit der Aufschrift „Abb.“ beigefügt. 8.’ Dieses Blockdiagramm stammt aus einem Intel-Patent, von dem allgemein angenommen wird, dass es das Meteor-Lake-Design skizziert, und es stimmt im Allgemeinen mit dem überein, was wir bereits über den Chip gelernt haben.
Intel wird weiterhin den stromsparenden KI-Beschleunigungsblock Gaussian Neural Acceleration integrieren, der bereits auf seinen Chips vorhanden ist und auf der SoC-Kachel im Diagramm mit „GNA 3.5“ gekennzeichnet ist (mehr dazu weiter unten). Sie können auch den „VPU 2.7“-Block erkennen, der den neuen Movidius-basierten VPU-Block umfasst.
Wie Intels stilisierte Darstellung ist auch das Patentbild nur eine grafische Darstellung ohne wirklichen Zusammenhang mit der tatsächlichen physischen Größe der Chips. Es ist leicht zu erkennen, dass die VPU-Kerne bei so vielen externen Schnittstellen wie Speichercontrollern, PCIe, USB und SATA, ganz zu schweigen von den Medien- und Anzeige-Engines und der Energieverwaltung, einfach nicht viel der Chipfläche beanspruchen können die SoC-Kachel. Derzeit ist nicht bekannt, wie viel Chipfläche Intel dieser Engine gewidmet hat.
Intel Meteor Lake Tile/Chiplet | Hersteller / Knoten |
CPU-Kachel | Intel / „Intel 4“ |
3D-Foveros-Basisstanze | Intel / 22FFL (Intel 16) |
GPU-Kachel (tGPU) | TSMC / N5 (5 nm) |
SoC-Kachel | TSMC / N6 (6 nm) |
IOE-Kachel | TSMC / N6 (6 nm) |
Die VPU ist für nachhaltige KI-Arbeitslasten konzipiert, Meteor Lake umfasst jedoch auch eine CPU, eine GPU und eine GNA-Engine, die verschiedene KI-Arbeitslasten ausführen kann. Laut Intel ist die VPU hauptsächlich für Hintergrundaufgaben gedacht, während die GPU für schwerere parallelisierte Arbeiten einspringt. In der Zwischenzeit erledigt die CPU leichte Inferenzarbeiten mit geringer Latenz. Einige KI-Workloads können auch gleichzeitig auf der VPU und der GPU ausgeführt werden, und Intel hat Mechanismen aktiviert, die es Entwicklern ermöglichen, die verschiedenen Rechenschichten entsprechend den Anforderungen der jeweiligen Anwendung gezielt auszuwählen. Dies führt letztendlich zu einer höheren Leistung bei geringerem Stromverbrauch – ein wichtiges Ziel der Verwendung der KI-Beschleunigungs-VPU.
Intels Chips nutzen derzeit den GNA-Block für KI-Inferenz mit geringem Stromverbrauch für Audio- und Videoverarbeitungsfunktionen, und die GNA-Einheit bleibt auf Meteor Lake. Intel sagt jedoch, dass es bereits einen Teil des GNA-fokussierten Codes auf der VPU ausführt und bessere Ergebnisse erzielt, was die starke Schlussfolgerung nahelegt, dass Intel mit zukünftigen Chips vollständig auf die VPU umsteigen und die GNA-Engine entfernen wird.
Intel gab außerdem bekannt, dass Meteor Lake über eine kohärente Struktur verfügt, die ein einheitliches Speichersubsystem ermöglicht, was bedeutet, dass Daten problemlos zwischen den Rechenelementen ausgetauscht werden können. Hierbei handelt es sich um eine Schlüsselfunktion, deren Konzept dem anderer Konkurrenten im Bereich der CPU-KI ähnelt, etwa Apple mit seiner M-Serie und AMDs Ryzen 7040-Chips.
Hier sehen wir Intels Slideware, die seine Bemühungen zur Ermöglichung des riesigen Software- und Betriebssystem-Ökosystems beschreibt, das dabei helfen wird, KI-beschleunigte Anwendungen auf den PC zu bringen. Intel behauptet, dass das Unternehmen über die nötige Marktpräsenz und Größe verfügt, um KI in den Mainstream zu bringen, und verweist auf seine gemeinsamen Bemühungen, die die Unterstützung seiner x86-Hybridprozessoren Alder und Raptor Lake für Windows, Linux und das breitere ISV-Ökosystem ermöglicht haben.
Die Branche wird vor ähnlichen Herausforderungen stehen, wenn es darum geht, KI-Beschleunigung in moderne Betriebssysteme und Anwendungen zu bringen. Die Möglichkeit, KI-Workloads lokal auszuführen, ist jedoch nicht viel wert, wenn Entwickler die Funktionen aufgrund schwieriger proprietärer Implementierungen nicht unterstützen. Der Schlüssel zur einfachen Unterstützung lokaler KI-Workloads sind die DirectML DirectX 12-Beschleunigungsbibliotheken für maschinelles Lernen, ein von Microsoft und AMD vertretener Ansatz. Intels VPU unterstützt DIrectML, aber auch ONNX und OpenVINO, was laut Intel eine bessere Leistung auf seinem Silizium bietet. ONNX und OpenVINO erfordern jedoch eine gezieltere Entwicklungsarbeit der Softwareentwickler, um die größtmögliche Leistung zu erzielen.
Viele der anspruchsvolleren KI-Arbeitslasten von heute, etwa große Sprachmodelle wie ChatGPT und dergleichen, erfordern eine hohe Rechenleistung, die weiterhin in Rechenzentren ausgeführt wird. Intel behauptet jedoch, dass dies Bedenken hinsichtlich der Latenz und des Datenschutzes aufwirft, ganz zu schweigen von den zusätzlichen Kosten. Einige KI-Anwendungen wie Audio-, Video- und Bildverarbeitung können lokal auf dem PC ausgeführt werden, was laut Intel die Latenz, den Datenschutz und die Kosten verbessert.
Intel weist auf eine Reihe verschiedener Workloads hin, die von der lokalen KI-Beschleunigung profitieren können, einschließlich Video- und Audioverarbeitung in Echtzeit und Echtzeit-Bewegungserfassung für die Unreal Engine. Intel demonstrierte außerdem Stable Diffusion, das gleichzeitig auf der GPU und VPU von Meteor Lake läuft, und Super-Resolution, das nur auf der VPU läuft. Allerdings bietet uns die Demo keinen Anhaltspunkt für die Leistung, sodass wir die relative Leistung im Vergleich zu anderen Lösungen nicht bestätigen können. Darüber hinaus können nicht alle Stable Diffusion-Modelle lokal auf dem Prozessor ausgeführt werden – sie benötigen eine diskrete GPU-Beschleunigung.
Eine Vielzahl gängiger Anwendungen unterstützen derzeit irgendeine Form der lokalen KI-Beschleunigung, die Auswahl ist jedoch immer noch recht begrenzt. Die kontinuierliche Entwicklungsarbeit von Intel und der gesamten Branche wird jedoch dazu führen, dass die KI-Beschleunigung mit der Zeit immer häufiger zum Einsatz kommt.
Hier sind einige Folien mit weiteren architektonischen Details aus der Hot-Chips-Präsentation. Intel sagt, dass die Veröffentlichung von Meteor Lake noch in diesem Jahr geplant ist, aber zuerst auf Laptops erscheinen wird.
Alle Anzeichen deuten derzeit darauf hin, dass die Meteor-Lake-Desktop-PC-Chips auf vergleichsweise preisgünstige Core i3- und Core i5-Modelle beschränkt sind, die für konservative 35-W- und 65-W-Leistungsbereiche ausgelegt sind. Intel hat jedoch noch keine formelle Ankündigung gemacht. Wir gehen davon aus, mehr zu erfahren, wenn der Start später in diesem Jahr näher rückt.