Optimiert für Xeon- und Core-Ultra-CPUs, Arc-GPUs und Gaudi-Beschleuniger


Warum es wichtig ist: Im Rahmen seiner Mission, KI überallhin zu bringen, investiert Intel in das Software- und KI-Ökosystem, um sicherzustellen, dass seine Produkte für die neuesten Innovationen im dynamischen KI-Bereich bereit sind. Im Rechenzentrum bieten Gaudi- und Xeon-Prozessoren mit Advanced Matrix Extension (AMX)-Beschleunigung den Kunden die Möglichkeit, dynamische und vielfältige Anforderungen zu erfüllen.

Intel Core Ultra-Prozessoren und Arc-Grafikprodukte bieten sowohl ein lokales Entwicklungsvehikel als auch die Bereitstellung auf Millionen von Geräten mit Unterstützung für umfassende Software-Frameworks und Tools, einschließlich PyTorch und Intel Extension für PyTorch für lokale Forschung und Entwicklung sowie OpenVINO-Toolkit für Modellentwicklung und Inferenz .

Über das auf Intel laufende Llama 3: Intels erste Test- und Leistungsergebnisse für die Modelle Llama 3 8B und 70B nutzen Open-Source-Software, einschließlich PyTorch, DeepSpeed, Optimum Habana-Bibliothek und Intel Extension für PyTorch, um die neuesten Softwareoptimierungen bereitzustellen.

  • Intel Gaudi 2-Beschleuniger haben die Leistung der Llama 2-Modelle optimiert – Parameter 7B, 13B und 70B – und verfügen nun über erste Leistungsmessungen für das neue Llama 3-Modell. Mit der Reife der Gaudi-Software konnte Intel das neue Llama 3-Modell problemlos ausführen und Ergebnisse für Schlussfolgerungen und Feinabstimmungen generieren. Llama 3 wird auch vom kürzlich angekündigten Gaudi 3-Beschleuniger unterstützt.
  • Intel Xeon-Prozessoren bewältigen anspruchsvolle End-to-End-KI-Workloads, und Intel investiert in die Optimierung der LLM-Ergebnisse, um die Latenz zu reduzieren. Xeon 6-Prozessoren mit Performance-Kernen (Codename Granite Rapids) zeigen eine zweifache Verbesserung der Inferenzlatenz von Llama 3 8B im Vergleich zu Xeon-Prozessoren der 4. Generation und die Möglichkeit, größere Sprachmodelle wie Llama 3 70B mit weniger als 100 ms pro generiertem Token auszuführen.
  • Intel Core Ultra und Arc Graphics liefern eine beeindruckende Leistung für Llama 3. In einer ersten Testrunde erzielen Core Ultra-Prozessoren bereits schnellere Lesegeschwindigkeiten als typische menschliche Lesegeschwindigkeiten. Darüber hinaus verfügt die Arc A770-GPU über Xe Matrix eXtensions (XMX) KI-Beschleunigung und 16 GB dedizierter Speicher sorgen für außergewöhnliche Leistung für LLM-Workloads.

Skalierbare Xeon-Prozessoren

Intel hat die LLM-Inferenz für Xeon-Plattformen kontinuierlich optimiert. Im Vergleich zum Llama 2-Start wurden beispielsweise Softwareverbesserungen in PyTorch und Intel Extension für PyTorch vorgenommen, die eine 5-fache Latenzreduzierung ermöglichen. Die Optimierung nutzt ausgelagerte Aufmerksamkeit und Tensorparallelität, um die verfügbare Rechenauslastung und Speicherbandbreite zu maximieren. Abbildung 1 zeigt die Leistung der Meta Llama 3 8B-Inferenz auf der AWS m7i.metal-48x-Instanz, die auf einem skalierbaren Xeon-Prozessor der 4. Generation basiert.

llama3-xeon-performance-chart2
llama3-aws-performance-chart1

Wir haben Meta Llama 3 auf einem Xeon 6-Prozessor mit Performance-Kernen (früher Codename Granite Rapids) verglichen, um eine Vorschau auf die Leistung zu geben. Diese Vorschauzahlen zeigen, dass Xeon 6 eine zweifache Verbesserung der Inferenzlatenz von Llama 3 8B im Vergleich zu weit verbreiteten Xeon-Prozessoren der 4. Socket-Server.

Modell TP Präzision Eingabelänge Ausgabelänge Durchsatz Latenz* Charge
Meta-Llama-3-8B-Anleitung 1 fp8 2k 4k 1549.27

Token/Sek

7.747

MS

12
Meta-Llama-3-8B-Anleitung 1 bf16 1k 3k 469.11

Token/Sek

8.527

MS

4
Meta-Llama-3-70B-Instruct 8 fp8 2k 4k 4927.31

Token/Sek

56.23

MS

277
Meta-Llama-3-70B-Instruct 8 bf16 2k 2k 3574,81

Token/Sek

60.425

MS

216

Client-Plattformen

In einer ersten Evaluierungsrunde erreicht der Intel Core Ultra-Prozessor bereits höhere Lesegeschwindigkeiten als typische menschliche Lesegeschwindigkeiten. Diese Ergebnisse werden durch die integrierte Arc-GPU mit 8 Xe-Kernen, inklusive DP4a-KI-Beschleunigung und bis zu 120 GB/s Systemspeicherbandbreite angetrieben. Wir freuen uns, in die weitere Optimierung der Leistung und Energieeffizienz von Llama 3 zu investieren, insbesondere im Zuge der Umstellung auf unsere Prozessoren der nächsten Generation.

Durch die Unterstützung am Einführungstag für alle Core-Ultra-Prozessoren und Arc-Grafikprodukte bietet die Zusammenarbeit zwischen Intel und Meta sowohl ein lokales Entwicklungsfahrzeug als auch die Bereitstellung auf Millionen von Geräten. Intel-Client-Hardware wird durch umfassende Software-Frameworks und Tools beschleunigt, darunter PyTorch und Intel Extension für PyTorch für lokale Forschung und Entwicklung sowie OpenVINO Toolkit für Modellbereitstellung und Inferenz.

Was kommt als nächstes: In den kommenden Monaten erwartet Meta die Einführung neuer Funktionen, zusätzlicher Modellgrößen und verbesserter Leistung. Intel wird die Leistung seiner KI-Produkte weiterhin optimieren, um dieses neue LLM zu unterstützen.

source-99

Leave a Reply