2024 - Optimiert für Xeon- und Core-Ultra-CPUs, Arc-GPUs und Gaudi-Beschleuniger

Warum es wichtig ist: Im Rahmen seiner Mission, KI überallhin zu bringen, investiert Intel in das Software- und KI-Ökosystem, um sicherzustellen, dass seine Produkte für die neuesten Innovationen im dynamischen KI-Bereich bereit sind. Im Rechenzentrum bieten Gaudi- und Xeon-Prozessoren mit Advanced Matrix Extension (AMX)-Beschleunigung den Kunden die Möglichkeit, dynamische und vielfältige Anforderungen zu erfüllen.

Intel Core Ultra-Prozessoren und Arc-Grafikprodukte bieten sowohl ein lokales Entwicklungsvehikel als auch die Bereitstellung auf Millionen von Geräten mit Unterstützung für umfassende Software-Frameworks und Tools, einschließlich PyTorch und Intel Extension für PyTorch für lokale Forschung und Entwicklung sowie OpenVINO-Toolkit für Modellentwicklung und Inferenz .

Über das auf Intel laufende Llama 3: Intels erste Test- und Leistungsergebnisse für die Modelle Llama 3 8B und 70B nutzen Open-Source-Software, einschließlich PyTorch, DeepSpeed, Optimum Habana-Bibliothek und Intel Extension für PyTorch, um die neuesten Softwareoptimierungen bereitzustellen.

Intel Gaudi 2-Beschleuniger haben die Leistung der Llama 2-Modelle optimiert – Parameter 7B, 13B und 70B – und verfügen nun über erste Leistungsmessungen für das neue Llama 3-Modell. Mit der Reife der Gaudi-Software konnte Intel das neue Llama 3-Modell problemlos ausführen und Ergebnisse für Schlussfolgerungen und Feinabstimmungen generieren. Llama 3 wird auch vom kürzlich angekündigten Gaudi 3-Beschleuniger unterstützt.
Intel Xeon-Prozessoren bewältigen anspruchsvolle End-to-End-KI-Workloads, und Intel investiert in die Optimierung der LLM-Ergebnisse, um die Latenz zu reduzieren. Xeon 6-Prozessoren mit Performance-Kernen (Codename Granite Rapids) zeigen eine zweifache Verbesserung der Inferenzlatenz von Llama 3 8B im Vergleich zu Xeon-Prozessoren der 4. Generation und die Möglichkeit, größere Sprachmodelle wie Llama 3 70B mit weniger als 100 ms pro generiertem Token auszuführen.
Intel Core Ultra und Arc Graphics liefern eine beeindruckende Leistung für Llama 3. In einer ersten Testrunde erzielen Core Ultra-Prozessoren bereits schnellere Lesegeschwindigkeiten als typische menschliche Lesegeschwindigkeiten. Darüber hinaus verfügt die Arc A770-GPU über X^e Matrix eXtensions (XMX) KI-Beschleunigung und 16 GB dedizierter Speicher sorgen für außergewöhnliche Leistung für LLM-Workloads.

Skalierbare Xeon-Prozessoren

Intel hat die LLM-Inferenz für Xeon-Plattformen kontinuierlich optimiert. Im Vergleich zum Llama 2-Start wurden beispielsweise Softwareverbesserungen in PyTorch und Intel Extension für PyTorch vorgenommen, die eine 5-fache Latenzreduzierung ermöglichen. Die Optimierung nutzt ausgelagerte Aufmerksamkeit und Tensorparallelität, um die verfügbare Rechenauslastung und Speicherbandbreite zu maximieren. Abbildung 1 zeigt die Leistung der Meta Llama 3 8B-Inferenz auf der AWS m7i.metal-48x-Instanz, die auf einem skalierbaren Xeon-Prozessor der 4. Generation basiert.

Wir haben Meta Llama 3 auf einem Xeon 6-Prozessor mit Performance-Kernen (früher Codename Granite Rapids) verglichen, um eine Vorschau auf die Leistung zu geben. Diese Vorschauzahlen zeigen, dass Xeon 6 eine zweifache Verbesserung der Inferenzlatenz von Llama 3 8B im Vergleich zu weit verbreiteten Xeon-Prozessoren der 4. Socket-Server.

Modell	TP	Präzision	Eingabelänge	Ausgabelänge	Durchsatz	Latenz*	Charge
Meta-Llama-3-8B-Anleitung	1	fp8	2k	4k	1549.27 Token/Sek	7.747 MS	12
Meta-Llama-3-8B-Anleitung	1	bf16	1k	3k	469.11 Token/Sek	8.527 MS	4
Meta-Llama-3-70B-Instruct	8	fp8	2k	4k	4927.31 Token/Sek	56.23 MS	277
Meta-Llama-3-70B-Instruct	8	bf16	2k	2k	3574,81 Token/Sek	60.425 MS	216

Client-Plattformen

In einer ersten Evaluierungsrunde erreicht der Intel Core Ultra-Prozessor bereits höhere Lesegeschwindigkeiten als typische menschliche Lesegeschwindigkeiten. Diese Ergebnisse werden durch die integrierte Arc-GPU mit 8 Xe-Kernen, inklusive DP4a-KI-Beschleunigung und bis zu 120 GB/s Systemspeicherbandbreite angetrieben. Wir freuen uns, in die weitere Optimierung der Leistung und Energieeffizienz von Llama 3 zu investieren, insbesondere im Zuge der Umstellung auf unsere Prozessoren der nächsten Generation.

Durch die Unterstützung am Einführungstag für alle Core-Ultra-Prozessoren und Arc-Grafikprodukte bietet die Zusammenarbeit zwischen Intel und Meta sowohl ein lokales Entwicklungsfahrzeug als auch die Bereitstellung auf Millionen von Geräten. Intel-Client-Hardware wird durch umfassende Software-Frameworks und Tools beschleunigt, darunter PyTorch und Intel Extension für PyTorch für lokale Forschung und Entwicklung sowie OpenVINO Toolkit für Modellbereitstellung und Inferenz.

Was kommt als nächstes: In den kommenden Monaten erwartet Meta die Einführung neuer Funktionen, zusätzlicher Modellgrößen und verbesserter Leistung. Intel wird die Leistung seiner KI-Produkte weiterhin optimieren, um dieses neue LLM zu unterstützen.

source-99

AfD-Europaabgeordneter Krah: Aus Spionagefall freigesprochen, weitere Vorermittlungen laufen jedoch

Die Panamaer stimmen im überfüllten Feld der Präsidentschaftskandidaten ab

Madonna startet große Show vor begeisterten Fans in Rio

Die Regierungspartei Togos gewinnt große parlamentarische Mehrheit und stärkt damit Gnassingbe

Optimiert für Xeon- und Core-Ultra-CPUs, Arc-GPUs und Gaudi-Beschleuniger

Skalierbare Xeon-Prozessoren

Client-Plattformen

Leave a Reply Cancel reply