Laut MLPerf-Benchmarks ist der Gaudi2-Chip von Intel die einzige Alternative zu NVIDIA-GPUs für LLM-Training


Intel und Habana veröffentlicht MLPerf-Trainings-Benchmarks heute und es enthielt einige sehr interessante Ergebnisse. Intels Gaudi2-Chip ist mittlerweile die einzige Alternative zu NVIDIA-GPUs für das Training von LLMs. Der Aktienkurs von NVIDIA steigt im Zuge des jüngsten KI-Goldrauschs (auch bekannt als LLM) regelrecht in die Höhe, da die GPUs des Unternehmens zum Trainieren nahezu aller gängigen LLMs (wie ChatGPT) verwendet werden. Der Intel Gaudi2-Chip ist jedoch mittlerweile die einzig brauchbare Alternative zu NVIDIAs GPUs und sie haben Benchmarks veröffentlicht, die dies belegen.

Intel: Gaudi2 erreicht ein ähnliches Preis-Leistungs-Verhältnis wie NVIDIA A100 (FP16) und erwartet, den H100 bis September bei FP8-Lasten zu schlagen

ChatGPT ist wahrscheinlich die disruptivste Kraft, die die Welt seit langem gesehen hat, und es ist klar, dass LLM die Zukunft ist. ChatGPT (kostenlos) basiert auf dem GPT 3.5-Modell, das wiederum auf dem GPT-3-Basismodell basiert. ChatGPT 4 basiert auf GPT-4, aber die Informationen darüber sind äußerst spärlich und es gibt keinen Benchmark dafür. Daher wäre das Training von GPT-3 auf ein ausreichendes Maß an Genauigkeit (oder Reduzierung der Verlustfunktion) der relevanteste Maßstab bei der Bestimmung, was als Trainings-CPU/GPU verwendet werden soll. NVIDIA dominiert dieses Feld mit seinen Hopper-GPUs, aber es gibt endlich eine Alternative: Intel Gaudi2.

Intel behauptet derzeit bei FP16-Workloads ein besseres Preis-Leistungs-Verhältnis als der A100 und strebt an, bis September NVIDIAs H100 zu übertreffen (bei FP8-Workloads). Dies ist ein ziemlich ehrgeiziges Ziel, aber das Unternehmen verfügt über Benchmarks, die dies untermauern. Hier ist ein kurzer allgemeiner Überblick über die Ergebnisse:

  • Gaudi2 lieferte eine beeindruckende Trainingszeit auf GPT-31: 311 Minuten auf 384 Beschleunigern.
  • Nahezu lineare 95 %-Skalierung von 256 auf 384 Beschleuniger beim GPT-3-Modell.
  • Hervorragende Trainingsergebnisse für Computer Vision – ResNet-50 8-Beschleuniger und Unet3D 8-Beschleuniger – und Modelle zur Verarbeitung natürlicher Sprache – BERT 8- und 64-Beschleuniger.
  • Leistungssteigerungen von 10 % bzw. 4 % für BERT- und ResNet-Modelle im Vergleich zur November-Einreichung, ein Beweis für die zunehmende Reife der Gaudi2-Software.
  • Die Gaudi2-Ergebnisse wurden „out of the box“ übermittelt, was bedeutet, dass Kunden vergleichbare Leistungsergebnisse erzielen können, wenn sie Gaudi2 vor Ort oder in der Cloud implementieren.

Um das oben Gesagte in den Kontext zu setzen: Der NVIDIA-Eintrag kann GPT-31 in 45 Minuten trainieren, nutzt aber auch weit mehr GPUs. Letztendlich wäre die einzige Möglichkeit, einen angemessenen Vergleich anzustellen, darin, die Gesamtbetriebskosten (TCO) heranzuziehen und die genauen Kosten und TDP-/Wärmebeschränkungen zu kennen. Aber all das könnte irrelevant sein, da die Nachfrage in diesem Bereich das Angebot bei weitem übersteigt. Während sich NVIDIA-GPUs wie warme Semmeln verkaufen werden, ist ihr Angebot begrenzt und der Markt wird an Silizium hungern, das LLMs trainieren kann – und hier kann Intels Gaudi2 wahrscheinlich die Situation retten.

Intel teilte auch Ergebnisse für seine CPUs der Xeon-Platinum-Klasse mit, die derzeit in der leistungsstärksten MLPerf-Einreichung für LLM-Schulungen verwendet werden, die für GPT-3 knapp über 10 Stunden beträgt. Hier sind die Ergebnis-Highlights:

  • Im geschlossenen Bereich könnten Xeons der 4. Generation BERT- und ResNet-50-Modelle in weniger als 50 Minuten trainieren. (47,93 Min.) und weniger als 90 Min. (88,17 Min.).
  • Mit BERT in der offenen Division zeigen die Ergebnisse, dass Xeon das Modell bei der Skalierung auf 16 Knoten in etwa 30 Minuten (31,06 Min.) trainieren konnte.
  • Für das größere RetinaNet-Modell konnte Xeon eine Zeit von 232 Minuten erreichen. auf 16 Knoten, was Kunden die Flexibilität gibt, Xeon-Zyklen außerhalb der Spitzenzeiten zu nutzen, um ihre Modelle im Laufe eines Morgens, während der Mittagspause oder über Nacht zu trainieren.
  • Xeon der 4. Generation mit Intel Advanced Matrix Extensions (Intel AMX) bietet erhebliche sofort einsatzbereite Leistungsverbesserungen, die mehrere Frameworks, End-to-End-Data-Science-Tools und ein breites Ökosystem intelligenter Lösungen umfassen.

Teilen Sie diese Geschichte

Facebook

Twitter

source-99

Leave a Reply