Der von AMD betriebene Frontier-Supercomputer nutzt 3K seiner 37K MI250X-GPUs, um einen LLM-Lauf mit satten 1 Billionen Parametern zu erreichen, vergleichbar mit ChatGPT-4


Der AMD-basierte Frontier-Supercomputer mit Instinct MI250X-GPUs hat einen LLM-Lauf mit 1 Billion Parametern erreicht und kann damit mit ChatGPT-4 konkurrieren.

Der Frontier-Supercomputer stellt dank AMDs EPYC-CPUs und Instinct-GPUs neue Rekorde im LLM-Training auf

Der Frontier-Supercomputer ist der weltweit führende Supercomputer und die einzige Exascale-Maschine, die derzeit in Betrieb ist. Diese Maschine wird von der EPYC- und Instinct-Hardware von AMD angetrieben, die nicht nur Folgendes bietet Top-HPC-Leistung ist aber auch das Zweiteffizientester Supercomputer der Welt. Ein Einreichungsbericht über Arxiv von Einzelpersonen hat ergeben, dass der Frontier-Supercomputer die Fähigkeit erreicht hat, eine Billion Parameter durch „Hyperparameter-Tuning“ zu trainieren und damit einen neuen Branchenmaßstab zu setzen.

Bevor wir auf den Kern eingehen, werfen wir einen kurzen Rückblick darauf, was der Frontier-Supercomputer zu bieten hat. Der Supercomputer von ORNL wurde von Grund auf mit AMDs EPYC Trento-CPUs der 3. Generation und Instinct MI250X-GPU-Beschleunigern entwickelt. Es ist im Oak Ridge National Laboratory (ORNL) in Tennessee, USA, installiert und wird dort vom Department of Energy (DOE) betrieben. Derzeit wurden 1,194 Exaflop/s mit 8.699.904 Kernen erreicht. Die HPE Cray EX-Architektur kombiniert für HPC und KI optimierte AMD EPYC-CPUs der 3. Generation mit AMD Instinct 250X-Beschleunigern und einer Slingshot-11-Verbindung. Frontier konnte den ersten Platz auf der Top500.org-Liste der Supercomputer behaupten und zeigt damit seine Dominanz.

Die von Frontier erzielten neuen Rekorde sind das Ergebnis der Umsetzung wirksamer Strategien zur Schulung von LLMs und zur möglichst effizienten Nutzung der Bordhardware. Das Team konnte durch umfangreiche Tests von 22 Milliarden, 175 Milliarden und 1 Billion Parametern bemerkenswerte Ergebnisse erzielen, und die erhaltenen Zahlen sind das Ergebnis der Optimierung und Feinabstimmung des Modelltrainingsprozesses. Die Ergebnisse wurden durch den Einsatz von bis zu 3.000 KI-Beschleunigern MI250X von AMD erzielt, die ihr Können unter Beweis gestellt haben, obwohl es sich um relativ veraltete Hardware handelt.

Interessanter ist, dass der gesamte Frontier-Supercomputer 37.000 MI250X-GPUs beherbergt, sodass man sich die Leistung vorstellen kann, wenn der gesamte GPU-Pool zur Stromversorgung von LLMs genutzt wird. AMD steht außerdem kurz davor, seine MI300-GPU-Beschleuniger in brandneuen Supercomputern mit einem robusten ROCm 6.0-Ökosystem zu implementieren, das die KI-Leistung weiter beschleunigt.

Die Zukunft hält für das Server- und Rechenzentrumssegment viel bereit, und es ist wichtig zu beachten, dass Frontier derzeit Hardware einsetzt, die in der Branche nicht relativ neu ist. Angesichts der kontinuierlichen Fortschritte im Segment der generativen KI ist es offensichtlich, dass die Märkte künftig mehr Rechenleistung benötigen werden, weshalb die Fortschritte bei der für dieses Segment entwickelten Hardware für den Fortschritt der nächsten Generation von entscheidender Bedeutung sind.

Nachrichtenquelle: Arvix

Teilen Sie diese Geschichte

Facebook

Twitter



source-99

Leave a Reply