NVIDIA-GPUs unterstützen das Llama-3-Modell der nächsten Generation von Meta und optimieren die KI auf allen Plattformen, einschließlich RTX


NVIDIA hat angekündigt Das Metas Lama 3 LLMs wurden mit NVIDIA-GPUs erstellt und sind für den Betrieb auf allen Plattformen optimiert, vom Server bis zum PC.

Metas Llama 3 AI LLMs der nächsten Generation sind da und NVIDIA ist die treibende Kraft dahinter, optimierte Unterstützung für Cloud-, Edge- und RTX-PCs

Pressemitteilung: NVIDIA hat heute Optimierungen auf allen seinen Plattformen angekündigt, um Meta Llama 3, die neueste Generation des Large Language Model (LLM), zu beschleunigen. Das offene Modell in Kombination mit NVIDIA Accelerated Computing versetzt Entwickler, Forscher und Unternehmen in die Lage, verantwortungsbewusst in einer Vielzahl von Anwendungen Innovationen zu entwickeln.

Auf NVIDIA AI geschult

Meta-Ingenieure trainierten Llama 3 auf einem Computercluster mit 24.576 H100-Tensor-Core-GPUs, verbunden mit einem Quantum-2-InfiniBand-Netzwerk. Mit Unterstützung von NVIDIA hat Meta seine Netzwerk-, Software- und Modellarchitekturen für sein Flaggschiff-LLM optimiert.

Um den Stand der Technik in der generativen KI weiter voranzutreiben, hat Meta kürzlich Pläne beschrieben, seine Infrastruktur auf 350.000 H100-GPUs zu skalieren.

Lama 3 in die Tat umsetzen

Auf NVIDIA-GPUs beschleunigte Versionen von Llama 3 sind ab sofort für den Einsatz in der Cloud, im Rechenzentrum, am Edge und auf dem PC verfügbar.

Bildquelle: Wccftech (KI-generiert)

Unternehmen können Llama 3 mithilfe von NVIDIA NeMo, einem Open-Source-Framework für LLMs, das Teil der sicheren, unterstützten NVIDIA AI Enterprise-Plattform ist, mit ihren Daten verfeinern. Benutzerdefinierte Modelle können mit NVIDIA TensorRT-LLM für Inferenz optimiert und mit Triton Inference Server bereitgestellt werden.

Bringen Sie Llama 3 auf Geräte und PCs

Llama 3 läuft auch auf Jetson Orin für Robotik- und Edge-Computing-Geräte und erstellt interaktive Agenten wie die im Jetson AI Lab. Darüber hinaus beschleunigen RTX- und GeForce RTX-GPUs für Workstations und PCs die Geschwindigkeitsinferenz auf Llama 3. Diese Systeme geben Entwicklern ein Ziel von mehr als 100 Millionen NVIDIA-beschleunigten Systemen weltweit.

Holen Sie sich optimale Leistung mit Llama 3

Zu den Best Practices bei der Bereitstellung eines LLM für einen Chatbot gehört ein Gleichgewicht zwischen geringer Latenz, guter Lesegeschwindigkeit und optimaler GPU-Nutzung, um die Kosten zu senken. Ein solcher Dienst muss Token – das ungefähre Äquivalent von Wörtern an ein LLM – mit etwa der doppelten Lesegeschwindigkeit eines Benutzers liefern, also etwa 10 Token/Sekunde.

Unter Anwendung dieser Metriken generierte eine einzelne NVIDIA H200 Tensor Core GPU in einem ersten Test mit der Version von Llama 3 mit 70 Milliarden Parametern etwa 3.000 Token/Sekunde – genug, um etwa 300 gleichzeitige Benutzer zu bedienen. Das bedeutet, dass ein einzelner NVIDIA HGX-Server mit acht H200-GPUs 24.000 Token/Sekunde liefern könnte, was die Kosten durch die gleichzeitige Unterstützung von mehr als 2.400 Benutzern weiter optimiert.

Bei Edge-Geräten generierte die Version von Llama 3 mit acht Milliarden Parametern bis zu 40 Token/Sekunde auf Jetson AGX Orin und 15 Token/Sekunde auf Jetson Orin Nano.

Community-Modelle vorantreiben

Als aktiver Open-Source-Mitwirkender engagiert sich NVIDIA für die Optimierung von Community-Software, die Benutzern bei der Bewältigung ihrer größten Herausforderungen hilft. Open-Source-Modelle fördern außerdem die KI-Transparenz und ermöglichen Benutzern einen breiten Austausch von Arbeiten zur KI-Sicherheit und -Resilienz.

Teilen Sie diese Geschichte

Facebook

Twitter

source-99

Leave a Reply