NVIDIA TensorRT-LLM steigert große Sprachmodelle enorm, bis zu 8-facher Gewinn auf Hopper-GPUs


NVIDIA kündigt heute einen brandneuen KI-Software-Stack namens TensorRT LLM an, der die Leistung großer Sprachmodelle auf seinen GPUs steigert.

NVIDIA TensorRT-LLM bietet bis zu 8-fache Steigerung der Leistung großer Sprachmodelle auf Hopper-KI-GPUs

NVIDIAs TensorRT-LLM wird als hochoptimierte Open-Source-Bibliothek angekündigt, die mit NVIDIAs KI-GPUs wie Hopper die schnellste Inferenzleistung über alle großen Sprachmodelle hinweg ermöglicht. NVIDIA hat mit allen LLMs innerhalb der Open-Source-Community zusammengearbeitet, um seine GPUs durch den Einsatz der neuesten KI-Kernel mit modernsten Techniken wie SmoothQuant, FlashAttention und fMHA zu optimieren. Die Open-Source-Grundlage umfasst sofort einsatzbereite SOTA-Inferenz-optimierte Versionen von LLMs wie GPT-3 (175B), Llama Falcom (180B) und Bloom, um nur einige zu nennen.

TensorRT-LLM ist außerdem für die automatische Parallelisierung mehrerer NVLINK-Server mit Infiniband-Verbindung optimiert. Bisher musste Servern manuell ein großes Sprachmodell über mehrere Server/GPUs hinweg zugewiesen werden, was mit Tensor-RT LLM nicht mehr der Fall sein sollte.

Eines der größten Updates, die TensorRT-LLM mit sich bringt, ist ein neuer Scheduler namens In-Flight Batching, der es ermöglicht, dass Arbeit unabhängig von anderen Aufgaben in die GPU ein- und ausgeht. Es ermöglicht die dynamische Verarbeitung mehrerer kleinerer Abfragen und gleichzeitig die Verarbeitung großer rechenintensiver Anforderungen in derselben GPU. Dieser gesamte Prozess macht die GPU effizienter und führt zu enormen Durchsatzsteigerungen bei GPUs wie der H100, um genau zu sein bis zu 2x.

Der TensorRT-LLM-Stack ist außerdem für die Transformer-Engine von Hopper und seine FP8-Rechnerfunktionen optimiert. Die Bibliothek bietet automatische FP8-Konvertierung, einen DL-Compiler für Kernel-Fusion und einen Mixed-Precision-Optimierer sowie Unterstützung für NVIDIAs eigenen Smoothquaint-Algorithmus, der eine 8-Bit-Quantisierungsleistung ohne Genauigkeitsverlust ermöglicht.

Was die Leistungszahlen betrifft, vergleicht NVIDIA den A100 mit der Leistung des H100 im August und die Leistung des H100 mit TensorRT-LLM. In GPT-J 6B (Inference) bot der H100 bereits einen 4-fachen Gewinn, aber mit TensorRT-LLM verdoppelt das Unternehmen die Leistung, was in diesem speziellen Test zu einem 8-fachen Gewinn führt. In Llama2 sehen wir mit TensorRT LLM einen bis zu 5-fachen Gewinn und ohne TensorRT-LLM einen fast 2-fachen Gewinn gegenüber dem Standard-H100.

NVIDIA gibt an, dass sie mit allen führenden Inferenz-Workloads wie Meta, Grammarly, Deci, Anyscale usw. arbeiten, um ihre LLMs mithilfe von TensorRT-LLM zu beschleunigen. Was die Verfügbarkeit betrifft, ist TensorRT-LLM jetzt im Early Access verfügbar, eine vollständige Veröffentlichung wird für nächsten Monat erwartet. Was die Unterstützung betrifft, wird TensorRT-LLM von allen NVIDIA Data Center- und KI-GPUs unterstützt, die heute in Produktion sind, wie A100, H100, L4, L40, L40S, HGX, Grace Hopper und so weiter.

Teilen Sie diese Geschichte

Facebook

Twitter

source-99

Leave a Reply