NVIDIA TensorRT-LLM kommt für Windows und bringt enormen KI-Schub für Verbraucher-PCs mit GeForce RTX- und RTX Pro-GPUs


NVIDIA hat angekündigt dass TensorRT-LLM bald für Windows verfügbar sein wird und PCs mit RTX-GPUs einen enormen KI-Schub verleihen wird.

NVIDIA RTX GPU-betriebene PCs erhalten mit der bevorstehenden TensorRT-LLM-Unterstützung eine kostenlose KI-Leistungssteigerung in Windows

Bereits im September kündigte NVIDIA sein TensoRT-LLM-Modell für Rechenzentren an, das eine 8-fache Steigerung gegenüber den besten KI-GPUs der Branche wie dem Hopper H100 und dem Ampere A100 bot. Das neueste Modell nutzt die Tensor-Kernbeschleunigung der NVIDIA GeForce RTX- und RTX Pro-GPUs voll aus und liefert eine bis zu viermal schnellere Leistung bei LLM-Inferenz-Workloads.

Zuvor haben wir erklärt, dass eines der größten Updates, das TensorRT-LLM mit sich bringt, in Form eines neuen Schedulers namens In-Flight Batching besteht, der es ermöglicht, dass Arbeit unabhängig von anderen Aufgaben in die GPU ein- und ausgeht. Es ermöglicht die dynamische Verarbeitung mehrerer kleinerer Abfragen und gleichzeitig die Verarbeitung großer rechenintensiver Anforderungen in derselben GPU. Das TensorRT-LLM nutzt optimierte Open-Source-Modelle, die höhere Geschwindigkeiten ermöglichen, wenn die Batch-Größen erhöht werden. Ab heute sind diese optimierten Open-Source-Modelle der Öffentlichkeit zugänglich und können unter heruntergeladen werden Developer.nvidia.com.

Die zusätzliche KI-Beschleunigung mit dem TensorRT-LLM-Modell wird dazu beitragen, verschiedene tägliche Produktivitätsaufgaben wie die Teilnahme an Chats, das Zusammenfassen von Dokumenten und Webinhalten, das Verfassen von E-Mails und Blogs voranzutreiben, und kann auch zum Analysieren von Daten und zum Generieren großer Mengen an Inhalten verwendet werden steht dem Modell zur Verfügung.

Wie wird TensorRT-LLM Verbraucher-PCs mit Windows unterstützen? Nun, in einer von NVIDIA gezeigten Demo wurde ein Vergleich zwischen einem vorab trainierten Open-Source-LLM-Modell wie LLaMa-2 und TensorRT-LLM gezeigt. Wenn eine Abfrage an LLaMa-2 übergeben wird, sammelt es Informationen aus einem großen verallgemeinerten Datensatz wie Wikipedia, sodass sie nach dem Training weder über aktuelle Informationen noch über domänenspezifische Datensätze verfügen, die sie nicht hatten trainiert auf. Sie wissen auch nichts von den Datensätzen, die auf Ihren personalisierten Geräten oder Systemen gespeichert sind. Sie erhalten also nicht die spezifischen Daten, die Sie suchen.

Es gibt zwei Ansätze zur Lösung dieses Problems: Der eine ist die Feinabstimmung, bei der das LLM für einen bestimmten Datensatz optimiert wird. Dies nimmt jedoch je nach Größe des Datensatzes viel Zeit in Anspruch. Der andere Ansatz ist RAG oder Retrieval Augamanted Generation, der eine lokalisierte Bibliothek verwendet, die mit dem Datensatz gefüllt werden kann, den das LLM durchsuchen soll, und dann die Sprachunterschreibungsfunktionen dieses LLM nutzt, um Ihnen die Informationen bereitzustellen, die nur aus diesem Datensatz stammen .

Im Beispiel wird eine Frage im Zusammenhang mit den NVIDIA-Technologieintegrationen in Alan Wake 2 gestellt, für die das Standard-LLaMa-2-Modell nicht die richtigen Ergebnisse finden kann, das andere Modell mit TensorRT-LLM jedoch, das Daten aus 30 GeForce-News-Artikeln einspeist Das lokale Repository kann die benötigten Informationen problemlos bereitstellen. TensorRT-LLM liefert also eine relevante Antwort und erledigt diese auch schneller als das LLaMa-2-Modell. Darüber hinaus hat NVIDIA bestätigt, dass Sie mit TenosrRT-LLM fast jedes Modell beschleunigen können. Dies ist nur einer der vielen Anwendungsfälle, in denen NVIDIA TensorRT-LLM KI nutzen kann, um schnellere und produktivere PC-Erlebnisse unter Windows zu liefern. Seien Sie also gespannt auf weitere Ankündigungen in der Zukunft.

Teilen Sie diese Geschichte

Facebook

Twitter

source-99

Leave a Reply