NVIDIA TensorRT beschleunigt stabile GenAI-Diffusion für alle RTX-GPUs, RTX 4090 bis zu 7x schneller als Apple M2 Ultra


NVIDIAs TensorRT-Updates für RTX-GPUs ermöglichen auch einige große Leistungssteigerungen für GenAI-Workloads wie Stable Diffusion.

Stabile Verbreitung und GenAI werden durch TensorRT-Unterstützung auf den Gaming- und Pro-RTX-GPUs von NVIDIA gesteigert

Wir haben bereits ausführlich dargelegt, wie TensorRT-LLM Windows auf RTX-Hardware schnellere KI-Funktionen bietet, und GenAI ist ein weiterer Bereich, in dem Verbraucher, die eine RTX-GPU besitzen, einen direkten Vorteil erkennen können.

Es ist kein Geheimnis, dass die GPUs von NVIDIA zu den beliebtesten Lösungen für Stable Diffusion- und Generative AI-Workloads gehören. Wir haben gesehen, dass NVIDIA in diesem Bereich fast allen anderen voraus ist, aber die neuesten und kommenden CPU-Produkteinführungen (von AMD und Intel) enthalten nun eine dedizierte NPU-Einheit, die die KI-Aufgaben von der CPU/GPU abladen und die Arbeit erledigen kann Ein sehr stromsparender und effizienter Modus für die überwiegende Mehrheit der Benutzer.

NVIDIA gibt an, dass es großartig ist, den Vorstoß zu sehen, die KI zu beschleunigen, indem CPUs mit KI ausgestattet werden. Diese werden hauptsächlich für leichte KI-Aufgaben verwendet, die bei geringem Stromverbrauch ausgeführt werden, und die GPU wird für anspruchsvollere Anwendungsfälle gedacht sein. Sowohl NPU als auch GPUs sind offline und lokal verfügbare Ressourcen und bieten Funktionen für geringe Latenz und Datenlokalität/Datenschutz, während Cloud-Rechenzentren auf schwere KI-Arbeitslasten für sehr große Modelle und die Verwendung bei Bedarf abzielen. Die RTX-GPUs von NVIDIA sollen 20- bis 100-mal mehr Leistung bieten als diese NPUs.

Die TensorRT-Beschleunigung ist jetzt für Stable Diffusion in der beliebten Web-UI der Automatic1111-Distribution verfügbar. Es beschleunigt das generative KI-Diffusionsmodell im Vergleich zur vorherigen schnellsten Implementierung um das Zweifache.

über NVIDIA

In einer Stable Diffusion-Leistungsdemonstration zeigt NVIDIA, dass die GeForce RTX 4090 WebUI von Automatic 1111 ausführt und mit der PyTorc xFormers-Implementierung 27 Bilder pro Minute ausgibt, aber wenn sie mit TensorRT ausgeführt wird, verdoppelt sich die Leistung auf 52 Bilder pro Minute.

NVIDIA vergleicht die Leistung auch mit dem M2 Ultra (72 Core Variant) von Apple, der einen Grundpreis von 5.000 US-Dollar kostet. Dieses System gibt mit dem CoreML-Modell nur 7 Bilder pro Minute aus. Mittlerweile können Sie mit dem gleichen Budget ein sehr hochwertiges System mit zwei GeForce RTX 4090-GPUs bauen.

Das Unternehmen hat bekannt gegeben, dass TensorRT jetzt in WebUI (Automatic 1111) verfügbar ist und unter heruntergeladen werden kann GitHub.com/NVIDIA.

Teilen Sie diese Geschichte

Facebook

Twitter

source-99

Leave a Reply