Nvidias Vizepräsident und General Manager für HPC-basierte DGX-Systeme hat sich gemeldet um den Aufnahmestatus auf „Ein“ zu setzen wo genau die GPU-Volumenprobleme des Unternehmens liegen. Laut Boyle ist das Problem nicht darauf zurückzuführen, dass Nvidia die Nachfrage falsch eingeschätzt hat oder Probleme mit der Waferausbeute bei seinem Produktionspartner TSMC auftreten.
Stattdessen liegt der Engpass bei der Herstellung ausreichender GPUs, die sowohl Verbraucher- als auch Profi-Workloads (wenn man es sich anschaut, KI-Boom) abdecken kann, in den darauffolgenden Chip-Packaging-Schritten. Die GPUs der H-Klasse von Nvidia nutzen die 2.5D Chip-on-Wafer-on-Substrate (CoWoS)-Verpackungstechnologie von TSMC, einen mehrstufigen, hochpräzisen Konstruktionsschritt, dessen Komplexität die Anzahl der GPUs verlangsamt, die in einem zusammengebaut werden können vorgegebenen Zeitrahmen. Dies kann sich unverhältnismäßig auf das Angebot auswirken; Der Unterschied zwischen der Anzahl der benötigten und der verfügbaren GPUs veranlasste Elon Musk sogar zu der Aussage, dass sie „bewiesen“ hätten.schwerer zu bekommen als Medikamente„Wir konnten das hier bei Tom’s Hardware nicht überprüfen, aber wir vertrauen darauf, dass Herr Musk das weiß, nachdem Twitter/X bis zu 10.000 rechenorientierte GPUs von Nvidia beschafft hat.
Vom Chipdesign bis zur Herstellung sind mehrere Schritte erforderlich, bevor aus einem Chip eine nutzbare GPU wird. Zum einen könnten Probleme während der Chip-Designphase zu einem Produktionsengpass aufgrund von Design-Versäumnissen führen, die die Ausbeute eines Designs verringern (die Ausbeute ist der Prozentsatz der verwendbaren Chips aus einem vollständig geätzten Wafer). Ein Mangel an Seltenerdmetallen oder anderen Materialien wie dem kürzlich eingeschränkten Gallium würde sich auf andere Schritte in der langen Logistikkette auswirken; Dies gilt auch für Materialverunreinigungen, Stromausfälle und viele andere Faktoren, wie wir sie im Laufe der Jahre bereits beobachten konnten.
Dieses CoWoS-Engpassproblem könnte jedoch schwerwiegender sein als erwartet. TSMC selbst hat erklärt, dass es voraussichtlich 1,5 Jahre dauern wird (sowie die Fertigstellung zusätzlicher Fabriken und die Erweiterung bereits bestehender Anlagen), um den Rückstand im Verpackungsprozess wieder in Einklang zu bringen. Das bedeutet wahrscheinlich, dass Nvidia entscheiden muss, welche Verpackungskapazität welchen Produkten zugewiesen werden soll – es gibt nicht genug Zeit und Kapazität, um sie alle zu verpacken.
Die Versorgungsprobleme mögen auf die Verpackung von TSMC zurückzuführen sein, aber am Ende dominiert Nvidia den KI-Bereich durch seine (laut Pat Gelsinger) „unglaubliche Ausführung“. TSMC wiederum ist einer der wenigen Player mit einer funktionierenden, leistungsstarken Verpackungstechnologie, die eine absolute Voraussetzung für die Leistungsskalierung ist. Es besteht definitiv Bedarf an mehr Wettbewerb im KI-Bereich (und als gutes, aber unzureichendes Zeichen ist zu beobachten, dass auch AMD-Gaming-GPUs wie die RX 7900 XTX auf dem Weg zu KI-Rechenzentren sind).
Aber auch auf der Fertigungsseite ist Wettbewerb erforderlich. Es besteht die Hoffnung, dass Intels Foundry Services (IFS) einen weiteren Player in das Hochleistungs-GPU-Spiel einbinden wird; Gleichzeitig liegt der Fokus auch darauf, dass Samsung seine Lücke in der Herstellungstechnologie im Vergleich zu TSMC zumindest schließen kann, sodass seine Chips attraktiv genug sind, um einen anderen Hersteller auf den Markt zu bringen.