Die Nachfrage nach KI ist derzeit immens. Französische Firma Schneider Electric schätzt, dass sich der Stromverbrauch von KI-Arbeitslasten im Jahr 2023 auf rund 4,3 GW belaufen wird, was etwas niedriger ist als der Stromverbrauch des Landes Zypern (4,7 GW) Krieg im Jahr 2021. Das Unternehmen geht davon aus, dass der Stromverbrauch von KI-Workloads mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von 26 % bis 36 % steigen wird, was darauf hindeutet, dass KI-Workloads bis 2028 von 13,5 GW auf 20 GW verbraucht werden , was mehr ist als in Island im Jahr 2021 verbraucht.
Massiver Strombedarf
Laut Schneider Electric wird der Gesamtstromverbrauch aller Rechenzentren im Jahr 2023 auf 54 GW geschätzt, wobei KI-Workloads 4,3 GW diesen Bedarfs ausmachen. Innerhalb dieser KI-Arbeitslasten ist die Verteilung zwischen Training und Inferenz dadurch gekennzeichnet, dass 20 % der Energie für Trainingszwecke verbraucht und 80 % für Inferenzaufgaben aufgewendet werden. Dies bedeutet, dass KI-Workloads in diesem Jahr für etwa 8 % des gesamten Stromverbrauchs von Rechenzentren verantwortlich sein werden.
Mit Blick auf das Jahr 2028 prognostiziert Schneider, dass der Gesamtstromverbrauch von Rechenzentren auf 90 GW ansteigen wird, KI-Workloads zwischen 13,5 GW und 20 GW davon ausmachen werden. Dies deutet darauf hin, dass KI bis 2028 für etwa 15 bis 20 % des gesamten Stromverbrauchs von Rechenzentren verantwortlich sein könnte, was einen deutlichen Anstieg des Anteils des Stromverbrauchs durch KI-Arbeitslasten in Rechenzentren über den Fünfjahreszeitraum hinweg zeigt. Nach Schätzungen von Schneider Electric wird sich die Verteilung zwischen Training und Inferenz voraussichtlich leicht verschieben, wobei Training 15 % der Energie verbraucht und Inferenz 85 % ausmacht.
KI-GPUs werden hungriger
Der steigende Stromverbrauch in KI-Rechenzentren ist in erster Linie auf die Intensivierung der KI-Arbeitslasten, Weiterentwicklungen von KI-GPUs und KI-Prozessoren sowie steigende Anforderungen an andere Rechenzentrumshardware zurückzuführen. Beispielsweise verbrauchte der A100 von Nvidia aus dem Jahr 2020 bis zu 400 W, der H100 aus dem Jahr 2022 bis zu 700 W. Neben GPUs laufen auf KI-Servern auch stromhungrige CPUs und Netzwerkkarten.
KI-Arbeitslasten, insbesondere solche im Zusammenhang mit Schulungen, erfordern erhebliche Rechenressourcen, einschließlich spezialisierter, mit Servern ausgestatteter KI-GPUs, spezialisierter ASICs oder CPUs. Die Größe von KI-Clustern, die von der Komplexität und Größe der KI-Modelle beeinflusst wird, ist ein wesentlicher Faktor für den Stromverbrauch. Größere KI-Modelle erfordern eine größere Anzahl an GPUs und erhöhen dadurch den Gesamtenergiebedarf. Beispielsweise nutzt ein Cluster mit 22.000 H100-GPUs etwa 700 Racks. Wenn ein H100-basiertes Rack mit acht GPU-beschleunigten HPE Cray XD670-Servern bestückt wird, ergibt sich eine Rack-Gesamtdichte von 80 kW. Dafür benötigt der gesamte Cluster etwa 31 MW Leistung, ohne die Energie, die für zusätzliche Infrastrukturanforderungen wie Kühlung erforderlich ist, stellt Schneider Electric fest.
Diese Cluster und GPUs sind während der Trainingsprozesse oft nahezu vollständig ausgelastet und stellen so sicher, dass der durchschnittliche Energieverbrauch nahezu gleichbedeutend mit dem Spitzenstromverbrauch ist. Das Dokument gibt an, dass die Rack-Dichten in großen KI-Clustern zwischen 30 kW und 100 kW variieren, abhängig von der Anzahl und dem Modell der GPU.
Auch die Netzwerklatenz spielt eine entscheidende Rolle beim Stromverbrauch von KI-Rechenzentren. Eine ausgefeilte Netzwerkinfrastruktur ist unerlässlich, um die Hochgeschwindigkeits-Datenkommunikation zu unterstützen, die leistungsstarke GPUs während verteilter Trainingsprozesse benötigen. Die Notwendigkeit von Hochgeschwindigkeits-Netzwerkkabeln und -Infrastrukturen, die beispielsweise Geschwindigkeiten von bis zu 800 Gbit/s unterstützen, lässt den Gesamtenergieverbrauch weiter steigen.
Da KI-Workloads stromhungrige ASICs, GPUs, CPUs, Netzwerkkarten und SSDs erfordern, stellt die Kühlung eine große Herausforderung dar. Angesichts der hohen Rack-Dichten und der enormen Wärmeentwicklung bei Rechenprozessen sind effektive Kühllösungen unerlässlich, um eine optimale Leistung aufrechtzuerhalten und Hardware-Fehlfunktionen oder -Ausfälle zu verhindern. Mittlerweile sind Luft- und Flüssigkeitskühlungsmethoden auch hinsichtlich des Stromverbrauchs „teuer“, weshalb sie auch stark zum Stromverbrauch von Rechenzentren beitragen, die für KI-Workloads genutzt werden.
Einige Empfehlungen
Schneider Electric geht nicht davon aus, dass der Stromverbrauch der KI-Hardware in naher Zukunft sinken wird, und das Unternehmen geht davon aus, dass der Stromverbrauch eines KI-Racks 100 kW oder mehr erreichen wird. Daher hat Schneider Electric einige Empfehlungen für Rechenzentren, die auf KI-Workloads spezialisiert sind.
Schneider Electric empfiehlt insbesondere den Übergang von der herkömmlichen 120/208-V-Verteilung auf eine 240/415-V-Verteilung, um den hohen Leistungsdichten von KI-Arbeitslasten besser gerecht zu werden. Bei der Kühlung wird eine Umstellung von Luftkühlung auf Flüssigkeitskühlung empfohlen, um die Prozessorzuverlässigkeit und Energieeffizienz zu verbessern, obwohl immersive Kühlung möglicherweise noch bessere Ergebnisse liefert. Die verwendeten Regale sollten geräumiger sein und Spezifikationen wie eine Breite von mindestens 750 mm und eine statische Tragfähigkeit von mehr als 1.800 kg aufweisen.