In den Jahrzehnten, seit Seymour Cray entwickelt hat, was weithin als der erste Supercomputer der Welt gilt, der CDC6600 (öffnet in neuem Tab), wurde in der High Performance Computing (HPC)-Community ein Wettrüsten geführt. Das Ziel: Leistungssteigerung um jeden Preis.
Angetrieben von Fortschritten in den Bereichen Datenverarbeitung, Speicherung, Netzwerke und Software hat sich die Leistung führender Systeme seit der Vorstellung des CDC 6600 im Jahr 1964 um das Billionenfache erhöht, von Millionen von Gleitkommaoperationen pro Sekunde (MegaFLOPS) auf die Quintillionen (exaFLOPS).
Der aktuelle Inhaber der Krone, ein kolossaler US-basierter Supercomputer genannt Grenze, ist in der Lage, 1,102 exaFLOPS nach dem High Performance Linpack (HPL) Benchmark zu erreichen. Es werden aber noch leistungsfähigere Maschinen vermutet anderswo in Betriebhinter verschlossenen Türen.
Die Einführung sogenannter Exascale-Supercomputer wird voraussichtlich praktisch allen Sektoren zugute kommen – von der Wissenschaft bis zur Cybersicherheit, vom Gesundheitswesen bis zum Finanzwesen – und die Voraussetzungen für mächtige neue KI-Modelle schaffen, deren Ausbildung sonst Jahre gedauert hätte.
Eine Geschwindigkeitssteigerung dieser Größenordnung hat jedoch ihren Preis: den Energieverbrauch. Vollgas, Frontier verbraucht bis zu 40 MW (öffnet in neuem Tab) der Macht, ungefähr das gleiche wie 40 Millionen Desktop-PCs.
Beim Supercomputing ging es schon immer darum, die Grenzen des Möglichen zu verschieben. Aber da die Notwendigkeit, Emissionen zu minimieren, immer deutlicher wird und die Energiepreise weiter in die Höhe schießen, muss die HPC-Industrie neu bewerten, ob es sich noch lohnt, ihrem ursprünglichen Leitprinzip zu folgen.
Leistung vs. Effizienz
Eine Organisation, die bei diesem Thema an vorderster Front agiert, ist die University of Cambridge, die in Partnerschaft mit Dell Technologies mehrere Supercomputer entwickelt hat, bei deren Design die Energieeffizienz an vorderster Front steht.
Das Wilkes3 (öffnet in neuem Tab)zum Beispiel, ist nur auf Platz 100 in der positioniert Gesamtleistungsdiagramme (öffnet in neuem Tab)aber sitzt auf dem dritten Platz in der Grün500 (öffnet in neuem Tab)eine Rangliste von HPC-Systemen basierend auf der Leistung pro Watt verbrauchter Energie.
Im Gespräch mit TechRadar Proerklärte Dr. Paul Calleja, Direktor von Research Computing Services an der University of Cambridge, dass sich die Institution viel mehr darum kümmert, hochproduktive und effiziente Maschinen zu bauen, als extrem leistungsstarke.
„Wir interessieren uns nicht wirklich für große Systeme, da es sich um sehr spezifische Punktlösungen handelt. Aber die darin eingesetzten Technologien sind viel breiter anwendbar und werden es ermöglichen, dass Systeme, die um eine Größenordnung langsamer sind, viel kosten- und energieeffizienter arbeiten“, sagt Dr. Calleja.
„Auf diese Weise demokratisieren Sie den Zugang zu Computern für viel mehr Menschen. Wir sind daran interessiert, Technologien einzusetzen, die für diese großen Epochensysteme entwickelt wurden, um viel nachhaltigere Supercomputer für ein breiteres Publikum zu schaffen.“
Für die kommenden Jahre prognostiziert Dr. Calleja auch einen immer heftigeren Druck auf Energieeffizienz im HPC-Sektor und in der breiteren Rechenzentrumsgemeinschaft, in der der Energieverbrauch über 90 % der Kosten ausmacht, wie uns gesagt wird.
Die jüngsten Schwankungen der Energiepreise im Zusammenhang mit dem Krieg in der Ukraine haben den Betrieb von Supercomputern ebenfalls dramatisch teurer gemacht, insbesondere im Zusammenhang mit Exascale-Computing, was die Bedeutung der Leistung pro Watt weiter verdeutlicht.
Im Rahmen von Wilkes3 stellte die Hochschule eine Reihe von Optimierungen fest, die zu einer Verbesserung des Wirkungsgrades beitrugen. Beispielsweise konnte das Team durch Herabsetzen der Taktfrequenz, mit der einige Komponenten je nach Arbeitslast liefen, eine Reduzierung des Energieverbrauchs um 20–30 % erreichen.
„Innerhalb einer bestimmten Architekturfamilie hat die Taktrate eine lineare Beziehung zur Leistung, aber eine quadratische Beziehung zum Stromverbrauch. Das ist der Mörder“, erklärte Dr. Calleja.
„Die Verringerung der Taktfrequenz reduziert den Stromverbrauch viel schneller als die Leistung, verlängert aber auch die Zeit, die für die Erledigung eines Jobs benötigt wird. Was wir also betrachten sollten, ist nicht der Stromverbrauch während eines Laufs, sondern wirklich der Energieverbrauch pro Job. Es gibt einen süßen Punkt.“
Software ist König
Neben der Feinabstimmung von Hardwarekonfigurationen für bestimmte Workloads gibt es auch an anderer Stelle eine Reihe von Optimierungen im Zusammenhang mit Speicher und Netzwerk sowie in verbundenen Disziplinen wie Kühlung und Rack-Design.
Auf die Frage, wo er speziell Ressourcen für die Verbesserung der Energieeffizienz sehen möchte, erklärte Dr. Calleja, dass der Schwerpunkt in erster Linie auf der Software liegen sollte.
„Die Hardware ist nicht das Problem, es geht um die Anwendungseffizienz. Dies wird der größte Engpass für die Zukunft sein“, sagte er. „Die heutigen Exascale-Systeme basieren auf Grafikkarte Architekturen und die Anzahl der Anwendungen, die effizient und skalierbar in GPU-Systemen ausgeführt werden können, ist gering.“
„Um die Vorteile der heutigen Technologie wirklich nutzen zu können, müssen wir uns stark auf die Anwendungsentwicklung konzentrieren. Der Entwicklungslebenszyklus erstreckt sich über Jahrzehnte; Software, die heute verwendet wird, wurde vor 20 bis 30 Jahren entwickelt, und es ist schwierig, wenn Sie einen so langlebigen Code haben, der neu strukturiert werden muss.“
Das Problem ist jedoch, dass die HPC-Branche es sich nicht zur Gewohnheit gemacht hat, zuerst an Software zu denken. In der Vergangenheit wurde der Hardware viel mehr Aufmerksamkeit geschenkt, denn, so Dr. Calleja, „es ist einfach; Sie kaufen nur einen schnelleren Chip. Du musst nicht schlau denken“.
„Während wir das Moore’sche Gesetz mit einer Verdoppelung der Prozessorleistung alle achtzehn Monate hatten, mussten Sie nichts tun [on a software level] Leistung zu steigern. Aber diese Zeiten sind vorbei. Wenn wir Fortschritte wollen, müssen wir zurückgehen und die Software neu entwerfen.“
Dr. Calleja behält sich diesbezüglich ein Lob für Intel vor. Als die Server Der Hardwareplatz wird aus Anbietersicht vielfältiger (in vielerlei Hinsicht eine positive Entwicklung), die Anwendungskompatibilität kann zum Problem werden, aber Intel arbeitet an einer Lösung.
„Ein Unterscheidungsmerkmal, das ich für Intel sehe, ist, dass es sehr viel investiert [of both funds and time] in die eineAPI Ökosystem, für die Entwicklung von Codeportabilität über Siliziumtypen hinweg. Genau diese Art von Toolchains brauchen wir, damit die Anwendungen von morgen die Vorteile des aufkommenden Siliziums nutzen können“, bemerkt er.
Unabhängig davon forderte Dr. Calleja eine stärkere Fokussierung auf „wissenschaftlichen Bedarf“. Allzu oft „gehen bei der Übersetzung Dinge schief“, was zu einer Fehlausrichtung zwischen Hardware- und Softwarearchitekturen und den tatsächlichen Bedürfnissen des Endbenutzers führt.
Ein energischerer Ansatz für die branchenübergreifende Zusammenarbeit, sagt er, würde einen „Tugendkreis“ aus Benutzern, Dienstanbietern und Anbietern schaffen, der sich sowohl in der Leistung als auch in den Vorteilen niederschlägt und Effizienzperspektive.
Eine Zukunft im Zetta-Maßstab
Mit dem Fall des symbolträchtigen Exascale-Meilensteins wird sich nun typisch die Aufmerksamkeit dem nächsten zuwenden: der Zettascale.
„Zettascale ist nur die nächste Flagge im Boden“, sagte Dr. Calleja, „ein Totem, das die Technologien hervorhebt, die erforderlich sind, um den nächsten Meilenstein in der Computertechnik zu erreichen, der heute nicht erreichbar ist.“
„Die schnellsten Systeme der Welt sind extrem teuer für das, was man aus ihnen herausholt, gemessen an der wissenschaftlichen Leistung. Aber sie sind wichtig, weil sie die Kunst des Möglichen demonstrieren und die Branche voranbringen.“
Ob Systeme, die eine Leistung von einem zettaFLOPS erreichen können, tausendmal leistungsstärker als die aktuelle Ernte, auf eine Weise entwickelt werden können, die sich an Nachhaltigkeitszielen ausrichtet, wird vom Erfindungsreichtum der Industrie abhängen.
Es gibt keine binäre Beziehung zwischen Leistung und Energieeffizienz, aber in jeder Teildisziplin ist eine gesunde Dosis Handwerk erforderlich, um die erforderliche Leistungssteigerung innerhalb eines angemessenen Leistungsbereichs zu erzielen.
Theoretisch gibt es ein goldenes Verhältnis von Leistung zu Energieverbrauch, wobei man sagen kann, dass der durch HPC erzielte Nutzen für die Gesellschaft die Ausgaben für CO2-Emissionen rechtfertigt.
Die genaue Zahl wird in der Praxis natürlich schwer fassbar bleiben, aber die Verfolgung der Idee selbst ist per Definition ein Schritt in die richtige Richtung.