IBM, das im Bereich Quantencomputing und einer Reihe anderer Forschungsbereiche führend ist, hat kürzlich gezeigt, wie seiner Meinung nach die Lösung für die KI-Verarbeitung (und die damit verbundenen Kosten) aussehen könnte. Und wenn sich die Vision von IBM in etwas umsetzen lässt, dreht sich die Zukunft nicht um GPUs, sondern findet im Rahmen von Mixed-Signal statt. analoge Chips Dies könnte zu massiven Verbesserungen der Energieeffizienz führen und gleichzeitig eine wettbewerbsfähige Leistung im Vergleich zu den aktuellen Angeboten des Marktes bieten.
Laut einem in veröffentlichten Forschungsbericht Naturelektronik Letzte Woche glaubte IBM, dass die Zukunft der KI-Inferenzierung durch einen Chip erfolgen könnte, der Phasenwechselspeicher (PCM) mit digitalen Schaltkreisen kombiniert. Dem Papier zufolge könnte die Matrix-Vektor-Multiplikation (eine der Hauptarbeitslasten für die KI-Inferenzierung) direkt auf im Chip gespeicherten Gewichten durchgeführt werden.
In diesem Szenario sollte der reduzierte Strombedarf passiver analoger Schaltkreise (die keinen kontinuierlichen elektrischen Strom benötigen, um den von ihnen gehaltenen Bitwert aufrechtzuerhalten) eine Reduzierung des Gesamtstroms ermöglichen, der für die erfolgreiche Durchführung von Matrixberechnungen erforderlich ist – oder Dies ermöglicht zumindest, dass das überschüssige Energiebudget der (jetzt) analogen Abschnitte des Chips für einen höheren Durchsatz für die verbleibenden digitalen Schaltkreise verwendet wird. Das Design basiert auf Erkenntnissen aus der Forschung im Bereich Neuromorphic Computing.
Die neueste Version des Chips wurde im Rahmen des Hermes-Projekts von IBM entwickelt und verfügt über 64 Rechenkacheln, die über einen Network-on-Chip (NOC)-Ansatz miteinander kommunizieren, dessen Konzept dem Infinity Fabric von AMD ähnelt. Es gibt auch Hardware mit fester Funktion, die auf die Verarbeitung von Faltungsschichten spezialisiert ist (die darauf abzielen, die Komplexität der zugrunde liegenden Informationen zu reduzieren, um die Verarbeitungsgeschwindigkeit zu beschleunigen und die Effizienz zu steigern). Da es sich um einen Forschungschip handelt, wurde er in einem 14-nm-Fertigungsprozess hergestellt. Vielleicht hat IBM Raum für eine weitere Verbesserung der Energieeffizienz, wenn die analogen Zellen weiter miniaturisiert werden können.
Die Phasenwechselspeicherzellen (PCM) selbst sind über jede der 64 in einer Kreuzschiene angeordneten Kacheln verteilt, die einen Matrix-Vektor-Multiplikationsraum von 256 x 256 speichern können. Fairerweise muss man sagen, dass es bei einem solchen gemischten analog-digitalen Design gewisse Leistungseinschränkungen gibt: Signale müssen von analog in digital (und umgekehrt) umgewandelt werden, was zu Einbußen sowohl bei der Latenz als auch bei der Energienutzung führt. Aber mit entsprechenden Planungsoptimierungen ist das Endergebnis eine höhere Effizienz im Vergleich zu einem volldigitalen Chip (wie Nvidias A100 und H100). Laut IBM eine Single ResNet-9 Die Eingabe wurde in 1,52 μs (Mikrosekunden) verarbeitet und verbrauchte 1,51 μJ (Mikrojoule) Energie. Laut Abu Sebastian vom IBM Rüschlikon Center (wie von EE Times abgedeckt) erreicht die aktuelle Iteration des Chips einen maximalen Matrix-Vektor-Multiplikationsdurchsatz von 16,1 bis 63,1 TOPC (Billionen Operationen pro Sekunde) bei einer Energieeffizienz von 2,48 bis 9,76 TOPS W-1.
Die immer noch andauernde KI-„Revolution“ hat auf dem Markt für Hochleistungsrechnen (HPC) vulkanische Bewegungen ausgelöst. Der Goldrausch bei KI-Beschleunigern hat nicht nur das Wunder der GPUs (die allgemeinen Recheneinheiten, die für die Beschleunigung des größten Teils dieses bestimmten Marktes verantwortlich sind) deutlich gemacht, sondern auch gezeigt, wie abhängig der Markt immer noch von einem einzelnen Player ist (sprich: Nvidia). Fragen der Energieeffizienz wieder in den Vordergrund rücken.
Analoge Chips, die die Grenzen der Energieeffizienz durchbrechen, wären sicherlich ein willkommener Schritt, aber wie jede neue Technologie müssen analoge KI-Inferenzchips um ihr Überleben gegen die bereits etablierten Technologien, Software-Stacks und Techniken kämpfen, die heute eingesetzt werden. Netzwerkeffekte und Marktanteile sind real, und Nvidias Einfluss auf den HPC-Markt sowohl über seine Hardware- als auch über seine CUDA-Software-Stacks ist, gelinde gesagt, … lasterhaft.