Bug zwingt Intel, einige Lieferungen von Xeon Sapphire Rapids einzustellen


Intel hat bestätigt, dass es die Auslieferung einiger seiner Xeon Sapphire Rapids-Prozessoren der vierten Generation aufgrund eines neu entdeckten Fehlers ausgesetzt hat. Wir erhielten den Hinweis, dass Intel die Lieferungen eingestellt hatte, und als wir die Angelegenheit weiterverfolgten, erfuhren wir von Dylan Patel, Chefanalyst bei Halbanalyse, der sagt, dass der Versand bestimmter Artikel seit Mitte Juni ausgesetzt wurde. Wir haben uns in dieser Angelegenheit auch an Intel gewandt, und das Unternehmen hat die folgende Erklärung abgegeben Toms Hardware:

„Wir sind auf ein Problem bei einer Teilmenge der Intel Bei SKUs mit Intel Xeon-Prozessoren der 4. Generation (d. h .” – Intel-Sprecher an Toms Hardware.

Als Antwort auf eine Folgefrage teilte uns Intel außerdem mit, dass keine Auswirkungen der Firmware-Abschwächung auf die Leistung zu erwarten seien.

Die oft verzögerten Sapphire Rapids-Prozessoren von Intel basieren auf zwei Arten zugrunde liegender Designs: dem XCC-Paket, das vier Rechenkacheln (Chips) verwendet, um einen einzelnen Chip zu erstellen, und dem MCC-Paket, das einen einzelnen monolithischen Chip verwendet. Wie in den Folien oben gezeigt, wird das MCC-Design für Chips mit bis zu 32 Kernen verwendet, die für Intel die Quelle hoher Umsätze sind, während die XCC-Varianten für die Halo-Chips zwischen 36 und 60 Kernen verwendet werden.

„Intel hatte mit einer weiteren Reihe von Designproblemen im Zusammenhang mit Sapphire Rapids MCC zu kämpfen, der volumenstärksten Version von Sapphire Rapids. Die Lieferungen der 2-Sockel- und 4-Sockel-SKUs wurden aufgrund eines Zeitproblems seit Mitte Juni ausgesetzt“, sagte Patel.

Intel hat nicht bestätigt, dass das Problem auf Dual- und Quad-Socket-SKUs beschränkt ist, sondern stuft das Problem stattdessen als auf eine „Untergruppe“ der SKUs beschränkt ein und hat nicht angegeben, wann die Auslieferungspause begann. Intel hat auch Patels Behauptungen, dass der Fehler zeitbedingt sei, nicht bestätigt und uns auch keine Erläuterungen zur Art des Problems gegeben.

Ein Timing-Problem kann eine beliebige Anzahl von Möglichkeiten umfassen, die von UPI-Verbindungen bis hin zu Befehls-Timing-Problemen reichen, sodass die wahre Natur des Fehlers vorerst unklar bleibt. Wir wissen, dass Intel das Problem mit einem Firmware-Fix beheben kann, der offenbar vorerst noch in der Validierungsphase bleibt, sodass für die Behebung des Problems kein Neudesign oder eine neue Revision/ein neuer Schritt erforderlich ist. Da eine neue Firmware außerdem eine angemessene Lösung darstellt, ist Intel möglicherweise nicht verpflichtet, bereits im Einsatz befindliche Prozessoren auszutauschen – auch wenn dies seinen Kunden Probleme bei der Validierung bereiten könnte.

Intel hat nicht nur wegen seiner Fehltritte bei der Prozessknotentechnologie für die oft verzögerten Sapphire Rapids viel Kritik geerntet, sondern auch wegen der Probleme in seiner Design- und Validierungsmethodik, die zu weiteren Verzögerungen und zahlreichen neuen Schritten führten (eine normalerweise geringfügige Neugestaltung, die erforderlich ist). eine neue Siliziumversion, um ein Problem zu beheben). Intels Sapphire Rapids wird von Gerüchten geplagt, dass seine Design-/Verifizierungsfehler bei einigen Konfigurationen zu 12 Steppings führten (eine unnatürlich große Zahl – die meisten Chips sehen höchstens drei Steppings). Dies führte natürlich zu erheblichen Produktionsverzögerungen und verpassten Markteinführungsterminen.

Das Unternehmen hat inzwischen mitgeteilt, dass es einen anderen Ansatz für seinen Design-, Simulations- und Validierungsablauf verfolgen will Das wird diese Probleme beheben. Laut Intel werden diese Anpassungen in der nächsten Generation der Emerald Rapids Xeon-Prozessoren vollständig zum Tragen kommen.

Intel sagt, dass dieser neue Sapphire Rapids-Fehler nicht beim „Ausführen kommerziell verfügbarer Software“ aufgetreten ist (vielleicht handelte es sich dabei um eine benutzerdefinierte Anwendung eines Hyperscalers) und offensichtlich auch nicht bei der Validierung entdeckt wurde. Eine solche Situation ist nicht völlig ungewöhnlich; Fast alle komplexen Chips weisen sowohl bekannte als auch unbekannte Fehler und Fehler auf, die mit Firmware-, Treiber- und Software-Workarounds behoben werden, die diese Probleme reduzieren oder beseitigen können, und sie werden auf diese Weise geliefert – das liegt in der Natur des modernen Halbleiterdesigns und der modernen Halbleiterproduktion.

Beispielsweise wurden Intels Skylake-Prozessorgeneration mit 53 bekannten Errata ausgeliefert, und sechs Monate später listete Intel weitere 40 Errata auf. Ein weiteres Beispiel ist die jüngste Entdeckung, dass AMDs EPYC Rome-Chips nach 1.044 Tagen Betriebszeit abstürzen. Einige Fehler werden einfach nicht behoben, da sie als nicht kritisch genug gelten, um behoben zu werden, oder sie werden mit einer Kombination aus Firmware und Software behoben. Die kritischsten Fehler erfordern manchmal einen neuen Schritt zur Behebung, was im schlimmsten Fall der Fall ist. Zum Glück für Intel scheint das hier nicht der Fall zu sein.

Obwohl Fehler keine Seltenheit sind, ist es so Ist Es ist ungewöhnlich, dass diese Art von Käfern zu einem Lieferstopp führt, was bedeutet, dass es sich hierbei um mehr als nur um eine Gartenvarietäts-Errata handelt. Intel hat nicht klargestellt, wann die Auslieferungen seiner Sapphire Rapids MCC-Chips wieder aufgenommen werden sollen, wir werden unsere Berichterstattung jedoch aktualisieren, sobald wir mehr erfahren.

source-109

Leave a Reply