AMDs EPYC Rome-Chips stürzen nach 1.044 Tagen Betriebszeit ab


AMDs neuester Prozessor-Revisionsleitfaden für die EPYC 7002 „Rome“-Serverchips enthüllt einen interessanten neuen Fehler (Errata), der dazu führen kann, dass ein Kern auf dem Chip nach 1.044 Tagen Betriebszeit (~2,93 Jahre) hängen bleibt Setzen Sie den Server zurück, damit der Chip ordnungsgemäß läuft. AMD sagt, dass es das Problem nicht beheben wird.

AMDs Beschreibung des Problems, das seine EPYC-Prozessoren der zweiten Generation betrifft (AMDs Genoa-Chips der vierten Generation sind die neuesten), ist prägnant, aber es gibt viel zu entpacken.

AMD

(Bildnachweis: AMD)

Das Problem ist darauf zurückzuführen, dass der Kern den CC6-Ruhezustand nicht verlässt. Laut AMD kann der Zeitpunkt des Fehlers jedoch je nach Spreizspektrum und REFCLK-Frequenz variieren. Letztere ist der Referenztakt, der dem Chip dabei hilft, die Zeit im Auge zu behalten.

Reddit-Benutzer acid_migrain hat eine plausible Theorie über den genauen Zeitpunkt des Kerns bleibt hängen und sagt: „Trotz allem, was sie sagen, manifestiert sich das Problem tatsächlich bei 1042 Tagen und ungefähr 12 Stunden. Der TSC tickt bei 2800 MHz und 2800 * 10**6 * 1042,5 Tage entsprechen fast 0x380000000000000, das zu viele Nullen hat, um kein Zufall zu sein.“

Die Problemumgehung ist einfach: Starten Sie entweder vor 1.044 Tagen Betriebszeit neu, wodurch die CPU zurückgesetzt wird, um Ihren 1.044-Tage-Timer neu zu starten, oder deaktivieren Sie den CC6-Ruhezustand.

Auch wenn dieser 2,93 Jahre alte Core-Absturzfehler interessant ist, stellt sich die Frage, ob er wirklich von Bedeutung ist. Sicher, es ist wichtig, auch wenn in vielen Bereichen Sicherheitsupdates und Wartungsarbeiten durchgeführt werden sollten. viel kürzere Intervalle.

Das realistischste Szenario wären einfach diejenigen, die die Linux-Live-Patching-Funktion oder kexec zum Aktualisieren ohne Neustart verwenden – das könnte sicherlich zu der Art von verlängerter Betriebszeit führen, die den Fehler auslösen würde. Außerdem verzeichnen Server für geschäftskritische Anwendungen häufig eine längere Betriebszeit.

Obwohl dieser Fehler interessant ist, stellt er für die Mehrheit der Benutzer kein Problem dar, und Fehler in den Chips sind definitiv nicht ungewöhnlich. Moderne CPUs sind die komplexesten Geräte, die von der Menschheit gebaut wurden, und sie kommen fast immer mit zahlreichen Fehlern/Bugs auf den Markt, die entweder während oder nach der endgültigen Auslieferungsrevision (Stepping) der Chips entdeckt werden. Hier erfahren Sie etwas mehr darüber.

Chip-Errata sind häufig, aber nicht großartig

source-109

Leave a Reply