AMD EPYC Rome-CPUs funktionieren nach 1.044 Tagen Betriebszeit nicht mehr


Ein Revisionsleitfaden für den AMD EPYC 7002 „Rome“-Serverprozessor zeigt, dass ein Chipkern nach 1.044 Tagen Betriebszeit (ungefähr drei Jahren) hängen bleiben könnte.

AMDs EPYC Rome CPU-Kern wechselt nach fast dreijähriger Betriebszeit in den Ruhezustand

Die AMD EPYC Rome-CPUs basieren auf der Zen-2-Kernarchitektur und gehören zu den wettbewerbsfähigsten Chips, die das Red-Team für den Rechenzentrumsmarkt eingeführt hat. Allerdings wurde kürzlich ein Problem festgestellt, bei dem der Chip nach fast drei Jahren Betriebszeit in den Ruhezustand wechselt. So beschreibt AMD das Problem:

Ein Kern kann CC6 etwa 1044 Tage nach dem letzten System-Reset nicht verlassen. Der Zeitpunkt des Ausfalls kann je nach Spreizspektrum und REFCLK-Frequenz variieren.

Laut AMD hängt der Zeitpunkt des Ausfalls vom Spread Spectrum (Änderung der Basistaktraten zur Reduzierung elektromagnetischer Störungen) und der REFCLK-Frequenz (Referenztakt, der dem Chip hilft, die Zeit im Auge zu behalten) ab. Allerdings kann die von AMD angegebene Ausfallzeit etwas irreführend sein, da laut einem Reddit-Benutzer saure_Migräne, die tatsächliche Zeitspanne kann etwa 1042 Tage und etwa 12 Stunden betragen. Hier ist der Grund:

Entgegen allem, was sie sagen, manifestiert sich das Problem tatsächlich nach 1042 Tagen und etwa 12 Stunden. Der TSC tickt bei 2800 MHz und 2800 * 10**6 * 1042,5 Tage entsprechen fast 0x380000000000000, was zu viele Nullen enthält, um kein Zufall zu sein.

Um das Problem zu beheben, ist keine lange Lösung erforderlich. Starten Sie entweder vor 1.044 Tagen Betriebszeit neu, setzen Sie den CPU-Timer zurück oder schalten Sie den CC6-Ruhezustand aus. Wie im Dokument erwähnt, plant AMD keine Lösung hierfür bereitzustellen. Dies ist kein schwerwiegendes Problem; Solche Probleme treten bei verschiedenen CPUs auf. Der EPYC 7002 wurde 2018 eingeführt und diese Schwachstelle wird nun ans Licht gebracht, da bestimmte Kunden aufgrund der abgeschlossenen Betriebszeit (1.044 Tage) darauf gestoßen sein könnten.

Aufgrund der komplexen Architektur von Prozessoren werden verschiedene Arten von Fehlern entdeckt, nachdem die Prozessoren verpackt und für den Versand bereit sind. Dabei kann es sich um Probleme verschiedenster Art handeln, wobei einige weniger wirkungsvoll sind, etwa fehlerhafte Flags und Cache-Tags, als problematischere, etwa solche, die einen Angriffsvektor offen lassen könnten. Der Chiphersteller bewertet die Schwere des Fehlers, die Leichtigkeit, mit der er behoben werden kann, und die Dringlichkeit, mit der er behoben werden muss, bevor er entscheidet, wann und wie Korrekturen vorgenommen werden.

Nachrichtenquelle: Toms Hardware

Teilen Sie diese Geschichte

Facebook

Twitter

source-99

Leave a Reply