Fehler in der AMD EPYC 7002-CPU friert nach 1044 Tagen Betrieb ein

Die seit 2018 ausgelieferte Serverprozessorserie AMD EPYC 7002 („Rome“) auf Basis der „Zen 2“-Mikroarchitektur weist einen Fehler auf, der dazu führt, dass der Prozessor nach 1044 Betriebstagen ohne Status-Reset (Systemneustart) hängen bleibt. Um das Problem zu umgehen, wird empfohlen, die Unterstützung für den CC6-Energiesparmodus zu deaktivieren oder den Server mehr als einmal alle 1044 Tage (ca. 2 Jahre und 10 Monate) neu zu starten.

Nach Angaben von AMD wird das Hängen durch einen Fehler verursacht, der auftritt, wenn der Prozessorkern versucht, aus dem CC6-Energiesparmodus (Core-C6, senkt die Spannung im Leerlauf) aufzuwachen, wenn der Timer den Wert von 1044 Tagen erreicht nach dem letzten Zurücksetzen des CPU-Status (die Manifestationszeit kann je nach REFCLK-Frequenz variieren).

Eine genauere Erklärung zur Fehlerursache liefert AMD nicht. Nach der auf Reddit veröffentlichten Annahme zu urteilen, tritt der Hang auf, wenn der Zähler im TSC-Register (Time Stamp Counter), der die Anzahl der Arbeitszyklen nach dem Zurücksetzen zählt, bei einer Frequenz von 2800 MHz den Wert 0x380000000000000 (2800 MHz * 10*) erreicht. *6 * 1042.5, also nach 1042 Tagen und 12 Stunden).

Der Bugfix wird nicht veröffentlicht. Das Problem blieb lange Zeit unbemerkt, da mehrjährige Betriebszeiten nicht typisch für Server sind, die regelmäßig neu gestartet werden müssen, um Kernel-Updates zu installieren oder auf ein neues Release des Betriebssystems zu wechseln, um auf dem neuesten Stand zu bleiben. Allerdings können die nicht neustartenden Kernel-Upgrade-Methoden von Linux-Distributionen sowie lange Wartungszyklen (Ubuntu, RHEL und SUSE werden 10 Jahre lang unterstützt) dazu führen, dass Server lange Zeit ohne Neustart gefunden werden.

Source: opennet.ru

Kommentar hinzufügen