Bug in AMD EPYC 7002 CPU loopt vast na 1044 dagen gebruik

De AMD EPYC 2018 ("Rome") serie serverprocessors op basis van de "Zen 7002" microarchitectuur die sinds 2 is verzonden, heeft een bug die ervoor zorgt dat de processor vastloopt na 1044 dagen gebruik zonder een statusreset (systeem opnieuw opstarten). Als tijdelijke oplossing om het probleem te omzeilen, wordt aanbevolen om de CC6-ondersteuning voor energiebesparende modus uit te schakelen of de server meer dan eens per 1044 dagen (ongeveer 2 jaar en 10 maanden) opnieuw op te starten.

Volgens informatie vrijgegeven door AMD wordt het vastlopen veroorzaakt door een glitch die optreedt wanneer de processorkern probeert te ontwaken uit de energiebesparende CC6-modus (core-C6, verlaagt de spanning bij inactiviteit) wanneer de timer de waarde van 1044 dagen bereikt na de laatste reset van de CPU-status (de manifestatietijd kan variΓ«ren afhankelijk van de REFCLK-frequentie).

AMD geeft geen uitgebreidere uitleg over de oorzaak van de storing. Te oordelen naar de op Reddit gepubliceerde veronderstelling, treedt het vastlopen op wanneer de teller in het TSC-register (Time Stamp Counter), dat het aantal werkcycli na reset telt, bij een frequentie van 2800 MHz de waarde 0x380000000000000 bereikt (2800 MHz * 10* *6 * 1042.5, d.w.z. na 1042 dagen en 12 uur).

De bugfix wordt niet gepubliceerd. Het probleem bleef lange tijd onopgemerkt, aangezien uptimes van meerdere jaren niet typerend zijn voor servers die, om up-to-date te blijven, periodiek opnieuw moeten worden opgestart om kernelupdates te installeren of om over te schakelen naar een nieuwe release van het besturingssysteem. De non-reboot kernel-upgrademethoden van Linux-distributies, evenals lange onderhoudscycli (Ubuntu, RHEL en SUSE worden gedurende 10 jaar ondersteund), kunnen ertoe leiden dat servers lange tijd worden gevonden zonder opnieuw op te starten.

Bron: opennet.ru

Voeg een reactie