Feil i AMD EPYC 7002 CPU fryser etter 1044 dagers drift

AMD EPYC 2018 ("Roma")-serien med serverprosessorer basert på "Zen 7002"-mikroarkitekturen som ble sendt siden 2, har en feil som får prosessoren til å henge etter 1044 dagers drift uten en tilbakestilling av tilstanden (omstart av systemet). Som en løsning for å blokkere problemet, anbefales det å deaktivere støtte for CC6-strømsparingsmodus eller starte serveren på nytt mer enn én gang hver 1044. dag (omtrent 2 år og 10 måneder).

I følge informasjon utgitt av AMD, er hengingen forårsaket av en feil som oppstår når prosessorkjernen prøver å våkne opp fra CC6 strømsparingsmodus (core-C6, senker spenningen når inaktiv) når tidtakeren når verdien på 1044 dager etter siste tilbakestilling av CPU-tilstand (manifestasjonstiden kan variere avhengig av REFCLK-frekvensen).

AMD gir ikke en mer detaljert forklaring på årsaken til feilen. Ut fra antakelsen publisert på Reddit, oppstår hengingen når telleren i TSC (Time Stamp Counter) registeret, som teller antall arbeidssykluser etter tilbakestilling, med en frekvens på 2800 MHz når verdien 0x380000000000000 (2800 MHz * 10*) *6 * 1042.5, dvs. etter 1042 dager og 12 timer).

Feilrettingen kommer ikke til å bli publisert. Problemet forble ubemerket i lang tid, siden flerårige oppetider ikke er typiske for servere som, for å holde seg oppdatert, med jevne mellomrom må startes på nytt for å installere kjerneoppdateringer eller for å bytte til en ny versjon av operativsystemet. Imidlertid kan Linux-distribusjoners ikke-omstart kjerneoppgraderingsmetoder, samt lange vedlikeholdssykluser (Ubuntu, RHEL og SUSE støttes i 10 år), føre til at servere blir funnet i lang tid uten omstart.

Kilde: opennet.ru

Legg til en kommentar