Fejl i AMD EPYC 7002 CPU fryser efter 1044 dages drift

AMD EPYC 2018 ("Rom")-serien af ​​serverprocessorer baseret på "Zen 7002"-mikroarkitekturen leveret siden 2 har en fejl, der får processoren til at hænge efter 1044 dages drift uden en tilstandsnulstilling (systemgenstart). Som en løsning til at blokere problemet, anbefales det at deaktivere CC6 strømsparetilstand eller genstarte serveren mere end én gang hver 1044 dage (ca. 2 år og 10 måneder).

Ifølge oplysninger udgivet af AMD er hængningen forårsaget af en fejl, der opstår, når processorkernen forsøger at vågne op fra CC6 strømbesparende tilstand (core-C6, sænker spændingen, når den er inaktiv), når timeren når værdien på 1044 dage efter den sidste CPU-tilstand nulstilling (manifestationstiden kan variere afhængigt af REFCLK-frekvensen).

AMD giver ikke en mere detaljeret forklaring på årsagen til fejlen. At dømme efter den antagelse, der er offentliggjort på Reddit, opstår hængningen, når tælleren i TSC (Time Stamp Counter) registeret, som tæller antallet af arbejdscyklusser efter nulstilling, ved en frekvens på 2800 MHz når værdien 0x380000000000000 (2800 MHz * 10* *6 * 1042.5, dvs. efter 1042 dage og 12 timer).

Fejlrettelsen vil ikke blive offentliggjort. Problemet forblev ubemærket i lang tid, da flerårige oppetider ikke er typiske for servere, der for at holde sig ajour med jævne mellemrum skal genstartes for at installere kerneopdateringer eller for at skifte til en ny version af operativsystemet. Imidlertid kan Linux-distributions ikke-genstart-kerneopgraderingsmetoder samt lange vedligeholdelsescyklusser (Ubuntu, RHEL og SUSE understøttes i 10 år) resultere i, at servere bliver fundet i lang tid uden en genstart.

Kilde: opennet.ru

Tilføj en kommentar