Greška u AMD EPYC 7002 CPU-u se smrzava nakon 1044 dana rada

Serija serverskih procesora AMD EPYC 2018 ("Rim") zasnovana na "Zen 7002" mikroarhitekturi koja se isporučuje od 2. godine ima grešku koja uzrokuje da procesor visi nakon 1044 dana rada bez resetovanja stanja (ponovno pokretanje sistema). Kao rešenje za blokiranje problema, preporučuje se da onemogućite podršku za režim uštede energije CC6 ili ponovo pokrenete server više od jednom u 1044 dana (otprilike 2 godine i 10 meseci).

Prema informacijama koje je objavio AMD, zastoj je uzrokovan padom do kojeg dolazi kada se procesorsko jezgro pokuša probuditi iz CC6 režima uštede energije (core-C6, snižava napon kada je neaktivan) kada tajmer dostigne vrijednost od 1044 dana nakon posljednjeg resetiranja stanja CPU (vrijeme manifestacije može varirati ovisno o frekvenciji REFCLK).

AMD ne daje detaljnije objašnjenje uzroka kvara. Sudeći po pretpostavci objavljenoj na Reddit-u, do zastoja dolazi kada brojač u TSC (Time Stamp Counter) registru, koji broji broj radnih ciklusa nakon resetovanja, na frekvenciji od 2800 MHz dostigne vrijednost 0x380000000000000 (2800 MHz.10 MHz * 6 MHz i 1042.5 dana nakon toga sati).

Ispravka greške neće biti objavljena. Problem je dugo ostao neprimjećen, budući da višegodišnja produženja rada nisu tipična za servere koji se, da bi bili ažurni, povremeno moraju ponovo pokretati da bi instalirali ažuriranja kernela ili prešli na novo izdanje operativnog sistema. Međutim, metode nadogradnje kernela bez ponovnog pokretanja Linux distribucija i dugi ciklusi održavanja (Ubuntu, RHEL i SUSE podržavaju 10 godina) mogu dovesti do dugog vremena čekanja za servere bez ponovnog pokretanja.

izvor: opennet.ru

Dodajte komentar