Viga AMD EPYC 7002 protsessoris hangub pärast 1044-päevast töötamist

Alates 2018. aastast tarnitud Zen 7002 mikroarhitektuuril põhinevatel serveriprotsessoritel AMD EPYC 2 ("Rome") on viga, mis põhjustab protsessori hangumise pärast 1044-päevast töötamist ilma oleku lähtestamiseta (süsteemi taaskäivitamiseta). Probleemi blokeerimiseks on soovitatav keelata CC6 energiasäästurežiimi tugi või taaskäivitada server rohkem kui üks kord 1044 päeva jooksul (umbes 2 aastat 10 kuud).

AMD avaldatud teabe kohaselt on hangumise põhjuseks krahh, mis tekib siis, kui protsessori tuum üritab ärgata CC6 energiasäästurežiimist (core-C6, alandab pinget jõudeoleku ajal), kui taimer jõuab 1044 päeva väärtuseni. pärast viimast CPU oleku lähtestamist (ilmumise aeg võib varieeruda sõltuvalt REFCLK sagedusest).

AMD ei anna rikke põhjuse kohta täpsemat selgitust. Otsustades Redditis avaldatud eelduse põhjal, tekib hang, kui loendur TSC (Time Stamp Counter) registris, mis loendab töötsüklite arvu pärast lähtestamist, jõuab sagedusel 2800 MHz väärtuseni 0x380000000000000 (2800 MHz * 10*). *6 * 1042.5, st 1042 päeva ja 12 tunni pärast).

Veaparandust ei avaldata. Probleem jäi pikka aega märkamatuks, kuna mitmeaastased tööajad ei ole tüüpilised serveritele, mida tuleb ajakohasena püsimiseks perioodiliselt taaskäivitada, et installida kerneli värskendusi või minna üle operatsioonisüsteemi uuele versioonile. Kuid Linuxi distributsioonide kerneli taaskäivitamiseta uuendamise meetodid ja pikad hooldustsüklid (Ubuntu, RHEL ja SUSE tagavad 10 aastat) võivad serverite jaoks ilma taaskäivitamiseta põhjustada pikki ooteaegu.

Allikas: opennet.ru

Lisa kommentaar