Chyba v CPU AMD EPYC 7002 zamrzne po 1044 dňoch prevádzky

Séria serverových procesorov AMD EPYC 2018 ("Rím") založená na mikroarchitektúre "Zen 7002" dodávaná od roku 2 má chybu, ktorá spôsobuje, že procesor zamrzne po 1044 dňoch prevádzky bez resetovania stavu (reštartu systému). Ako riešenie na zablokovanie problému sa odporúča vypnúť podporu úsporného režimu CC6 alebo reštartovať server viac ako raz za 1044 dní (približne 2 roky 10 mesiacov).

Podľa informácií zverejnených AMD je zamrznutie spôsobené pádom, ku ktorému dochádza, keď sa jadro procesora pokúša prebudiť z úsporného režimu CC6 (core-C6, pri nečinnosti znižuje napätie), keď časovač dosiahne hodnotu 1044 dní po poslednom resete stavu CPU (čas prejavu sa môže líšiť v závislosti od frekvencie REFCLK).

AMD neposkytuje bližšie vysvetlenie príčiny poruchy. Súdiac podľa predpokladu zverejneného na Reddite, zablokovanie nastane, keď počítadlo v registri TSC (Time Stamp Counter), ktorý počíta počet pracovných cyklov po resetovaní, na frekvencii 2800 MHz dosiahne hodnotu 0x380000000000000 (2800 MHz * 10* *6 * 1042.5, t.j. po 1042 dňoch a 12 hodinách).

Oprava chyby nebude zverejnená. Problém zostal dlho nepovšimnutý, pretože viacročné doby prevádzky nie sú typické pre servery, ktoré sa musia pravidelne reštartovať kvôli inštalácii aktualizácií jadra alebo prechodu na nové vydanie operačného systému, aby boli aktuálne. Metódy aktualizácie jadra bez reštartu a dlhé cykly údržby (Ubuntu, RHEL a SUSE sú podporované 10 rokmi) však môžu viesť k dlhým čakacím dobám serverov bez reštartovania.

Zdroj: opennet.ru

Pridať komentár