Bug nella CPU AMD EPYC 7002 che si blocca dopo 1044 giorni di funzionamento

La serie AMD EPYC 2018 ("Roma") di processori per server basata sulla microarchitettura "Zen 7002" distribuita dal 2 presenta un bug che causa il blocco del processore dopo 1044 giorni di funzionamento senza ripristino dello stato (riavvio del sistema). Come soluzione alternativa per bloccare il problema, si consiglia di disabilitare il supporto della modalità di risparmio energetico CC6 o riavviare il server più di una volta ogni 1044 giorni (circa 2 anni e 10 mesi).

Secondo le informazioni pubblicate da AMD, l'hang è causato da un crash che si verifica quando il core del processore tenta di riattivarsi dalla modalità di risparmio energetico CC6 (core-C6, abbassa la tensione quando è inattivo) quando il timer raggiunge il valore di 1044 giorni dopo l'ultimo ripristino dello stato della CPU (il tempo di manifestazione può variare a seconda della frequenza REFCLK).

AMD non fornisce una spiegazione più dettagliata della causa del guasto. A giudicare dall'ipotesi pubblicata su Reddit, il blocco si verifica quando il contatore nel registro TSC (Time Stamp Counter), che conta il numero di cicli di lavoro dopo un reset, alla frequenza di 2800 MHz raggiunge il valore 0x380000000000000 (2800 MHz * 10 **6 * 1042.5, cioè dopo 1042 giorni e 12 ore).

La correzione del bug non verrà pubblicata. Il problema è rimasto a lungo inosservato, poiché i tempi di attività pluriennali non sono tipici dei server che, per mantenersi aggiornati, devono periodicamente essere riavviati per installare gli aggiornamenti del kernel o per passare a una nuova release del sistema operativo. Tuttavia, i metodi di aggiornamento del kernel senza riavvio delle distribuzioni Linux, così come i lunghi cicli di manutenzione (Ubuntu, RHEL e SUSE sono supportati per 10 anni), possono far sì che i server vengano trovati per molto tempo senza un riavvio.

Fonte: opennet.ru

Aggiungi un commento