L'error a la CPU AMD EPYC 7002 es congela després de 1044 dies de funcionament

La sèrie de processadors de servidor AMD EPYC 2018 ("Roma") basats en la microarquitectura "Zen 7002" enviada des del 2 té un error que fa que el processador es pengi després de 1044 dies de funcionament sense un restabliment de l'estat (reinici del sistema). Com a solucions alternatives per bloquejar el problema, es recomana desactivar la compatibilitat amb el mode d'estalvi d'energia CC6 o reiniciar el servidor més d'una vegada cada 1044 dies (aproximadament 2 anys i 10 mesos).

Segons la informació publicada per AMD, el bloqueig és causat per un error que es produeix quan el nucli del processador intenta despertar-se del mode d'estalvi d'energia CC6 (core-C6, baixa la tensió quan està inactiu) quan el temporitzador arriba al valor de 1044 dies. després de l'últim restabliment de l'estat de la CPU (el temps de manifestació pot variar en funció de la freqüència REFCLK).

AMD no proporciona una explicació més detallada de la causa de la fallada. A jutjar per la suposició publicada a Reddit, el bloqueig es produeix quan el comptador del registre TSC (Time Stamp Counter), que compta el nombre de cicles de treball després del reinici, a una freqüència de 2800 MHz arriba al valor 0x380000000000000 (2800 MHz * 10* *6 * 1042.5, és a dir, després de 1042 dies i 12 hores).

La correcció d'errors no es publicarà. El problema va romandre desapercebut durant molt de temps, ja que els temps de funcionament de diversos anys no són habituals per als servidors que, per mantenir-se actualitzats, s'han de reiniciar periòdicament per instal·lar actualitzacions del nucli o per canviar a una nova versió del sistema operatiu. Tanmateix, els mètodes d'actualització del nucli sense reinici de les distribucions de Linux, així com els cicles de manteniment llargs (Ubuntu, RHEL i SUSE són compatibles durant 10 anys), poden provocar que els servidors es trobin durant molt de temps sense reiniciar.

Font: opennet.ru

Afegeix comentari