El error en la CPU AMD EPYC 7002 se congela después de 1044 días de funcionamiento

La serie de procesadores de servidor AMD EPYC 2018 ("Rome") basada en la microarquitectura "Zen 7002" distribuida desde 2 tiene un error que hace que el procesador se cuelgue después de 1044 días de funcionamiento sin un restablecimiento de estado (reinicio del sistema). Como soluciones para bloquear el problema, se recomienda desactivar la compatibilidad con el modo de ahorro de energía CC6 o reiniciar el servidor más de una vez cada 1044 días (aproximadamente 2 años y 10 meses).

Según la información publicada por AMD, el bloqueo se debe a un bloqueo que ocurre cuando el núcleo del procesador intenta despertarse del modo de ahorro de energía CC6 (core-C6, reduce el voltaje cuando está inactivo) cuando el temporizador alcanza el valor de 1044 días después del último restablecimiento del estado de la CPU (el tiempo de manifestación puede variar según la frecuencia de REFCLK).

AMD no proporciona una explicación más detallada de la causa de la falla. A juzgar por la suposición publicada en Reddit, el bloqueo se produce cuando el contador en el registro TSC (Time Stamp Counter), que cuenta el número de ciclos de trabajo después de un reinicio, a una frecuencia de 2800 MHz alcanza el valor 0x380000000000000 (2800 MHz * 10**6 * 1042.5, es decir, después de 1042 días y 12 horas).

La corrección del error no se publicará. El problema pasó desapercibido durante mucho tiempo, ya que los tiempos de actividad de varios años no son típicos de los servidores que, para mantenerse actualizados, deben reiniciarse periódicamente para instalar actualizaciones del kernel o cambiar a una nueva versión del sistema operativo. Sin embargo, los métodos de actualización del kernel sin reinicio de las distribuciones de Linux, así como los largos ciclos de mantenimiento (Ubuntu, RHEL y SUSE son compatibles durante 10 años), pueden hacer que los servidores se encuentren durante mucho tiempo sin reiniciar.

Fuente: opennet.ru

Añadir un comentario