O erro na CPU AMD EPYC 7002 conxélase despois de 1044 días de funcionamento

A serie de procesadores de servidor AMD EPYC 2018 ("Roma") baseada na microarquitectura "Zen 7002" enviada desde 2 ten un erro que fai que o procesador se bloquee despois de 1044 días de funcionamento sen reiniciar o estado (reinicio do sistema). Como solución alternativa para bloquear o problema, recoméndase desactivar a compatibilidade do modo de aforro de enerxía CC6 ou reiniciar o servidor máis dunha vez cada 1044 días (aproximadamente 2 anos e 10 meses).

Segundo a información publicada por AMD, o bloqueo é causado por un fallo que ocorre cando o núcleo do procesador tenta espertar do modo de aforro de enerxía CC6 (core-C6, baixa a tensión cando está inactivo) cando o temporizador alcanza o valor de 1044 días. despois do último restablecemento do estado da CPU (o tempo de manifestación pode variar dependendo da frecuencia REFCLK).

AMD non ofrece unha explicación máis detallada da causa do fallo. A xulgar pola suposición publicada en Reddit, o bloqueo prodúcese cando o contador do rexistro TSC (Time Stamp Counter), que conta o número de ciclos de traballo despois do reinicio, a unha frecuencia de 2800 MHz alcanza o valor 0x380000000000000 (2800 MHz * 10* *6 * 1042.5, é dicir, despois de 1042 días e 12 horas).

A corrección de erros non se publicará. O problema pasou desapercibido durante moito tempo, xa que os tempos de actividade de varios anos non son típicos dos servidores que, para manterse actualizados, hai que reiniciar periodicamente para instalar actualizacións do núcleo ou para cambiar a unha nova versión do sistema operativo. Non obstante, os métodos de actualización do núcleo sen reinicio das distribucións de Linux, así como os ciclos de mantemento longos (Ubuntu, RHEL e SUSE son compatibles durante 10 anos), poden provocar que os servidores se atopen durante moito tempo sen reiniciar.

Fonte: opennet.ru

Engadir un comentario