Bug na CPU AMD EPYC 7002 congela após 1044 dias de operação

A série de processadores de servidor AMD EPYC 2018 ("Roma") baseada na microarquitetura "Zen 7002" enviada desde 2 tem um bug que faz com que o processador trave após 1044 dias de operação sem uma redefinição de estado (reinicialização do sistema). Como soluções alternativas para bloquear o problema, é recomendável desativar o suporte ao modo de economia de energia CC6 ou reiniciar o servidor mais de uma vez a cada 1044 dias (aproximadamente 2 anos e 10 meses).

De acordo com informações publicadas pela AMD, o travamento é causado por um travamento que ocorre quando o núcleo do processador tenta acordar do modo de economia de energia CC6 (core-C6, diminui a tensão quando ocioso) quando o cronômetro atinge o valor de 1044 dias após a última reinicialização do estado da CPU (o tempo de manifestação pode variar dependendo da frequência do REFCLK).

A AMD não fornece uma explicação mais detalhada sobre a causa da falha. A julgar pela suposição postada no Reddit, o travamento ocorre quando o contador no registro TSC (Time Stamp Counter), que conta o número de ciclos de trabalho após um reset, na frequência de 2800 MHz atinge o valor 0x380000000000000 (2800 MHz * 10**6 * 1042.5, ou seja, após 1042 dias e 12 horas).

A correção do bug não será publicada. O problema passou despercebido por muito tempo, já que uptimes de vários anos não são típicos de servidores que, para manter-se atualizados, precisam ser reiniciados periodicamente para instalar atualizações de kernel ou mudar para uma nova versão do sistema operacional. No entanto, os métodos de atualização do kernel sem reinicialização das distribuições Linux, bem como os longos ciclos de manutenção (Ubuntu, RHEL e SUSE são suportados por 10 anos), podem resultar em servidores sendo encontrados por um longo tempo sem reinicialização.

Fonte: opennet.ru

Adicionar um comentário