Грешка в процесора AMD EPYC 7002 замръзва след 1044 дни работа

Серията сървърни процесори AMD EPYC 2018 ("Рим"), базирана на микроархитектурата "Zen 7002", доставяна от 2 г., има грешка, която кара процесора да виси след 1044 дни работа без нулиране на състоянието (рестартиране на системата). Като заобиколни решения за блокиране на проблема се препоръчва да деактивирате поддръжката на режима за пестене на енергия CC6 или да рестартирате сървъра повече от веднъж на всеки 1044 дни (приблизително 2 години 10 месеца).

Според информацията, публикувана от AMD, увисването е причинено от проблем, който възниква, когато ядрото на процесора се опитва да се събуди от CC6 енергоспестяващ режим (ядро-C6, понижава напрежението, когато не работи), когато таймерът достигне стойността от 1044 дни след последното нулиране на състоянието на процесора (времето за проява може да варира в зависимост от честотата на REFCLK).

AMD не дава по-подробно обяснение на причината за повредата. Съдейки по предположението, публикувано в Reddit, увисването възниква, когато броячът в регистъра TSC (Time Stamp Counter), който отчита броя на работните цикли след нулиране, при честота от 2800 MHz достигне стойността 0x380000000000000 (2800 MHz * 10* *6 * 1042.5, т.е. след 1042 дни и 12 часа).

Корекцията на грешка няма да бъде публикувана. Проблемът остава незабелязан дълго време, тъй като многогодишното време на работа не е типично за сървъри, които, за да бъдат актуализирани, периодично трябва да се рестартират, за да инсталират актуализации на ядрото или да преминат към нова версия на операционната система. Въпреки това методите за надграждане на ядрото без рестартиране на дистрибуциите на Linux, както и дългите цикли на поддръжка (Ubuntu, RHEL и SUSE се поддържат за 10 години), могат да доведат до намиране на сървъри за дълго време без рестартиране.

Източник: opennet.ru

Добавяне на нов коментар