Серията сървърни процесори AMD EPYC 2018 ("Рим"), базирана на микроархитектурата "Zen 7002", доставяна от 2 г., има грешка, която кара процесора да виси след 1044 дни работа без нулиране на състоянието (рестартиране на системата). Като заобиколни решения за блокиране на проблема се препоръчва да деактивирате поддръжката на режима за пестене на енергия CC6 или да рестартирате сървъра повече от веднъж на всеки 1044 дни (приблизително 2 години 10 месеца).
Според информацията, публикувана от AMD, увисването е причинено от проблем, който възниква, когато ядрото на процесора се опитва да се събуди от CC6 енергоспестяващ режим (ядро-C6, понижава напрежението, когато не работи), когато таймерът достигне стойността от 1044 дни след последното нулиране на състоянието на процесора (времето за проява може да варира в зависимост от честотата на REFCLK).
AMD не дава по-подробно обяснение на причината за повредата. Съдейки по предположението, публикувано в Reddit, увисването възниква, когато броячът в регистъра TSC (Time Stamp Counter), който отчита броя на работните цикли след нулиране, при честота от 2800 MHz достигне стойността 0x380000000000000 (2800 MHz * 10* *6 * 1042.5, т.е. след 1042 дни и 12 часа).
Няма планове за публикуване на поправка за грешката. Проблемът остана незабелязан дълго време, тъй като дългосрочната работа не е типична. сървъри, който трябва периодично да се рестартира, за да се инсталират актуализации на ядрото или да се надстрои до нова версия на операционната система, за да се поддържат актуални. Използването на Linux дистрибуции на методи за актуализиране на ядрото без рестартиране, както и дълги цикли на поддръжка (Ubuntu, RHEL и SUSE се поддържат 10 години) може да доведе до продължителна работа на сървърите без рестартиране.
Източник: opennet.ru
