Помилка в CPU AMD EPYC 7002 призводить до зависання після 1044 днів роботи

У серії серверних процесорів AMD EPYC 2018 («Rome»), що поставляється з 7002 року, побудованих на базі мікроархітектури «Zen 2», виявлено помилку, в результаті якої процесор зависає після 1044 днів роботи без скидання стану (перезавантаження системи). Як обхідні шляхи блокування проблеми рекомендується відключити підтримку енергозберігаючого режиму CC6 або перезавантажувати сервер частіше, ніж раз на 1044 днів (приблизно 2 роки 10 місяців).

За інформацією, опублікованою компанією AMD, зависання викликане збоєм, що виникає при спробі виходу процесорного ядра з енергозберігаючого режиму CC6 (core-C6, знижує напругу при бездіяльності) при досягненні таймером значення в 1044 днів після останнього скидання стану CPU (час прояву від частоти REFCLK).

Більш детального пояснення причин збою компанія AMD не наводить. Судячи з опублікованого на Reddit припущення, зависання відбувається коли лічильник у регістрі TSC (Time Stamp Counter), що відраховує кількість робочих циклів після скидання, при частоті 2800 MHz досягає значення 0x380000000000000 (2800 MHz * 10 ** 6 * 1042.5. 1042 дні та 12 годин).

Виправлення помилки публікувати не планується. Проблема тривалий час залишалася не поміченою так як багаторічні uptime не типові для серверів, які для підтримки в актуальному стані періодично доводиться перезапускати для встановлення оновлень ядра або переходу на новий випуск операційної системи. Тим не менш, застосування в Linux дистрибутивах методів оновлення ядра без перезавантаження, а також тривалі цикли супроводу (Ubuntu, RHEL та SUSE підтримуються 10 років) можуть призвести до тривалого перебування серверів без перезавантаження.

Джерело: opennet.ru

Додати коментар або відгук