Памылка ў CPU AMD EPYC 7002 прыводзіць да завісання пасля 1044 дзён працы

У серыі серверных працэсараў AMD EPYC 2018 ("Rome"), пастаўляных з 7002 года, пабудаваных на базе мікраархітэктуры "Zen 2", выяўлена памылка, у выніку якой працэсар завісае пасля 1044 дзён працы без скіду стану (перазагрузкі сістэмы). У якасці абыходных шляхоў блакавання праблемы рэкамендуецца адключыць падтрымку энергазберагальнага рэжыму CC6 або перазагружаць сервер гушчару, чым раз у 1044 дзён (прыкладна 2 гады 10 месяцаў).

Па інфармацыі, апублікаванай кампаніяй AMD, завісанне выклікана збоем, якія ўзнікаюць пры спробе выйсця працэсарнага ядра з энергазахавальнага рэжыму CC6 (core-C6, паніжае напругу пры бяздзейнасці) пры дасягненні таймерам значэння ў 1044 дзён пасля апошняга скіду стану CPU (час праявы ад частаты REFCLK).

Больш дэталёвага тлумачэння прычыны збою кампанія AMD не прыводзіць. Мяркуючы па апублікаваным на Reddit здагадцы, завісанне адбываецца калі лічыльнік у рэгістры TSC (Time Stamp Counter), які адлічвае лік працоўных цыклаў пасля скіду, пры частаце 2800 MHz дасягае значэнні 0x380000000000000 (2800 MHz * 10**6 * 1042.5. 1042 дня і 12 гадзін).

Выпраўленне памылкі публікаваць не плануецца. Праблема доўгі час заставалася не заўважанай бо шматгадовыя uptime не тыповыя для сервераў, якія для падтрымання ў актуальным стане перыядычна прыходзіцца перазапускаць для ўсталёўкі абнаўленняў ядра ці для пераходу на новы выпуск аперацыйнай сістэмы. Тым не менш, ужыванне ў Linux дыстрыбутывах метадаў абнаўлення ядра без перазагрузкі, а таксама працяглыя цыклы суправаджэння (Ubuntu, RHEL і SUSE падтрымліваюцца 10 гадоў) могуць прывесці да доўгага знаходжання сервераў без перазагрузкі.

Крыніца: opennet.ru

Дадаць каментар