Az AMD EPYC 7002 CPU hibája 1044 napos működés után lefagy

A „Zen 2018” mikroarchitektúrán alapuló, 7002 óta szállított AMD EPYC 2 („Róma”) szerverprocesszor-sorozatnak van egy olyan hibája, amely miatt a processzor 1044 napos működés után lefagy állapot-visszaállítás (rendszer-újraindítás) nélkül. A probléma blokkolása érdekében javasolt a CC6 energiatakarékos mód támogatásának letiltása vagy a kiszolgáló újraindítása 1044 naponként többször (körülbelül 2 év 10 hónap).

Az AMD által közzétett információk szerint a lefagyást egy olyan összeomlás okozza, amely akkor következik be, amikor a processzormag megpróbál felébredni a CC6 energiatakarékos módból (core-C6, lecsökkenti a feszültséget üresjáratban), amikor az időzítő eléri az 1044 napos értéket a CPU utolsó visszaállítása után (a megnyilvánulási idő a REFCLK frekvenciájától függően változhat).

Az AMD nem ad részletesebb magyarázatot a hiba okára. A Redditen közzétett feltételezés alapján a lefagyás akkor következik be, amikor a TSC (Time Stamp Counter) regiszterben lévő számláló, amely az alaphelyzetbe állítás utáni munkaciklusok számát számolja, 2800 MHz-es frekvencián eléri a 0x380000000000000 (2800 MHz * 10 nap után) értéket. óra).

A hibajavítást nem teszik közzé. A probléma sokáig észrevétlen maradt, hiszen a több éves üzemidő nem jellemző azokra a szerverekre, amelyeket a naprakészen tartás érdekében rendszeresen újra kell indítani a kernelfrissítések telepítéséhez vagy az operációs rendszer új kiadására való átálláshoz. A Linux disztribúciók újraindítás nélküli kernelfrissítési módszerei és a hosszú karbantartási ciklusok (az Ubuntu, a RHEL és a SUSE 10 éves támogatása mellett) azonban hosszú várakozási időt eredményezhetnek a kiszolgálókon újraindítás nélkül.

Forrás: opennet.ru

Hozzászólás