Błąd w procesorze AMD EPYC 7002 zawiesza się po 1044 dniach działania

Seria procesorów serwerowych AMD EPYC 2018 („Rzym”) opartych na mikroarchitekturze „Zen 7002” sprzedawanych od 2 r. ma błąd, który powoduje zawieszenie procesora po 1044 dniach działania bez resetowania stanu (ponowne uruchomienie systemu). Aby obejść ten problem, zaleca się wyłączenie obsługi trybu oszczędzania energii CC6 lub restartowanie serwera częściej niż raz na 1044 dni (około 2 lata i 10 miesięcy).

Według informacji wydanych przez AMD, zawieszenie jest spowodowane usterką, która pojawia się, gdy rdzeń procesora próbuje wybudzić się z trybu oszczędzania energii CC6 (rdzeń-C6, obniża napięcie w stanie bezczynności), gdy licznik czasu osiągnie wartość 1044 dni po ostatnim resecie stanu CPU (czas manifestacji może być różny w zależności od częstotliwości REFCLK).

AMD nie podaje bardziej szczegółowego wyjaśnienia przyczyny awarii. Sądząc po założeniu opublikowanym na Reddicie, zawieszenie następuje, gdy licznik w rejestrze TSC (Time Stamp Counter) zliczający liczbę cykli pracy po resecie, przy częstotliwości 2800 MHz osiągnie wartość 0x380000000000000 (2800 MHz * 10* *6 * 1042.5, czyli po 1042 dniach i 12 godzinach).

Poprawka błędu nie zostanie opublikowana. Problem pozostawał niezauważony przez długi czas, ponieważ wieloletnie przestoje nie są typowe dla serwerów, które w celu zachowania aktualności wymagają okresowego restartu w celu zainstalowania aktualizacji jądra lub przełączenia się na nową wersję systemu operacyjnego. Jednak metody aktualizacji jądra bez ponownego uruchamiania w dystrybucjach Linuksa, a także długie cykle konserwacji (Ubuntu, RHEL i SUSE są obsługiwane przez 10 lat) mogą spowodować, że serwery będą znajdowane przez długi czas bez ponownego uruchamiania.

Źródło: opennet.ru

Dodaj komentarz