AMD EPYC 7002 CPU'daki hata, 1044 günlük çalışmadan sonra donuyor

2018'den beri sevk edilen "Zen 7002" mikro mimarisine dayalı AMD EPYC 2 ("Roma") serisi sunucu işlemcilerinde, durum sıfırlaması (sistem yeniden başlatması) yapılmadan 1044 günlük çalışmanın ardından işlemcinin askıda kalmasına neden olan bir hata vardır. Sorunu engellemeye yönelik geçici çözümler olarak, CC6 güç tasarrufu modu desteğinin devre dışı bırakılması veya sunucunun her 1044 günde bir (yaklaşık 2 yıl 10 ay) birden fazla yeniden başlatılması önerilir.

AMD tarafından yayınlanan bilgilere göre askıda kalma, işlemci çekirdeği CC6 güç tasarrufu modundan (çekirdek-C6, boştayken voltajı düşürür) uyanmaya çalıştığında, zamanlayıcı son CPU durumu sıfırlamasından sonra 1044 gün değerine ulaştığında meydana gelen bir çökmeden kaynaklanıyor (tezahür süresi REFCLK sıklığına bağlı olarak değişebilir).

AMD, arızanın nedeni hakkında daha ayrıntılı bir açıklama sağlamaz. Reddit'te yayınlanan varsayıma göre, 2800 MHz frekansında sıfırlamadan sonra çalışma döngülerinin sayısını sayan TSC (Zaman Damgası Sayacı) kaydındaki sayaç 0x380000000000000 (2800 MHz * 10**6 * 1042.5, yani 1042 gün ve 12 saat sonra) değerine ulaştığında askıda kalma meydana gelir.

Hata düzeltmesi yayınlanmayacak. Sorun uzun süre fark edilmeden kaldı, çünkü çok yıllı çalışma süreleri, güncel kalmak için çekirdek güncellemelerini yüklemek veya işletim sisteminin yeni bir sürümüne geçmek için periyodik olarak yeniden başlatılması gereken sunucular için tipik değildir. Ancak, Linux dağıtımlarının yeniden başlatılmayan çekirdek yükseltme yöntemleri ve uzun bakım döngüleri (Ubuntu, RHEL ve SUSE 10 yıl garantilidir), sunucuların yeniden başlatılmadan uzun bekleme sürelerine yol açabilir.

Kaynak: opennet.ru

Yorum ekle