Bug di CPU AMD EPYC 7002 membeku setelah 1044 hari beroperasi

Seri prosesor server AMD EPYC 2018 ("Roma") berdasarkan mikroarsitektur "Zen 7002" yang dikirimkan sejak 2 memiliki bug yang menyebabkan prosesor macet setelah 1044 hari beroperasi tanpa status reset (reboot sistem). Sebagai solusi untuk memblokir masalah ini, disarankan untuk menonaktifkan dukungan mode hemat daya CC6 atau memulai ulang server lebih dari sekali setiap 1044 hari (sekitar 2 tahun 10 bulan).

Menurut informasi yang dipublikasikan oleh AMD, hang disebabkan oleh crash yang terjadi saat inti prosesor mencoba untuk bangun dari mode hemat daya CC6 (core-C6, menurunkan voltase saat idle) saat pengatur waktu mencapai nilai 1044 hari setelah reset status CPU terakhir (waktu manifestasi dapat bervariasi tergantung pada frekuensi REFCLK).

AMD tidak memberikan penjelasan lebih detail mengenai penyebab kegagalan tersebut. Dilihat dari asumsi yang dipublikasikan di Reddit, hang terjadi ketika penghitung di register TSC (Time Stamp Counter), yang menghitung jumlah siklus kerja setelah reset, pada frekuensi 2800 MHz mencapai nilai 0x380000000000000 (2800 MHz * 10* *6 * 1042.5, yaitu setelah 1042 hari dan 12 jam).

Perbaikan bug tidak akan dipublikasikan. Masalahnya tetap tidak diperhatikan untuk waktu yang lama, karena waktu aktif multi-tahun tidak umum untuk server yang, untuk tetap diperbarui, secara berkala harus dimulai ulang untuk menginstal pembaruan kernel atau untuk beralih ke rilis baru sistem operasi. Namun, metode pemutakhiran kernel non-reboot distribusi Linux, serta siklus pemeliharaan yang lama (Ubuntu, RHEL, dan SUSE didukung selama 10 tahun), dapat menyebabkan server ditemukan untuk waktu yang lama tanpa reboot.

Sumber: opennet.ru

Tambah komentar