จุดบกพร่องใน AMD EPYC 7002 CPU ค้างหลังจากใช้งานไป 1044 วัน

โปรเซสเซอร์เซิร์ฟเวอร์ซีรีส์ AMD EPYC 2018 ("Rome") ซึ่งใช้สถาปัตยกรรมไมโคร "Zen 7002" ที่จัดส่งตั้งแต่ปี 2 มีข้อผิดพลาดที่ทำให้โปรเซสเซอร์หยุดทำงานหลังจาก 1044 วันของการทำงานโดยไม่มีการรีเซ็ตสถานะ (รีบูตระบบ) เพื่อเป็นการป้องกันปัญหานี้ ขอแนะนำให้ปิดใช้งานการสนับสนุนโหมดประหยัดพลังงาน CC6 หรือรีสตาร์ทเซิร์ฟเวอร์มากกว่าหนึ่งครั้งทุกๆ 1044 วัน (ประมาณ 2 ปี 10 เดือน)

ตามข้อมูลที่เผยแพร่โดย AMD การแฮงค์เกิดจากความผิดพลาดที่เกิดขึ้นเมื่อแกนประมวลผลพยายามปลุกจากโหมดประหยัดพลังงาน CC6 (core-C6 ลดแรงดันไฟฟ้าเมื่อไม่ได้ใช้งาน) เมื่อตัวจับเวลาถึงค่า 1044 วัน หลังจากรีเซ็ตสถานะ CPU ครั้งล่าสุด (เวลาแสดงอาจแตกต่างกันไปขึ้นอยู่กับความถี่ REFCLK)

AMD ไม่ได้ให้คำอธิบายโดยละเอียดเกี่ยวกับสาเหตุของความล้มเหลว ตัดสินโดยสมมติฐานที่เผยแพร่บน Reddit การค้างเกิดขึ้นเมื่อตัวนับในทะเบียน TSC (Time Stamp Counter) ซึ่งนับจำนวนรอบการทำงานหลังจากรีเซ็ตที่ความถี่ 2800 MHz ถึงค่า 0x380000000000000 (2800 MHz * 10* *6 * 1042.5 เช่น หลังจาก 1042 วัน 12 ชั่วโมง)

การแก้ไขข้อผิดพลาดจะไม่ถูกเผยแพร่ ปัญหายังคงไม่มีใครสังเกตเห็นเป็นเวลานาน เนื่องจากเวลาทำงานหลายปีไม่ใช่เรื่องปกติสำหรับเซิร์ฟเวอร์ที่ต้องรีสตาร์ทเป็นระยะๆ เพื่อติดตั้งการอัปเดตเคอร์เนลหรือเพื่อสลับไปยังระบบปฏิบัติการรุ่นใหม่ เพื่อให้ทันสมัยอยู่เสมอ อย่างไรก็ตาม วิธีการอัปเกรดเคอร์เนลแบบไม่รีบูตของ Linux ดิสทริบิวชัน รวมถึงรอบการบำรุงรักษาที่ยาวนาน (รองรับ Ubuntu, RHEL และ SUSE เป็นเวลา 10 ปี) อาจส่งผลให้พบเซิร์ฟเวอร์เป็นเวลานานโดยไม่ต้องรีบูต

ที่มา: opennet.ru

เพิ่มความคิดเห็น