تم تحديد خطأ في سلسلة معالجات الخوادم AMD EPYC 2018 ("Rome") المستندة إلى الهندسة المعمارية الدقيقة "Zen 7002"، والتي تم شحنها منذ عام 2، مما يتسبب في تعليق المعالج بعد 1044 يومًا من التشغيل دون إعادة تعيين الحالة (إعادة تشغيل النظام). كحلول مؤقتة لمنع المشكلة، يوصى بتعطيل دعم وضع توفير الطاقة CC6 أو إعادة تشغيل الخادم أكثر من مرة كل 1044 يومًا (حوالي 2 سنة و10 أشهر).
وفقًا للمعلومات التي نشرتها AMD، فإن سبب التعليق هو عطل يحدث عندما يحاول نواة المعالج الخروج من وضع توفير الطاقة CC6 (النواة C6، تخفض الجهد عند الخمول) عندما يصل المؤقت إلى 1044 يومًا منذ آخر إعادة تعيين لحالة وحدة المعالجة المركزية (قد يختلف وقت الحدوث اعتمادًا على تردد REFCLK).
ولم تقدم شركة AMD تفسيرا أكثر تفصيلا لسبب الفشل. وفقًا لاقتراح منشور على Reddit، يحدث التجميد عندما يصل العداد في سجل TSC (عداد الطابع الزمني)، الذي يحسب عدد دورات العمل بعد إعادة التعيين، بتردد 2800 ميجاهرتز إلى القيمة 0x380000000000000 (2800 ميجاهرتز * 10**6 * 1042.5، أي بعد 1042 يومًا و12 ساعة).
لا توجد خطط لنشر حلٍّ لهذا الخطأ. بقيَت المشكلة دون أن يلاحظها أحد لفترة طويلة، لأنّ فترات التشغيل الطويلة ليست أمراً معتاداً. الخوادموالتي يجب إعادة تشغيلها دوريًا لتثبيت تحديثات النواة أو الترقية إلى إصدار جديد من نظام التشغيل للحفاظ على تحديثها. ومع ذلك، فإن استخدام Linux توزيعات طرق تحديث النواة بدون إعادة تشغيل، بالإضافة إلى دورات صيانة طويلة (Ubuntu(يتم دعم RHEL و SUSE لمدة 10 سنوات) مما قد يؤدي إلى بقاء الخوادم قيد التشغيل لفترة طويلة دون إعادة تشغيلها.
المصدر: opennet.ru
