توقف خطأ في وحدة المعالجة المركزية AMD EPYC 7002 بعد 1044 يومًا من التشغيل

سلسلة AMD EPYC 2018 ("روما") من معالجات الخوادم القائمة على الهندسة الدقيقة "Zen 7002" التي تم شحنها منذ عام 2 بها خلل يتسبب في توقف المعالج بعد 1044 يومًا من التشغيل دون إعادة تعيين الحالة (إعادة تشغيل النظام). كحل بديل لمنع المشكلة ، يوصى بتعطيل دعم وضع توفير الطاقة CC6 أو إعادة تشغيل الخادم أكثر من مرة كل 1044 يومًا (حوالي عامين و 2 أشهر).

وفقًا للمعلومات الصادرة عن AMD ، يحدث التعليق بسبب خلل يحدث عندما يحاول قلب المعالج الاستيقاظ من وضع توفير الطاقة CC6 (Core-C6 ، يخفض الجهد عند الخمول) عندما يصل المؤقت إلى قيمة 1044 يومًا بعد آخر إعادة تعيين لحالة وحدة المعالجة المركزية (قد يختلف وقت الظهور اعتمادًا على تردد REFCLK).

لا تقدم AMD شرحًا أكثر تفصيلاً لسبب الفشل. بناءً على الافتراض المنشور على Reddit ، يحدث التعليق عندما يصل العداد الموجود في سجل TSC (عداد الطوابع الزمنية) ، والذي يحسب عدد دورات التشغيل بعد إعادة التعيين ، بتردد 2800 ميجاهرتز يصل إلى القيمة 0x380000000000000 (2800 ميجاهرتز * 10 ** 6 * 1042.5 أي بعد 1042 يومًا و 12 ساعة).

لن يتم نشر إصلاح الخطأ. ظلت المشكلة دون أن يلاحظها أحد لفترة طويلة ، نظرًا لأن أوقات التشغيل متعددة السنوات ليست نموذجية للخوادم التي يجب إعادة تشغيلها بشكل دوري لتثبيت تحديثات kernel أو للتبديل إلى إصدار جديد من نظام التشغيل. ومع ذلك ، فإن طرق ترقية kernel لتوزيعات Linux غير القابلة لإعادة التشغيل ، بالإضافة إلى دورات الصيانة الطويلة (يتم دعم Ubuntu و RHEL و SUSE لمدة 10 سنوات) ، يمكن أن تؤدي إلى العثور على الخوادم لفترة طويلة دون إعادة تشغيل.

المصدر: opennet.ru

إضافة تعليق