اشکال در CPU AMD EPYC 7002 پس از 1044 روز کار متوقف می شود

در سری پردازنده‌های سرور AMD EPYC 2018 ("رم") که از سال 7002 ارائه شده است، که بر اساس ریزمعماری "Zen 2" ساخته شده‌اند، خطایی شناسایی شده است که در نتیجه آن پردازنده پس از 1044 روز کار بدون تنظیم مجدد حالت منجمد می‌شود. راه اندازی مجدد سیستم). به عنوان یک راه حل برای جلوگیری از مشکل، توصیه می شود پشتیبانی از حالت ذخیره انرژی CC6 را غیرفعال کنید یا سرور را بیش از یک بار در هر 1044 روز (تقریباً 2 سال و 10 ماه) راه اندازی مجدد کنید.

بر اساس اطلاعات منتشر شده توسط AMD، هنگ به دلیل نقصی ایجاد می شود که زمانی رخ می دهد که هسته پردازنده تلاش می کند از حالت صرفه جویی در انرژی CC6 خارج شود (core-C6، ولتاژ را در صورت غیرفعال بودن کاهش می دهد) زمانی که تایمر به 1044 روز پس از آخرین CPU می رسد. تنظیم مجدد (زمان وقوع آن ممکن است بسته به فرکانس REFCLK متفاوت باشد).

AMD توضیح دقیق تری در مورد علت خرابی ارائه نمی دهد. با قضاوت بر اساس فرض منتشر شده در Reddit، هنگامی که شمارنده در ثبت TSC (Time Stamp Counter) که تعداد چرخه های کاری را پس از تنظیم مجدد می شمارد، در فرکانس 2800 مگاهرتز به مقدار 0x380000000000000 (2800 مگاهرتز) می رسد، انجماد رخ می دهد. ** 10 * 6، یعنی بعد از 1042.5 روز و 1042 ساعت).

هیچ برنامه ای برای انتشار رفع اشکال وجود ندارد. این مشکل برای مدت طولانی مورد توجه قرار نگرفت زیرا آپتایم طولانی مدت برای سرورها معمول نیست و برای به روز نگه داشتن آنها باید به طور دوره ای برای نصب به روز رسانی های هسته یا انتقال به نسخه جدید سیستم عامل راه اندازی مجدد شوند. با این حال، روش‌های توزیع‌های لینوکس برای به‌روزرسانی هسته بدون راه‌اندازی مجدد، و همچنین چرخه‌های نگهداری طولانی (اوبونتو، RHEL و SUSE برای 10 سال پشتیبانی می‌شوند)، می‌تواند منجر به کار سرورها برای مدت طولانی بدون راه‌اندازی مجدد شود.

منبع: opennet.ru

اضافه کردن نظر