یادداشتی کوتاه در مورد حادثه داغ شدن بیش از حد کنترلر RAID LSI در سرور در مرکز داده سرد

TL؛ DR؛ تنظیم حالت عملکرد سیستم خنک کننده سرور Supermicro Optimal عملکرد پایدار کنترلر MegaRAID 9361-8i LSI را در مرکز داده سرد تضمین نمی کند.

ما سعی می کنیم از کنترلرهای سخت افزاری RAID استفاده نکنیم، اما یک کلاینت داریم که تنظیمات LSI MegaRAID را ترجیح می دهد. امروز با گرم شدن بیش از حد کارت MegaRAID 9361-8i به دلیل اینکه پلت فرم آن را احساس نکرد گرمای بیش از حد و کنترلر RAID نمد.

پلتفرم با کارت RAID در شکل های زیر نشان داده شده است:

یادداشتی کوتاه در مورد حادثه داغ شدن بیش از حد کنترلر RAID LSI در سرور در مرکز داده سرد

یادداشتی کوتاه در مورد حادثه داغ شدن بیش از حد کنترلر RAID LSI در سرور در مرکز داده سرد

چند نکته مهم در مورد این سرور و محیط عملیاتی:

مهندسي كه پلتفرم را مونتاژ كرده بود به طور خاص دو فن را جلوي كارت قرار داد، زيرا مي‌داند كه كنترل‌هاي LSI خيلي داغ مي‌شوند. به مادربرد توجه کنید، عملاً زیر کنترلر قرار نمی گیرد و 3 سانتی متر بعد از اسلات PCI-E به پایان می رسد.

همانطور که می بینید، تمام فن ها به طور معمول به مادربرد Supermicro وصل شده اند بهینه بسته به سنسورهای روی آن و دمای CPU، "دمیدن".

این پلتفرم حاوی Xeon E-2236 - یک CPU بسیار سرد است که ظاهراً مشتری آن را زیاد گرم نکرده است.

مرکز داده ای که این سرور در آن قرار دارد بسیار سرد است - راهروی سرد 18-20 درجه می دهد.

ترکیب این عوامل منجر به پدیده بسیار جالبی شد - گرم شدن بیش از حد کنترلر RAID.

زنجیره احتمالی چگونگی وقوع آن

  1. یک پردازنده سرد و مادربرد به طرفداران اطلاع داد که می توانند ضعیف باد کنند.
  2. هیچ مادربردی تحت RAID وجود نداشت و هیچ سنسوری وجود نداشت که گرمای بیش از حد را تشخیص دهد.
  3. فن ها، هنگام پیکربندی، با توجه به نیاز مادربرد و پردازنده، در حالت Optimal ضعیف بودند.
  4. کنترل کننده که جریان هوای کافی را دریافت نمی کند، بیش از حد گرم می شود.

آنها چه کردند

ما فن ها را به حالت "Standard" تغییر دادیم، در صورت لزوم، آنها را به حالت عملکرد بالاتر تغییر می دهیم.

یافته ها

به احتمال زیاد، اگر راهروی سرد مرکز داده خیلی سرد نبود یا کلاینت به شدت از CPU استفاده می کرد، ممکن بود این مشکل رخ نمی داد، زیرا فن ها با شدت بیشتری کار می کردند.

برای خودمان تصمیم گرفتیم که قطعاً حالت عملکرد فن ها در سرورهای دارای RAID را از Optimal به حالتی با سرعت چرخش افزایش یافته تغییر دهیم.

منبع: www.habr.com

اضافه کردن نظر