Кратка белешка за инцидентот со прегревање на LSI RAID контролерот во сервер во ладен центар за податоци

TL; DR; Поставувањето на режимот на работа на системот за ладење на серверот Supermicro Optimal не обезбедува стабилна работа на контролерот MegaRAID 9361-8i LSI во ладен центар за податоци.

Се трудиме да не користиме хардверски RAID контролери, но имаме еден клиент кој претпочита LSI MegaRAID конфигурации. Денеска наидовме на прегревање на картичката MegaRAID 9361-8i поради фактот што платформата не го почувствувал прегревање и RAID контролерот чувствував.

Платформата со RAID картичка е прикажана на сликите подолу:

Кратка белешка за инцидентот со прегревање на LSI RAID контролерот во сервер во ладен центар за податоци

Кратка белешка за инцидентот со прегревање на LSI RAID контролерот во сервер во ладен центар за податоци

Неколку важни точки за овој сервер и оперативната околина:

Инженерот кој ја составил платформата конкретно поставил два вентилатори пред картичката, бидејќи знае дека контролорите на LSI се многу жешки. Обрнете внимание на матичната плоча, таа практично не се вклопува под контролорот, завршувајќи 3 см по слотот PCI-E.

Како што можете да видите, сите фанови се поврзани нормално со матичната плоча Supermicro и внатре Оптимална „дување“ во зависност од сензорите на него и температурата на процесорот.

Оваа платформа содржи Xeon E-2236 - многу ладен процесор, кој клиентот очигледно не го загревал многу.

Центарот за податоци во кој се наоѓа овој сервер е многу ладен - студениот коридор дава 18-20 степени.

Комбинацијата на овие фактори доведе до многу интересен феномен - прегревање на контролорот RAID.

Веројатен синџир за тоа како се случило

  1. ладен процесор и матична плоча ги известија фановите дека можат слабо да дуваат.
  2. немаше матична плоча под RAID и немаше сензори кои ќе детектираат прегревање.
  3. Навивачите, кога се конфигурирани, слабо дуваа во оптимален режим, според потребите на матичната плоча и процесорот.
  4. Контролорот, не примајќи доволно проток на воздух, се прегреал.

Што направи

Ги префрливме вентилаторите на режимот „Стандард“, доколку е потребно, ќе ги префрлиме на режим со повисоки перформанси.

Наоди

Најверојатно, ако студената патека на центарот за податоци не беше толку студена, или клиентот интензивно го користеше процесорот, овој проблем можеби немаше да се појави, бидејќи вентилаторите ќе работеа поинтензивно.

За нас, решивме дефинитивно да го промениме режимот на работа на навивачите на серверите со RAID од Оптимален во режим со зголемена брзина на ротација.

Извор: www.habr.com

Додадете коментар