Krátka poznámka k incidentu s prehriatím radiča LSI RAID na serveri v chladnom dátovom centre

TL; DR; Nastavenie prevádzkového režimu chladiaceho systému servera Supermicro Optimal nezabezpečuje stabilnú prevádzku radiča MegaRAID 9361-8i LSI v chladnom dátovom centre.

Snažíme sa nepoužívať hardvérové ​​radiče RAID, ale máme jedného klienta, ktorý preferuje konfigurácie LSI MegaRAID. Dnes sme sa stretli s prehrievaním karty MegaRAID 9361-8i z dôvodu, že platforma necítil to prehrievanie a radič RAID cítil.

Platforma s kartou RAID je znázornená na obrázkoch nižšie:

Krátka poznámka k incidentu s prehriatím radiča LSI RAID na serveri v chladnom dátovom centre

Krátka poznámka k incidentu s prehriatím radiča LSI RAID na serveri v chladnom dátovom centre

Niekoľko dôležitých bodov o tomto serveri a operačnom prostredí:

Inžinier, ktorý zostavoval platformu, konkrétne umiestnil dva ventilátory pred kartu, pretože vie, že ovládače LSI sa veľmi zahrievajú. Pozor na základnú dosku, tá sa pod ovládač prakticky nezmestí, končí 3 cm za PCI-E slotom.

Ako vidíte, všetky ventilátory sú normálne pripojené k základnej doske Supermicro a dovnútra optimálna „fúkať“ v závislosti od snímačov na ňom a teploty procesora.

Táto platforma obsahuje Xeon E-2236 - veľmi studený CPU, ktorý klient zrejme veľmi nezahrieval.

Dátové centrum, v ktorom je tento server umiestnený, je veľmi chladné - studená chodba dáva 18-20 stupňov.

Kombinácia týchto faktorov viedla k veľmi zaujímavému javu – prehrievaniu RAID radiča.

Pravdepodobný reťazec toho, ako sa to stalo

  1. studený procesor a základná doska informovali fanúšikov, že môžu slabo fúkať.
  2. pod RAID nebola základná doska a chýbali senzory, ktoré by detekovali prehrievanie.
  3. Ventilátory pri konfigurácii slabo fúkali v režime Optimal, podľa potrieb základnej dosky a CPU.
  4. Ovládač, ktorý nedostáva dostatočný prietok vzduchu, sa prehrieva.

Čo si robil

Ventilátory sme prepli do režimu „Štandard“, v prípade potreby ich prepneme do režimu vyššieho výkonu.

Závery

S najväčšou pravdepodobnosťou, ak by studená ulička dátového centra nebola taká studená, alebo klient intenzívne využíval CPU, tento problém by nemusel nastať, keďže by ventilátory pracovali intenzívnejšie.

Pre seba sme sa rozhodli definitívne zmeniť prevádzkový režim ventilátorov na serveroch s RAID z Optimal na režim so zvýšenou rýchlosťou rotácie.

Zdroj: hab.com

Pridať komentár