Una breu nota sobre l'incident amb el sobreescalfament del controlador LSI RAID en un servidor en un centre de dades fred

TL; DR; La configuració del mode de funcionament del sistema de refrigeració del servidor Supermicro Optimal no garanteix un funcionament estable del controlador MegaRAID 9361-8i LSI en un centre de dades fred.

Intentem no utilitzar controladors RAID de maquinari, però tenim un client que prefereix configuracions LSI MegaRAID. Avui hem trobat un sobreescalfament de la targeta MegaRAID 9361-8i a causa del fet que la plataforma no ho sentia sobreescalfament i el controlador RAID sentit.

La plataforma amb una targeta RAID es mostra a les figures següents:

Una breu nota sobre l'incident amb el sobreescalfament del controlador LSI RAID en un servidor en un centre de dades fred

Una breu nota sobre l'incident amb el sobreescalfament del controlador LSI RAID en un servidor en un centre de dades fred

Alguns punts importants sobre aquest servidor i entorn operatiu:

L'enginyer que va muntar la plataforma va col·locar específicament dos ventiladors davant de la targeta, perquè sap que els controladors LSI s'escalfen molt. Preste atenció a la placa base, pràcticament no encaixa sota el controlador, acabant 3 cm després de la ranura PCI-E.

Com podeu veure, tots els ventiladors estan connectats normalment a la placa base Supermicro i a l'interior Optimal "buf" en funció dels sensors que hi hagi i de la temperatura de la CPU.

Aquesta plataforma conté un Xeon E-2236, una CPU molt freda, que pel que sembla el client no va escalfar gaire.

El centre de dades on es troba aquest servidor és molt fred: el passadís fred dóna 18-20 graus.

La combinació d'aquests factors va provocar un fenomen molt interessant: el sobreescalfament del controlador RAID.

Cadena probable de com va passar

  1. un processador fred i una placa base van informar als aficionats que podrien bufar feblement.
  2. no hi havia cap placa base sota RAID i no hi havia cap sensor que detectés el sobreescalfament.
  3. Els ventiladors, quan es van configurar, van bufar dèbilment en mode òptim, segons les necessitats de la placa base i la CPU.
  4. El controlador, no rebent prou flux d'aire, es va sobreescalfar.

Què vas fer

Hem canviat els ventiladors al mode "Estàndard" si cal, els canviarem a un mode de rendiment més alt.

Troballes

El més probable és que si el passadís fred del centre de dades no fos tan fred, o si el client estigués utilitzant la CPU de manera intensa, aquest problema podria no haver-se produït, ja que els ventiladors estarien treballant de manera més intensa.

Per nosaltres mateixos, vam decidir canviar definitivament el mode de funcionament del ventilador en servidors amb RAID d'Òptim a un mode amb una velocitat de rotació més gran.

Font: www.habr.com

Afegeix comentari