TL; DR; A configuración do modo operativo do sistema de refrixeración do servidor Supermicro Optimal non garante o funcionamento estable do controlador MegaRAID 9361-8i LSI nun centro de datos frío.
Tentamos non usar controladores RAID de hardware, pero temos un cliente que prefire configuracións LSI MegaRAID. Hoxe atopamos un sobrequecemento da tarxeta MegaRAID 9361-8i debido ao feito de que a plataforma non o sentiu superenriquecido e o controlador RAID sentiu.
A plataforma cunha tarxeta RAID móstrase nas seguintes figuras:
Algúns puntos importantes sobre este servidor e o entorno operativo:
O enxeñeiro que montou a plataforma colocou especificamente dous ventiladores diante da tarxeta, porque sabe que os controladores LSI quentan moito. Preste atención á placa base, practicamente non cabe baixo o controlador, rematando 3 cm despois da ranura PCI-E.
Como podes ver, todos os ventiladores están conectados normalmente á placa base Supermicro e dentro Óptimo "golpe" dependendo dos sensores que hai e da temperatura da CPU.
Esta plataforma contén un Xeon E-2236, unha CPU moi fría, que o cliente ao parecer non quentou moito.
O centro de datos no que se atopa este servidor é moi frío: o corredor frío dá 18-20 graos.
A combinación destes factores levou a un fenómeno moi interesante: o sobreenriquecemento do controlador RAID.
Probable cadea de como pasou
- un procesador e unha placa base fríos informaron aos fanáticos de que podían soprar débilmente.
- non había ningunha placa base baixo RAID e non había sensores que detectasen o sobreenriquecido.
- Os ventiladores, cando se configuraron, sopraron débilmente en modo Óptimo, segundo as necesidades da placa base e da CPU.
- O controlador, que non recibiu o fluxo de aire suficiente, sobrequentouse.
Que fixeches
Cambiamos os ventiladores ao modo "Estándar"; se é necesario, cambiarémolos a un modo de maior rendemento.
Descubrimentos
O máis probable é que se o corredor frío do centro de datos non estivese tan frío, ou se o cliente estivese a usar a CPU de forma intensiva, este problema podería non ocorrer, xa que os ventiladores estarían traballando máis intensamente.
Por nós mesmos, decidimos cambiar definitivamente o modo de funcionamento dos ventiladores en servidores con RAID de Óptimo a un modo con velocidade de rotación aumentada.
Fonte: www.habr.com