Una breve nota sobre el incidente de sobrecalentamiento del controlador LSI RAID en un servidor en un centro de datos frío

TL; DR; Configurar el modo de funcionamiento del sistema de refrigeración del servidor Supermicro Optimal no garantiza el funcionamiento estable del controlador MegaRAID 9361-8i LSI en un centro de datos frío.

Intentamos no utilizar controladores RAID de hardware, pero tenemos un cliente que prefiere las configuraciones LSI MegaRAID. Hoy nos encontramos con un sobrecalentamiento de la tarjeta MegaRAID 9361-8i debido a que la plataforma no lo sentí sobrecalentamiento y el controlador RAID sintió.

La plataforma con una tarjeta RAID se muestra en las siguientes figuras:

Una breve nota sobre el incidente de sobrecalentamiento del controlador LSI RAID en un servidor en un centro de datos frío

Una breve nota sobre el incidente de sobrecalentamiento del controlador LSI RAID en un servidor en un centro de datos frío

Algunos puntos importantes sobre este servidor y entorno operativo:

El ingeniero que montó la plataforma colocó específicamente dos ventiladores delante de la tarjeta, porque sabe que los controladores LSI se calientan mucho. Preste atención a la placa base, prácticamente no cabe debajo del controlador y termina 3 cm después de la ranura PCI-E.

Como puede ver, todos los ventiladores están conectados normalmente a la placa base Supermicro y en Optimal “soplar” dependiendo de los sensores que tenga y de la temperatura de la CPU.

Esta plataforma contiene un Xeon E-2236, una CPU muy fría, que aparentemente el cliente no calentó mucho.

El centro de datos en el que se encuentra este servidor es muy frío: el corredor frío da entre 18 y 20 grados.

La combinación de estos factores condujo a un fenómeno muy interesante: el sobrecalentamiento del controlador RAID.

Probable cadena de cómo sucedió

  1. un procesador y una placa base fríos informaron a los fanáticos que podían soplar débilmente.
  2. no había placa base bajo RAID y no había sensores que detectaran el sobrecalentamiento.
  3. Los ventiladores, cuando estaban configurados, soplaban débilmente en modo Óptimo, según las necesidades de la placa base y la CPU.
  4. El controlador, al no recibir suficiente flujo de aire, se sobrecalentó.

Lo que hizo

Cambiamos los ventiladores al modo "Estándar", si es necesario, los cambiaremos a un modo de mayor rendimiento.

Hallazgos

Lo más probable es que si el pasillo frío del centro de datos no estuviera tan frío, o si el cliente estuviera usando la CPU de forma intensiva, este problema no habría ocurrido, ya que los ventiladores estarían trabajando más intensamente.

Por nuestra parte, decidimos cambiar definitivamente el modo de funcionamiento de los ventiladores en los servidores con RAID de Óptimo a un modo con mayor velocidad de rotación.

Fuente: habr.com

Añadir un comentario