Uma breve nota sobre o incidente de superaquecimento do controlador RAID LSI em um servidor em um data center frio

TL; DR; Definir o modo operacional do sistema de resfriamento do servidor Supermicro Optimal não garante a operação estável do controlador MegaRAID 9361-8i LSI em um data center frio.

Tentamos não usar controladores RAID de hardware, mas temos um cliente que prefere configurações LSI MegaRAID. Hoje encontramos superaquecimento da placa MegaRAID 9361-8i devido ao fato de a plataforma não senti isso superaquecimento e o controlador RAID sentiu.

A plataforma com placa RAID é mostrada nas figuras abaixo:

Uma breve nota sobre o incidente de superaquecimento do controlador RAID LSI em um servidor em um data center frio

Uma breve nota sobre o incidente de superaquecimento do controlador RAID LSI em um servidor em um data center frio

Alguns pontos importantes sobre este servidor e ambiente operacional:

O engenheiro que montou a plataforma colocou especificamente duas ventoinhas na frente da placa, pois sabe que os controladores LSI esquentam muito. Preste atenção na placa-mãe, ela praticamente não cabe embaixo do controlador, terminando 3 cm após o slot PCI-E.

Como você pode ver, todas as ventoinhas estão conectadas normalmente na placa-mãe Supermicro e em Optimal “golpe” dependendo dos sensores e da temperatura da CPU.

Esta plataforma contém um Xeon E-2236 - um CPU muito frio, que o cliente aparentemente não esquentou muito.

O data center onde este servidor está localizado é muito frio - o corredor frio produz 18-20 graus.

A combinação desses fatores levou a um fenômeno muito interessante - o superaquecimento do controlador RAID.

Cadeia provável de como isso aconteceu

  1. um processador e uma placa-mãe frios informaram aos ventiladores que eles poderiam soprar fracamente.
  2. não havia placa-mãe em RAID e não havia sensores que detectassem superaquecimento.
  3. As ventoinhas, quando configuradas, sopraram fracamente no modo Optimal, de acordo com a necessidade da placa-mãe e do CPU.
  4. O controlador, não recebendo fluxo de ar suficiente, superaqueceu.

O que fez

Mudamos os ventiladores para o modo “Standard”, se necessário, mudaremos para um modo de maior desempenho.

Descobertas

Muito provavelmente, se o corredor frio do data center não estivesse tão frio, ou se o cliente estivesse utilizando a CPU intensamente, esse problema poderia não ter ocorrido, pois os ventiladores estariam trabalhando mais intensamente.

Por nós mesmos, decidimos mudar definitivamente o modo de operação dos ventiladores em servidores com RAID de Ótimo para um modo com maior velocidade de rotação.

Fonte: habr.com

Adicionar um comentário