TL; DR; Definir o modo operacional do sistema de resfriamento do servidor Supermicro Optimal não garante a operação estável do controlador MegaRAID 9361-8i LSI em um data center frio.
Tentamos não usar controladores RAID de hardware, mas temos um cliente que prefere configurações LSI MegaRAID. Hoje encontramos superaquecimento da placa MegaRAID 9361-8i devido ao fato de a plataforma não senti isso superaquecimento e o controlador RAID sentiu.
A plataforma com placa RAID é mostrada nas figuras abaixo:
Alguns pontos importantes sobre este servidor e ambiente operacional:
O engenheiro que montou a plataforma colocou especificamente duas ventoinhas na frente da placa, pois sabe que os controladores LSI esquentam muito. Preste atenção na placa-mãe, ela praticamente não cabe embaixo do controlador, terminando 3 cm após o slot PCI-E.
Como você pode ver, todas as ventoinhas estão conectadas normalmente na placa-mãe Supermicro e em Optimal “golpe” dependendo dos sensores e da temperatura da CPU.
Esta plataforma contém um Xeon E-2236 - um CPU muito frio, que o cliente aparentemente não esquentou muito.
O data center onde este servidor está localizado é muito frio - o corredor frio produz 18-20 graus.
A combinação desses fatores levou a um fenômeno muito interessante - o superaquecimento do controlador RAID.
Cadeia provável de como isso aconteceu
- um processador e uma placa-mãe frios informaram aos ventiladores que eles poderiam soprar fracamente.
- não havia placa-mãe em RAID e não havia sensores que detectassem superaquecimento.
- As ventoinhas, quando configuradas, sopraram fracamente no modo Optimal, de acordo com a necessidade da placa-mãe e do CPU.
- O controlador, não recebendo fluxo de ar suficiente, superaqueceu.
O que fez
Mudamos os ventiladores para o modo “Standard”, se necessário, mudaremos para um modo de maior desempenho.
Descobertas
Muito provavelmente, se o corredor frio do data center não estivesse tão frio, ou se o cliente estivesse utilizando a CPU intensamente, esse problema poderia não ter ocorrido, pois os ventiladores estariam trabalhando mais intensamente.
Por nós mesmos, decidimos mudar definitivamente o modo de operação dos ventiladores em servidores com RAID de Ótimo para um modo com maior velocidade de rotação.
Fonte: habr.com