Une brève note sur l'incident de surchauffe du contrôleur RAID LSI dans un serveur dans un centre de données froid

TL; DR; La définition du mode de fonctionnement du système de refroidissement du serveur Supermicro Optimal ne garantit pas un fonctionnement stable du contrôleur MegaRAID 9361-8i LSI dans un centre de données froid.

Nous essayons de ne pas utiliser de contrôleurs RAID matériels, mais nous avons un client qui préfère les configurations LSI MegaRAID. Aujourd'hui, nous avons rencontré une surchauffe de la carte MegaRAID 9361-8i due au fait que la plateforme je ne l'ai pas ressenti surchauffe et le contrôleur RAID feutre.

La plateforme avec une carte RAID est représentée dans les figures ci-dessous :

Une brève note sur l'incident de surchauffe du contrôleur RAID LSI dans un serveur dans un centre de données froid

Une brève note sur l'incident de surchauffe du contrôleur RAID LSI dans un serveur dans un centre de données froid

Quelques points importants sur ce serveur et cet environnement d'exploitation :

L'ingénieur qui a assemblé la plateforme a spécifiquement placé deux ventilateurs devant la carte, car il sait que les contrôleurs LSI chauffent beaucoup. Faites attention à la carte mère, elle ne rentre pratiquement pas sous le contrôleur, se terminant 3 cm après le slot PCI-E.

Comme vous pouvez le constater, tous les ventilateurs sont connectés normalement à la carte mère Supermicro et en Optimale "coup" en fonction des capteurs présents et de la température du processeur.

Cette plateforme contient un Xeon E-2236 - un CPU très froid, que le client n'a apparemment pas beaucoup chauffé.

Le centre de données dans lequel se trouve ce serveur est très froid - le couloir froid donne 18 à 20 degrés.

La combinaison de ces facteurs a conduit à un phénomène très intéressant : la surchauffe du contrôleur RAID.

Chaîne probable de la façon dont cela s'est produit

  1. un processeur et une carte mère froids ont informé les ventilateurs qu'ils pourraient souffler faiblement.
  2. il n'y avait pas de carte mère sous RAID et aucun capteur ne détecterait une surchauffe.
  3. Les ventilateurs, une fois configurés, soufflaient faiblement en mode Optimal, selon les besoins de la carte mère et du CPU.
  4. Le contrôleur, ne recevant pas suffisamment de débit d’air, a surchauffé.

Qu'est-ce que

Nous avons basculé les ventilateurs en mode « Standard » ; si nécessaire, nous les ferons passer à un mode plus performant.

résultats

Très probablement, si l'allée froide du centre de données n'était pas si froide ou si le client utilisait le processeur de manière intensive, ce problème ne se serait peut-être pas produit, car les ventilateurs fonctionneraient plus intensément.

Pour notre part, nous avons décidé de changer définitivement le mode de fonctionnement des ventilateurs sur les serveurs avec RAID d'Optimal à un mode avec une vitesse de rotation accrue.

Source: habr.com

Ajouter un commentaire