Eine kurze Anmerkung zum Vorfall mit Überhitzung des LSI-RAID-Controllers in einem Server in einem kalten Rechenzentrum

TL; DR; Das Einstellen des Betriebsmodus des Supermicro Optimal-Serverkühlsystems gewährleistet keinen stabilen Betrieb des MegaRAID 9361-8i LSI-Controllers in einem kalten Rechenzentrum.

Wir versuchen, keine Hardware-RAID-Controller zu verwenden, aber wir haben einen Kunden, der LSI MegaRAID-Konfigurationen bevorzugt. Heute haben wir eine Überhitzung der MegaRAID 9361-8i-Karte aufgrund der Tatsache festgestellt, dass die Plattform habe es nicht gespürt Überhitzung und der RAID-Controller gefühlt.

Die Plattform mit einer RAID-Karte ist in den folgenden Abbildungen dargestellt:

Eine kurze Anmerkung zum Vorfall mit Überhitzung des LSI-RAID-Controllers in einem Server in einem kalten Rechenzentrum

Eine kurze Anmerkung zum Vorfall mit Überhitzung des LSI-RAID-Controllers in einem Server in einem kalten Rechenzentrum

Ein paar wichtige Punkte zu dieser Server- und Betriebsumgebung:

Der Ingenieur, der die Plattform zusammengebaut hat, hat gezielt zwei Lüfter vor der Karte platziert, da er weiß, dass LSI-Controller sehr heiß werden. Achten Sie auf das Motherboard, es passt praktisch nicht unter den Controller und endet 3 cm nach dem PCI-E-Steckplatz.

Wie Sie sehen können, sind alle Lüfter normal mit dem Supermicro-Motherboard verbunden und in Optimal „Blasen“ abhängig von den darauf befindlichen Sensoren und der CPU-Temperatur.

Diese Plattform enthält einen Xeon E-2236 – eine sehr kalte CPU, die der Client offenbar nicht stark erwärmt hat.

Das Rechenzentrum, in dem sich dieser Server befindet, ist sehr kalt – im kalten Korridor herrschen 18-20 Grad.

Die Kombination dieser Faktoren führte zu einem sehr interessanten Phänomen – der Überhitzung des RAID-Controllers.

Wahrscheinliche Kette, wie es passiert ist

  1. Ein kalter Prozessor und ein kaltes Motherboard informierten die Lüfter darüber, dass sie schwach blasen könnten.
  2. Es gab kein Motherboard unter RAID und es gab keine Sensoren, die eine Überhitzung erkennen würden.
  3. Wenn die Lüfter konfiguriert waren, bliesen sie im Optimalmodus schwach, je nach den Anforderungen des Motherboards und der CPU.
  4. Der Controller erhält nicht genügend Luftstrom und ist überhitzt.

Was ist passiert?

Wir haben die Lüfter auf den „Standard“-Modus umgestellt, bei Bedarf werden wir sie auf einen höheren Leistungsmodus umstellen.

Befund

Wenn der Kaltgang des Rechenzentrums nicht so kalt wäre oder der Kunde die CPU intensiv nutzte, wäre dieses Problem höchstwahrscheinlich nicht aufgetreten, da die Lüfter intensiver arbeiten würden.

Für uns selbst haben wir uns entschieden, den Betriebsmodus der Lüfter auf Servern mit RAID definitiv von Optimal auf einen Modus mit erhöhter Drehzahl zu ändern.

Source: habr.com

Kommentar hinzufügen