Krátká poznámka k incidentu s přehříváním řadiče LSI RAID na serveru v chladném datovém centru

TL; DR; Nastavení provozního režimu chladicího systému serveru Supermicro Optimal nezajistí stabilní provoz řadiče MegaRAID 9361-8i LSI v chladném datovém centru.

Snažíme se nepoužívat hardwarové RAID řadiče, ale máme jednoho klienta, který preferuje konfigurace LSI MegaRAID. Dnes jsme se setkali s přehříváním karty MegaRAID 9361-8i kvůli tomu, že platforma necítil to přehřívání a řadič RAID cítil.

Platforma s RAID kartou je znázorněna na obrázcích níže:

Krátká poznámka k incidentu s přehříváním řadiče LSI RAID na serveru v chladném datovém centru

Krátká poznámka k incidentu s přehříváním řadiče LSI RAID na serveru v chladném datovém centru

Několik důležitých bodů o tomto serveru a operačním prostředí:

Inženýr, který sestavoval platformu, konkrétně umístil dva ventilátory před kartu, protože ví, že řadiče LSI se velmi zahřívají. Pozor na základní desku, ta se prakticky nevejde pod řadič, končící 3 cm za PCI-E slotem.

Jak vidíte, všechny ventilátory jsou normálně připojeny k základní desce Supermicro a dovnitř Optimální „foukat“ v závislosti na senzorech na něm a teplotě CPU.

Tato platforma obsahuje Xeon E-2236 - velmi studený CPU, který klient zřejmě moc nezahříval.

Datové centrum, ve kterém je tento server umístěn, je velmi chladné - studený koridor dává 18-20 stupňů.

Kombinace těchto faktorů vedla k velmi zajímavému jevu – přehřívání RAID řadiče.

Pravděpodobný řetězec toho, jak se to stalo

  1. studený procesor a základní deska informovaly fanoušky, že mohou slabě foukat.
  2. pod RAID nebyla základní deska a chyběly senzory, které by detekovaly přehřívání.
  3. Ventilátory při konfiguraci slabě foukaly v režimu Optimal, podle potřeb základní desky a CPU.
  4. Ovladač nedostává dostatečné množství vzduchu a přehřívá se.

Co dělali

Ventilátory jsme přepnuli do režimu „Standard“, v případě potřeby je přepneme do režimu vyššího výkonu.

Závěry

Pokud by studená ulička datového centra nebyla tak studená nebo klient intenzivně využíval CPU, s největší pravděpodobností by k tomuto problému nemuselo dojít, protože by ventilátory pracovaly intenzivněji.

Pro sebe jsme se rozhodli definitivně změnit provozní režim ventilátorů na serverech s RAID z Optimal na režim se zvýšenou rychlostí otáčení.

Zdroj: www.habr.com

Přidat komentář