Krótka notatka o incydencie związanym z przegrzaniem kontrolera LSI RAID w serwerze w zimnym centrum danych

TL; DR; Ustawienie trybu pracy systemu chłodzenia serwerów Supermicro Optimal nie zapewnia stabilnej pracy kontrolera MegaRAID 9361-8i LSI w zimnym centrum danych.

Staramy się nie używać sprzętowych kontrolerów RAID, ale mamy jednego klienta, który preferuje konfiguracje LSI MegaRAID. Dzisiaj spotkaliśmy się z przegrzaniem karty MegaRAID 9361-8i w związku z tym, że platforma nie czułem tego przegrzaniem i kontrolerem RAID filc.

Platformę z kartą RAID przedstawiają poniższe rysunki:

Krótka notatka o incydencie związanym z przegrzaniem kontrolera LSI RAID w serwerze w zimnym centrum danych

Krótka notatka o incydencie związanym z przegrzaniem kontrolera LSI RAID w serwerze w zimnym centrum danych

Kilka ważnych punktów na temat tego serwera i środowiska operacyjnego:

Inżynier, który montował platformę, specjalnie umieścił dwa wentylatory przed kartą, ponieważ wiedział, że kontrolery LSI bardzo się nagrzewają. Zwróć uwagę na płytę główną, praktycznie nie mieści się ona pod kontrolerem, kończąc się 3 cm za slotem PCI-E.

Jak widać wszystkie wentylatory są podłączone normalnie do płyty głównej Supermicro i do niej Optimal „przedmuchać” w zależności od znajdujących się na nim czujników i temperatury procesora.

Platforma ta zawiera Xeon E-2236 - bardzo zimny procesor, którego klient najwyraźniej nie nagrzał mocno.

Centrum danych, w którym znajduje się ten serwer, jest bardzo zimne - zimny korytarz daje 18-20 stopni.

Połączenie tych czynników doprowadziło do bardzo ciekawego zjawiska – przegrzania kontrolera RAID.

Prawdopodobny ciąg wydarzeń

  1. zimny procesor i płyta główna poinformowały fanów, że mogą słabo dmuchać.
  2. nie było płyty głównej pod RAID i nie było czujników wykrywających przegrzanie.
  3. Wentylatory po skonfigurowaniu dmuchały słabo w trybie Optymalnym, zgodnie z potrzebami płyty głównej i procesora.
  4. Sterownik, który nie otrzymuje wystarczającego przepływu powietrza, przegrzał się.

Co oni zrobili

Wentylatory przełączyliśmy na tryb „Standard”, w razie potrzeby przełączymy je na tryb o wyższej wydajności.

odkrycia

Najprawdopodobniej, gdyby zimne przejście w centrum danych nie było tak zimne lub klient intensywnie korzystał z procesora, problem ten mógłby nie wystąpić, ponieważ wentylatory pracowałyby intensywniej.

Dla siebie postanowiliśmy zdecydowanie zmienić tryb pracy wentylatorów na serwerach z RAID z Optymalnego na tryb ze zwiększoną prędkością obrotową.

Źródło: www.habr.com

Dodaj komentarz