Īsa piezīme par incidentu ar LSI RAID kontrollera pārkaršanu serverī aukstā datu centrā

TL; DR; Supermicro Optimal servera dzesēšanas sistēmas darbības režīma iestatīšana nenodrošina stabilu MegaRAID 9361-8i LSI kontrollera darbību aukstā datu centrā.

Mēs cenšamies neizmantot aparatūras RAID kontrolierus, bet mums ir viens klients, kurš dod priekšroku LSI MegaRAID konfigurācijām. Šodien mēs saskārāmies ar MegaRAID 9361-8i kartes pārkaršanu, jo platforma to nejuta pārkaršana un RAID kontrolleris jūtama.

Platforma ar RAID karti ir parādīta zemāk esošajos attēlos:

Īsa piezīme par incidentu ar LSI RAID kontrollera pārkaršanu serverī aukstā datu centrā

Īsa piezīme par incidentu ar LSI RAID kontrollera pārkaršanu serverī aukstā datu centrā

Daži svarīgi punkti par šo serveri un darbības vidi:

Inženieris, kurš montēja platformu, speciāli novietoja divus ventilatorus kartes priekšā, jo viņš zina, ka LSI kontrolleri kļūst ļoti karsti. Pievērsiet uzmanību mātesplatei, tā praktiski neietilpst zem kontrollera, beidzas 3 cm pēc PCI-E slota.

Kā redzat, visi ventilatori ir normāli savienoti ar Supermicro mātesplati un iekšā Optimāla “pūst” atkarībā no sensoriem un CPU temperatūras.

Šajā platformā ir Xeon E-2236 – ļoti auksts centrālais procesors, kuru klients acīmredzot īpaši nesildīja.

Datu centrā, kurā atrodas šis serveris, ir ļoti auksts – aukstais koridors dod 18-20 grādus.

Šo faktoru kombinācija noveda pie ļoti interesantas parādības - RAID kontrollera pārkaršanas.

Iespējamā ķēde, kā tas notika

  1. auksts procesors un mātesplate informēja fanus, ka tie var pūst vāji.
  2. zem RAID nebija mātesplates un nebija sensoru, kas noteiktu pārkaršanu.
  3. Ventilatori, kad tie bija konfigurēti, vāji pūta Optimālā režīmā, atbilstoši mātesplates un CPU vajadzībām.
  4. Kontrolieris, nesaņemot pietiekamu gaisa plūsmu, pārkarsa.

Ko tu izdarīji

Mēs pārslēdzām ventilatorus uz “Standarta” režīmu, ja nepieciešams, pārslēgsim tos uz augstākas veiktspējas režīmu.

Atzinumi

Visticamāk, ja datu centra aukstā eja nebūtu tik auksta vai klients intensīvi izmantotu centrālo procesoru, šī problēma varētu nebūt radusies, jo ventilatori strādātu intensīvāk.

Mēs paši nolēmām noteikti mainīt ventilatoru darbības režīmu serveros ar RAID no Optimal uz režīmu ar palielinātu rotācijas ātrumu.

Avots: www.habr.com

Pievieno komentāru