O scurtă notă despre incidentul cu supraîncălzirea controlerului RAID LSI pe un server dintr-un centru de date rece

TL; DR; Setarea modului de operare al sistemului de răcire a serverului Supermicro Optimal nu asigură funcționarea stabilă a controlerului MegaRAID 9361-8i LSI într-un centru de date rece.

Încercăm să nu folosim controlere RAID hardware, dar avem un client care preferă configurațiile LSI MegaRAID. Astăzi am întâlnit supraîncălzirea plăcii MegaRAID 9361-8i din cauza faptului că platforma nu am simtit-o supraîncălzirea și controlerul RAID simțit.

Platforma cu o placă RAID este prezentată în figurile de mai jos:

O scurtă notă despre incidentul cu supraîncălzirea controlerului RAID LSI pe un server dintr-un centru de date rece

O scurtă notă despre incidentul cu supraîncălzirea controlerului RAID LSI pe un server dintr-un centru de date rece

Câteva puncte importante despre acest server și mediul de operare:

Inginerul care a asamblat platforma a plasat special două ventilatoare în fața cardului, pentru că știe că controlerele LSI se încing foarte tare. Atentie la placa de baza, practic nu incape sub controler, terminandu-se la 3 cm dupa slotul PCI-E.

După cum puteți vedea, toate ventilatoarele sunt conectate în mod normal la placa de bază Supermicro și în interior Optimal „suflă” în funcție de senzorii de pe acesta și de temperatura procesorului.

Această platformă conține un Xeon E-2236 - un procesor foarte rece, pe care clientul aparent nu l-a încălzit prea mult.

Centrul de date în care se află acest server este foarte rece - coridorul rece dă 18-20 de grade.

Combinația acestor factori a condus la un fenomen foarte interesant - supraîncălzirea controlerului RAID.

Lanț probabil de cum s-a întâmplat

  1. un procesor rece și o placă de bază au informat fanii că ar putea sufla slab.
  2. nu exista nicio placa de baza sub RAID si nu existau senzori care sa detecteze supraincalzirea.
  3. Ventilatoarele, când au fost configurate, au suflat slab în modul Optimal, conform nevoilor plăcii de bază și ale procesorului.
  4. Controlerul, neprimind suficient debit de aer, s-a supraîncălzit.

Ce au facut

Am trecut ventilatoarele în modul „Standard”, dacă este necesar, le vom comuta într-un mod de performanță mai mare.

Constatări

Cel mai probabil, dacă culoarul rece al centrului de date nu ar fi atât de rece sau clientul folosea CPU-ul intens, această problemă s-ar putea să nu fi apărut, deoarece ventilatoarele ar fi funcționat mai intens.

Pentru noi înșine, am decis să schimbăm definitiv modul de funcționare al ventilatoarelor pe serverele cu RAID de la Optimal la un mod cu viteză de rotație crescută.

Sursa: www.habr.com

Adauga un comentariu