En kort note om hændelsen med overophedning af LSI RAID-controlleren i en server i et koldt datacenter

TL; DR; Indstilling af driftstilstanden for Supermicro Optimal-serverkølesystemet sikrer ikke stabil drift af MegaRAID 9361-8i LSI-controlleren i et koldt datacenter.

Vi forsøger ikke at bruge hardware RAID-controllere, men vi har en klient, der foretrækker LSI MegaRAID-konfigurationer. I dag stødte vi på en overophedning af MegaRAID 9361-8i-kortet på grund af det faktum, at platformen følte det ikke overophedning og RAID-controlleren følte.

Platformen med et RAID-kort er vist i nedenstående figurer:

En kort note om hændelsen med overophedning af LSI RAID-controlleren i en server i et koldt datacenter

En kort note om hændelsen med overophedning af LSI RAID-controlleren i en server i et koldt datacenter

Et par vigtige punkter om denne server og driftsmiljø:

Ingeniøren, der samlede platformen, placerede specifikt to blæsere foran kortet, fordi han ved, at LSI-controllere bliver meget varme. Vær opmærksom på bundkortet, det passer praktisk talt ikke under controlleren og slutter 3 cm efter PCI-E-slottet.

Som du kan se, er alle blæsere normalt forbundet til Supermicro bundkortet og ind Optimal "blæs" afhængigt af sensorerne på den og CPU-temperaturen.

Denne platform indeholder en Xeon E-2236 - en meget kold CPU, som klienten tilsyneladende ikke varmede meget op.

Datacenteret som denne server er placeret i er meget koldt - den kolde korridor giver 18-20 grader.

Kombinationen af ​​disse faktorer førte til et meget interessant fænomen - overophedning af RAID-controlleren.

Sandsynlig kæde af, hvordan det skete

  1. en kold processor og bundkort informerede blæserne om, at de kunne blæse svagt.
  2. der var intet bundkort under RAID, og ​​der var ingen sensorer, der kunne registrere overophedning.
  3. Ventilatorerne, når de var konfigureret, blæste svagt i Optimal-tilstand, i henhold til behovene til bundkortet og CPU'en.
  4. Regulatoren, der ikke modtager nok luftstrøm, blev overophedet.

Hvad gjorde du

Vi skiftede blæserne til "Standard"-tilstand; om nødvendigt vil vi skifte dem til en højere ydeevne.

Fund

Mest sandsynligt, hvis den kolde gang i datacentret ikke var så kold, eller klienten brugte CPU'en intensivt, er dette problem muligvis ikke opstået, da ventilatorerne ville arbejde mere intensivt.

For os selv besluttede vi helt sikkert at ændre ventilatordriftstilstanden på servere med RAID fra Optimal til en tilstand med øget rotationshastighed.

Kilde: www.habr.com

Tilføj en kommentar