Een korte opmerking over het incident met oververhitting van de LSI RAID-controller in een server in een koud datacenter

TL; DR; Het instellen van de bedrijfsmodus van het Supermicro Optimale serverkoelsysteem garandeert geen stabiele werking van de MegaRAID 9361-8i LSI-controller in een koud datacenter.

We proberen geen hardware RAID-controllers te gebruiken, maar we hebben één klant die de voorkeur geeft aan LSI MegaRAID-configuraties. Vandaag zijn we een oververhitting van de MegaRAID 9361-8i-kaart tegengekomen vanwege het feit dat het platform voelde het niet oververhitting en de RAID-controller gevoeld.

Het platform met een RAID-kaart wordt weergegeven in de onderstaande figuren:

Een korte opmerking over het incident met oververhitting van de LSI RAID-controller in een server in een koud datacenter

Een korte opmerking over het incident met oververhitting van de LSI RAID-controller in een server in een koud datacenter

Een paar belangrijke punten over deze server en besturingsomgeving:

De ingenieur die het platform in elkaar heeft gezet, heeft speciaal twee ventilatoren voor de kaart geplaatst, omdat hij weet dat LSI-controllers erg heet worden. Let op het moederbord, deze past praktisch niet onder de controller en eindigt 3 cm na het PCI-E-slot.

Zoals u kunt zien, zijn alle ventilatoren normaal aangesloten op het Supermicro-moederbord en in Optimaal β€œblazen” afhankelijk van de sensoren erop en de CPU-temperatuur.

Dit platform bevat een Xeon E-2236 - een erg koude CPU, die de client blijkbaar niet veel heeft opgewarmd.

Het datacenter waarin deze server zich bevindt is erg koud - de koude gang geeft 18-20 graden.

De combinatie van deze factoren leidde tot een zeer interessant fenomeen: oververhitting van de RAID-controller.

Waarschijnlijke keten van hoe het gebeurde

  1. een koude processor en moederbord informeerden de fans dat ze zwak konden blazen.
  2. er was geen moederbord onder RAID en er waren geen sensoren die oververhitting zouden detecteren.
  3. De ventilatoren bliezen, indien geconfigureerd, zwak in de optimale modus, afhankelijk van de behoeften van het moederbord en de CPU.
  4. De controller ontving niet voldoende luchtstroom en raakte oververhit.

Wat deden ze

We hebben de ventilatoren omgeschakeld naar de β€œStandaard”-modus; indien nodig schakelen we ze naar een hogere prestatiemodus.

Bevindingen

Als het koude gangpad van het datacenter niet zo koud was, of als de klant de CPU intensief zou gebruiken, zou dit probleem hoogstwaarschijnlijk niet zijn opgetreden, omdat de ventilatoren intensiever zouden werken.

Voor onszelf hebben we besloten om de bedrijfsmodus van de ventilatoren op servers met RAID definitief te veranderen van Optimaal naar een modus met verhoogde rotatiesnelheid.

Bron: www.habr.com

Voeg een reactie