Кароткая нататка па інцыдэнце з перагрэвам RAID-кантролера LSI у серверы ў халодным ЦАД

TL; DR; налада рэжыму працы сістэмы астуджэння сервера Supermicro Optimal не забяспечвае стабільнасць працы LSI-кантролера MegaRAID 9361-8i у халодным ЦАД-е.

Мы стараемся не выкарыстоўваць апаратныя кантролеры RAID, але ёсць у нас адзін кліент, які аддае перавагу менавіта канфігурацыі c LSI MegaRAID. Сёння мы сутыкнуліся з перагрэвам карты MegaRAID 9361-8i у сувязі з тым, што платформа не адчувала перагрэву, а RAID-кантролер яго адчуваў.

Выгляд платформы з RAID-картай прадстаўлены на малюнках ніжэй:

Кароткая нататка па інцыдэнце з перагрэвам RAID-кантролера LSI у серверы ў халодным ЦАД

Кароткая нататка па інцыдэнце з перагрэвам RAID-кантролера LSI у серверы ў халодным ЦАД

Некалькі важных момантаў, звязаных з гэтым серверам і асяроддзем эксплуатацыі:

Інжынер, які збіраў платформу спецыяльна паставіў насупраць карты два вентылятара, паколькі ведае, што LSI-кантролеры моцна грэюцца. Звярніце ўвагу на матчыну плату, яна пад кантролер практычна не заходзіць, заканчваючыся праз 3 см пасля слота PCI-E.

Як бачыце, усе вентылятары падлучаныя штатна да матчынай платы Supermicro і ў рэжыме Аптымальны "дзьмуць" у залежнасці ад сэнсараў на ёй, тэмпературы CPU.

У дадзенай платформе варта Xeon E-2236 вельмі халодны CPU, які ў кліента, мабыць, моцна і не награваўся.

ЦАД, у якім стаіць дадзены сервер вельмі халодны - халодны калідор дае 18-20 градусаў.

Сукупнасць гэтых фактараў прывяла да вельмі цікавай з'явы – перагрэву RAID-кантролера.

Верагодны ланцужок, як гэта адбылося

  1. халодны працэсар і матчына плата паведамлялі вентылятарам аб тым, што дзьмуць можна слаба.
  2. матчына карта пад RAID-ом адсутнічала і не было датчыкаў, якія б фіксавалі перагрэў.
  3. Вентылятары, быўшы сканфігураванымі, у рэжыме Optimal дзьмулі слаба, паводле запатрабаванняў матчынай платы і CPU.
  4. Кантролер, не атрымліваючы дастатковай патоку паветра перагрэўся.

Што зрабілі

Пераключылі вентылятары ў рэжым "Standard", пры неабходнасці перавядзем у больш высокі рэжым прадукцыйнасці.

Высновы

Хутчэй за ўсё, калі б халодны калідор ЦОД-а быў бы не такім халодным, ці кліент бы інтэнсіўна выкарыстоўваў CPU, дадзеная праблема магла б і не адбыцца, паколькі вентылятары б працавалі ў больш інтэнсіўным рэжыме.

Для сябе мы вырашылі абавязкова мяняць рэжым працы вентылятараў на серверах з RAID з Optimal на рэжым з падвышанай частатой кручэння.

Крыніца: habr.com

Дадаць каментар