Коротка замітка щодо інциденту з перегріванням RAID-контролера LSI на сервері в холодному ЦОДі

TL; DR; налаштування режиму роботи системи охолодження сервера Supermicro Optimal не забезпечує стабільність роботи LSI-контролера MegaRAID 9361-8i у холодному ЦОД-і.

Ми намагаємося не використовувати апаратні контролери RAID, але є у нас один клієнт, який віддає перевагу саме конфігураціям c LSI MegaRAID. Сьогодні ми зіткнулися з перегрівом карти MegaRAID 9361-8i у зв'язку з тим, що платформа не відчувала перегріву, а RAID-контролер його відчував.

Вигляд платформи з RAID-картою представлений нижче.

Коротка замітка щодо інциденту з перегріванням RAID-контролера LSI на сервері в холодному ЦОДі

Коротка замітка щодо інциденту з перегріванням RAID-контролера LSI на сервері в холодному ЦОДі

Кілька важливих моментів, пов'язаних із цим сервером та середовищем експлуатації:

Інженер, який збирав платформу, спеціально поставив навпроти карти два вентилятори, оскільки знає, що LSI-контролери сильно гріються. Зверніть увагу на материнську плату, вона під контролер практично не заходить, закінчуючись через 3 см після слота PCI-E.

Як бачите, всі вентилятори підключені штатно до материнської плати Supermicro та в режимі Оптимальний "дують" залежно від сенсорів на ній, температури CPU.

У цій платформі стоїть Xeon E-2236 - дуже холодний CPU, який у клієнта, мабуть, сильно і не нагрівався.

ЦОД, в якому стоїть цей сервер дуже холодний - холодний коридор дає 18-20 градусів.

Сукупність цих факторів призвела до дуже цікавого явища - перегріву RAID-контролера.

Імовірний ланцюжок, як це сталося

  1. холодний процесор та материнська плата повідомляли вентиляторам про те, що дмухати можна слабко.
  2. материнська карта під RAID відсутня і не було датчиків, які б фіксували перегрів.
  3. Вентилятори, будучи налаштованими, в режимі Optimal дули слабо, відповідно до потреб материнської плати та CPU.
  4. Контролер, не отримуючи достатнього потоку повітря, перегрівся.

Що зробили

Переключили вентилятори в режим "Standard", при необхідності переведемо у вищий режим продуктивності.

Висновки

Швидше за все, якби холодний коридор ЦОД-а був би не таким холодним, або клієнт інтенсивно використовував би CPU, дана проблема могла б і не відбутися, оскільки вентилятори б працювали в більш інтенсивному режимі.

Для себе ми вирішили обов'язково змінювати режим роботи вентиляторів на серверах з RAID з Optimal на режим із підвищеною частотою обертання.

Джерело: habr.com

Додати коментар або відгук