TL; DR; налаштування режиму роботи системи охолодження сервера Supermicro Optimal не забезпечує стабільність роботи LSI-контролера MegaRAID 9361-8i у холодному ЦОД-і.
Ми намагаємося не використовувати апаратні контролери RAID, але є у нас один клієнт, який віддає перевагу саме конфігураціям c LSI MegaRAID. Сьогодні ми зіткнулися з перегрівом карти MegaRAID 9361-8i у зв'язку з тим, що платформа не відчувала перегріву, а RAID-контролер його відчував.
Вигляд платформи з RAID-картою представлений нижче.
Кілька важливих моментів, пов'язаних із цим сервером та середовищем експлуатації:
Інженер, який збирав платформу, спеціально поставив навпроти карти два вентилятори, оскільки знає, що LSI-контролери сильно гріються. Зверніть увагу на материнську плату, вона під контролер практично не заходить, закінчуючись через 3 см після слота PCI-E.
Як бачите, всі вентилятори підключені штатно до материнської плати Supermicro та в режимі Оптимальний "дують" залежно від сенсорів на ній, температури CPU.
У цій платформі стоїть Xeon E-2236 - дуже холодний CPU, який у клієнта, мабуть, сильно і не нагрівався.
ЦОД, в якому стоїть цей сервер дуже холодний - холодний коридор дає 18-20 градусів.
Сукупність цих факторів призвела до дуже цікавого явища - перегріву RAID-контролера.
Імовірний ланцюжок, як це сталося
- холодний процесор та материнська плата повідомляли вентиляторам про те, що дмухати можна слабко.
- материнська карта під RAID відсутня і не було датчиків, які б фіксували перегрів.
- Вентилятори, будучи налаштованими, в режимі Optimal дули слабо, відповідно до потреб материнської плати та CPU.
- Контролер, не отримуючи достатнього потоку повітря, перегрівся.
Що зробили
Переключили вентилятори в режим "Standard", при необхідності переведемо у вищий режим продуктивності.
Висновки
Швидше за все, якби холодний коридор ЦОД-а був би не таким холодним, або клієнт інтенсивно використовував би CPU, дана проблема могла б і не відбутися, оскільки вентилятори б працювали в більш інтенсивному режимі.
Для себе ми вирішили обов'язково змінювати режим роботи вентиляторів на серверах з RAID з Optimal на режим із підвищеною частотою обертання.
Джерело: habr.com