低温のデータセンター内のサーバーの LSI RAID コントローラーの過熱に関する短いメモ

TL; DR; Supermicro Optimal サーバー冷却システムの動作モードを設定しても、低温のデータ センターでの MegaRAID 9361-8i LSI コントローラの安定した動作は保証されません。

当社ではハードウェア RAID コントローラを使用しないように努めていますが、LSI MegaRAID 構成を好むクライアントが 9361 名います。 今日、プラットフォームが原因で MegaRAID 8-XNUMXi カードの過熱が発生しました。 感じなかった 過熱、および RAID コントローラー 感じた.

RAID カードを搭載したプラットフォームを次の図に示します。

低温のデータセンター内のサーバーの LSI RAID コントローラーの過熱に関する短いメモ

低温のデータセンター内のサーバーの LSI RAID コントローラーの過熱に関する短いメモ

このサーバーと動作環境に関する重要な点がいくつかあります。

プラットフォームを組み立てたエンジニアは、LSI コントローラーが非常に熱くなることを知っていたため、カードの前に 3 つのファンを特別に配置しました。 マザーボードに注意してください。マザーボードは実際にはコントローラーの下に収まらず、PCI-E スロットの XNUMX cm 後ろで終わります。

ご覧のとおり、すべてのファンが Supermicro マザーボードに正常に接続されています。 最適な 搭載されているセンサーと CPU 温度に応じて「ブロー」します。

このプラットフォームには Xeon E-2236 が搭載されています。これは非常に冷たい CPU であり、クライアントは明らかにあまり加熱しませんでした。

このサーバーが置かれているデータセンターは非常に寒く、寒い廊下では 18 ~ 20 度になります。

これらの要因の組み合わせにより、RAID コントローラーの過熱という非常に興味深い現象が発生しました。

それが起こった可能性のある連鎖

  1. プロセッサとマザーボードが冷えているため、ファンの風が弱くなる可能性があることがファンに通知されました。
  2. RAID 下のマザーボードはなく、過熱を検出するセンサーもありませんでした。
  3. ファンは、設定されている場合、マザーボードと CPU のニーズに応じて、最適モードで弱く風を送ります。
  4. コントローラーが十分な空気流を受けられずに過熱しました。

彼らは何をしたのですか

ファンを「標準」モードに切り替えましたが、必要に応じて、より高いパフォーマンス モードに切り替えます。

所見

おそらく、データ センターのコールドアイルがそれほど寒くなかった場合、またはクライアントが CPU を集中的に使用していた場合は、ファンがより集中的に動作するため、この問題は発生しなかった可能性があります。

私たち自身としては、RAID を搭載したサーバーのファンの動作モードを最適から回転速度を上げたモードに確実に変更することにしました。

出所: habr.com

コメントを追加します