關於冷資料中心伺服器中 LSI RAID 控制器過熱事件的簡短說明

TL; DR; 設定 Supermicro Optimal 伺服器冷卻系統的運作模式並不能確保 MegaRAID 9361-8i LSI 控制器在冷資料中心中穩定運作。

我們盡量不使用硬體 RAID 控制器,但我們有一位客戶更喜歡 LSI MegaRAID 配置。 今天我們遇到了 MegaRAID 9361-8i 卡過熱的情況,原因是該平台 沒感覺到 過熱和 RAID 控制器 毛氈.

帶有RAID卡的平台如下圖所示:

關於冷資料中心伺服器中 LSI RAID 控制器過熱事件的簡短說明

關於冷資料中心伺服器中 LSI RAID 控制器過熱事件的簡短說明

關於該伺服器和運行環境的幾個要點:

組裝平台的工程師特意在卡片前放置了兩個風扇,因為他知道LSI控制器會變得非常熱。 請注意主機板,它實際上無法安裝在控制器下方,位於 PCI-E 插槽後 3 公分。

如您所見,所有風扇均正常連接至 Supermicro 主機板,並且在 最佳 「吹」取決於其上的感測器和 CPU 溫度。

該平台包含一個 Xeon E-2236 - 一個非常冷的 CPU,客戶端顯然沒有加熱太多。

該伺服器所在的資料中心非常寒冷 - 寒冷的走廊溫度為 18-20 度。

這些因素綜合起來導致了一個非常有趣的現象—RAID控制器過熱。

事情發生的可能鏈條

  1. 處理器和主機板變冷告訴風扇,它們可能會吹得很弱。
  2. RAID 下沒有主機板,也沒有可以偵測過熱的感測器。
  3. 根據主機板和 CPU 的需要,配置後的風扇在最佳模式下風力較弱。
  4. 控制器未接收到足夠的氣流,因此過熱。

你做了什麼

我們將風扇切換到“標準”模式;如有必要,我們會將它們切換到更高效能的模式。

發現

最有可能的是,如果資料中心的冷通道不是那麼冷,或者客戶端密集使用CPU,則可能不會出現此問題,因為風扇會更密集地工作。

對於我們自己來說,我們決定將具有 RAID 的伺服器上風扇的運行模式從「最佳」更改為具有更高轉速的模式。

來源: www.habr.com

添加評論