关于冷数据中心服务器中 LSI RAID 控制器过热事件的简短说明

TL; DR; 设置 Supermicro Optimal 服务器冷却系统的运行模式并不能确保 MegaRAID 9361-8i LSI 控制器在冷数据中心中稳定运行。

我们尽量不使用硬件 RAID 控制器,但我们有一位客户更喜欢 LSI MegaRAID 配置。 今天我们遇到了 MegaRAID 9361-8i 卡过热的情况,原因是该平台 没感觉到 过热和 RAID 控制器 毛毡.

带RAID卡的平台如下图所示:

关于冷数据中心服务器中 LSI RAID 控制器过热事件的简短说明

关于冷数据中心服务器中 LSI RAID 控制器过热事件的简短说明

关于该服务器和运行环境的几个要点:

组装平台的工程师特意在卡前放置了两个风扇,因为他知道LSI控制器会变得非常热。 请注意主板,它实际上无法安装在控制器下方,位于 PCI-E 插槽后 3 厘米处。

如您所见,所有风扇均正常连接至 Supermicro 主板,并且在 最佳 “吹”取决于其上的传感器和 CPU 温度。

该平台包含一个 Xeon E-2236 - 一个非常冷的 CPU,客户端显然没有加热太多。

该服务器所在的数据中心非常寒冷 - 寒冷的走廊温度为 18-20 度。

这些因素综合起来导致了一个非常有趣的现象——RAID控制器过热。

事情发生的可能链条

  1. 处理器和主板变冷告诉风扇,它们可能会吹得很弱。
  2. RAID 下没有主板,也没有可以检测过热的传感器。
  3. 根据主板和 CPU 的需要,配置后的风扇在最佳模式下风力较弱。
  4. 控制器未接收到足够的气流,因此过热。

做了什么

我们将风扇切换到“标准”模式;如有必要,我们会将它们切换到更高性能的模式。

发现

最有可能的是,如果数据中心的冷通道不是那么冷,或者客户端密集使用CPU,则可能不会出现此问题,因为风扇会更密集地工作。

对于我们自己来说,我们决定将具有 RAID 的服务器上风扇的运行模式从“最佳”更改为具有更高转速的模式。

来源: habr.com

添加评论