Một lưu ý ngắn về sự cố quá nhiệt của bộ điều khiển RAID LSI trong máy chủ ở trung tâm dữ liệu lạnh

TL; DR; Việc thiết lập chế độ hoạt động của hệ thống làm mát máy chủ Supermicro Optimal không đảm bảo hoạt động ổn định của bộ điều khiển MegaRAID 9361-8i LSI trong trung tâm dữ liệu lạnh.

Chúng tôi cố gắng không sử dụng bộ điều khiển RAID phần cứng nhưng chúng tôi có một khách hàng thích cấu hình LSI MegaRAID. Hôm nay chúng tôi gặp phải tình trạng thẻ MegaRAID 9361-8i quá nóng do nền tảng không cảm thấy nó quá nóng và bộ điều khiển RAID cảm thấy.

Nền tảng có thẻ RAID được hiển thị trong hình bên dưới:

Một lưu ý ngắn về sự cố quá nhiệt của bộ điều khiển RAID LSI trong máy chủ ở trung tâm dữ liệu lạnh

Một lưu ý ngắn về sự cố quá nhiệt của bộ điều khiển RAID LSI trong máy chủ ở trung tâm dữ liệu lạnh

Một số điểm quan trọng về máy chủ và môi trường hoạt động này:

Người kỹ sư lắp ráp nền tảng này đặc biệt đặt hai quạt phía trước card vì anh ta biết rằng bộ điều khiển LSI rất nóng. Hãy chú ý đến bo mạch chủ, nó thực tế không vừa với bộ điều khiển, kết thúc sau khe cắm PCI-E 3 cm.

Như bạn có thể thấy, tất cả các quạt đều được kết nối bình thường với bo mạch chủ Supermicro và trong Tối ưu “thổi” tùy thuộc vào cảm biến trên đó và nhiệt độ CPU.

Nền tảng này chứa Xeon E-2236 - một CPU rất lạnh, mà máy khách dường như không nóng lên nhiều.

Trung tâm dữ liệu nơi đặt máy chủ này rất lạnh - hành lang lạnh có nhiệt độ 18-20 độ.

Sự kết hợp của các yếu tố này đã dẫn đến một hiện tượng rất thú vị - bộ điều khiển RAID quá nóng.

Chuỗi có thể xảy ra như thế nào

  1. bộ xử lý và bo mạch chủ nguội đã thông báo cho người hâm mộ rằng chúng có thể hoạt động yếu.
  2. không có bo mạch chủ chạy RAID và không có cảm biến nào phát hiện tình trạng quá nhiệt.
  3. Các quạt khi được cấu hình sẽ thổi yếu ở chế độ Tối ưu, theo nhu cầu của bo mạch chủ và CPU.
  4. Bộ điều khiển không nhận đủ luồng không khí, quá nóng.

Họ đã làm gì

Chúng tôi đã chuyển quạt sang chế độ “Tiêu chuẩn”, nếu cần, chúng tôi sẽ chuyển chúng sang chế độ hiệu suất cao hơn.

Những phát hiện

Rất có thể, nếu lối đi lạnh của trung tâm dữ liệu không quá lạnh hoặc máy khách đang sử dụng CPU ở cường độ cao thì sự cố này có thể đã không xảy ra vì quạt sẽ hoạt động mạnh hơn.

Đối với bản thân, chúng tôi đã quyết định thay đổi chắc chắn chế độ hoạt động của quạt trên máy chủ có RAID từ Tối ưu sang chế độ có tốc độ quay tăng lên.

Nguồn: www.habr.com

Thêm một lời nhận xét