Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3

Chúng tôi tiếp tục câu chuyện về cách chúng tôi thay đổi hệ thống BMS trong trung tâm dữ liệu của mình (Phần 1, Phần 2). Đồng thời, chúng tôi không chỉ trao đổi giải pháp của nhà cung cấp này với giải pháp của nhà cung cấp khác mà còn phát triển một hệ thống từ đầu để phù hợp với yêu cầu của chúng tôi. Ở cuối câu chuyện, chúng tôi chia sẻ kết quả công việc đã thực hiện và các giải pháp thú vị có thể hữu ích cho bạn.

Giao diện mới

Ở đây, như người ta nói, tốt hơn là nên xem một lần.

Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3Giá đỡ.

Hãy nhìn vào sự khác biệt.

  • Đầu tiên, nó красиво một cách thuận tiện. Lưu ý rằng việc theo dõi tải trên các mô-đun PDU (“Ngân hàng” hoặc đơn giản là “Ngân hàng”) và tổng tải song song của các mô-đun được ghép nối đã trở nên dễ dàng như thế nào. Trên mô hình giá đỡ từ BMS mới, chúng tôi thấy ngay rằng các mô-đun PDU được ghép nối phía dưới bị quá tải (tổng dòng điện cao hơn mức cho phép 16A - thông báo “xanh lam”) và các mô-đun phía trên không được tải. Nếu một trong các đầu vào bị ngắt kết nối, toàn bộ tải sẽ chuyển sang đầu vào thứ hai và mô-đun bên dưới vẫn còn điện sẽ tắt do quá tải. Để ngăn điều này xảy ra, dịch vụ hỗ trợ của trung tâm dữ liệu sẽ cảnh báo trước cho khách hàng và gửi đề xuất về cách phân phối lại tải.
  • Dễ dàng bổ sung thiết bị. Trong BMS mới, các cảm biến ảo đo tổng dòng điện mô-đun và công suất giá đỡ đã được thêm vào các mẫu giá đỡ tiêu chuẩn và được tạo tự động sau khi thêm PDU vào giá đỡ. Trong BMS cũ, chúng phải được tạo thủ công rồi kéo lên bản đồ, điều này làm tăng khả năng xảy ra lỗi do “yếu tố con người”.
  • Phạm vi không giới hạn cho sự sáng tạo. Bây giờ chúng tôi không có hạn chế khi tạo cảm biến ảo. Bạn có thể xây dựng hoàn toàn bất kỳ mô hình toán học nào của bất kỳ biến nào. Điều này có nghĩa là chúng tôi có khả năng tạo ra các cảm biến ảo phức tạp (trước đây chúng tôi chỉ có thể thêm các giá trị) và phân tích tốt hơn số liệu thống kê cũng như xu hướng về hiệu suất của các hệ thống kỹ thuật. Điều này cải thiện chất lượng của các quyết định liên quan đến cấu hình hệ thống, thay thế thiết bị và quản lý tài nguyên. 
  • Giao diện trực quan. Trong giao diện mới không có sự lộn xộn của các biểu tượng, quạt quay, công tắc “click”. Và tiện lợi nhất là khả năng cho biết trạng thái của PDU Line A/B bên trong các rack. Chúng tôi đã cố gắng làm điều gì đó tương tự trong BMS cũ, nhưng số lượng biểu tượng được hợp nhất trên mỗi cm vuông của bản đồ đã buộc chúng tôi phải từ bỏ nó.

Bây giờ thật tuyệt khi nhìn vào:

Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3
Máy chủ.

Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3
Mảnh vỡ của tổng đài chính.

Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3
Bảng điều khiển thông gió.

Và BMS mới có thể được trang trí đón năm mới  🙂
Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3

Một trang – thấu hiểu lẫn nhau không cần lời nói và không cần thông số kỹ thuật

Trong một thời gian rất dài, chúng tôi đã muốn triển khai một “thủ thuật” khác trong BMS: tổng hợp các thông số chính của trung tâm dữ liệu trên một trang, sao cho chỉ cần nhìn qua màn hình là đủ để đánh giá trạng thái của các hệ thống chính. Tuy nhiên, chúng tôi chưa hoàn toàn hiểu nó sẽ trông như thế nào.

Ngay cả trước khi quá trình phát triển BMS mới bắt đầu, chúng tôi đã đến thăm hàng chục trung tâm dữ liệu ở Hà Lan trong các chuyến du ngoạn. Một trong những mục tiêu là xem các ví dụ về cách triển khai một trang như vậy.

Và không một trung tâm dữ liệu nào cho chúng tôi thấy điều đó - ở một số nơi nó không có ở đó, ở một số nơi khác, nó “đang được phát triển”, ở những nơi khác, đó là một “bí mật thương mại lớn”. Do đó, trong điều khoản tham chiếu của chúng tôi về việc tạo BMS mới, không có mô tả chính xác nào về trang rất quan trọng này đối với chúng tôi.

Kết quả là, chúng tôi đã nghĩ ra nó theo nghĩa đen là “nhanh chóng”. Đúng lúc đó tôi phải hỏi ý kiến ​​đồng nghiệp từ xa trong trung tâm dữ liệu. Rất bất tiện khi cuộn qua các trang BMS trên điện thoại để tìm kiếm dữ liệu rải rác, và trên thực tế, phiên bản đầu tiên được phác thảo trên một chiếc khăn ăn Một trang. Nó được các nhà phát triển thực hiện dựa trên bức ảnh. 

Theo gương của các đồng nghiệp Hà Lan thận trọng, chúng tôi sẽ không trình diễn phiên bản cuối cùng của trang chính của mình, đặc biệt vì mỗi trung tâm dữ liệu là duy nhất và không có ích gì khi sao chép nó. Nhưng chúng ta hãy mô tả hai nguyên tắc chính của sự hình thành của nó:

  1. Đây là bảng được thiết kế để phù hợp với định dạng của màn hình điện thoại thông minh dọc (hoặc màn hình nhưng vẫn duy trì bố cục dọc), với tất cả thông tin quan trọng được hiển thị trên một màn hình. Phía trên bảng là phần “tóm tắt” các sự việc đang diễn ra, vì vậy sẽ thuận tiện nhất khi đặt chúng lại với nhau theo dạng dọc. 
  2. Việc sắp xếp các ô trong bảng tuân theo kiến ​​trúc của trung tâm dữ liệu (vật lý hoặc logic). Chúng tôi đã từ bỏ việc sắp xếp các hệ thống theo thứ tự bảng chữ cái, như mong muốn ngay từ cái nhìn đầu tiên. Trình tự này phản ánh sự liên kết trực quan của nhân viên trung tâm dữ liệu - như thể họ đang giám sát vật lý tất cả các phòng và hệ thống. Điều này làm cho việc tìm kiếm thông tin dễ dàng hơn.

Trên thực tế, giờ đây tất cả các đặc điểm chính của trung tâm dữ liệu đều được nhóm lại và hiển thị trên một màn hình điện thoại thông minh/màn hình của kỹ sư và người quản lý chịu trách nhiệm, đồng thời thực hiện liên kết với địa hình vật lý và logic của trung tâm dữ liệu. 

Đây là bức ảnh của bản phác thảo đầu tiên đó, mặc dù tất nhiên, sau đó phiên bản này đã được suy nghĩ lại và hoàn thiện.

Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3

Ghi nhận và tóm tắt sự việc

Hãy nói về một khái niệm mới khác đối với chúng tôi, xuất hiện nhờ dự án cập nhật hệ thống giám sát.

Bắt tay là một thuật ngữ khá hiếm được nhà phát triển BMS mới đề xuất. Nó có nghĩa là xác nhận rằng người vận hành đã nhìn thấy sự cố, thừa nhận và chấp nhận trách nhiệm giải quyết sự cố.  

Từ ngữ đã bị mắc kẹt, và bây giờ chúng tôi “thừa nhận” sự cố.

Thuật toán có trong phiên bản cơ bản của BMS mới không phù hợp với chúng tôi. Trên thực tế, đây là những nhận xét đối với nhật ký sự kiện, tức là các sự cố đã giải quyết không biến mất khỏi nhật ký và những sự cố được chấp nhận (“đã thừa nhận”) không được sắp xếp từ những sự cố mới.

Kết quả là một cửa sổ có tên là “tóm tắt” đã được phát triển, trong đó:

  1. Chỉ các sự cố và thiết bị đang hoạt động ở chế độ dịch vụ mới được hiển thị (không có thông báo màu xanh lam thương mại).
  2. Có sự phân biệt rõ ràng giữa sự cố MỚI và ĐƯỢC CHẤP NHẬN.
  3. Nó được chỉ ra ai đã chấp nhận sự việc.

Thuật toán làm việc của nhân viên trực trong BMS mới như sau:

  1. Các sự cố mới được đưa vào báo cáo và đang chờ xác nhận. Họ không thể ở lại khu vực này lâu, người trực ban thiết bị phải xử lý ngay sự việc.
  2. Nhân viên chịu trách nhiệm về sự cố bằng cách nhấp vào dấu kiểm bên phải. Vì tất cả nhân viên đều có tài khoản duy nhất nên nó sẽ tự động hiển thị ai đã chấp nhận sự cố. Nếu cần thiết, hãy để lại bình luận.
  3. Sự việc được chuyển sang phần “Đã xác nhận”, các nhân viên trực còn lại và người quản lý hiểu rằng sự việc đang được nhân viên có trách nhiệm xử lý.

Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3
Ví dụ về cửa sổ tóm tắt với tin nhắn mới và đã được xác nhận.

Bằng cách kết nối cửa sổ tóm tắt với bảng Một trang, chúng ta có được đầy đủ màn hình chính Hệ thống BMS, nơi bạn có thể thấy ngay: 

  • tình trạng của hệ thống trung tâm dữ liệu chính;
  • sự hiện diện của các sự cố mới chưa được xử lý;
  • sự hiện diện của các sự cố được chấp nhận và thông tin về người cụ thể loại bỏ chúng.

Truy cập trình duyệt và cảnh báo bật lên trên điện thoại

Giao diện web, có thể truy cập được từ mọi thiết bị từ mọi nơi trên thế giới, hoàn toàn trái ngược với ứng dụng khách "dày", hoàn toàn đóng cửa đối với người dùng bên ngoài. 

Cách tiếp cận cũ kéo theo một loạt bất tiện, từ các vấn đề trong việc tổ chức công việc từ xa để giám sát nhân viên dịch vụ cho đến nhu cầu cài đặt các máy khách “dày” từ bộ phân phối trên máy trạm của nhân viên trong trung tâm dữ liệu.

Giờ đây, bất kỳ trang nào trong BMS đều có một địa chỉ duy nhất, cho phép bạn chia sẻ không chỉ địa chỉ trực tiếp của trang hoặc thiết bị mà còn liên kết đến các biểu đồ/báo cáo duy nhất. 

Việc truy cập vào hệ thống hiện được thực hiện thông qua xác thực LDAP thông qua Active Directory, giúp tăng mức độ bảo mật. 

Tính di động ngày nay là yếu tố then chốt quyết định chất lượng công việc của các kỹ sư đang làm nhiệm vụ. Ngoài việc giám sát giám sát trong phòng ca làm việc, các kỹ sư còn đi vòng, thực hiện công việc thường ngày bên ngoài “phòng làm việc” và nhờ màn hình chính BMS được tối ưu hóa cho màn hình di động, thậm chí không bị mất kiểm soát những gì đang diễn ra trong phòng tuabin. trong một giây. 

Chất lượng kiểm soát cũng được cải thiện nhờ chức năng trò chuyện công việc. Chúng tăng tốc quá trình làm việc bằng cách cho phép thư từ của các kỹ sư đang làm nhiệm vụ được “liên kết” với BMS. Ví dụ: chúng tôi sử dụng ứng dụng Teams, cho phép bạn thực hiện trao đổi thư từ nội bộ và nhận tất cả tin nhắn từ BMS trên điện thoại của bạn dưới dạng thông báo đẩy bật lên, giúp nhân viên trực không cần phải liên tục nhìn vào điện thoại màn hình.

Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3
 Đẩy thông báo trên màn hình điện thoại thông minh.

Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3
Đây là cách thông báo trông như thế nào trong ứng dụng Nhóm.

Đồng thời, thông báo bật lên chỉ được cấu hình cho các thông báo về việc xảy ra sự cố, từ đó giảm thiểu yếu tố gây mất tập trung, nhân viên biết: nếu Thông báo đẩy của Teams xuất hiện trên màn hình điện thoại thông minh, thì họ cần phải truy cập trang BMS và chấp nhận sự việc. Thông báo giải quyết sự cố được theo dõi trên trang BMS.

Giám sát trong trung tâm dữ liệu: cách chúng tôi thay thế BMS cũ bằng BMS mới. Phần 3
Trong ảnh là giao diện BMS trên điện thoại thông minh.

Tổng hợp

Mặc dù chi phí cập nhật BMS từ nhà cung cấp cũ của chúng tôi tương đương với việc phát triển một hệ thống mới từ đầu (khoảng 100 USD), nhưng sự khác biệt về chức năng của các sản phẩm hóa ra là rất lớn. Chúng tôi đã nhận được một hệ thống linh hoạt được tối ưu hóa cho các nhiệm vụ và quy trình kinh doanh của mình. Chúng tôi cũng đã tiết kiệm được đáng kể chi phí hỗ trợ và nâng cấp hệ thống liên tục. 

Nhưng tất nhiên là có những khó khăn. 

  • Đầu tiên, chúng tôi đã đánh giá thấp số lượng thay đổi cần thực hiện đối với phiên bản cơ sở của BMS mới và không đáp ứng được thời hạn đã thỏa thuận trước. Đối với chúng tôi, đây không phải là vấn đề nghiêm trọng vì chúng tôi được bảo hiểm đến phút cuối cùng và làm việc trên hệ thống cũ, đồng thời quy trình này rất sáng tạo, phức tạp và do đó đôi khi diễn ra chậm hơn dự kiến. Ngoài ra, chúng tôi luôn thấy rằng nhà phát triển của chúng tôi nỗ lực hết sức để đạt được kết quả tốt nhất. Nhưng trên thực tế, câu chuyện hóa ra rất dài và các chuyên gia chủ chốt của chúng tôi đã dành nhiều công sức và thời gian cho nó hơn dự định. 
  • Thứ hai, chúng tôi cần một số giai đoạn thử nghiệm để gỡ lỗi thuật toán đặt trước máy ảo và kênh liên lạc. Ban đầu, có những lỗi xảy ra ở cả phía hệ thống BMS và phía thiết lập máy ảo và mạng. Việc gỡ lỗi này cũng mất thời gian. May mắn thay, nhà thầu đã được cung cấp một nền tảng thử nghiệm dưới dạng dịch vụ đám mây, nơi tất cả các cài đặt và cải tiến ban đầu đều được thử nghiệm.
  • Thứ ba, hệ thống thu được hóa ra lại khó chỉnh sửa hơn đối với người dùng cuối. Nếu trước đây bản đồ bao gồm nền (tệp đồ họa) và các biểu tượng dễ thay đổi hoặc di chuyển thì giờ đây nó là giao diện đồ họa phức tạp với hoạt ảnh đòi hỏi một số kỹ năng chỉnh sửa nhất định.

Việc cập nhật căn bản hệ thống BMS của chúng tôi có thể được gọi là dự án quan trọng nhất trong năm qua, điều này sẽ ảnh hưởng nghiêm trọng đến chất lượng quản lý vận hành các cơ sở của chúng tôi trong tương lai. 

Tất nhiên, chúng tôi không vứt bỏ chiếc máy chủ sắt cũ mà "làm nhẹ nó": chúng tôi đã xóa hàng nghìn cảm biến và PDU ảo "thương mại" và chỉ để lại trong đó vài chục thiết bị quan trọng nhất, chẳng hạn như động cơ diesel bộ máy phát điện, UPS, máy điều hòa không khí, máy bơm, cảm biến rò rỉ và nhiệt độ Ở chế độ này, tốc độ trước đây của anh ấy đã trở lại và anh ấy có thể trở thành “dự bị”. Nhân tiện, sau khi xóa PDU khỏi BMS cũ, chúng tôi đã giải phóng khoảng 1000 giấy phép hiện không cần thiết, bạn có biết phải làm gì với chúng không?

Nguồn: www.habr.com

Thêm một lời nhận xét