資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分

我們繼續講述我們如何改變資料中心的 BMS 系統的故事(第1部分, 第2部分).  При этом мы не просто поменяли решение одного вендора на другого, а разработали систему с нуля под свои требования. В заключение нашей истории делимся итогами проделанной работы и интересными решениями, которые могут быть вам полезны.

新介面

正如他們所說,這裡最好看一次。

資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分架子。

讓我們看看差異。

  • 首先是 красиво 舒服的。 請注意,追蹤 PDU 模組(「群組」或簡稱「群組」)上的負載以及配對模組的平行負載總和變得多麼容易。 在新 BMS 的機架模型上,我們立即看到下部配對的 PDU 模組過載(總電流高於允許的 16A - “藍色”通知),而上部配對 PDU 模組負載不足。 如果其中一個輸入斷開,整個負載將轉移到第二個輸入,並且保持通電的下部模組將因過載而關閉。 為了防止這種情況發生,資料中心支援服務將提前警告用戶端並發送有關如何重新分配負載的建議。
  • 輕鬆添加設備。 在新的 BMS 中,模組電流和機架功率總和的虛擬感測器已添加到標準機架模板中,並在向機架添加 PDU 後自動建立。 在舊的 BMS 中,它們必須手動創建,然後拖到地圖上,這增加了由於「人為因素」而出錯的可能性。
  • Неограниченный простор для творчества. 現在我們在創建虛擬感測器時沒有任何限制。 您絕對可以建立任何變數的任何數學模型。 這意味著我們有能力創建複雜的虛擬感測器(以前我們只能添加值)並更好地分析工程系統性能的統計數據和趨勢。 這提高了有關係統配置、設備更換和資源管理的決策品質。 
  • 介面清晰。 在新介面中,沒有雜亂的圖示、風扇旋轉、開關「咔嗒」聲。 最方便的是能夠指示機架內 PDU Line A/B 的狀態。 我們嘗試在舊的 BMS 中做類似的事情,但地圖每平方厘米的合併圖​​標數量迫使我們放棄它。

現在看起來很不錯:

資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分
伺服器.

資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分
主交換器的片段。

資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分
通風控制面板。

新的 BMS 可以裝飾新年了:)
資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分

一頁-無需言語、無需技術規範的相互理解

很長一段時間以來,我們都想在BMS中實現另一個「技巧」:將資料中心的主要參數編譯在一個頁面上,這樣一看螢幕就足以評估主要係統的狀態。 然而,我們並沒有完全理解它應該是什麼樣子。

Еще до начала разработки новой BMS мы посетили с экскурсиями десяток ЦОДов в Нидерландах.  Одной из целей было увидеть примеры реализации такой страницы.

沒有一個數據中心向我們展示過它——在一些數據中心中它不存在,在另一些數據中心中它“正在開發中”,在另一些數據中心中它是一個“重大商業秘密”。 因此,在我們創建新的BMS的職權範圍中,沒有對這個對我們來說非常重要的頁面進行精確的描述。

結果,我們「即時」想出了它。 就在那時,我不得不遠端諮詢資料中心的同事。 在手機上翻閱BMS的頁面尋找零散的資料非常不方便,事實上第一個版本是在餐巾紙上勾勒出來的 一頁. Ее и реализовали разработчики по фото. 

Следуя примеру осторожных голландских коллег, не будем демонстрировать итоговый вариант нашей главной страницы, тем более что каждый ЦОД уникален и копировать смысла нет. Но опишем два главных принципа ее формирования:

  1. 這是一張設計用於適應垂直智慧型手機螢幕(或顯示器,但保持垂直佈局)格式的表格,所有重要資訊都顯示在一個螢幕上。 表格上方是活動事件的“摘要”,因此將它們以垂直格式放在一起是最方便的。 
  2. 表中單元格的排列遵循資料中心的架構(物理或邏輯)。 我們放棄了按字母順序排列系統,這乍看之下是可取的。 這個序列反映了資料中心人員的視覺關聯 - 就好像他們正在物理監控所有房間和系統一樣。 這使得查找資訊變得更加容易。

事實上,現在資料中心的所有關鍵特徵都被分組並呈現在負責工程師和經理的智慧型手機/顯示器的一個螢幕上,同時實現了與資料中心的物理和邏輯拓撲的連結。 

這是初稿的照片,當然,這個版本經過了重新考慮並最終確定。

資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分

致謝和事件摘要

讓我們談談另一個新概念,它是由於更新監控系統項目而出現的。

Квитирование – довольно редко встречающийся термин, который предложил использовать разработчик новой BMS. Он означает подтверждение того, что оператор увидел инцидент, подтвердил его и принял на себя обязанности по его устранению.  

這個詞已經被固定下來,現在我們「承認」了這些事件。

新 BMS 基本版本中包含的演算法不適合我們。 事實上,這些是對事件日誌的註釋,也就是說,已解決的事件並未從日誌中消失,並且已接受(「已確認」)的事件並未與新事件進行排序。

由此,開發了一個名為“summary”的窗口,其中:

  1. 僅顯示活動事件和處於服務模式的裝置(無商業藍色通知)。
  2. 新事件和已接受事件之間存在明顯差異。
  3. 表示誰接受了這事件。

Алгоритм работы дежурных в новой BMS следующий:

  1. 新事件已包含在報告中並等待確認。 不能在該區域長時間停留,設備值班人員必須立即負責處理。
  2. 員工透過點擊右側的複選標記對事件負責。 由於所有員工都使用唯一的帳戶,因此會自動顯示誰接受了事件。 如果有需要,請發表評論。
  3. 該事件已移至「已確認」部分,其餘值班人員和經理了解到該事件正在由負責的員工處理。

資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分
包含新訊息和已確認訊息的摘要視窗範例。

透過將摘要視窗與單頁表連接起來,我們得到了完整的 主屏幕 системы BMS, на котором сразу можно увидеть: 

  • состояние основных систем ЦОД;
  • 存在新的未處理事件;
  • 已接受的事件的存在以及有關誰專門消除這些事件的資訊。

瀏覽器訪問和電話彈出警報

網路介面可以從世界任何地方的任何設備訪問,這與“胖”客戶端形成鮮明對比,“胖”客戶端對外部用戶完全關閉。 

舊的方法帶來了一系列的不便,從組織遠端工作以監控服務員工的問題到需要從資料中心的員工工作站上的分發套件安裝「厚」客戶端。

現在,BMS 中的任何頁面都有一個唯一的地址,這使您不僅可以共享頁面或裝置的直接地址,還可以連結到唯一的圖形/報告。 

現在可以透過 Active Directory 透過 LDAP 驗證來存取系統,這提高了安全性等級。 

Мобильность сегодня – ключевой фактор качественной работы дежурных инженеров. Помимо контроля мониторинга в помещении дежурной смены, инженеры делают обходы, выполняют текущую работу вне «дежурки» и, благодаря оптимизированному под мобильный экран главному экрану BMS, не теряют контроль за происходящим в машзалах ни на секунду. 

由於工作聊天功能,控製品質也提高了。 它們允許將值班工程師的信件「連結」到 BMS,從而加快工作流程。 例如,我們使用Teams應用程序,您可以進行內部通信,並以彈出推播通知的形式在手機上接收來自BMS的所有訊息,這樣值班人員就不需要經常看手機螢幕。

資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分
 在智慧型手機螢幕上推播通知。

資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分
這就是通知在 Teams 應用程式中的外觀。

При этом всплывающие уведомления настроены только на сообщения о появлении инцидентов, тем самым минимизирован отвлекающий фактор, персонал знает: если на экране смартфона появилось Push-уведомление Teams, то надо зайти на страницу BMS и принять инцидент. Сообщения об устранении инцидентов отслеживаются уже на странице BMS.

資料中心監控:我們如何用新的 BMS 取代舊的 BMS。 第3部分
照片顯示智慧型手機中的 BMS 介面。

總結

雖然從我們的舊供應商更新 BMS 的成本與從頭開始開發新系統的成本相當(約 100 萬美元),但產品功能的差異卻是巨大的。 我們收到了針對我們的業務任務和流程進行最佳化的靈活系統。 我們還顯著節省了持續的系統支援和升級成本。 

Но, конечно, были и сложности. 

  • 首先,我們低估了新 BMS 基礎版本所需進行的變更量,並且沒有在預先商定的期限內完成。 對我們來說,這不是一個關鍵問題,因為我們直到最後一刻才投保並在舊系統上工作,而且該過程具有創造性、複雜性,因此有時比預期慢。 此外,我們一直看到我們的開發人員盡一切努力來實現最好的結果。 但事實上,這個故事很長,我們的主要專家在這上面花費的精力和時間比他們計劃的要多得多。 
  • Во-вторых, нам потребовалось несколько этапов испытаний, чтобы отладить алгоритм резервирования виртуальных машин и каналов связи. Изначально сбои были и на стороне системы BMS, и на стороне настройки виртуальных машин и сети. Эта отладка тоже заняла время. Благо, подрядчику была предоставлена тестовая площадка в виде облачного сервиса, где изначально тестировались все настройки и нововведения.
  • 第三,最終使用者編輯最終系統變得更加困難。 如果以前的地圖由背景(圖形文件)和易於更改或移動的圖標組成,那麼現在它是一個帶有動畫的複雜圖形介面,需要一定的編輯技能。

我們BMS系統的徹底更新已經可以稱為過去一年最重要的項目,這將嚴重影響我們站點未來的營運管理品質。 

當然,我們並沒有丟掉舊的鐵伺服器,而是「減輕了它的重量」:我們清除了它的數千個「商業」虛擬感測器和PDU,只留下了幾十個最關鍵的設備,例如柴油發電機組、UPS、空調、幫浦、洩漏感知器和溫度在這種模式下,他以前的速度又回來了,他可以成為「後備儲備」。 順便問一下,從舊的 BMS 中刪除 PDU 後,我們釋放了大約 1000 個現在不需要的許可證,您知道如何處理它們嗎?

來源: www.habr.com

添加評論