数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分

我们继续讲述我们如何改变数据中心的 BMS 系统的故事(部分1, 部分2)。 同时,我们并不是简单地将一个供应商的解决方案替换为另一个供应商的解决方案,而是从头开始开发一套系统来满足我们的要求。 在故事的最后,我们分享了已完成的工作成果以及可能对您有用的有趣解决方案。

新界面

正如他们所说,这里最好看一次。

数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分机架。

让我们看看差异。

  • 首先,它是 красиво 方便。 请注意,跟踪 PDU 模块(“组”或简称“组”)上的负载以及配对模块的并行负载总和变得多么容易。 在新 BMS 的机架模型上,我们立即看到下部配对的 PDU 模块过载(总电流高于允许的 16A - “蓝色”通知),而上部配对 PDU 模块负载不足。 如果其中一个输入断开,整个负载将转移到第二个输入,并且保持通电的下部模块将因过载而关闭。 为了防止这种情况发生,数据中心支持服务将提前警告客户端并发送有关如何重新分配负载的建议。
  • 轻松添加设备。 在新的 BMS 中,模块电流和机架功率总和的虚拟传感器已添加到标准机架模板中,并在向机架添加 PDU 后自动创建。 在旧的 BMS 中,它们必须手动创建,然后拖到地图上,这增加了由于“人为因素”而出错的可能性。
  • 创造力无限。 现在我们在创建虚拟传感器时没有任何限制。 您绝对可以建立任何变量的任何数学模型。 这意味着我们有能力创建复杂的虚拟传感器(以前我们只能添加值)并更好地分析工程系统性能的统计数据和趋势。 这提高了有关系统配置、设备更换和资源管理的决策质量。 
  • 直观的界面。 在新界面中,没有杂乱的图标、风扇旋转、开关“咔嗒”声。 最方便的是能够指示机架内 PDU Line A/B 的状态。 我们尝试在旧的 BMS 中做类似的事情,但地图每平方厘米的合并图标数量迫使我们放弃它。

现在看起来很不错:

数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分
服务器。

数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分
主交换机的片段。

数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分
通风控制面板。

新的 BMS 可以装饰新年了:)
数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分

一页——无需言语、无需技术规范的相互理解

很长一段时间以来,我们都想在BMS中实现另一个“技巧”:将数据中心的主要参数编译在一个页面上,这样一看屏幕就足以评估主要系统的状态。 然而,我们并没有完全理解它应该是什么样子。

甚至在新的 BMS 开发开始之前,我们就在旅行中参观了荷兰的十几个数据中心。 目标之一是查看此类页面的实现示例。

没有一个数据中心向我们展示过它——在一些数据中心中它不存在,在另一些数据中心中它“正在开发中”,在另一些数据中心中它是一个“重大商业秘密”。 因此,在我们创建新的BMS的职权范围中,没有对这个对我们来说非常重要的页面进行精确的描述。

结果,我们“即时”想出了它。 就在那时,我不得不远程咨询数据中心的同事。 在手机上翻阅BMS的页面寻找零散的数据非常不方便,事实上第一个版本是在餐巾纸上勾画出来的 一页。 它是由开发人员根据照片实现的。 

按照我们谨慎的荷兰同事的例子,我们不会展示主页的最终版本,特别是因为每个数据中心都是唯一的,没有必要复制它。 但让我们描述一下其形成的两个主要原则:

  1. 这是一张设计用于适应垂直智能手机屏幕(或显示器,但保持垂直布局)格式的表格,所有重要信息都显示在一个屏幕上。 表格上方是活动事件的“摘要”,因此将它们以垂直格式放在一起是最方便的。 
  2. 表中单元格的排列遵循数据中心的架构(物理或逻辑)。 我们放弃了按字母顺序排列系统,这乍一看是可取的。 该序列反映了数据中心人员的视觉关联 - 就好像他们正在物理监控所有房间和系统一样。 这使得查找信息变得更加容易。

事实上,现在数据中心的所有关键特征都被分组并呈现在负责工程师和经理的智能手机/显示器的一个屏幕上,同时实现了与数据中心的物理和逻辑拓扑的链接。 

这是初稿的照片,当然,这个版本经过了重新考虑并最终确定。

数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分

致谢和事件摘要

让我们谈谈另一个新概念,它是由于更新监控系统项目而出现的。

握手是一个相当罕见的术语,由新BMS的开发人员提出。 这意味着确认操作者看到了该事件,承认了该事件并承担了解决该事件的责任。  

这个词已经被固定下来,现在我们“承认”了这些事件。

新 BMS 基本版本中包含的算法不适合我们。 事实上,这些是对事件日志的注释,也就是说,已解决的事件并未从日志中消失,并且已接受(“已确认”)的事件并未与新事件进行排序。

由此,开发了一个名为“summary”的窗口,其中:

  1. 仅显示活动事件和处于服务模式的设备(无商业蓝色通知)。
  2. 新事件和已接受事件之间存在明显区别。
  3. 表明谁接受了这一事件。

新BMS中值班人员的工作算法如下:

  1. 新事件已包含在报告中并等待确认。 不能在该区域长时间停留,设备值班人员必须立即负责处理。
  2. 员工通过单击右侧的复选标记对事件负责。 由于所有员工都使用唯一的帐户,因此会自动显示谁接受了事件。 如果有需要,请发表评论。
  3. 该事件已移至“已确认”部分,其余值班人员和经理了解到该事件正在由负责的员工处理。

数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分
包含新消息和已确认消息的摘要窗口示例。

通过将摘要窗口与单页表连接起来,我们得到了完整的 主屏幕 BMS系统,您可以立即看到: 

  • 主要数据中心系统的状况;
  • 存在新的未处理事件;
  • 已接受的事件的存在以及有关谁专门消除这些事件的信息。

浏览器访问和电话弹出警报

网络界面可以从世界任何地方的任何设备访问,这与“胖”客户端形成鲜明对比,“胖”客户端对外部用户完全关闭。 

旧的方法带来了一系列的不便,从组织远程工作以监控服务员工的问题到需要从数据中心的员工工作站上的分发套件安装“厚”客户端。

现在,BMS 中的任何页面都有一个唯一的地址,这使您不仅可以共享页面或设备的直接地址,还可以链接到唯一的图形/报告。 

现在可以通过 Active Directory 通过 LDAP 身份验证来访问系统,这提高了安全级别。 

如今,移动性是值班工程师工作质量的关键因素。 除了在值班室进行监控外,工程师还可以在“值班室”外巡查、执行日常工作,并且借助针对移动屏幕优化的 BMS 主屏幕,即使在涡轮机室内发生的情况也不会失去控制一会儿。 

由于工作聊天功能,控制质量也得到了提高。 它们允许将值班工程师的信件“链接”到 BMS,从而加快工作流程。 例如,我们使用Teams应用程序,您可以进行内部通信,并以弹出推送通知的形式在手机上接收来自BMS的所有消息,这样值班人员就不需要经常看手机屏幕。

数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分
 在智能手机屏幕上推送通知。

数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分
这就是通知在 Teams 应用程序中的外观。

同时,弹出通知仅配置为有关事件发生的消息,从而最大限度地减少干扰因素;工作人员知道:如果智能手机屏幕上出现 Teams 推送通知,那么他们需要转到 BMS 页面并接受该事件。 在 BMS 页面上跟踪事件解决消息。

数据中心监控:我们如何用新的 BMS 替换旧的 BMS。 第3部分
照片显示智能手机中的 BMS 界面。

总结

虽然从我们的旧供应商处更新 BMS 的成本与从头开始开发新系统的成本相当(约 100 美元),但产品功能的差异却是巨大的。 我们收到了针对我们的业务任务和流程进行优化的灵活系统。 我们还显着节省了持续的系统支持和升级成本。 

但是,当然也有困难。 

  • 首先,我们低估了新 BMS 基础版本需要进行的更改量,并且没有在预先商定的期限内完成。 对我们来说,这不是一个关键问题,因为我们直到最后一刻才投保并在旧系统上工作,而且该过程具有创造性、复杂性,因此有时比预期慢。 此外,我们一直看到我们的开发人员尽一切努力来实现最好的结果。 但事实上,这个故事很长,我们的主要专家在这上面花费的精力和时间比他们计划的要多得多。 
  • 其次,我们需要几个阶段的测试来调试预留虚拟机和通信通道的算法。 最初,BMS系统一侧以及设置虚拟机和网络一侧都出现故障。 这个调试也需要时间。 幸运的是,承包商获得了云服务形式的测试平台,所有设置和创新都在其中进行了初步测试。
  • 第三,最终用户编辑最终系统变得更加困难。 如果以前的地图由背景(图形文件)和易于更改或移动的图标组成,那么现在它是一个带有动画的复杂图形界面,需要一定的编辑技能。

我们BMS系统的彻底更新已经可以称为过去一年最重要的项目,这将严重影响我们站点未来的运营管理质量。 

当然,我们并没有扔掉旧的铁服务器,而是“减轻了它的重量”:我们清除了它的数千个“商业”虚拟传感器和PDU,只留下了几十个最关键的设备,例如柴油机发电机组、UPS、空调、泵、泄漏传感器和温度在这种模式下,他以前的速度又回来了,他可以成为“后备储备”。 顺便问一下,从旧的 BMS 中删除 PDU 后,我们释放了大约 1000 个现在不需要的许可证,您知道如何处理它们吗?

来源: habr.com

添加评论