并展示我们如何通过 Uptime Institute 的运营可持续性审核

并展示我们如何通过 Uptime Institute 的运营可持续性审核
运营部门负责人爬进地下燃料储存设施的舱口,查看电磁阀上的标记。

XNUMX月初,我们最大的Tier III数据中心 诺德-4 经 Uptime Institute (UI) 重新认证,符合运营可持续性标准。 今天我们将告诉您审计员正在关注什么以及我们最终得到了什么结果。

对于熟悉数据中心的人来说,让我们简单介绍一下硬件。 等级标准 分三个阶段评估和认证数据中心:

  • 项目(设计):检查项目文档包,这里有众所周知的 。 总共有 4 个:I-IV 级。 因此,后者是最高的。
  • 已建设施(Facility):检查数据中心的工程基础设施及其与项目的符合性。 数据中心在满设计负载下使用各种测试进行检查,内容大致如下:其中一台 UPS(DGS、冷水机、精密空调、配电柜、母线等)停止运行进行维护或维修,并且市电已关闭。 三级及以上数据中心应该能够处理这种情况,而不会对 IT 负载产生任何影响。

    如果数据中心已通过设计认证,则可以使用设施。
    NORD-4 于 2015 年获得设计证书,并于 2016 年获得设施证书。

  • 运营可持续性。 其实最重要也是最复杂的认证。 它全面评估运营商维护和管理已建立 Tier 级别的数据中心的流程和能力(要通过运营可持续性,您必须已经拥有设施证书)。 毕竟,如果没有正确构建的运营流程和合格的团队,即使是 Tier IV 数据中心也可能变成一座配备非常昂贵设备的无用建筑。

    这里也有等级:铜牌、银牌和金牌。 在上次重新认证中,我们的得分为 88,95 分(满分 100 分),这是银牌。 它仅落后黄金 1,05 点。 

并展示我们如何通过 Uptime Institute 的运营可持续性审核

如何检查必要的流程是否已构建并正常运行? 而且,两天怎么办——这就是重新认证需要多长时间。 简而言之,认证是基于对法规中的内容、“一切如何运作”的故事和实际实践的艰苦比较。 有关后者的信息是从数据中心的走查以及与数据中心工程师的对话中获得的——我们亲切地称之为“对抗”。 这就是他们所关注的。

团队

首先,UI审核员检查数据中心是否有足够的支持人员。 他们获取人员配置表、值班表,并有选择地使用轮班报告和访问控制数据进行检查,以确保当天现场有所需数量的工程师。

审计员还会仔细检查加班时间。 当大客户进来并且需要同时安装数十个机架时,有时会发生这种情况。 在这种时候,其他班次的人就会过来救援,而且他们还会因此得到额外的报酬。

每班有 4 名工程师在 NORD-7 上工作:6 名值班工程师和 24 名高级工程师。 他们负责 7x24 监控、会见客户、帮助设备安装和其他日常请求。 这是客户技术支持的第一线。 他们的职责包括记录紧急情况并将其上报给专业工程师。 工程基础设施的工作由个人(基础设施值班人员)进行监控。 还有 7xXNUMX。

并展示我们如何通过 Uptime Institute 的运营可持续性审核
NORD 的生产总监和现场经理告诉审核员目前有多少人在现场工作。

当数字整理完毕后,就会检查球队的资格。 审核员随机审查工程师的人事档案,以确保他们拥有在给定职位上工作所需的文凭、证书和授权文件(例如电气安全证书)。

他们还检查我们如何培训员工。 即使在上次审核期间,我们的新值班工程师培训系统也给 UI 专家留下了深刻的印象。 我们为他们花了三个月的时间 训练课程 作为带薪实习,在此期间我们向他们介绍我们数据中心的工作流程和原则。

已经工作的工程师还必须接受定期培训,包括紧急情况下的工作培训。 审核员肯定会检查此类培训的培训计划和材料,并对工程师进行随机检查。 不会要求任何人改用柴油发电机组,但会要求他们一步一步告诉你,当城市电源关闭时需要做什么。 根据审核结果,我们将所有培训和教育计划统一为一个标准,以便不同团队的培训和教育计划不会有所不同。

并展示我们如何通过 Uptime Institute 的运营可持续性审核
我们向审核员展示了轮班工程师的休息室。

工程系统运行与维护 

在审计的这一大节中,我们表明所有工程设备和系统都按照供应商建议的时间表进行定期维护,仓库有必要的备件,与承包商签订了有效的服务协议,并且每个设备操作都有自己的处理不同情况的程序和算法。

彩信。 当您操作数十台 UPS、柴油发电机组、空调和其他设备时,您需要在某个地方收集有关该设施的所有信息。 我们为每台设备创建大约以下档案:

  • 型号和序列号;
  • 标记;
  • 技术特征和设置;
  • 安装位置;
  • 生产、调试、保修期满日期;
  • 服务合同;
  • 维护计划和历史记录;
  • 以及整个“病史”——故障、维修。

如何以及在哪里收集所有这些信息由每个数据中心运营商自行决定。 UI不限于工具。 这可以是一个简单的 Excel(我们从这个开始)或一个自行编写的维护管理系统(MMS),就像我们现在一样。 顺便一提, 服务台、仓库记账、在线日志、监控也是自己写的。

并展示我们如何通过 Uptime Institute 的运营可持续性审核
每一件设备都有这样一个“个人档案”。

我们展示了我们在这方面的实践,包括使用该基础设施 UPS 的示例(如图),该基础设施将其中一个部件捐赠给为 IT 负载提供服务的 UPS。 是的,根据标准,这种“捐赠”只能由为空调和应急照明供电的基础设施设备进行,而不能由IT负载进行。

并展示我们如何通过 Uptime Institute 的运营可持续性审核

随后,审核员要求在服务台出示相应的票据:

并展示我们如何通过 Uptime Institute 的运营可持续性审核

彩信中的 UPS 配置文件:

并展示我们如何通过 Uptime Institute 的运营可持续性审核

备件 为了工程设备的及时维护和紧急维修,我们拥有自己的备件和配件。 有一个通用仓库,存放设备的大件备件,工程室有备件的小柜子(这样你就不用跑很远了)。

照片中:我们正在检查柴油发电机组备件的供应情况。 我们数了一下,有 12 个过滤器。 然后我们检查了彩信中的数据。  

并展示我们如何通过 Uptime Institute 的运营可持续性审核

在主仓库也进行了类似的测试,那里存放着大型备件:压缩机、控制器、自动化设备、风扇、蒸汽加湿器和数百件其他物品。 我们选择性地重写了标记并通过彩信“打孔”它们。

并展示我们如何通过 Uptime Institute 的运营可持续性审核

并展示我们如何通过 Uptime Institute 的运营可持续性审核
备件库存数据。 红色的 - 这就是缺少的东西,需要购买。

预防性维护。 除了维护和维修外,UI还建议进行预防性维护。 它有助于将潜在的事故转化为有计划的修复。 对于每个参数,我们在监控中配置阈值。 如果超出,负责人会收到警报并采取必要的措施。 例如,我们:

  • 我们使用热像仪检查配电板,以便快速检测电气装置中的缺陷:接触不良、导体或断路器的局部过热。 
  • 我们监控制冷系统泵的振动指标和电流消耗。 这使您能够及时识别偏差并毫不匆忙地计划更换零件。
  • 我们对柴油发电机组和压缩机进行燃油和油分析。
  • 我们测试制冷系统中乙二醇的浓度。

并展示我们如何通过 Uptime Institute 的运营可持续性审核
修理前后的泵振动图。

与承包商合作。 设备维护和修理由外部承包商进行。 在我们这边,有柴油发电机组、空调和UPS的单独专家来控制它们的运行。 他们检查承包商是否拥有维修工作/维护所需的工具和材料、专业证书、电气安全证书和许可证。 他们接受所有工作。

并展示我们如何通过 Uptime Institute 的运营可持续性审核
这就是接受空调维修工作的清单的样子。

并展示我们如何通过 Uptime Institute 的运营可持续性审核
在通行处,我们检查通行证是否发给承包商的授权代表,是否按时进行维修,是否已阅读规则。

文档。 维护系统和设备的既定流程就成功了一半。 人类在数据中心执行的所有程序都必须记录在案。 这样做的目的很简单:让一切都不再局限于某个特定的人,一旦发生事故,任何工程师都可以接受明确的指示并采取一切必要的操作来消除事故。

UI 对于此类文档有自己的方法。

对于简单和重复的活动,建立了标准操作程序(SOP)。 例如,有用于打开/关闭冷水机以及将 UPS 设置为旁路的 SOP。

对于维护或复杂操作(例如更换 UPS 中的电池),需要创建维护程序(程序方法,MOP)。 这些可能包括 SOP。 每种类型的工程设备都必须有自己的MOP。

最后,还有紧急操作程序 (EOP)——紧急情况下的说明。 编制了一份具体紧急情况清单并为其编写了说明。 以下是紧急情况清单的一部分,其中详细说明了事故的迹象、行动、责任人和需要通知的人员:

  • 市电停电:柴油发电机组已启动/未启动;
  • UPS 事故; 
  • 数据中心监控系统发生事故;
  • 机房过热;
  • 制冷系统泄漏;
  • 网络和计算设备故障;

依此类推。

编译如此大量的文档本身就是一项劳动密集型任务。 使其保持最新状态甚至更加困难(顺便说一句,审计员也会检查这一点)。 最重要的是,员工必须了解这些指示,按照这些指示工作,并在必要时进行改进。

并展示我们如何通过 Uptime Institute 的运营可持续性审核
是的,说明书应该在需要的地方可用,而不仅仅是在档案中积灰。

并展示我们如何通过 Uptime Institute 的运营可持续性审核
关于数据中心工程系统维护规定变更的说明。

在审计过程中,他们还查看系统的技术文件、执行和工作文件以及将系统投入运行的行为。 

标记。 他们在数据中心周围走动时,检查了他们能到达的所有地方。 他们够不到的地方,就从梯子上够到了:)。 我们检查了它在每个交换机、机器和阀门上的存在。 我们检查了竣工文件的独特性、明确性以及与当前方案的一致性。 在下图中:我们在燃油储存泵房中将电磁阀上的标记与竣工文件的图表进行比较。 

并展示我们如何通过 Uptime Institute 的运营可持续性审核

一切都与她一致,但与墙上当地“装饰”轴测图的一个参数并不相符。

并展示我们如何通过 Uptime Institute 的运营可持续性审核

位于那里的系统图也应该张贴在数据中心场所。 如果发生事故,它们可以帮助您快速找到所有物品的位置并做出明智的决定。 例如,照片显示了主配电室的单线图。

并展示我们如何通过 Uptime Institute 的运营可持续性审核

通过以下方式检查图表的相关性:他们在图表上命名了标记的元素,并要求在“现实生活中”显示它。 

并展示我们如何通过 Uptime Institute 的运营可持续性审核

审核员在这里拍摄主配电盘输入断路器的设置(设置)照片,以便稍后将它们与纸质和电子副本的单线图上的指标进行比较。 其中一台机器 QF-3 的指示器与纸质图表不符,我们因此被扣分。 现在两名工程师将检查单线图中的标记是否与事实相符。

并展示我们如何通过 Uptime Institute 的运营可持续性审核

这并不是审核员在服务流程方面检查的全部内容。 以下是议程上的其他内容:

  • 监视系统。 在这里,我们通过良好的可视化、移动应用程序以及放置在数据中心走廊中的情景屏幕获得了业力收益。 在这里我们详细写了我们的工作方式 监控.

    并展示我们如何通过 Uptime Institute 的运营可持续性审核
    这是 MCC,提供有关 NORD-4 主要工程系统和现场工作的其他数据中心状态的可视化信息。

  • 工程设备生命周期规划;
  • 容量管理(容量管理);
  • 预算(谈了一点 这里);
  • 事故分析程序;
  • 设备的验收、调试和测试的过程(我们写了测试 这里).

用户界面还关注什么?

安全和访问控制。 审计还检查安全和安保系统的运行情况。 例如,审计员试图进入他无权进入的一处场所,然后检查这是否反映在访问控制系统中,以及是否已通知保安人员(剧透 - 确实如此)。

如果在我们的数据中心,任何房间的门保持打开状态超过两分钟,就会在安全哨所触发警报。 为了测试这一点,审计员用灭火器撑开了其中一扇门。 确实,我们从来没有听到警报——保安人员通过摄像机发现了问题,并提前到达了“犯罪现场”。

秩序和清洁。 审计人员会寻找灰尘、杂乱地放置的设备箱以及场所的清洁频率。 例如,审计员对通风走廊中的一个不明物体产生了兴趣。 这是通风系统的一个区块,通风系统已经准备好取代它的位置。 但他们还是要我签字。

并展示我们如何通过 Uptime Institute 的运营可持续性审核

另外,关于数据中心的订购主题 - 这些机柜配有设备紧急工作所需的所有工具,位于主配电室中。 

并展示我们如何通过 Uptime Institute 的运营可持续性审核

位置。 数据中心根据位置条件进行评估——附近是否有军事基地、机场、河流、火山和其他危险物体。 在照片中我们只是显示,自 2017 年上次认证以来,数据中心周围没有发展核电站或石油储存设施。 但那里正在建设一个新的 NORD-5 数据中心,该数据中心还必须通过 Uptime Institute Tier III 的所有级别认证。 但这是一个完全不同的故事)。

并展示我们如何通过 Uptime Institute 的运营可持续性审核

来源: habr.com

添加评论