数据中心发生事故的主要原因是计算机和椅子之间的垫圈

现代数据中心重大事故的主题提出了第一篇文章中没有回答的问题 - 我们决定开发它。

数据中心发生事故的主要原因是计算机和椅子之间的垫圈

根据Uptime Institute的统计,数据中心的大部分事故都与供电系统故障有关,占事故总数的39%。 其次是人为因素,占事故的 24%。 第三个最重要的原因(15%)是空调系统故障,第四位(12%)是自然灾害。 其他烦恼的总比例仅占10%。 在不质疑受人尊敬的组织的数据的情况下,我们将强调不同事故中的共同点,并尝试了解这些事故是否可以避免。 剧透:在大多数情况下这是可能的。

接触的科学

简单来说,供电的问题无外乎两个:要么是该接触的地方没有接触,要么是不该接触的地方接触到了。 您可以长时间谈论现代不间断电源系统的可靠性,但它们并不总是能拯救您。 以英国航空公司 (British Airways) 使用的数据中心为例,该航空公司隶属于母公司国际航空集团 (International Airlines Group)。 希思罗机场附近有两处此类房产 - Boadicea House 和 Comet House。 其中第一个事件是27年2017月XNUMX日发生的意外停电,导致UPS系统过载并出现故障。 结果,部分IT设备受到物理损坏,最近一次灾难花了三天时间才解决。

该航空公司不得不取消或重新安排超过 75 个航班,约 128 万名乘客无法准时飞行 - 赔偿花费了 XNUMX 亿美元,这还不包括恢复数据中心功能所需的费用。 停电原因的历史尚不清楚。 如果你相信国际航空集团首席执行官威利·沃尔什宣布的内部调查结果,那是工程师的错误造成的。 然而,不间断供电系统必须能够承受这样的停机——这就是安装它的原因。 该数据中心由外包公司 CBRE Managed Services 的专家管理,因此英国航空公司试图通过伦敦法院追回损失金额。

数据中心发生事故的主要原因是计算机和椅子之间的垫圈

停电也有类似的场景:首先是由于电力供应商的故障而停电,有时是由于恶劣天气或内部问题(包括人为错误),然后不间断供电系统无法应对负载或短路- 正弦波的长期中断会导致许多服务出现故障,导致恢复需要花费大量的时间和金钱。 是否可以避免此类事故的发生呢? 无疑。 如果系统设计正确,即使是大型数据中心的创建者也不能避免错误。

人为因素

当事件的直接原因是数据中心人员的不正确操作时,问题通常(但并非总是)影响 IT 基础设施的软件部分。 即使在大公司中,此类事故也时有发生。 2017 年 3 月,由于其中一个数据中心的技术运营小组错误招募了一名团队成员,导致部分 Amazon Web Services 服务器被禁用。 调试 Amazon Simple Storage Service (SXNUMX) 云存储客户的计费流程时发生错误。 一名员工试图删除计费系统使用的多个虚拟服务器,但遇到了更大的集群。

数据中心发生事故的主要原因是计算机和椅子之间的垫圈

由于工程师失误,运行重要亚马逊云存储软件模块的服务器被删除。 第一个受影响的是索引子系统,它包含有关 US-EAST-3 美国区域中所有 S1 对象的元数据和位置的信息。 该事件还影响了用于托管数据和管理可用存储空间的子系统。 删除虚拟机后,这两个子系统需要完全重启,然后亚马逊工程师就大吃一惊——公有云存储很长一段时间无法满足客户的请求。

由于许多大型资源都使用 Amazon S3,因此影响非常广泛。 此次中断影响了 Trello、Coursera、IFTTT,最糟糕的是,还影响了标准普尔 500 强名单中亚马逊主要合作伙伴的服务。这种情况下的损失很难计算,但损失在数亿美元左右。 可以看到,一条错误的命令就足以让最大的云平台的服务失效。 这不是一个孤立的案例;16 年 2019 月 XNUMX 日,在维护工作期间,Yandex.Cloud 服务 删除 ru-central1-c 区域中至少一次处于 SUSPENDED 状态的用户的虚拟机。 这里的客户端数据已经被损坏,其中一些已经无法挽回地丢失了。 当然,人无完人,但现代信息安全系统早已能够在执行特权用户输入的命令之前监控其行为。 如果在 Yandex 或 Amazon 中实施此类解决方案,则可以避免此类事件。

数据中心发生事故的主要原因是计算机和椅子之间的垫圈

冷冻冷却

2017年35月,Megafon公司的德米特洛夫数据中心发生重大事故。 随后莫斯科地区的气温降至-30℃,导致该设施的冷却系统出现故障。 运营商的新闻部门没有特别谈论事件的原因——俄罗斯公司极不愿意谈论他们拥有的设施发生的事故;在宣传方面,我们远远落后于西方。 社交网络上流传着一个关于沿街铺设的管道中冷却剂冻结和乙二醇泄漏的版本。 据她介绍,运营部门因长假原因,无法快速获取XNUMX吨冷却液,便采取临时手段撤离,违反系统运营规定,组织临时自然冷却。 严寒加剧了这一问题——一月份,冬天突然袭击了俄罗斯,尽管没人预料到。 结果,工作人员不得不关闭部分服务器机架的电源,这也是导致部分运营商服务两天无法使用的原因。

数据中心发生事故的主要原因是计算机和椅子之间的垫圈

或许,我们可以在这里谈论天气异常,但这样的霜冻对于首都地区来说并不罕见。 莫斯科地区冬季气温可能会降低,因此数据中心的建设目标是在-42°C下稳定运行。 大多数情况下,冷却系统在寒冷天气下会由于冷却剂溶液中乙二醇浓度不够高和水分过多而发生故障。 管道安装或系统设计和测试中的错误计算也存在问题,这主要与省钱的愿望有关。 结果,一场本来可以避免的严重事故突然发生了。

自然灾害

最常见的是,雷暴和/或飓风会破坏数据中心的工程基础设施,导致服务中断和/或设备物理损坏。 由恶劣天气引起的事故经常发生。 2012年,飓风桑迪横扫美国西海岸,带来强降雨。 Peer 1数据中心位于曼哈顿下城的一栋高层建筑内 失去外部电源,咸海水淹没地下室后。 该设施的应急发电机位于 18 楼,其燃料供应有限——9/11 恐怖袭击后纽约出台了规定,禁止在较高楼层储存大量燃料。

燃油泵也出现故障,因此工作人员花了几天时间手工将柴油拖到发电机上。 团队的英雄主义使数据中心免遭严重事故,但这真的有必要吗? 我们生活在一个充满氮氧大气和大量水的星球上。 雷暴和飓风在这里很常见(尤其是在沿海地区)。 设计人员可能最好考虑所涉及的风险并构建适当的不间断电源系统。 或者至少选择一个比岛上的高层建筑更适合数据中心的位置。

其他一切

Uptime Institute 确定了此类事件的多种情况,但很难从中选出典型的事件。 铜缆被盗、汽车撞上数据中心、电线支架和变电站、火灾、挖掘机操作员损坏光学器件、啮齿动物(老鼠、兔子甚至袋熊,实际上是有袋动物),以及那些喜欢练习射击的人电线 - 菜单很丰富。 电源故障甚至会导致 偷窃 电力非法大麻种植园。 在大多数情况下,特定的人成为事件的罪魁祸首,即当问题有名字和姓氏时,我们再次处理人为因素。 即使乍一看事故与技术故障或自然灾害有关,只要设施设计正确并正确运行,事故就可以避免。 唯一的例外是数据中心基础设施严重损坏或因自然灾害导致建筑物和结构遭到破坏的情况。 这些都是真正的不可抗力情况,所有其他问题都是由计算机和椅子之间的垫圈引起的 - 也许这是任何复杂系统中最不可靠的部分。

来源: habr.com

添加评论