資料中心發生事故的主要原因是電腦和椅子之間的墊圈

現代資料中心重大事故的主題提出了第一篇文章中沒有回答的問題 - 我們決定開發它。

資料中心發生事故的主要原因是電腦和椅子之間的墊圈

根據Uptime Institute的統計,資料中心的大部分事故都與供電系統故障有關,佔事故總數的39%。 其次是人為因素,佔事故的 24%。 第三個最重要的原因(15%)是空調系統故障,第四(12%)是天災。 其他煩惱的總比例僅佔10%。 在不質疑受人尊敬的組織的數據的情況下,我們將強調不同事故中的共同點,並嘗試了解這些事故是否可以避免。 劇透:在大多數情況下這是可能的。

接觸的科學

簡單來說,供電的問題無外乎兩個:要不是該接觸的地方沒有接觸,就是不該接觸的地方接觸到了。 您可以長時間談論現代不間斷電源系統的可靠性,但它們並不總是能拯救您。 以英國航空公司 (British Airways) 所使用的資料中心為例,該航空公司隸屬於母公司國際航空集團 (International Airlines Group)。 希思羅機場附近有兩處此類房產 - Boadicea House 和 Comet House。 其中第一個事件是27年2017月XNUMX日發生的意外停電,導致UPS系統過載並故障。 結果,部分IT設備受到物理損壞,最近一次災難花了三天才解決。

該航空公司不得不取消或重新安排超過 75 個航班,約 128 萬名乘客無法準時飛行 - 賠償花費了 XNUMX 億美元,這還不包括恢復資料中心功能所需的費用。 停電原因的歷史尚不清楚。 如果你相信國際航空集團執行長威利·沃爾什宣布的內部調查結果,那是工程師的錯誤造成的。 然而,不間斷供電系統必須能夠承受這樣的停機——這就是安裝它的原因。 該資料中心由外包公司 CBRE Managed Services 的專家管理,因此英國航空公司試圖透過倫敦法院追回損失金額。

資料中心發生事故的主要原因是電腦和椅子之間的墊圈

停電也有類似的場景:首先是由於電力供應商的故障而停電,有時是由於惡劣天氣或內部問題(包括人為錯誤),然後不間斷供電系統無法應對負載或短路- 正弦波的長期中斷會導致許多服務出現故障,導致恢復需要花費大量的時間和金錢。 是否可以避免此類事故的發生? 無疑。 如果系統設計正確,即使是大型資料中心的創建者也不能避免錯誤。

人的因素

當事件的直接原因是資料中心人員的不正確操作時,問題通常(但並非總是)會影響 IT 基礎架構的軟體部分。 即使在大公司中,此類事故也時有發生。 2017 年 3 月,由於其中一個資料中心的技術營運小組錯誤招募了一名團隊成員,導致部分 Amazon Web Services 伺服器被停用。 調試 Amazon Simple Storage Service (SXNUMX) 雲端儲存客戶的計費流程時發生錯誤。 一名員工試圖刪除計費系統使用的多個虛擬伺服器,但遇到了更大的叢集。

資料中心發生事故的主要原因是電腦和椅子之間的墊圈

由於工程師失誤,運行重要亞馬遜雲端儲存軟體模組的伺服器被刪除。 第一個受影響的是索引子系統,它包含有關 US-EAST-3 美國區域中所有 S1 物件的元資料和位置的資訊。 該事件還影響了用於託管資料和管理可用儲存空間的子系統。 刪除虛擬機器後,這兩個子系統需要完全重啟,然後亞馬遜工程師就大吃一驚——公有雲儲存很長一段時間無法滿足客戶的請求。

由於許多大型資源都使用 Amazon S3,因此影響非常廣泛。 這次中斷影響了 Trello、Coursera、IFTTT,最糟糕的是,還影響了標準普爾 500 強名單中亞馬遜主要合作夥伴的服務。這種情況下的損失很難計算,但損失在數億美元左右。 可以看到,一條錯誤的命令就足以讓最大的雲端平台的服務失效。 這不是一個孤立的案例;16 年 2019 月 XNUMX 日,在維護工作期間,Yandex.Cloud 服務 已刪除 ru-central1-c 區域中至少一次處於 SUSPENDED 狀態的使用者的虛擬機器。 這裡的客戶端資料已經被損壞,其中一些已經無法挽回地遺失了。 當然,人無完人,但現代資訊安全系統早已能夠在執行特權使用者輸入的命令之前監控其行為。 如果在 Yandex 或 Amazon 中實施此類解決方案,則可以避免此類事件。

資料中心發生事故的主要原因是電腦和椅子之間的墊圈

冷凍冷卻

2017年35月,Megafon公司的德米特洛夫資料中心發生重大事故。 隨後莫斯科地區的氣溫降至-30℃,導致該設施的冷卻系統故障。 營運商的新聞部門沒有特別談論事件的原因——俄羅斯公司極不願意談論他們擁有的設施發生的事故;在宣傳方面,我們遠遠落後於西方。 社交網路上流傳著一個關於沿街鋪設​​的管道中冷卻劑凍結和乙二醇洩漏的版本。 據她介紹,營運部門因長假原因,無法快速取得XNUMX噸冷卻液,便採取臨時手段撤離,違反系統運作規定,組織臨時自然冷卻。 嚴寒加劇了這個問題——一月份,冬天突然襲擊了俄羅斯,儘管沒人預料到。 結果,工作人員不得不關閉部分伺服器機架的電源,這也是導致部分營運商服務兩天無法使用的原因。

資料中心發生事故的主要原因是電腦和椅子之間的墊圈

或許,我們可以在這裡談論天氣異常,但這樣的霜凍對首都地區來說並不罕見。 莫斯科地區冬季氣溫可能會降低,因此資料中心的建設目標是在-42°C下穩定運作。 大多數情況下,冷卻系統在寒冷天氣下會因為冷卻劑溶液中乙二醇濃度不夠高和水分過多而發生故障。 管道安裝或系統設計和測試中的錯誤計算也存在問題,這主要與省錢的願望有關。 結果,一場本來可以避免的嚴重事故突然發生了。

自然災害

最常見的是,雷暴和/或颶風會破壞資料中心的工程基礎設施,導致服務中斷和/或設備物理損壞。 惡劣天氣引起的事故經常發生。 2012年,颶風桑迪橫掃美國西岸,帶來強降雨。 Peer 1資料中心位於曼哈頓下城區的一棟高樓內 失去外部電源,鹹海水淹沒地下室後。 該設施的緊急發電機位於 18 樓,其燃料供應有限——9/11 恐怖襲擊後紐約出台了規定,禁止在較高樓層儲存大量燃料。

燃油泵也出現故障,因此工作人員花了幾天時間手動將柴油拖到發電機上。 團隊的英雄主義讓資料中心免於嚴重事故,但這真的有必要嗎? 我們生活在一個充滿氮氧大氣和大量水的星球上。 雷暴和颶風在這裡很常見(尤其是在沿海地區)。 設計人員可能最好考慮所涉及的風險並建立適當的不間斷電源系統。 或至少選擇一個比島上的高層建築更適合資料中心的位置。

其他一切

Uptime Institute 確定了此類事件的多種情況,但很難從中選出典型的事件。 銅纜被盜、汽車撞上資料中心、電線支架和變電站、火災、挖土機操作員損壞光學器件、囓齒動物(老鼠、兔子甚至袋熊,實際上是有袋動物),以及那些喜歡練習射擊的人電線 - 菜單很豐富。 電源故障甚至會導致 偷竊 電力非法大麻種植園。 在大多數情況下,特定的人成為事件的罪魁禍首,即當問題有名字和姓氏時,我們再次處理人為因素。 即使乍看之下事故與技術故障或自然災害有關,只要設施設計正確並正確運行,事故就可以避免。 唯一的例外是資料中心基礎設施嚴重損壞或因自然災害導致建築物和結構遭到破壞的情況。 這些都是真正的不可抗力情況,所有其他問題都是由電腦和椅子之間的墊圈引起的 - 也許這是任何複雜系統中最不可靠的部分。

來源: www.habr.com

添加評論