資料中心重大事故:原因與後果

現代資料中心非常可靠,但任何設備都會不時發生故障。 在這篇短文中,我們收集了 2018 年最重大的事件。

資料中心重大事故:原因與後果

數位科技對經濟的影響越來越大,處理的資訊量越來越大,新的設施正在建設中,只要一切正常,這都是好事。 不幸的是,自從人們開始託管關鍵業務 IT 基礎設施(作為數位化的不可避免的結果)以來,資料中心故障的經濟影響也在不斷增加。 我們將發布去年在不同國家發生的一些最引人注目的事故的一小部分。

美國

這個國家是資料中心建置領域公認的領導者。 美國擁有數量最多的大型商業和企業資料中心,為全球服務提供服務,因此那裡發生的事件的後果最為嚴重。 XNUMX 月初,四個 Equinix 設施因強大的氣旋而停電。 該空間用於亞馬遜網路服務(AWS)設備;這次事故導致許多流行服務無法使用:GitHub、MongoDB、NewVoiceMedia、Slack、Zillow、Atlassian、Twilio 和 mCapital One,以及 Amazon Alexa 虛擬助手,受到影響。

XNUMX月,微軟位於德州的資料中心遭遇天氣異常,隨後,由於雷暴天氣,整個地區的供電系統中斷,而在改用柴油發電機組供電的資料中心,也不知為何冷卻關閉。 花了幾天的時間才消除了事故的後果,儘管由於負載平衡,這次故障並沒有變得嚴重,但世界各地的用戶注意到微軟雲端服務的運作略有放緩。

俄國

最嚴重的事故發生在 20 月 66 日,發生在 Rostelecom 的一個資料中心。 因此,統一國家房地產登記處的伺服器停止了 3 小時,因此必須轉移到備份站點。 Rosreestr 直到 XNUMX 月 XNUMX 日才恢復對透過所有管道收到的申請的處理——該政府組織正試圖從 Rostelecom 處追回大量違反服務水準協議的款項。

16月1日,由於Lenenergo網路出現問題,Xelnet(聖彼得堡)資料中心的備用供電系統開啟。 正弦波的短暫中斷導致許多服務的運行中斷:尤其是大型雲端供應商12cloud受到影響,但俄羅斯網路受眾最明顯的問題是無法訪問VKontakte社交網站。 最有趣的是,大約花了XNUMX個小時,才完全消除了短暫停電的後果。

歐洲聯盟

2018年,歐盟發生了幾起嚴重事件。 10月份,荷蘭皇家航空公司資料中心故障:電源被切斷XNUMX分鐘,柴油發電機組的電力不足以運作設備。 一些伺服器發生故障,航空公司不得不取消或重新安排數十個航班。

這並不是唯一與航空旅行有關的事件——早在四月份,Eurocontrol 資料中心的供電系統就發生了故障。 該組織控制著歐盟境內的飛機移動,雖然專家花了 5 個小時消除了事故的後果,但乘客們再次不得不忍受延誤並重新安排航班。

為金融部門服務的資料中心發生事故會導致非常嚴重的問題。 這裡的交易中斷成本通常很高,而且設施的可靠性水平是適當的,但這並不能防止事故的發生。 18月XNUMX日,北歐納斯達克證券交易所(芬蘭赫爾辛基)因DigiPlex商業資料中心內的氣體滅火系統未經授權啟動而突然斷電,整個北歐地區白天無法進行交易。

7 月 XNUMX 日,資料中心中斷迫使倫敦證券交易所 (LSE) 將交易開始時間推遲一個小時。 此外,XNUMX月,歐洲因資料中心故障,導致國際支付系統VISA服務全天癱瘓,事件細節從未透露。

日本

2018 年夏天,東京郊區正在建設的亞馬遜資料中心地下層發生火災,造成 5 名工人死亡、至少 50 人受傷。火災損壞了約 5000 平方米的設施。 調查顯示,起火原因為人為失誤:由於乙炔炬操作不慎,導致絕緣材料起火。

故障原因

以上所列的事件還遠遠不夠完整;由於資料中心發生事故,銀行和電信業者的客戶遭受損失,雲端供應商的服務離線,甚至緊急服務工作也受到干擾。 據 Uptime Institute 稱,小規模的服務中斷可能會導致重大損失,而大多數中斷 (39%) 與電力系統有關。 位居第二(24%)的是人為因素,位居第三(15%)的是空調系統。 資料中心的事故中只有 12% 可以歸因於自然現象,只有 10% 的事故是由於所列原因以外的原因發生的。

儘管有嚴格的可靠性和安全標準,但沒有任何設施能夠免受事故的影響。 其中大多數是由於電源故障或人為錯誤而發生的。 資料中心和伺服器機房的業主首先應該關注這兩個因素,客戶也應該明白:即使是市場領導者也不能保證絕對的可靠性。 如果裝置或雲端服務服務於關鍵業務流程,您應該考慮備份站點。

圖片來源:telecomblogger.ru

來源: www.habr.com

添加評論