データセンターにおける重大事故: 原因と結果

最新のデータセンターは信頼性がありますが、どんな機器でも時々故障します。 この短い記事では、2018 年の最も重大な事件を集めました。

データセンターにおける重大事故: 原因と結果

デジタル技術の経済への影響は拡大しており、処理される情報量は増加し、新しい施設が建設されていますが、すべてがうまくいっている限りは良いことです。 残念なことに、デジタル化の避けられない結果として人々がビジネスクリティカルな IT インフラストラクチャをホストし始めて以来、データセンター障害による経済的影響も増大しています。 昨年さまざまな国で発生した最も注目すべき事故を厳選して掲載しています。

アメリカ

この国はデータセンター建設の分野でリーダーとして認められています。 米国には、グローバル サービスを提供する大規模な商用および企業データ センターが最も多く存在するため、そこでのインシデントの影響は最も重大です。 XNUMX月初旬、エクイニクスのXNUMXつの施設が強力なサイクロンにより停電に見舞われた。 このスペースはアマゾン ウェブ サービス (AWS) の機器に使用されていましたが、この事故により、多くの人気サービス (GitHub、MongoDB、NewVoiceMedia、Slack、Zillow、Atlassian、Twilio、mCapital One、および Amazon Alexa 仮想アシスタント) が利用できなくなりました。影響を受けました。

XNUMX月にテキサス州にあるマイクロソフトのデータセンターが異常気象に見舞われ、その後、雷雨により地域全体の電力供給システムが寸断され、データセンターではディーゼル発電機からの電力に切り替わったが、原因は不明である。冷却がオフになりました。 事故の影響を取り除くには数日かかり、負荷分散のおかげでこの障害は重大なものにはなりませんでしたが、Microsoft クラウド サービスの動作がわずかに遅くなっていることが世界中のユーザーに注目されました。

ロシア

最も重大な事故は 20 月 66 日にロステレコムのデータセンターの 3 つで発生しました。 この影響で、国家不動産登録局のサーバーが XNUMX 時間停止し、バックアップ サイトに移行する必要がありました。 Rosreestr がすべてのチャネルを通じて受信したアプリケーションの処理を回復できたのは XNUMX 月 XNUMX 日になってからです。政府機関は、サービス レベル契約に違反したとして Rostelecom から多額の賠償金を回収しようとしています。

16 月 1 日、Lenenergo のネットワークの問題により、ゼルネット (サンクトペテルブルク) のデータセンターのバックアップ電源システムがオンになりました。 正弦波の短期間の中断により、多くのサービスの運用が中断されました。特に、大手クラウド プロバイダー 12cloud が影響を受けましたが、ロシアのインターネット視聴者にとって最も顕著な問題は、VKontakte ソーシャル ネットワーキング サイトにアクセスできないことでした。 。 最も興味深いのは、短期間の停電の影響を完全に排除するのに約 XNUMX 時間かかったということです。

EU

2018年にEUではいくつかの重大な事件が記録されました。 10月には航空会社KLMオランダ航空のデータセンターで障害が発生し、電力供給がXNUMX分間遮断され、ディーゼル発電機の電力が機器を動作させるのに不十分となった。 一部のサーバーがダウンし、航空会社は数十便の欠航またはスケジュール変更を余儀なくされた。

航空旅行に関連した事件はこれだけではありません。すでに5月に、ユーロコントロールのデータセンターの電源システムに障害が発生しました。 この組織は欧州連合内の航空機の移動を管理しており、専門家が事故の影響を排除するためにXNUMX時間を費やした一方で、乗客は再び遅延やフライトのスケジュール変更に耐えなければならなかった。

金融部門にサービスを提供するデータセンターでの事故により、非常に深刻な問題が発生します。 ここでの取引中断のコストは通常​​高く、施設の信頼性レベルは適切ですが、これによってインシデントが防止されるわけではありません。 18月XNUMX日、北欧ナスダック証券取引所(フィンランドのヘルシンキ)は、DigiPlex商用データセンターのガス消火システムが不正に作動し、突然電源が遮断されたため、日中北欧全土で取引ができなくなった。

7月XNUMX日、データセンターの停止により、ロンドン証券取引所(LSE)は取引開始をXNUMX時間遅らせた。 また、欧州ではXNUMX月にデータセンターの障害により、国際決済システムVISAのサービスが終日停止する事態が発生したが、事件の詳細は明らかにされなかった。

日本

2018年夏、東京郊外に建設中のアマゾンのデータセンターの地下で火災が発生し、作業員5人が死亡、少なくとも50人が負傷した。この火災により、施設の約5000平方メートルが被害を受けた。 調査の結果、火災の原因は人為的ミスであることが判明しました。アセチレントーチの不注意な取り扱いにより、断熱材が発火したのです。

失敗の原因

上記のインシデントのリストは完全ではありません。データ センターでの事故により、銀行や通信事業者の顧客が被害を受け、クラウド プロバイダーのサービスがオフラインになり、さらには緊急サービスの業務が中断されます。 Uptime Institute によると、小規模なサービス停止が大きな損失につながる可能性があり、停止の大部分 (39%) は電気システムに関連しています。 24 位 (15%) は人的要因、12 位 (10%) は空調システムです。 データセンターにおける事故のうち、自然現象に起因すると考えられる事故はわずか XNUMX% のみであり、記載されている以外の理由で発生した事故はそのうちの XNUMX% のみです。

厳格な信頼性と安全基準にもかかわらず、事故を免れない施設はありません。 それらのほとんどは、停電または人的ミスによって発生します。 データセンターとサーバールームの所有者は、まずこれら XNUMX つの要素に注意を払う必要があり、顧客は、市場リーダーであっても絶対的な信頼性を保証できるわけではないことを理解する必要があります。 機器やクラウド サービスがビジネス クリティカルなプロセスに対応している場合は、バックアップ サイトについて検討する必要があります。

写真出典: telecombloger.ru

出所: habr.com

コメントを追加します