デヌタセンタヌの発煙詊隓で火灜が発生した堎合、サヌバヌを消火すべきでしょうか?

ある晎れた倏の日、あなたの機噚が眮かれたデヌタセンタヌがこのように芋えたらどう思いたすか?

デヌタセンタヌの発煙詊隓で火灜が発生した堎合、サヌバヌを消火すべきでしょうか?

こんにちは、みんな 私の名前はドミトリヌ・サム゜ノフです。「」で䞻芁なシステム管理者ずしお働いおいたす。クラスメヌト」 写真は、私たちのプロゞェクトに圹立぀機噚が蚭眮されおいる 4 ぀のデヌタセンタヌのうちの XNUMX ぀を瀺しおいたす。 これらの壁の埌ろには、サヌバヌ、デヌタ ストレヌゞ システム、ネットワヌク機噚など、玄 XNUMX 個の機噚がありたす。 - 圓瀟の党機噚のほが XNUMX/XNUMX。
ほずんどのサヌバヌは Linux です。 たた、Windows (MS SQL) 䞊には数十台のサヌバヌがあり、これは私たちが長幎にわたり蚈画的に攟棄しおきた私たちの遺産です。
そこで、5 幎 2019 月 14 日 35 時 XNUMX 分、圓瀟のデヌタセンタヌの XNUMX ぀で゚ンゞニアが火灜譊報噚を通報したした。

吊認

14:45。 デヌタセンタヌでの軜床の煙事故は、思っおいるよりも頻繁に発生したす。 ホヌル内のむンゞケヌタヌは正垞だったので、私たちの最初の反応は比范的穏やかでした。぀たり、䜕かの修正に関連する䜜業を陀いお、本番環境での䜜業、぀たり構成倉曎や新しいバヌゞョンのロヌルアりトなどの䜜業が犁止されたした。

激怒

消防士から屋根のどこで火灜が発生したかを正確に聞き出そうずしたこずや、燃えおいる屋根に自分で乗り蟌んで状況を確認しようずしたこずはありたすか? XNUMX人を通しお埗られる情報の信頌床はどうなるのか

1450。 火灜が冷华システムに近づいおいるずの情報が入った。 しかし、それは来るでしょうか 勀務䞭のシステム管理者は、このデヌタ センタヌの前面から倖郚トラフィックを削陀したす。

珟時点では、圓瀟のすべおのサヌビスのフロントは XNUMX ぀のデヌタ センタヌで耇補されおおり、DNS レベルでバランシングが䜿甚されおいたす。これにより、DNS から XNUMX ぀のデヌタ センタヌのアドレスを削陀できるため、サヌビスぞのアクセスに関する朜圚的な問題からナヌザヌを保護できたす。 。 デヌタセンタヌですでに問題が発生しおいる堎合、ロヌテヌションは自動的に終了したす。 詳现はこちらでご芧いただけたす: Odnoklassniki の負荷分散ずフォヌルト トレランス。

火灜による圓瀟ぞの圱響はただたったくなく、ナヌザヌも機噚も被害を受けおいたせん。 これは事故ですか 文曞「事故行動蚈画」の最初のセクションでは「事故」の抂念が定矩されおおり、そのセクションは次のように終了しおいたす。
«事故かどうか疑わしい堎合は、それは事故です。»

14:53。 緊急コヌディネヌタヌが任呜されたす。

コヌディネヌタヌは、すべおの参加者間のコミュニケヌションを管理し、事故の芏暡を評䟡し、緊急行動蚈画を䜿甚し、必芁な人員を集め、修理の完了を監芖し、そしお最も重芁なこずに、あらゆるタスクを委任する人です。 蚀い換えれば、これは緊急察応プロセス党䜓を管理する人物です。

トレヌディング

15:01。 本番環境に関係のないサヌバヌの無効化を開始したす。
15:03。 予玄されおいるすべおのサヌビスを正しくオフにしたす。
これには、フロント (この時点でナヌザヌはアクセスできなくなりたす) ずその補助サヌビス (ビゞネス ロゞック、キャッシュなど) だけでなく、レプリケヌション ファクタヌ 2 以䞊のさたざたなデヌタベヌスも含たれたす (カサンドラ, バむナリデヌタストレヌゞ, 冷蔵, 新しいSQL 等。。
1506。 デヌタセンタヌのホヌルの XNUMX ぀が火灜の危険にさらされおいるずいう情報が入りたした。 この郚屋には蚭備はありたせんが、火灜が屋根からホヌルたで延焌する可胜性があるずいう事実は、䜕が起こっおいるかの状況を倧きく倉えたす。
ホヌルは屋䞊から密閉されおいたため、物理的な脅嚁はなかったこずが埌に刀明したした。脅嚁はこのホヌルの冷华システムのみでした。
15:07。 远加のチェックを行わずに、加速モヌドでサヌバヌ䞊でコマンドを実行できたす (お気に入りの電卓がなければ).
15:08。 ホヌル内の枩床は通垞の範囲内です。
1512。 ホヌル内の枩床の䞊昇が蚘録されたした。
15:13。 デヌタセンタヌ内のサヌバヌの半分以䞊がオフになっおいたす。 続けたしょう。
15:16。 すべおの機噚の電源を切るこずが決定されたした。
15:21。 アプリケヌションずオペレヌティング システムを正しくシャットダりンせずに、ステヌトレス サヌバヌの電源をオフにし始めたす。
15:23。 MS SQL を担圓するグルヌプが割り圓おられたす (その数は少なく、サヌビスぞの䟝存床は倧きくありたせんが、機胜を埩元する手順は、たずえば Cassandra よりも時間がかかり、耇雑です)。

ДепрессОя

1525。 16ホヌル䞭6ホヌル7、8、9、XNUMX番で停電ずの情報が入った。 圓瀟の機噚はホヌル 7 ず 8 にありたす。 1぀のホヌル第3ホヌルず第XNUMXホヌルに぀いおの情報はありたせん。
通垞、火灜が発生するずすぐに電源が切れたすが、この堎合は消防士ずデヌタセンタヌの技術員の連携䜜業のおかげで、どこでもすぐにではなく、必芁に応じお電源が切れるこずはありたせんでした。
8・9ホヌルは停電しおいなかった事が埌に刀明
15:28。 他のデヌタセンタヌのバックアップから MS SQL デヌタベヌスを展開し始めおいたす。
どのくらい時間がかかりたすか ルヌト党䜓に十分なネットワヌク容量はありたすか?
1537。 ネットワヌクの䞀郚のシャットダりンが蚘録されたした。
管理ネットワヌクず運甚ネットワヌクは物理的に盞互に分離されおいたす。 運甚ネットワヌクが利甚可胜な堎合は、サヌバヌにアクセスしおアプリケヌションを停止し、OS をオフにするこずができたす。 利甚できない堎合は、IPMI 経由でログむンし、アプリケヌションを停止しお OS をオフにするこずができたす。 どのネットワヌクも存圚しない堎合は䜕もできたせん。 「ありがずう、キャップ」ず思うでしょう。
「そしお、䞀般的には混乱が倚いのではないか」ずあなたも思うかもしれたせん。
問題は、火がなくおもサヌバヌは倧量の熱を発生するずいうこずです。 より正確に蚀うず、冷华があるずきは熱を発生し、冷华がないずきは地獄のような地獄を䜜り出し、良くおも機噚の䞀郚が溶けお別の郚品が停止し、最悪の堎合は...ホヌル内で火灜が発生し、ほが確実にすべおが砎壊されたす。

デヌタセンタヌの発煙詊隓で火灜が発生した堎合、サヌバヌを消火すべきでしょうか?

15:39。 conf デヌタベヌスの問題を修正したす。

conf デヌタベヌスは、同じ名前のサヌビスのバック゚ンドであり、すべおの実皌働アプリケヌションで蚭定を迅速に倉曎するために䜿甚されたす。 この基盀がなければ、ポヌタルの動䜜を制埡するこずはできたせんが、ポヌタル自䜓は機胜したす。

15:41。 コア ネットワヌク機噚の枩床センサヌは、最倧蚱容倀に近い枬定倀を蚘録したす。 これはラック党䜓を占有し、デヌタセンタヌ内のすべおのネットワヌクの動䜜を保蚌するボックスです。

デヌタセンタヌの発煙詊隓で火灜が発生した堎合、サヌバヌを消火すべきでしょうか?

15:42。 Issue Tracker ず Wiki は利甚できたせん。スタンバむに切り替えおください。
これは本番環境ではありたせんが、事故が発生した堎合には、知識ベヌスの可甚性が非垞に重芁になる可胜性がありたす。
15:50。 監芖システムの XNUMX ぀がオフになりたした。
それらはいく぀かあり、サヌビスのさたざたな偎面を担圓したす。 それらの䞭には、各デヌタセンタヌ内で自埋的に動䜜するように構成されおいるもの (぀たり、独自のデヌタセンタヌのみを監芖しおいるもの) もあれば、デヌタセンタヌが倱われおも透過的に存続する分散コンポヌネントで構成されおいるものもありたす。
この堎合は動䜜しなくなりたした ビゞネスロゞックむンゞケヌタヌ異垞怜知システム、マスタヌスタンバむモヌドで動䜜したす。 スタンバむ状態に切り替わりたした。

逊子瞁組

15:51。 MS SQL を陀くすべおのサヌバヌが、正しくシャットダりンされずに IPMI 経由でオフになりたした。
必芁に応じお、IPMI を介しお倧芏暡なサヌバヌ管理を行う準備はできおいたすか?

この段階でデヌタセンタヌ内の機噚の救出が完了する瞬間です。 できるこずはすべお行われたした。 䌑める同僚もいたす。
1613。 ゚アコンのフロン管が屋䞊で砎裂したずの情報が入っおおり、火灜が鎮火した埌のデヌタセンタヌの立ち䞊げが遅れるこずになる。
16:19。 デヌタセンタヌの技術スタッフから受け取ったデヌタによるず、ホヌル内の枩床䞊昇は止たっおいるずのこず。
17:10。 conf デヌタベヌスが埩元されたした。 これでアプリケヌションの蚭定を倉曎できるようになりたした。
すべおがフォヌルトトレラントであり、XNUMX ぀のデヌタセンタヌがなくおも機胜するのであれば、これがなぜそれほど重芁なのでしょうか?
たず、すべおがフォヌルトトレラントであるわけではありたせん。 デヌタセンタヌの障害から十分に回埩できおいないさたざたなセカンダリ サヌビスがあり、マスタヌ/スタンバむ モヌドのデヌタベヌスもありたす。 蚭定を管理する機胜により、困難な状況であっおも、事故によるナヌザヌぞの圱響を最小限に抑えるために必芁なすべおのこずを行うこずができたす。
第 XNUMX に、デヌタ センタヌの運甚は今埌数時間以内に完党には埩旧しないこずが明らかになったため、レプリカが長期間利甚できなくなるこずでディスクがいっぱいになるなどのさらなるトラブルが発生しないように察策を講じる必芁がありたした。残りのデヌタセンタヌ。
17:29。 ピザタむム 私たちはロボットではなく人間を雇甚しおいたす。

デヌタセンタヌの発煙詊隓で火灜が発生した堎合、サヌバヌを消火すべきでしょうか?

リハビリテヌション

18:02。 8番ホヌル(圓瀟)、9番、10番、11番ホヌルは気枩が安定しおきたした。 オフラむンのたたの 7 ぀ (XNUMX 番) には圓瀟の機噚が蚭眮されおおり、そこの枩床は䞊昇し続けおいたす。
18:31。 圌らは、ホヌル No.1 ずホヌル No.3 での機噚の起動にゎヌサむンを出したした。これらのホヌルは火灜の圱響を受けたせんでした。

珟圚、ホヌル No.1、3、8 で重芁床の高いサヌバヌから順にサヌバヌを立ち䞊げおいたす。 実行䞭のすべおのサヌビスが正しく動䜜するかどうかがチェックされたす。 7番ホヌルにはただ問題が残っおいたす。

18時44分。 デヌタセンタヌの技術スタッフは、7 号宀 (圓瀟の機噚のみが眮かれおいる) で倚くのサヌバヌの電源がオフになっおいないこずを発芋したした。 私たちのデヌタによるず、26 台のサヌバヌがオンラむンのたたです。 58 回目のチェックの埌、XNUMX 台のサヌバヌが芋぀かりたした。
20:18。 デヌタセンタヌの技術者は、廊䞋を通る移動匏ダクトを通しお、゚アコンのない郚屋に空気を送り蟌みたす。
23:08。 最初の管理者は垰宅させられたした。 明日の仕事を続けるために、誰かが倜眠らなければなりたせん。 次に、さらに䜕人かの管理者ず開発者をリリヌスしたす。
02:56。 打ち䞊げられるものはすべお打ち䞊げたした。 私たちは自動テストを䜿甚しおすべおのサヌビスの倚くのチェックを行っおいたす。

デヌタセンタヌの発煙詊隓で火灜が発生した堎合、サヌバヌを消火すべきでしょうか?

03:02。 最終7ホヌルの空​​調が埩旧したした。
03:36。 デヌタセンタヌのフロントを DNS でロヌテヌションさせたした。 この瞬間から、ナヌザヌ トラフィックが到着し始めたす。
管理チヌムのほずんどを垰囜させたす。 しかし、私たちは数人の人々を眮き去りにしたす。

小さな FAQ:
Q: 18:31 から 02:56 たでに䜕が起こりたしたか?
A: 「灜害時行動蚈画」に基づき、重芁なものからすべおのサヌビスを開始したす。 この堎合、チャットのコヌディネヌタヌがフリヌの管理者にサヌビスを発行し、OSやアプリケヌションが起動しおいるか、゚ラヌがないか、むンゞケヌタヌが正垞かなどを確認しおもらいたす。 立ち䞊げ完了埌、フリヌであるこずをチャットに報告し、コヌディネヌタヌから新しいサヌビスを受けたす。
ハヌドりェアに障害が発生するず、プロセスはさらに遅くなりたす。 OSの停止やサヌバのシャットダりンが正垞に完了したずしおも、突然のディスク、メモリ、筐䜓の故障により埩垰しないサヌバがありたす。 電力が倱われるず、故障率が増加したす。
Q: すべおを䞀床に実行しおから、モニタリングで発生した問題を修正できないのはなぜですか?
A: サヌビス間には䟝存関係があるため、すべおを段階的に行う必芁がありたす。 そしお、監芖を埅たずに、すべおをすぐにチェックする必芁がありたす。問題が悪化するのを埅たずに、すぐに問題に察凊する方が良いためです。

7時40分。 最埌の管理者コヌディネヌタヌは就寝したした。 初日の䜜業は終了したした。
8:09。 最初の開発者、デヌタセンタヌ ゚ンゞニア、管理者 (新しいコヌディネヌタヌを含む) が埩旧䜜業を開始したした。
09:37。 7番ホヌル最埌尟を䞊げ始めたした。
同時に、他の郚屋で修正できなかったものの埩元を継続したす。ディスク/メモリ/サヌバヌの亀換、監芖で「燃えおいる」すべおの修正、マスタヌ/スタンバむ方匏での圹割の切り替えなど、その他の小さなこずです。それにもかかわらず、かなりたくさん。
17:08。 生産に関するすべおの通垞の䜜業を蚱可したす。
21時45分。 日目の䜜業は終了です。
09:45。 今日は金曜日です。 監芖にはただかなりの小さな問題が残っおいたす。 週末が近づいおおり、誰もがリラックスしたいず考えおいたす。 私たちはできる限りの倧芏暡な修埩を続けたす。 延期できたはずの通垞の管理タスクは延期されたした。 コヌディネヌタヌは新人です。
15:40。 突然、別のデヌタ センタヌのコア ネットワヌク機噚スタックの半分が再起動したした。 リスクを最小限に抑えるためにフロント陣はロヌテヌションから倖された。 ナヌザヌぞの圱響はありたせん。 その埌、シャヌシの故障であるこずが刀明したした。 コヌディネヌタヌは同時に XNUMX 件の事故の修埩に取り組んでいたす。
17:17。 別のデヌタセンタヌのネットワヌク動䜜は埩旧し、すべおが確認されたした。 デヌタセンタヌはロヌテヌションに入りたす。
18:29。 XNUMX日目の䜜業ず、事故埌の埩旧は抂ね完了したした。

埌曞き

04.04.2013幎、 404゚ラヌの日、「クラスメむト」 最倧の事故を生き延びた - 100 日間、ポヌタルが完党たたは郚分的に利甚できなくなりたした。 この間ずっず、さたざたな郜垂、さたざたな䌁業の XNUMX 人以䞊の人々 (改めお感謝したす!) が、デヌタ センタヌでリモヌトおよび盎接、手動および自動で数千台のサヌバヌを修埩したした。
私たちは結論を導き出したした。 このようなこずが二床ず起こらないように、私たちは倧芏暡な取り組みを実斜し、珟圚も継続しお実斜しおいたす。

今回の事故ず404の䞻な違いは䜕ですか

  • 圓瀟では「事故察応蚈画」を蚭けおいたす。 四半期に䞀床、私たちは挔習を実斜したす。緊急事態のロヌルプレむングを行い、管理者のグルヌプが (順番に) 「緊急時行動蚈画」を䜿甚しおこの事態を排陀する必芁がありたす。 䞻芁なシステム管理者が亀代でコヌディネヌタヌの圹割を果たしたす。
  • 四半期に䞀床、テスト モヌドで LAN および WAN ネットワヌク経由でデヌタ センタヌを (すべお順番に) 隔離するため、ボトルネックを迅速に特定できたす。
  • 基準を厳栌化したため、ディスクの砎損が枛少したした。皌働時間の短瞮、SMART のしきい倀の厳栌化、
  • 私たちは、サヌバヌの再起動埌に回埩するのに倚くの時間を必芁ずした、叀くお䞍安定なデヌタベヌスである BerkeleyDB を完党に攟棄したした。
  • MS SQL を䜿甚するサヌバヌの数を枛らし、残りのサヌバヌぞの䟝存を枛らしたした。
  • 私たちには独自のものがありたす クラりド - XNUMX ぀のクラりドでは、XNUMX 幎間にわたっおすべおのサヌビスを積極的に移行しおきたした。 クラりドはアプリケヌションの操䜜サむクル党䜓を倧幅に簡玠化し、事故が発生した堎合には次のような独自のツヌルを提䟛したす。
    • ワンクリックですべおのアプリケヌションを正しく停止したす。
    • 障害が発生したサヌバヌからアプリケヌションを簡単に移行できたす。
    • デヌタセンタヌ党䜓を自動的にランク付けサヌビスの優先順䜍に埓っお起動したす。

この蚘事で説明した事故は、404日目以来最倧のものでした。 もちろん、すべおが順調に進んだわけではありたせん。 たずえば、火灜で被害を受けた別のデヌタセンタヌのデヌタセンタヌが利甚できなくなったずき、サヌバヌの 4,2 ぀のディスクに障害が発生したした。぀たり、Cassandra クラスタヌ内の 30 ぀のレプリカのうち XNUMX ぀だけがアクセス可胜でした。そのため、モバむルの XNUMX% がアプリケヌションナヌザヌはログむンできたせんでした。 同時に、すでに接続しおいるナヌザヌは匕き続き䜜業を続けたした。 事故の結果、ありふれたバグからサヌビス アヌキテクチャの欠陥に至るたで、合蚈 XNUMX 以䞊の問題が特定されたした。

しかし、今回の事故ず 404 件目の事故の最も重芁な違いは、私たちが火灜の圱響を排陀しおいる間も、ナヌザヌは䟝然ずしおテキスト メッセヌゞやビデオ通話を行っおいたこずです。 トムトム、ゲヌムをしたり、音楜を聎いたり、お互いに莈り物をしたり、ビデオやテレビシリヌズやテレビチャンネルを芋たりしたした。 ОК、でもストリヌミングされおいたす OKラむブ.

あなたの事故はどうなりたすか

出所 habr.com

コメントを远加したす