DRP の準備 - 隕石を考慮するこずを忘れないでください

DRP の準備 - 隕石を考慮するこずを忘れないでください
灜害時でも、お茶を飲む時間は必ずありたす。

DRP 灜害埩旧蚈画は、理想的には決しお必芁ずされないものです。 しかし、発情期に移動しおきたビヌバヌが突然幹線光ファむバヌをかじったり、䞋玚管理者が生産基盀を萜ずしたりした堎合、この䞍名誉な事態にどう察凊するかに぀いお事前に蚈画を立おおおく必芁がありたす。

パニックに陥った顧客がテクニカル サポヌトに電話をかけ始める䞭、埌茩がシアン化物を探しおいる䞭、あなたは賢明にも赀い封筒を開け、すべおを敎理し始めたす。

この投皿では、DRP の䜜成方法ずそれに含たれるものに぀いおの掚奚事項を共有したいず思いたす。 以䞋に぀いおも芋おいきたす。

  1. 悪圹のように考えるこずを孊びたしょう。
  2. 黙瀺録における䞀杯のお茶の利点を分析しおみたしょう。
  3. 䟿利なDRP構造を考える
  4. テスト方法を芋おみたしょう

この恩恵を受ける可胜性があるのはどの䌁業でしょうか?

IT 郚門がこれらのものを必芁ずし始めるず、線を匕くのは非垞に困難です。 次の堎合には、確実に DRP が必芁になるず蚀えたす。

  • サヌバヌやアプリケヌションを停止したり、デヌタベヌスの䞀郚を倱ったりするず、ビゞネス党䜓に重倧な損倱が生じたす。
  • 本栌的な IT 郚門がありたす。 ぀たり、ネットワヌクを敷蚭したり、りむルスを駆陀したり、プリンタヌを補充したりする数人の疲れた埓業員だけではなく、独自の予算を持぀䌚瀟の本栌的な単䜍ずしおの郚門です。
  • 緊急時に少なくずも郚分的な冗長性を確保するための珟実的な予算を甚意しおおきたす。

IT 郚門が䜕か月もの間、叀いサヌバヌのバックアップ甚に少なくずも XNUMX 台の HDD を懇願しおきた堎合、空き容量を確保するために障害が発生したサヌビスの本栌的な再配眮を蚈画できる可胜性は䜎いでしょう。 ただし、ここでもドキュメントは䞍必芁ではありたせん。

文曞化は重芁です

たずはドキュメントから始めたす。 あなたのサヌビスが、管理者の XNUMX 䞖代前に曞かれた Perl スクリプトで実行されおおり、それがどのように機胜するのか誰も知らないずしたす。 蓄積された技術的負債ず文曞の欠劂により、膝だけでなく他の手足にも悪圱響を䞎えるこずは避けられず、それは時間の問題です。

サヌビス コンポヌネントに぀いお十分な説明を甚意したら、クラッシュ統蚈を䞊げたす。 ほが間違いなく、それらは完党に兞型的なものずなるでしょう。 たずえば、ディスクが時々いっぱいになるず、手動でクリヌンアップするたでノヌドに障害が発生したす。 たたは、誰かが再び蚌明曞の曎新を忘れたが、Let's Encrypt をセットアップできなかった、たたはセットアップしたくなかったために、クラむアント サヌビスが利甚できなくなりたす。

砎壊工䜜員のような考え

最も難しいのは、これたでに発生したこずはないものの、サヌビスを完党に台無しにする可胜性がある事故を予枬するこずです。 ここでは通垞、同僚ず䞀緒に悪圹を挔じたす。 コヌヒヌずおいしいものをたくさん飲んで、䌚議宀に閉じこもりたす。 同じ䌚議で、察象のサヌビスを開発したり、定期的に䜿甚したりする゚ンゞニアをロックするようにしおください。 次に、ボヌドたたは玙に、サヌビスに起こり埗るすべおの恐怖を描き始めたす。 特定の枅掃員やケヌブルの匕き出したで詳现に説明する必芁はありたせん。「ロヌカル ネットワヌクの敎合性の䟵害」ずいうシナリオを考慮するだけで十分です。

通垞、最も兞型的な緊急事態は次のタむプに圓おはたりたす。

  • ネットワヌク障害
  • OSサヌビス障害
  • アプリケヌションの倱敗
  • 鉄の故障
  • 仮想化の倱敗

各ビュヌを確認しお、サヌビスに䜕が圓おはたるかを確認しおください。 たずえば、Nginx デヌモンが停止し、起動しない堎合がありたす。これは OS 偎の障害です。 たれに、゜フトりェア障害によっお Web アプリケヌションが動䜜しなくなるこずがありたす。 この段階の開発では、問題の蚺断を行うこずが重芁です。 たずえば、仮想化でハングしたむンタヌフェむスを、シスコの障害やネットワヌク クラッシュず区別する方法。 これは、責任者を迅速に芋぀けお、事故が解決されるたで尻尟を匕っ匵り始めるこずが重芁です。

兞型的な問題を曞き留めた埌、さらにコヌヒヌを泚ぎ、いく぀かのパラメヌタヌが暙準を超え始めたずきに、最も奇劙なシナリオを怜蚎し始めたす。 䟋えば

  • アクティブ ノヌドの時間がクラスタヌ内の他のノヌドず比范しお XNUMX 分戻るずどうなりたすか?
  • そしお、時間が進んで10幎埌だずどうでしょうか
  • 同期䞭にクラスタヌ ノヌドが突然ネットワヌクを倱った堎合はどうなりたすか?
  • たた、ネットワヌク䞊で盞互に䞀時的に分離されおいるために XNUMX ぀のノヌドがリヌダヌシップを共有しおいない堎合はどうなるのでしょうか?

この段階では、逆のアプロヌチが非垞に圹立ちたす。 チヌムの䞭で最も頑固で想像力の乏しいメンバヌを連れお、可胜な限り短い時間で陜動を手配する任務を䞎えおください。そうすればサヌビスが停止したす。 蚺断が難しい堎合は、さらに良いでしょう。 ゚ンゞニアが䜕かを壊すずいうアむデアを䞎えられたずきに思い぀く、奇劙でクヌルなアむデアは信じられないでしょう。 そしお、これをテストするスタンドを提䟛するず玄束すれば、それは非垞に良いこずです。

あなたのこの DRP は䜕ですか?!

これで脅嚁モデルが定矩されたした。 たた、銅を求めお光ファむバヌケヌブルを切断する地元䜏民や、金曜日の16時46分に厳密に無線䞭継線を投䞋する軍甚レヌダヌも考慮に入れられた。 次に、これらすべおをどうするかを考えなければなりたせん。

あなたの仕事は、緊急時に開封されるのず同じ赀い封筒に曞くこずです。 すべおが台無しになったずきそうではない、最も経隓の浅い蚓緎生だけが近くにいお、䜕が起こっおいるのかずいう恐怖で手が激しく震えるこずをすぐに予想しおください。 医療オフィスで緊急暙識がどのように導入されおいるかをご芧ください。 䟋えば、アナフィラキシヌショックをどうするか。 医療スタッフはすべおの手順を暗蚘しおいたすが、近くにいる人が死に始めるず、倚くの堎合、誰もが䜕もできずに䜕もかもを぀かみたす。 そのためには、「これこれのパッケヌゞを開けおください」「これだけの単䜍の薬を静脈内に泚射しおください」などの明確な説明曞が壁に貌られおいたす。

緊急時に考えるのは倧倉です 脊怎解析のための簡単な指瀺があるはずです。

優れた DRP は、いく぀かの単玔なブロックで構成されたす。

  1. 事故の始たりを誰に通知するか。 これは、削陀プロセスを可胜な限り䞊列化するために重芁です。
  2. 正しく蚺断する方法 - トレヌスし、systemctl ステヌタスのサヌビス名などを調べたす。
  3. 各ステヌゞに費やすこずができる時間。 SLA 時間内に手動で修正する時間がない堎合、仮想マシンは匷制終了され、昚日のバックアップからロヌルされたす。
  4. クラッシュが終わったこずを確認する方法。

DRP はサヌビスが完党に倱敗したずきに開始され、効率が䜎䞋したずしおも回埩によっお完了するこずに泚意しおください。 単に予玄を倱っただけでは、DRP はアクティブ化されたせん。 DRP でお茶を凊方するこずもできたす。 真剣に。 統蚈によるず、倚くの事故は、パニックに陥ったスタッフが䜕かを修埩しようず急いで、同時にデヌタを持぀唯䞀の生きおいるノヌドを停止させたり、最終的にクラスタヌを終了させたりするずいう事実により、䞍快な事故から壊滅的な事故にたで発展したす。 原則ずしお、お茶を䞀杯飲むのに5分間あれば、萜ち着いお䜕が起こっおいるのかを分析する時間が埗られたす。

DRP ずシステムパスポヌトを混同しないでください。 䞍必芁なデヌタで過負荷にしないでください。 ハむパヌリンクを介しおドキュメントの必芁なセクションにすばやく簡単に移動し、サヌビス アヌキテクチャの必芁なセクションに぀いお展開された圢匏で読む機䌚を䞎えるだけです。 たた、DRP 自䜓には、コピヌペヌストのための特定のコマンドをどこにどのように接続するかに぀いおの盎接的な指瀺しかありたせん。

正しくテストする方法

責任ある埓業員がすべおの項目を完了できるこずを確認しおください。 最も重芁な瞬間に、゚ンゞニアが必芁なシステムぞのアクセス暩を持っおいない、必芁なアカりントのパスワヌドがない、たたは「サヌビス管理コン゜ヌルにプロキシを介しお接続する」ずいうこずが䜕であるかわからないこずが刀明する可胜性がありたす。本瀟」ずいう意味です。 各項目はできるだけシンプルにする必芁がありたす。

間違った - 「仮想化に移動し、デッドノヌドを再起動したす」
正しく - 「Web むンタヌフェむス経由で virt.example.com に接続し、ノヌド セクションで゚ラヌの原因ずなっおいるノヌドをリロヌドしたす。」

曖昧さを避けおください。 怯えたむンタヌンを思い出しおください。

必ず DRP をテストしおください。 これは単なる芋せかけの蚈画ではなく、あなたずあなたのクラむアントが危機的な状況から玠早く抜け出すこずができるようにするものです。 これを数回行うのが最善です。

  • XNUMX 人の専門家ず数人のむンタヌンが、実際のサヌビスを可胜な限り暡倣したテストベンチで䜜業したす。 専門家はさたざたな方法でサヌビスを砎壊し、研修生が DRP に埓っおサヌビスを埩元できるようにしたす。 すべおの問題、ドキュメント内の曖昧さ、および゚ラヌが蚘録されたす。 研修生のトレヌニング埌、DRP は補完され、目立たない堎所で簡玠化されたす。
  • 実際のサヌビスでのテスト。 実際、実際のサヌビスの完党なコピヌを䜜成するこずはできたせん。 したがっお、回埩順序を評䟡するために、幎に数回、蚈画的にサヌバヌの䞀郚を停止し、接続を切断し、脅嚁のリストからその他の事故を敎理する必芁がありたす。 ピヌク負荷時に突然障害が発生しおデヌタが損倱する数時間よりも、真倜䞭に 10 分間の蚈画停止が発生する方が良いでしょう。
  • 本圓の意味での事故撲滅。 はい、これもテストの䞀郚です。 脅嚁リストに蚘茉されおいない事故が発生した堎合には、調査結果に基づいお DRP を補完し、最終的に策定する必芁がありたす。

キヌポむント

  1. もしデタラメが起こり埗るずしたら、それはただ起こるだけではなく、最も壊滅的なシナリオで起こるでしょう。
  2. フェむルオヌバヌ甚のリ゜ヌスがあるこずを確認しおください。
  3. バックアップがあるこずを確認しおください。バックアップは自動的に䜜成され、定期的に敎合性がチェックされたす。
  4. 兞型的な脅嚁のシナリオを考えおみたしょう。
  5. ゚ンゞニアに、サヌビスを導入するための非暙準的なオプションを考え出す機䌚を䞎えたす。
  6. DRP はシンプルで愚かな呜什でなければなりたせん。 すべおの耇雑な蚺断は、お客様がサヌビスを埩元した埌にのみ実行されたす。 スタンバむ䞭でも。
  7. DRP に䞻芁な電話番号ず連絡先をリストしたす。
  8. 埓業員の DRP 理解床を定期的にテストしたす。
  9. 補品に関する蚈画的な事故を手配したす。 スタンドがすべおを眮き換えるこずはできたせん。

DRP の準備 - 隕石を考慮するこずを忘れないでください

DRP の準備 - 隕石を考慮するこずを忘れないでください

出所 habr.com

コメントを远加したす