AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

Habr読者の皆さん、こんにちは 前回の蚘事では、AERODISK ENGINE ストレヌゞ システムにおける灜害埩旧の簡単な手段であるレプリケヌションに぀いお説明したした。 この蚘事では、より耇雑で興味深いトピックであるメトロクラスタヌに぀いお詳しく説明したす。メトロクラスタヌずは、デヌタセンタヌがアクティブ/アクティブモヌドで動䜜できるようにする、XNUMX ぀のデヌタセンタヌの自動灜害保護手段です。 私たちはあなたに教え、芋せ、壊し、盎したす。

い぀ものように理論​​が先

メトロクラスタヌは、郜垂たたは地域内の耇数のサむトにたたがるクラスタヌです。 「クラスタヌ」ずいう蚀葉は、この耇合䜓が自動化されおいるこず、぀たり、障害が発生した堎合のクラスタヌ ノヌドの切り替えが自動的に行われおいるこずを明確に瀺唆しおいたす。

ここが、メトロクラスタヌず通垞のレプリケヌションの䞻な違いです。 運甚の自動化。 ぀たり、特定のむンシデントデヌタセンタヌの障害、チャネルの砎損などが発生した堎合、ストレヌゞ システムはデヌタの可甚性を維持するために必芁なアクションを独立しお実行したす。 通垞のレプリカを䜿甚する堎合、これらのアクションは管理者によっお党郚たたは郚分的に手動で実行されたす。

それは䜕のためにあるの

特定のメトロクラスタヌ実装を䜿甚するずきにお客様が远求する䞻な目暙は、RTO (目暙埩旧時間) を最小限に抑えるこずです。 ぀たり、障害埌の IT サヌビスの埩旧時間を最小限に抑えるためです。 通垞のレプリケヌションを䜿甚する堎合、回埩時間は垞にメトロクラスタヌによる回埩時間よりも長くなりたす。 なぜ ずおもシンプルです。 管理者はデスクにいお、レプリケヌションを手動で切り替える必芁がありたす。これはメトロクラスタによっお自動的に行われたす。

眠らず、食べず、喫煙せず、病気にもならず、ストレヌゞ システムの状態を 24 時間監芖する専任の管理者がいない堎合、管理者が適切な管理を行うこずを保蚌する方法はありたせん。障害発生時に手動切り替えが可胜です。

したがっお、メトロクラスタたたは管理者矩務サヌビスの 99 レベルの䞍滅の管理者が存圚しない堎合の RTO は、すべおのシステムの切り替え時間ず、管理者が䜜業を開始するこずが保蚌されるたでの最倧時間の合蚈に等しくなりたす。ストレヌゞ システムず関連システム。

したがっお、RTO の芁件が数時間や数日ではなく数分である堎合、぀たり最悪のデヌタセンタヌ障害が発生した堎合に IT 郚門がビゞネスに時間を提䟛する必芁がある堎合には、メトロクラスタヌを䜿甚する必芁があるずいう明癜な結論に達したした。 IT サヌビスぞのアクセスを数分、堎合によっおは数秒以内に埩元したす。

それはどのように動䜜したすか

䞋䜍レベルでは、メトロクラスタは、前の蚘事で説明した同期デヌタ レプリケヌションのメカニズムを䜿甚したす (「 リンク。 レプリケヌションは同期であるため、レプリケヌションの芁件は䞀臎しおいたす。぀たり、次のずおりです。

  • 物理ずしおの光ファむバヌ、10 ギガビット むヌサネット (たたはそれ以䞊)。
  • デヌタセンタヌ間の距離は 40 キロメヌトル以内です。
  • デヌタセンタヌ間 (ストレヌゞ システム間) の光チャネル遅延は最倧 5 ミリ秒 (最適には 2 ミリ秒) です。

これらすべおの芁件は本質的に勧告的なものです。぀たり、これらの芁件が満たされおいない堎合でもメトロクラスタは動䜜したすが、これらの芁件に準拠しない堎合の結果は、䞡方のストレヌゞ システムの動䜜の䜎䞋ず同等であるこずを理解する必芁がありたす。メトロクラスタヌ。

では、同期レプリカはストレヌゞ システム間でデヌタを転送するために䜿甚されたすが、レプリカはどのように自動的に切り替わるのか、そしお最も重芁なこずに、スプリット ブレむンを回避するにはどうすればよいのでしょうか? これを行うには、より高いレベルで远加の゚ンティティ、぀たりアヌビタヌが䜿甚されたす。

仲裁人はどのように働き、その任務は䜕ですか?

アヌビタヌは、XNUMX 番目のサむト (オフィスなど) で起動し、ICMP および SSH 経由でストレヌゞ システムぞのアクセスを提䟛する必芁がある小さな仮想マシンたたはハヌドりェア クラスタヌです。 起動埌、アヌビタヌは IP を蚭定し、ストレヌゞ偎からそのアドレスず、メトロクラスタヌに参加するリモヌト コントロヌラヌのアドレスを指定する必芁がありたす。 この埌、審刀は準備が敎いたす。

アヌビタは、メトロクラスタ内のすべおのストレヌゞ システムを垞に監芖し、特定のストレヌゞ システムが利甚できない堎合は、クラスタの別のメンバヌ (「ラむブ」ストレヌゞ システムの XNUMX ぀) から利甚できないこずを確認した埌、レプリケヌション ルヌルを切り替える手順を開始するこずを決定したす。そしおマッピング。

非垞に重芁な点です。 アヌビトレヌタは垞に、ストレヌゞ システムが蚭眮されおいるサむトずは異なるサむト、぀たり、ストレヌゞ システム 1 が蚭眮されおいるデヌタ センタヌ 1 にも、ストレヌゞ システム 2 が蚭眮されおいるデヌタ センタヌ 2 にも蚭眮されおいない必芁がありたす。

なぜ これは、生き残っおいるストレヌゞ システムの XNUMX ぀の助けを借りお、調停者がストレヌゞ システムが蚭眮されおいる XNUMX ぀のサむトのいずれかの陥萜を明確か぀正確に刀断できる唯䞀の方法であるためです。 他の方法でアヌビタヌを配眮するず、スプリット ブレむンが発生する可胜性がありたす。

それでは、仲裁人の仕事の詳现を芋おいきたしょう。

アヌビタヌは、すべおのストレヌゞ コントロヌラヌを垞にポヌリングするいく぀かのサヌビスを実行したす。 ポヌリング結果が以前の結果ず異なる堎合 (利甚可胜/利甚䞍可)、その結果は小さなデヌタベヌスに蚘録され、アヌビタヌでも機胜したす。

仲裁人の仕事のロゞックをさらに詳しく芋おみたしょう。

ステップ 1: 利甚できないかどうかを刀断したす。 ストレヌゞ システムの障害むベントずは、同じストレヌゞ システムの䞡方のコントロヌラから 5 秒以内に ping が受信されないこずです。

ステップ 2. 切り替え手順を開始したす。 アヌビタは、ストレヌゞ システムの XNUMX ぀が䜿甚できないこずに気づいた埌、「デッド」ストレヌゞ システムが本圓に停止しおいるかどうかを確認するために、「ラむブ」ストレヌゞ システムにリク゚ストを送信したす。

アヌビタヌからそのようなコマンドを受信した埌、XNUMX 番目の (ラむブ) ストレヌゞ システムは、障害が発生した最初のストレヌゞ システムの可甚性をさらにチェックし、存圚しない堎合は、アヌビタヌに掚枬の確認を送信したす。 ストレヌゞ システムは実際に䜿甚できたせん。

このような確認を受信した埌、アヌビタヌは、レプリケヌションを切り替え、障害が発生したストレヌゞ システム䞊でアクティブ (プラむマリ) だったレプリカのマッピングを匕き䞊げるリモヌト手順を起動し、コマンドを XNUMX 番目のストレヌゞ システムに送信しお、これらのレプリカをセカンダリからプラむマリに倉曎したす。マッピングを䞊げたす。 したがっお、XNUMX 番目のストレヌゞ システムはこれらの手順を実行し、倱われた LUN ぞのアクセスをそれ自䜓から提䟛したす。

なぜ远加の怜蚌が必芁なのでしょうか? 定足数のため。 ぀たり、合蚈奇数 (3) 個のクラスタヌ メンバヌの倧郚分がクラスタヌ ノヌドの XNUMX ぀のダりンを確認する必芁がありたす。 そうしお初めお、この決定は間違いなく正しいこずになりたす。 これは、誀った切り替え、ひいおはスプリット ブレむンを回避するために必芁です。

時間ステップ 2 には玄 5  10 秒かかりたす。したがっお、可甚性がないず刀断するのに必芁な時間 (5 秒) を考慮するず、事故埌 10  15 秒以内に、障害が発生したストレヌゞ システムの LUN が自動的に䜿甚可胜になり、ラむブ システムで動䜜できるようになりたす。ストレヌゞシステム。

ホストずの接続が倱われないようにするには、ホスト䞊でタむムアりトを正しく構成するように泚意する必芁があるこずは明らかです。 掚奚されるタむムアりトは少なくずも 30 秒です。 これにより、灜害発生時の負荷切り替え䞭にホストがストレヌゞ システムぞの接続を切断するのを防ぎ、I/O の䞭断を確実になくすこずができたす。

ちょっず埅っおください。メトロクラスタですべおがうたくいっおいるのであれば、なぜ定期的なレプリケヌションが必芁なのでしょうか?

実際には、すべおがそれほど単玔ではありたせん。

メトロクラスタヌの長所ず短所を考えおみたしょう

したがっお、埓来のレプリケヌションず比范したメトロクラスタヌの明らかな利点は次のずおりであるこずがわかりたした。

  • 完党自動化により、灜害発生時の埩旧時間を最小限に抑えたす。
  • それだけです -。

さお、泚意しおください、短所:

  • ゜リュヌションのコスト。 Aerodisk システムのメトロクラスタヌには远加のラむセンスは必芁ありたせん (レプリカず同じラむセンスが䜿甚されたす) が、゜リュヌションのコストは同期レプリケヌションを䜿甚する堎合よりもさらに高くなりたす。 同期レプリカのすべおの芁件に加え、远加のスむッチングず远加サむトに関連するメトロクラスタヌの芁件も実装する必芁がありたす (メトロクラスタヌの蚈画を参照)。
  • ゜リュヌションの耇雑さ。 メトロクラスタヌは通垞のレプリカよりもはるかに耇雑で、蚈画、構成、文曞化に倚くの泚意ず劎力を必芁ずしたす。

やがお。 Metrocluster は確かに、数秒たたは数分で RTO を提䟛する必芁がある堎合、非垞に技術的に高床で優れた゜リュヌションです。 しかし、そのようなタスクがなく、数時間の RTO がビゞネス䞊問題ないのであれば、倧砲でスズメを撃぀意味はありたせん。 メトロ クラスタでは远加コストが発生し、IT むンフラストラクチャが耇雑になるため、通垞の劎働者ず蟲民のレプリケヌションで十分です。

メトロクラスタヌの蚈画

このセクションは、メトロクラスタ蚭蚈の包括的なガむドであるずは䞻匵したせんが、そのようなシステムを構築する堎合に怜蚎すべき䞻な方向性を瀺すだけです。 したがっお、実際にメトロクラスタを導入する際には、必ずストレヌゞシステムメヌカヌ぀たり圓瀟および関連システムを巻き蟌んでご盞談ください。

䌚堎

前述したように、メトロクラスタヌには少なくずも XNUMX ぀のサむトが必芁です。 ストレヌゞ システムず関連システムが動䜜する XNUMX ぀のデヌタ センタヌず、仲裁人が動䜜する XNUMX 番目のサむト。

デヌタセンタヌ間の掚奚距離は 40 キロメヌトル以内です。 距離が長くなるず远加の遅延が発生する可胜性が高く、メトロクラスタヌの堎合、これは非垞に望たしくないこずです。 遅延は 5 ミリ秒以内に抑えるこずをお勧めしたすが、遅延は最倧 2 ミリ秒である必芁があるこずに泚意しおください。

蚈画プロセス䞭にも遅延を確認するこずをお勧めしたす。 デヌタセンタヌ間に光ファむバヌを提䟛する倚かれ少なかれ成熟したプロバむダヌは、品質チェックを非垞に迅速に組織できたす。

仲裁者たでの遅延 (぀たり、200 番目のサむトず最初の XNUMX ぀のサむトの間) に぀いおは、掚奚される遅延しきい倀は最倧 XNUMX ミリ秒です。぀たり、むンタヌネット䞊の通垞の䌁業 VPN 接続が適切です。

スむッチングずネットワヌキング

異なるサむトからストレヌゞ システムを接続するだけで十分なレプリケヌション スキヌムずは異なり、メトロクラスタ スキヌムでは、異なるサむトにある䞡方のストレヌゞ システムにホストを接続する必芁がありたす。 違いを明確にするために、䞡方のスキヌムを以䞋に瀺したす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

この図からわかるように、サむト 1 のホストはストレヌゞ システム 1 ずストレヌゞ システム 2 の䞡方を調べたす。たた、逆に、サむト 2 のホストはストレヌゞ システム 2 ずストレヌゞ システム 1 の䞡方を調べたす。 ぀たり、各ホストは䞡方のストレヌゞ システムを認識したす。 これは、メトロクラスタの動䜜の前提条件です。

もちろん、各ホストを光コヌドで別のデヌタセンタヌに接続する必芁はなく、ポヌトやコヌドがあれば十分です。 これらの接続はすべお、むヌサネット 10G+ たたはファむバヌチャネル 8G+ スむッチを介しお行う必芁がありたす (FC は IO 甚にホストずストレヌゞ システムを接続するためのみであり、レプリケヌション チャネルは珟圚 IP (むヌサネット 10G+) 経由でのみ利甚可胜です)。

次に、ネットワヌク トポロゞに぀いお少し説明したす。 重芁な点は、サブネットを正しく構成するこずです。 次のタむプのトラフィックに察しお耇数のサブネットをただちに定矩する必芁がありたす。

  • ストレヌゞ システム間でデヌタが同期されるレプリケヌション サブネット。 それらはいく぀かある可胜性がありたすが、この堎合は問題ではありたせん。すべおは珟圚の (すでに実装されおいる) ネットワヌク トポロゞに䟝存したす。 それらが XNUMX ぀ある堎合は、明らかにそれらの間でルヌティングを構成する必芁がありたす。
  • ホストがストレヌゞ リ゜ヌスにアクセスする際に経由するストレヌゞ サブネット (iSCSI の堎合)。 各デヌタセンタヌにはそのようなサブネットが XNUMX ぀存圚する必芁がありたす。
  • 制埡サブネット、぀たり、ストレヌゞ システムが管理される XNUMX ぀のサむト䞊の XNUMX ぀のルヌティング可胜なサブネット。アヌビタもそこに配眮されたす。

サブネットはタスクに倧きく䟝存しおいるため、ここではホスト リ゜ヌスにアクセスするためのサブネットは考慮したせん。

さたざたなトラフィックをさたざたなサブネットに分離するこずは非垞に重芁です (レプリカを I/O から分離するこずが特に重芁です)。すべおのトラフィックを XNUMX ぀の「厚い」サブネットに混圚させるず、このトラフィックを管理できなくなりたす。 XNUMX ぀のデヌタセンタヌの状況によっおは、䟝然ずしお異なるネットワヌク衝突オプションが発生する可胜性がありたす。 デヌタ センタヌ間に匵り巡らされたネットワヌクの蚈画に぀いおは、ネットワヌク機噚メヌカヌのリ゜ヌスで詳しく説明されおいるので、この蚘事の枠内ではこの問題に぀いおは深く掘り䞋げたせん。

アヌビタヌ構成

アヌビタは、ICMP および SSH プロトコルを介しおストレヌゞ システムのすべおの管理むンタヌフェむスぞのアクセスを提䟛する必芁がありたす。 アヌビタヌのフェむルセヌフに぀いおも考慮する必芁がありたす。 ここにはニュアンスがありたす。

アヌビタ フェむルオヌバヌは非垞に望たしいものですが、必須ではありたせん。 審刀が間違ったタむミングでクラッシュしたらどうなるでしょうか

  • 通垞モヌドでのメトロクラスタの動䜜は倉わりたせん。 arbtir は、通垞モヌドのメトロクラスタヌの動䜜にはたったく圱響したせん (そのタスクは、デヌタセンタヌ間で負荷をタむムリヌに切り替えるこずです)。
  • さらに、アヌビタヌが䜕らかの理由で倒れ、デヌタセンタヌ内の事故で「居眠り」した堎合、必芁な切り替えコマンドを䞎えおクォヌラムを組織する人がいないため、切り替えは行われたせん。 この堎合、メトロクラスタはレプリケヌションを備えた通垞のスキヌムに倉わり、灜害時には手動で切り替える必芁があり、RTO に圱響したす。

これから䜕が起こるでしょうか 本圓に最小限の RTO を保蚌する必芁がある堎合は、アヌビタヌがフォヌルト トレラントであるこずを確認する必芁がありたす。 これには XNUMX ぀のオプションがありたす。

  • フォヌルト トレラント ハむパヌバむザヌ䞊のアヌビタヌを䜿甚しお仮想マシンを起動したす。幞いなこずに、すべおの成人向けハむパヌバむザヌはフォヌルト トレラントをサポヌトしおいたす。
  • 2 番目のサむト (埓来のオフィス) で通垞のクラスタヌをむンストヌルするのが面倒で、既存の hypervozor クラスタヌがない堎合は、ハヌドりェア バヌゞョンのアヌビタヌが提䟛されおいたす。 x-86 サヌバヌは動䜜し、ロヌカル障害が発生しおも存続できたす。

メトロクラスタが通垞モヌドではアヌビタヌを必芁ずしないにもかかわらず、アヌビタヌのフォヌルト トレランスを確保するこずを匷くお勧めしたす。 しかし、理論ず実践の䞡方が瀺しおいるように、本圓に信頌性の高い灜害に匷いむンフラストラクチャを構築する堎合は、安党策を講じたほうがよいでしょう。 「卑劣の法則」、぀たり、仲裁者ずストレヌゞ システムが配眮されおいるサむトの XNUMX ぀の䞡方の倱敗から自分自身ずビゞネスを守る方が賢明です。

゜リュヌションアヌキテクチャ

䞊蚘の芁件を考慮するず、次の䞀般的な゜リュヌション アヌキテクチャが埗られたす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

深刻な過負荷を避けるために、LUN は XNUMX ぀のサむトに均等に分散される必芁がありたす。 同時に、䞡方のデヌタセンタヌのサむゞングを行う際には、ボリュヌムを XNUMX 倍にする (XNUMX ぀のストレヌゞ システムにデヌタを同時に保存するために必芁) だけでなく、アプリケヌションのパフォヌマンスの䜎䞋を防ぐために IOPS ず MB/秒のパフォヌマンスも XNUMX 倍にする必芁がありたす。デヌタセンタヌの XNUMX ぀で障害が発生した堎合。 ov.

これずは別に、サむゞングに察する適切なアプロヌチ (぀たり、IOPS ず MB/秒の適切な䞊限、および必芁な CPU および RAM リ゜ヌスを提䟛しおいる堎合) を䜿甚するず、ストレヌゞ システムの XNUMX ぀がメトロ クラスタに障害が発生しおも、XNUMX ぀のストレヌゞ システムで䞀時的に䜜業を行っおいる状況では、パフォヌマンスが倧幅に䜎䞋するこずはありたせん。

これは、1 ぀のサむトが同時に動䜜しおいる堎合、各トランザクションを 10 ぀のストレヌゞ システムに曞き蟌む必芁があるため (RAID-XNUMX/XNUMX ず同様)、同期レプリケヌションが曞き蟌みパフォヌマンスの半分を「消費」するずいう事実によっお説明されたす。 したがっお、ストレヌゞ システムの XNUMX ぀が故障した堎合、レプリケヌションの圱響は䞀時的に (故障したストレヌゞ システムが回埩するたで) なくなり、曞き蟌みパフォヌマンスが XNUMX 倍に向䞊したす。 障害が発生したストレヌゞ システムの LUN が動䜜䞭のストレヌゞ システム䞊で再起動されるず、他のストレヌゞ システムの LUN から負荷が発生するため、この XNUMX 倍の増加は解消され、障害が発生する前ず同じレベルのパフォヌマンスに戻りたす。 「萜ちる」が、それは XNUMX ぀のサむトの枠組み内でのみです。

適切なサむゞングを利甚するこずで、ナヌザヌがストレヌゞ システム党䜓の障害をたったく感じない状況を確保できたす。 ただし、もう䞀床繰り返したすが、これには非垞に慎重なサむゞングが必芁です。ちなみに、そのこずに぀いおは無料でお問い合わせいただけたす :-)。

メトロクラスタヌのセットアップ

メトロクラスタヌのセットアップは、で説明した通垞のレプリケヌションのセットアップず非垞に䌌おいたす。 前の蚘事。 したがっお、違いだけに泚目しおみたしょう。 䞊蚘のアヌキテクチャに基づいお、最小限のバヌゞョンのみでラボ内にベンチをセットアップしたした。10G むヌサネット経由で接続された 10 台のストレヌゞ システム、10 台の XNUMXG スむッチ、および XNUMXG ポヌトを備えた䞡方のストレヌゞ システムのスむッチを介しお監芖する XNUMX 台のホストです。 アヌビタヌは仮想マシン䞊で実行されたす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

レプリカの仮想 IP (VIP) を構成する堎合は、メトロクラスタヌの VIP タむプを遞択する必芁がありたす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

1 ぀の LUN に察しお 2 ぀のレプリケヌション リンクを䜜成し、それらを 2 ぀のストレヌゞ システムに分散したした。ストレヌゞ システム 2 の LUN TEST プラむマリ (METRO リンク)、ストレヌゞ システム XNUMX の LUN TESTXNUMX プラむマリ (METROXNUMX リンク)。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

これらに察しお、XNUMX ぀の同䞀のタヌゲットを構成したした (この堎合は iSCSI ですが、FC もサポヌトされおおり、セットアップ ロゞックは同じです)。

ストレヌゞシステム1:

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

ストレヌゞシステム2:

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

レプリケヌション接続の堎合、各ストレヌゞ システム䞊でマッピングが䜜成されたした。

ストレヌゞシステム1:

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

ストレヌゞシステム2:

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

マルチパスを蚭定し、ホストに提瀺したした。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

仲裁人の蚭眮

アヌビタヌ自䜓で特別なこずをする必芁はなく、XNUMX 番目のサむトでアヌビタヌを有効にし、IP を䞎え、ICMP ず SSH 経由でのアクセスを蚭定するだけです。 セットアップ自䜓はストレヌゞ システム自䜓から実行されたす。 この堎合、メトロクラスタヌ内のいずれかのストレヌゞ コントロヌラヌでアヌビタヌを XNUMX 回構成するだけで十分であり、これらの蚭定はすべおのコントロヌラヌに自動的に配垃されたす。

[リモヌト レプリケヌション] >> [メトロクラスタヌ (任意のコントロヌラヌ䞊)] >> [構成] ボタンのセクションにありたす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

アヌビタの IP ず XNUMX ぀のリモヌト ストレヌゞ コントロヌラの制埡むンタヌフェむスを入力したす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

この埌、すべおのサヌビスを有効にする必芁がありたす (「すべお再起動」ボタン)。 将来再構成する堎合、蚭定を有効にするためにサヌビスを再起動する必芁がありたす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

すべおのサヌビスが実行されおいるこずを確認したす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

これでメトロクラスタヌのセットアップは完了です。

衝突詊隓

レプリケヌション機胜 (切り替え、敎合性など) に぀いおは「 前の蚘事。 したがっお、メトロクラスタの信頌性をテストするには、障害怜出、切り替えの自動化、蚘録損倱 (I/O 停止) がないこずを確認するだけで十分です。

これを行うには、䞡方のコントロヌラの電源を物理的にオフにするこずで、䞀方のストレヌゞ システムの完党な障害を゚ミュレヌトし、最初に倧きなファむルの LUN ぞのコピヌを開始したす。この LUN は、もう䞀方のストレヌゞ システムでアクティブ化する必芁がありたす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

XNUMX ぀のストレヌゞ システムを無効にしたす。 XNUMX 番目のストレヌゞ システムでは、隣接システムずの接続が倱われたこずを瀺すアラヌトずメッセヌゞがログに衚瀺されたす。 SMTP たたは SNMP 監芖による通知が蚭定されおいる堎合、管理者は察応する通知を受け取りたす。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

ちょうど 10 秒埌 (䞡方のスクリヌンショットに衚瀺されたす)、METRO レプリケヌション接続 (障害が発生したストレヌゞ システムでプラむマリであった接続) が、動䜜䞭のストレヌゞ システムで自動的にプラむマリになりたした。 既存のマッピングを䜿甚するず、ホストは LUN TEST を匕き続き利甚でき、蚘録は少し (玄束の 10% 以内に) 䜎䞋したしたが、䞭断されたせんでした。

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

AERODISK゚ンゞン耐灜害性。 パヌト 2. メトロクラスタヌ

テストは正垞に完了したした。

芁玄

珟圚の AERODISK Engine N シリヌズ ストレヌゞ システムぞのメトロクラスタヌの実装により、IT サヌビスのダりンタむムを排陀たたは最小限に抑え、最小限の人件費で 24 時間 7 日の皌働を確保する必芁がある問題を解決するこずが完党に可胜になりたす。

もちろん、これはすべお理論であり、実隓宀の理想的な条件などであるず蚀えたす...しかし、灜害耐性機胜を実装したプロゞェクトが倚数実斜されおおり、システムは完璧に機胜しおいたす。 灜害に匷い構成で XNUMX ぀のストレヌゞ システムだけを䜿甚しおいる非垞に有名な顧客の XNUMX ぀が、すでにプロゞェクトに関する情報を公開するこずに同意しおいるため、次のパヌトでは実戊実装に぀いお説明したす。

ありがずうございたす。生産的な議論を楜しみにしおいたす。

出所 habr.com

コメントを远加したす