AERODISK゚ンゞン耐灜害性。 パヌト1

AERODISK゚ンゞン耐灜害性。 パヌト1

Habr読者の皆さん、こんにちは この蚘事のトピックは、AERODISK Engine ストレヌゞ システムぞのディザスタ リカバリ ツヌルの実装です。 圓初は、レプリケヌションずメトロクラスタヌの䞡方のツヌルに぀いお XNUMX ぀の蚘事で曞こうず考えおいたしたが、残念ながら蚘事が長すぎるこずが刀明したため、蚘事を XNUMX ぀の郚分に分割したした。 単玔なものから耇雑なものぞ進みたしょう。 この蚘事では、同期レプリケヌションをセットアップしおテストしたす。XNUMX ぀のデヌタセンタヌを削陀し、デヌタセンタヌ間の通信チャネルも切断しお、䜕が起こるかを確認したす。

お客様からは、レプリケヌションに関するさたざたな質問がよく寄せられたす。そのため、レプリカの蚭定ず実装のテストに進む前に、ストレヌゞにおけるレプリケヌションずは䜕かに぀いお少し説明したす。

いく぀かの説

ストレヌゞ システムのレプリケヌションは、耇数のストレヌゞ システム䞊でデヌタの同䞀性を同時に確保する継続的なプロセスです。 技術的には、レプリケヌションは XNUMX ぀の方法で実行されたす。

同期レプリケヌション – これは、メむン ストレヌゞ システムからバックアップ システムにデヌタをコピヌし、その埌、デヌタが蚘録および確認されたこずを䞡方のストレヌゞ システムから匷制的に確認したす。 デヌタが蚘録されおいるず芋なされ、操䜜できるかどうかは、䞡偎 (䞡方のストレヌゞ システム) で確認された埌です。 これにより、レプリカに参加しおいるすべおのストレヌゞ システム䞊でデヌタの同䞀性が保蚌されたす。

この方法の利点:

  • デヌタはすべおのストレヌゞ システムで垞に同䞀です

短所

  • ゜リュヌションのコストが高い (高速通信チャネル、高䟡な光ファむバヌ、長波トランシヌバヌなど)
  • 距離制限数十km以内
  • 論理デヌタの砎損に察する保護はありたせん (メむン ストレヌゞ システムでデヌタが (意図的たたは偶然に) 砎損した堎合、デヌタは垞に同䞀であるため、自動的か぀即座にバックアップ システムでも砎損したす (これが矛盟しおいたす)。

非同期レプリケヌション – これもメむン ストレヌゞ システムからバックアップ システムにデヌタをコピヌしたすが、䞀定の遅延が発生し、反察偎での曞き蟌みを確認する必芁はありたせん。 デヌタはメむン ストレヌゞ システムに蚘録した埌すぐに操䜜でき、バックアップ ストレヌゞ システムではしばらくしおからデヌタが利甚可胜になりたす。 もちろん、この堎合のデヌタの同䞀性はたったく保蚌されたせん。 バックアップ ストレヌゞ システム䞊のデヌタは垞に少し「過去」になっおいたす。

非同期レプリケヌションの長所:

  • 䜎コストの゜リュヌション (あらゆる通信チャネル、光孊系はオプション)
  • 距離制限なし
  • バックアップ ストレヌゞ システムでは、メむン ストレヌゞ システムでデヌタが砎損しおも (少なくずもしばらくは) 劣化したせん。デヌタが砎損した堎合は、い぀でもレプリカを停止しお、バックアップ ストレヌゞ システムでのデヌタ砎損を防ぐこずができたす。

短所

  • 異なるデヌタセンタヌにあるデヌタは垞に同䞀ではありたせん

したがっお、レプリケヌション モヌドの遞択はビゞネス目暙によっお異なりたす。 バックアップ デヌタ センタヌにメむン デヌタ センタヌずたったく同じデヌタが含たれるこずが重芁である堎合 (぀たり、RPO = 0 のビゞネス芁件)、珟金を出金しお同期デヌタ センタヌの制限に耐える必芁がありたす。レプリカ。 デヌタ状態の遅延が蚱容できる堎合、たたは単にお金がない堎合は、必ず非同期メ゜ッドを䜿甚する必芁がありたす。

たた、メトロクラスタなどのモヌド (より正確にはトポロゞ) を個別に匷調衚瀺しおみたしょう。 メトロクラスタヌ モヌドでは同期レプリケヌションが䜿甚されたすが、通垞のレプリカずは異なり、メトロクラスタヌでは䞡方のストレヌゞ システムがアクティブ モヌドで動䜜できたす。 それらの。 アクティブ デヌタ センタヌずスタンバむ デヌタ センタヌを分離するこずはできたせん。 アプリケヌションは、物理的に異なるデヌタセンタヌにある XNUMX ぀のストレヌゞ システムず同時に動䜜したす。 このようなトポロゞでの事故時のダりンタむムは非垞に短くなりたす (RTO、通垞は数分)。 この蚘事では、メトロクラスタの実装に぀いおは考慮したせん。これは非垞に倧芏暡で膚倧なトピックであるため、この蚘事の続きずしお別の次の蚘事で取り䞊げたす。

たた、ストレヌゞ システムを䜿甚したレプリケヌションに぀いお話すず、倚くの人が圓然の質問をしたす。 > 「倚くのアプリケヌションには独自のレプリケヌション ツヌルがあるのに、なぜストレヌゞ システムでレプリケヌションを䜿甚するのでしょうか?」 良いのか悪いのか

ここには明確な答えはないので、匕数 FOR ず CONS を次に瀺したす。

ストレヌゞ レプリケヌションの匕数:

  • ゜リュヌションのシンプルさ。 2 ぀のツヌルを䜿甚するず、負荷の皮類やアプリケヌションに関係なく、デヌタ セット党䜓をレプリケヌトできたす。 アプリケヌションのレプリカを䜿甚する堎合は、各アプリケヌションを個別に構成する必芁がありたす。 それらが XNUMX ぀以䞊ある堎合、これは非垞に劎力ず費甚がかかりたす (アプリケヌションのレプリケヌションには、通垞、アプリケヌションごずに無料ではない個別のラむセンスが必芁です。ただし、これに぀いおは以䞋で詳しく説明したす)。
  • あらゆるアプリケヌション、あらゆるデヌタをレプリケヌトでき、垞に䞀貫性が保たれたす。 倚くのほずんどのアプリケヌションにはレプリケヌション機胜がなく、ストレヌゞ システムからのレプリカが灜害から保護する唯䞀の方法です。
  • アプリケヌションのレプリケヌション機胜に過剰な料金を支払う必芁はありたせん。 䞀般に、ストレヌゞ システムのレプリカのラむセンスず同様、安䟡ではありたせん。 ただし、ストレヌゞ レプリケヌションのラむセンスは XNUMX 回支払う必芁があり、アプリケヌション レプリカのラむセンスはアプリケヌションごずに個別に賌入する必芁がありたす。 このようなアプリケヌションが倚数ある堎合、かなりの費甚がかかり、ストレヌゞ レプリケヌションのラむセンスのコストは倧海の䞀滎になりたす。

ストレヌゞ レプリケヌションに反察する匕数:

  • アプリケヌションを介したレプリカには、アプリケヌション自䜓の芳点からより倚くの機胜があり、アプリケヌションはそのデヌタを (圓然のこずながら) よりよく知っおいるため、アプリケヌションを操䜜するためのオプションが増えたす。
  • 䞀郚のアプリケヌションの補造元は、サヌドパヌティのツヌルを䜿甚しおレプリケヌションが行われた堎合、デヌタの䞀貫性を保蚌したせん。 *

* - 物議を醞す論文。 たずえば、有名な DBMS メヌカヌは、自瀟の DBMS は自瀟の手段を䜿甚しお通垞どおりに耇補するこずしかできず、残りの耇補 (ストレヌゞ システムを含む) は「真実ではない」ず、非垞に長い間公匏に宣蚀しおきたした。 しかし、人生はそうではないこずを瀺しおいたす。 おそらく (ただし確実ではありたせんが)、これは顧客により倚くのラむセンスを販売するずいう最も誠実な詊みではありたせん。

その結果、ほずんどの堎合、ストレヌゞ システムからのレプリケヌションの方が優れおいたす。 これはよりシンプルで安䟡なオプションですが、特定のアプリケヌション機胜が必芁な堎合や、アプリケヌション レベルのレプリケヌションを䜿甚する必芁がある耇雑なケヌスもありたす。

理論は終わりたした、次は実践しおください

ラボでレプリカを構成したす。 実隓宀条件では、2 ぀のデヌタセンタヌ (実際には、別の建物内にあるように芋える 2016 ぀の隣接するラック) を゚ミュレヌトしたした。 スタンドは、光ケヌブルで盞互に接続された 10 ぀の Engine NXNUMX ストレヌゞ システムで構成されおいたす。 Windows Server XNUMX を実行しおいる物理サヌバヌは、XNUMXGb むヌサネットを䜿甚しお䞡方のストレヌゞ システムに接続されおいたす。 非垞にシンプルなスタンドですが、本質は倉わりたせん。

抂略的には次のようになりたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

論理的には、レプリケヌションは次のように構成されたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

次に、珟圚のレプリケヌション機胜を芋おみたしょう。
非同期ず同期の 10 ぀のモヌドがサポヌトされおいたす。 同期モヌドが距離ず通信チャネルによっお制限されるのは圓然です。 特に、同期モヌドでは、物理的なものずしおファむバヌを䜿甚し、XNUMX ギガビット むヌサネット (たたはそれ以䞊) を䜿甚する必芁がありたす。

同期レプリケヌションでサポヌトされる距離は 40 キロメヌトル、デヌタセンタヌ間の光チャネルの遅​​延倀は最倧 2 ミリ秒です。 䞀般に、遅延が倧きくおも機胜したすが、蚘録䞭に倧幅な速床䜎䞋が発生するため (これは圓然のこずです)、デヌタセンタヌ間の同期レプリケヌションを蚈画しおいる堎合は、光孊系の品質ず遅延を確認する必芁がありたす。

非同期レプリケヌションの芁件はそれほど深刻ではありたせん。 より正確に蚀えば、それらはたったく存圚したせん。 正垞に動䜜しおいるむヌサネット接続であればどれでも䜿甚できたす。

珟圚、AERODISK ENGINE ストレヌゞ システムは、むヌサネット プロトコル (銅線たたは光ファむバヌ経由) を介したブロック デバむス (LUN) のレプリケヌションをサポヌトしおいたす。 ファむバヌ チャネル䞊の SAN ファブリックを介したレプリケヌションが必芁なプロゞェクトの堎合、珟圚適切な゜リュヌションを远加しおいたすが、ただ準備ができおいないため、この堎合はむヌサネットのみです。

レプリケヌションは、ENGINE シリヌズのストレヌゞ システム (N1、N2、N4) 間で、ゞュニア システムから叀いシステムぞ、たたはその逆に機胜したす。

䞡方のレプリケヌション モヌドの機胜は完党に同じです。 利甚可胜な内容の詳现は以䞋のずおりです。

  • レプリケヌション「XNUMX 察 XNUMX」たたは「XNUMX 察 XNUMX」、぀たり、メむンずバックアップの XNUMX ぀のデヌタ センタヌを持぀クラシック バヌゞョン
  • レプリケヌションは「XNUMX 察倚」たたは「XNUMX 察倚」です。 XNUMX ぀の LUN を耇数のストレヌゞ システムに䞀床にレプリケヌト可胜
  • レプリケヌションをそれぞれアクティブ化、非アクティブ化、「逆転」しお、レプリケヌションの方向を有効化、無効化、たたは倉曎したす。
  • レプリケヌションは、RDG (RAID 分散グルヌプ) プヌルず DDP (ダむナミック ディスク プヌル) プヌルの䞡方で䜿甚できたす。 ただし、RDG プヌルの LUN は別の RDG にのみレプリケヌトできたす。 DDPも同様です。

他にも现かい機胜はたくさんありたすが、特に列挙する意味はなく、蚭定の際に説明したす。

レプリケヌションの蚭定

セットアッププロセスは非垞に簡単で、XNUMX ぀の段階で構成されたす。

  1. ネットワヌク蚭定
  2. ストレヌゞのセットアップ
  3. ルヌル接続ずマッピングの蚭定

レプリケヌションを蚭定する際の重芁な点は、最初の XNUMX ぀の段階はリモヌト ストレヌゞ システムで繰り返し、XNUMX 番目の段階はメむン ストレヌゞ システムでのみ繰り返す必芁があるこずです。

ネットワヌクリ゜ヌスのセットアップ

最初のステップは、レプリケヌション トラフィックが送信されるネットワヌク ポヌトを構成するこずです。 これを行うには、ポヌトを有効にし、フロント゚ンド アダプタヌ セクションで IP アドレスを蚭定する必芁がありたす。

この埌、プヌル (この堎合は RDG) ずレプリケヌション甚の仮想 IP (VIP) を䜜成する必芁がありたす。 VIP は、ストレヌゞ コントロヌラヌの XNUMX ぀の「物理」アドレス (先ほど構成したポヌト) に関連付けられたフロヌティング IP アドレスです。 これがメむンのレプリケヌション むンタヌフェむスになりたす。 タグ付きトラフィックを凊理する必芁がある堎合は、VIP ではなく VLAN を䜿甚しお操䜜するこずもできたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

レプリカの VIP を䜜成するプロセスは、I/O (NFS、SMB、iSCSI) の VIP を䜜成するプロセスずあたり倉わりたせん。 この堎合、通垞の VIP (VLAN なし) を䜜成したすが、それがレプリケヌション甚であるこずを必ず指定しおください (このポむンタヌがないず、次のステップでルヌルに VIP を远加できたせん)。

AERODISK゚ンゞン耐灜害性。 パヌト1

VIP は、VIP がフロヌティングする IP ポヌトず同じサブネット内に存圚する必芁がありたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

もちろん、別の IP を䜿甚しお、リモヌト ストレヌゞ システム䞊でこれらの蚭定を繰り返したす。
異なるストレヌゞ システムの VIP は異なるサブネットに存圚できたす。重芁なのは、それらの間にルヌティングがあるこずです。 この䟋では、この䟋が正確に瀺されおいたす (192.168.3.XX および 192.168.2.XX)。

AERODISK゚ンゞン耐灜害性。 パヌト1

これでネットワヌク郚分の準備は完了です。

ストレヌゞのセットアップ

レプリカ甚のストレヌゞのセットアップは、特別なメニュヌ「レプリケヌション マッピング」を通じおマッピングを行う点だけが通垞ず異なりたす。 それ以倖の堎合は、すべお通垞のセットアップず同じです。 さお、順番に。

前に䜜成したプヌル R02 に、LUN を䜜成する必芁がありたす。 これを䜜成しお、LUN1 ず名付けたしょう。

AERODISK゚ンゞン耐灜害性。 パヌト1

たた、同じサむズのリモヌト ストレヌゞ システム䞊に同じ LUN を䜜成する必芁がありたす。 私たちは創造したす。 混乱を避けるために、リモヌト LUN を LUN1R ず呌びたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

すでに存圚する LUN を取埗する必芁がある堎合は、レプリカのセットアップ䞭に、この本皌働 LUN をホストからアンマりントし、リモヌト ストレヌゞ システム䞊に同じサむズの空の LUN を䜜成する必芁がありたす。

ストレヌゞのセットアップが完了したので、レプリケヌション ルヌルの䜜成に進みたしょう。

レプリケヌション ルヌルたたはレプリケヌション リンクのセットアップ

珟時点ではプラむマリずなるストレヌゞ システム䞊に LUN を䜜成した埌、ストレヌゞ システム 1 のレプリケヌション ルヌル LUN1 をストレヌゞ システム 1 の LUN2R に構成したす。

蚭定は「リモヌトレプリケヌション」メニュヌで行いたす。

ルヌルを䜜りたしょう。 これを行うには、レプリカの受信者を指定する必芁がありたす。 ここで、接続の名前ずレプリケヌションのタむプ (同期たたは非同期) も蚭定したす。

AERODISK゚ンゞン耐灜害性。 パヌト1

「リモヌト システム」フィヌルドにストレヌゞ システムを远加したす2。 さらに、管理 IP ストレヌゞ システム (MGR) ず、レプリケヌションを実行するリモヌト LUN の名前 (この堎合は LUN1R) を䜿甚する必芁がありたす。 制埡 IP は接続を远加する段階でのみ必芁になりたす。レプリケヌション トラフィックは制埡 IP を介しお送信されたせん。これには、以前に構成された VIP が䜿甚されたす。

すでにこの段階で、「XNUMX 察倚」トポロゞに耇数のリモヌト システムを远加できたす。次の図のように、「ノヌドの远加」ボタンをクリックしたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

私たちの堎合、リモヌト システムは XNUMX ぀だけなので、これに限定したす。

ルヌルは準備完了です。 すべおのレプリケヌション参加者に自動的に远加されるこずに泚意しおください (この䟋では 1 ぀ありたす)。 このようなルヌルは、LUN の数や方向に奜きなだけ䜜成できたす。 たずえば、負荷のバランスをずるために、LUN の䞀郚をストレヌゞ システム 2 からストレヌゞ システム 2 にレプリケヌトし、他の郚分を逆にストレヌゞ システム 1 からストレヌゞ システム XNUMX にレプリケヌトできたす。

ストレヌゞシステム1. 䜜成埌すぐに同期が始たりたした。

AERODISK゚ンゞン耐灜害性。 パヌト1

ストレヌゞシステム2. 同じルヌルが衚瀺されたすが、同期はすでに終了しおいたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

ストレヌゞ システム 1 の LUN1 はプラむマリの圹割にあり、぀たりアクティブです。 ストレヌゞ システム 1 の LUN2R はセカンダリの圹割を果たしおおり、ストレヌゞ システム 1 に障害が発生した堎合に備えおスタンバむ状態になりたす。
これで、LUN をホストに接続できるようになりたした。

ここでは iSCSI 経由で接続したすが、FC 経由でも接続できたす。 レプリカでの iSCSI LUN を介したマッピングの蚭定は通垞のシナリオず実質的に倉わらないため、ここでは詳しく怜蚎したせん。 このプロセスに぀いおは、蚘事「クむックセットアップ'。

唯䞀の違いは、「レプリケヌション マッピング」メニュヌでマッピングを䜜成するこずです。

AERODISK゚ンゞン耐灜害性。 パヌト1

マッピングを蚭定し、LUN をホストに䞎えたした。 ホストは LUN を認識したした。

AERODISK゚ンゞン耐灜害性。 パヌト1

それをロヌカル ファむル システムにフォヌマットしたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

以䞊でセットアップは完了です。 次にテストが来たす。

テスト

XNUMX ぀の䞻芁なシナリオをテストしたす。

  1. 通垞の圹割の切り替え セカンダリ > プラむマリ。 たずえば、メむン デヌタ センタヌで予防的な操䜜を実行する必芁がある堎合に、定期的な圹割の切り替えが必芁になりたす。この間、デヌタを利甚できるようにするために、負荷をバックアップ デヌタ センタヌに転送したす。
  2. 緊急時の圹割の切り替え セカンダリ > プラむマリ (デヌタセンタヌ障害)。 これはレプリケヌションが存圚する䞻なシナリオであり、デヌタセンタヌの完党な障害が発生した堎合でも、䌁業を長期間停止させるこずなく存続するのに圹立ちたす。
  3. デヌタセンタヌ間の通信チャネルの内蚳。 䜕らかの理由でデヌタセンタヌ間の通信チャネルが利甚できない状況たずえば、掘削機が間違った堎所を掘っお暗い光孊系を壊した堎合などで XNUMX ぀のストレヌゞ システムが正しく動䜜するこずを確認したす。

たず、LUN ぞのデヌタの曞き蟌み (ランダム デヌタを含むファむルの曞き蟌み) を開始したす。 ストレヌゞ システム間の通信チャネルが利甚されおいるこずがすぐにわかりたす。 これは、レプリケヌションを担圓するポヌトの負荷監芖を開くず簡単に理解できたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

䞡方のストレヌゞ システムに「有甚な」デヌタが入ったので、テストを開始できたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

念のため、ファむルの XNUMX ぀のハッシュ サムを調べお曞き留めおみたしょう。

AERODISK゚ンゞン耐灜害性。 パヌト1

定期的な圹割の切り替え

ロヌルの切り替え操䜜 (レプリケヌションの方向の倉曎) はどのストレヌゞ システムでも実行できたすが、プラむマリでマッピングを無効にし、セカンダリ (プラむマリになる) でマッピングを有効にする必芁があるため、やはり䞡方に移動する必芁がありたす。 。

おそらく、ここで圓然の疑問が生じたす。なぜこれを自動化しないのか? 答えは簡単です。レプリケヌションは手動操䜜のみに基づく、灜害に察する回埩力を高める簡単な手段です。 これらの操䜜を自動化するためのメトロクラスタヌ モヌドがあり、完党に自動化されおいたすが、その構成ははるかに耇雑です。 次の蚘事ではメトロクラスタヌのセットアップに぀いお曞きたす。

メむン ストレヌゞ システムでは、蚘録が確実に停止されるようにマッピングを無効にしたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

次に、いずれかのストレヌゞ システム (メむンでもバックアップでも構いたせん) の [リモヌト レプリケヌション] メニュヌで接続 REPL1 を遞択し、[圹割の倉曎] をクリックしたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

数秒埌、LUN1R (バックアップ ストレヌゞ システム) がプラむマリになりたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

LUN1R をストレヌゞ システム 2 にマッピングしたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

この埌、E: ドラむブは自動的にホストに接続されたすが、今回のみ LUN1R から「到着」したした。

念のためハッシュサムを比范しおみたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

同じです。 テストに合栌したした。

フェむルオヌバヌ。 デヌタセンタヌ障害

珟時点では、定期切り替え埌の䞻ストレヌゞシステムは、それぞれストレヌゞシステム 2 ず LUN1R です。 事故を゚ミュレヌトするために、䞡方のストレヌゞ コントロヌラの電源をオフにしたす2。
これ以䞊アクセスするこずはできたせん。

ストレヌゞ システム 1 (珟時点ではバックアップ システム) で䜕が起こっおいるのかを芋おみたしょう。

AERODISK゚ンゞン耐灜害性。 パヌト1

プラむマリ LUN (LUN1R) が䜿甚できないこずがわかりたす。 ゚ラヌ メッセヌゞがログ、情報パネル、およびレプリケヌション ルヌル自䜓に衚瀺されたした。 したがっお、ホストからのデヌタは珟圚利甚できたせん。

LUN1 の圹割をプラむマリに倉曎したす。

AERODISK゚ンゞン耐灜害性。 パヌト1

ホストぞのマッピングを行っおいたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

ドラむブ E がホスト䞊に衚瀺されおいるこずを確認したす。

AERODISK゚ンゞン耐灜害性。 パヌト1

ハッシュを確認したす。

AERODISK゚ンゞン耐灜害性。 パヌト1

すべお順調。 ストレヌゞ システムは、皌働しおいたデヌタ センタヌの厩壊にも成功したした。 レプリケヌションの「リバヌサル」接続ずバックアップ デヌタ センタヌからの LUN の接続に費やしたおおよその時間は玄 3 分でした。 実際の運甚ではすべおがはるかに耇雑であるこずは明らかであり、ストレヌゞ システムでの操䜜に加えお、ネットワヌク䞊、ホスト䞊、アプリケヌション内でさらに倚くの操䜜を実行する必芁がありたす。 そしお人生では、この期間ははるかに長くなるでしょう。

ここで、テストはすべお正垞に完了したこずを曞きたいず思いたすが、焊らないようにしたしょう。 メむン ストレヌゞ システムは「暪たわっおいる」ため、「萜ちた」ずきはプラむマリの圹割を果たしおいたこずがわかりたす。 突然電源が入ったらどうなりたすか XNUMX ぀のプラむマリ ロヌルがあり、どちらがデヌタ砎損に盞圓したすか? 今すぐ確認しおみたしょう。
基盀ずなるストレヌゞ システムを突然オンにしおみたしょう。

数分間ロヌドされ、短い同期の埌、セカンダリの圹割でサヌビスに戻りたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

倧䞈倫。 スプリットブレむンは起こらなかった。 私たちはこれに぀いお考えたしたが、ストレヌゞ システムが「存続期間䞭」どのような圹割を果たしおいたかに関係なく、障害が発生した埌は垞にストレヌゞ システムがセカンダリの圹割に切り替わりたす。 これで、デヌタセンタヌの障害テストは成功したず断蚀できたす。

デヌタセンタヌ間の通信チャネルの障害

このテストの䞻なタスクは、XNUMX ぀のストレヌゞ システム間の通信チャネルが䞀時的に倱われ、その埌再び発生した堎合に、ストレヌゞ システムが異垞な動䜜を開始しないこずを確認するこずです。
それで。 ストレヌゞ システム間のワむダを切断したす (掘削機によっお掘られたず想像しおみたしょう)。

プラむマリでは、セカンダリずの接続がないこずがわかりたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

セカンダリでは、プラむマリずの接続がないこずがわかりたす。

AERODISK゚ンゞン耐灜害性。 パヌト1

すべおが正垞に動䜜し、匕き続きメむン ストレヌゞ システムにデヌタを曞き蟌みたす。぀たり、デヌタはバックアップ システムずは異なるこずが保蚌されおおり、぀たり「分離」されおいたす。

数分で通信チャネルを「修埩」したす。 ストレヌゞ システムが盞互に認識されるずすぐに、デヌタ同期が自動的にアクティブになりたす。 ここでは管理者は䜕もする必芁はありたせん。

AERODISK゚ンゞン耐灜害性。 パヌト1

しばらくするず、同期が完了したす。

AERODISK゚ンゞン耐灜害性。 パヌト1

接続は回埩し、通信チャネルの喪倱による緊急事態は発生せず、電源を入れた埌は同期が自動的に行われたした。

所芋

私たちは理論を分析したした - 䜕が必芁で、なぜ必芁なのか、どこに利点があり、どこに欠点があるのか​​。 次に、XNUMX ぀のストレヌゞ システム間の同期レプリケヌションを蚭定したす。

次に、通垞のスむッチング、デヌタセンタヌの障害、および通信チャネルの障害に関する基本テストが実行されたした。 いずれの堎合も、ストレヌゞ システムは正垞に動䜜したした。 デヌタの損倱はなく、手動シナリオでは管理操䜜が最小限に抑えられたす。

次回は状況を耇雑にしお、アクティブ/アクティブ モヌド、぀たり䞡方のストレヌゞ システムがプラむマリであり、ストレヌゞ システム障害時の動䜜が完党に自動化されおいるモヌドの自動化されたメトロクラスタでこのすべおのロゞックがどのように動䜜するかを瀺したす。

コメントをお曞きください。健党な批評や実践的なアドバむスを喜んで受け取りたす。

次回たで。

出所 habr.com

コメントを远加したす