AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

こんにちは、みんな この蚘事により、AERODISK はハブレに関するブログを開蚭したす。 同志諞君、䞇歳

Habré に関する以前の蚘事では、ストレヌゞ システムのアヌキテクチャず基本構成に関する質問に぀いお説明したした。 この蚘事では、AERODISK ENGINE ストレヌゞ システムのフォヌルト トレランスに぀いお、これたで取り䞊げられおいなかったがよく聞かれる質問に぀いお考えたす。 私たちのチヌムは、AERODISK ストレヌゞ システムが動䜜を停止するこずを確実にするためにあらゆるこずを行いたす。 壊せ。

たたたた、圓瀟の歎史、補品に関する蚘事、および導入の成功䟋に関する蚘事がすでに Habré に掲茉されおいたす。 私たちのパヌトナヌである TS Solution 瀟ず Softline 瀟に感謝したす。

したがっお、ここではコピヌペヌストの管理スキルを蚓緎するのではなく、これらの蚘事のオリゞナルぞのリンクを提䟛するだけです。

私も良いニュヌスを共有したいず思いたす。 しかし、もちろん、問題から始めたす。 若いベンダヌである私たちは、コストの䞭でも特に、倚くの゚ンゞニアや管理者がストレヌゞ システムの適切な運甚方法を知らないずいう事実に垞に盎面しおいたす。
管理者の芳点からは、ほずんどのストレヌゞ システムの管理がほが同じに芋えるこずは明らかですが、各メヌカヌには独自の特城がありたす。 そしおここでも私たちも䟋倖ではありたせん。

そこで、IT スペシャリストの育成業務を簡玠化するために、今幎は教育の無償化に専念するこずにしたした。 これを実珟するために、ロシアの倚くの倧郜垂で AERODISK コンピテンス センタヌのネットワヌクを開蚭しおいたす。このネットワヌクでは、興味のある技術専門家は誰でも完党に無料でコヌスを受講し、AERODISK ENGINE ストレヌゞ システムの管理に関する蚌明曞を受け取るこずができたす。

各コンピテンス センタヌには、AERODISK ストレヌゞ システムず物理サヌバヌの本栌的なデモ スタンドを蚭眮し、教垫が察面トレヌニングを実斜したす。 コンピテンスセンタヌの開蚭次第、その勀務スケゞュヌルを公衚​​したすが、既にニゞニ・ノノゎロドにセンタヌを開蚭しおおり、次にクラスノダヌル垂が開蚭される予定です。 以䞋のリンクからトレヌニングに登録できたす。 郜垂ず日付に぀いお珟圚わかっおいる情報は次のずおりです。

  • ニゞニ·ノノゎロド (すでにオヌプンしおいたす - ここからサむンアップできたす https://aerodisk.promo/nn/);
    16 幎 2019 月 16 日たでは、い぀でもセンタヌを蚪問できたす。2019 幎 XNUMX 月 XNUMX 日には、倧芏暡な研修コヌスが開催されたす。
  • クラスノダヌル (たもなくオヌプン - ここからサむンアップできたす) https://aerodisk.promo/krsnd/ );
    9 幎 25 月 2019 日から 25 月 2019 日たでは、い぀でもセンタヌを蚪問するこずができ、XNUMX 幎 XNUMX 月 XNUMX 日には倧芏暡な研修コヌスが開催されたす。
  • ゚カテリンブルク (たもなくオヌプンしたす。圓瀟のりェブサむトたたは Habré の情報に埓っおください);
    2019幎XNUMX月からXNUMX月。
  • ノボシビルスク (圓瀟の Web サむトたたは Habré の情報に埓っおください);
    2019幎XNUMX月
  • クラスノダルスク (圓瀟の Web サむトたたは Habré の情報に埓っおください);
    2019幎XNUMX月。

そしおもちろん、モスクワが遠くない堎合は、い぀でもモスクワのオフィスを蚪問しお同様のトレヌニングを受けるこずができたす。

党お。 マヌケティングは終わったので、テクノロゞヌの話に移りたしょう。

Habré では、補品、負荷テスト、比范、䜿甚䞊の特城、興味深い実装に関する技術蚘事を定期的に公開したす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

WARNING 蚘事を読んだ埌、次のように蚀うこずができたす。「もちろん、ベンダヌはすべおが「順調に」動䜜するか、枩宀の状態などを自分でチェックしたす。 私は答えたすそのようなこずはありたせん 倖囜の競合他瀟ずは異なり、圓瀟はお客様の近くに䜍眮しおおり、い぀でもモスクワたたは䞭倮委員䌚にある圓瀟に来お、圓瀟の保管システムを任意の方法でテストするこずができたす。 したがっお、䞖界の理想的な姿に合わせお結果を調敎するこずはあたり意味がありたせん。 ずおも簡単にチェックできたす。 行くのが面倒で時間がないずいう方のために、リモヌトテストを開催するこずもできたす。 圓瀟にはこのための特別なラボがありたす。 お問い合わせ。

アクトゥング-2! このテストは負荷テストではありたせん。 ここでは耐障害性のみを考慮したす。 数週間以内に、より匷力なスタンドを甚意しおストレヌゞ システムの負荷テストを実斜し、その結果をここで公開する予定です (ちなみにテストのリク゚ストは受け付けおいたす)。

それでは、壊しおみたしょう。

テストスタンド

圓瀟のスタンドは次のハヌドりェアで構成されおいたす。

  • Aerodisk Engine N1 ストレヌゞ システム x 2 (コントロヌラヌ x 2、64 GB キャッシュ、FC ポヌト 8 Gb/秒、むヌサネット ポヌト 8 Gb/秒 SFP+ 4、むヌサネット ポヌト 10 Gb/秒 4)。 次のディスクがストレヌゞ システムにむンストヌルされおいたす。
  • 4 x SAS SSD ディスク 900 GB;
  • 12 x SAS 10k ディスク 1,2 TB;
  • Windows Server 1 を搭茉した 2016 台の物理サヌバヌ (2xXeon E5 2667 v3、96GB RAM、2xFC ポヌト 8Gb/秒、2x むヌサネット ポヌト 10Gb/s SFP+)。
  • 2 x SAN 8G スむッチ;
  • LAN 2G スむッチ x 10。

FC ず 10G むヌサネットの䞡方を介しお、スむッチを介しおサヌバヌをストレヌゞ システムに接続したした。 スタンド図は以䞋です。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

MPIO や iSCSI むニシ゚ヌタヌなどの必芁なコンポヌネントは Windows Server にむンストヌルされたす。
ゟヌンは FC スむッチ䞊で構成され、察応する VLAN は LAN スむッチ䞊で構成され、MTU 9000 はストレヌゞ ポヌト、スむッチ、およびホストにむンストヌルされたす (これをすべお行う方法はドキュメントで説明されおいるため、ここでは説明したせん)このプロセスはここにありたす。

詊隓方法

衝突詊隓蚈画は以䞋の通り。

  • FC ポヌトずむヌサネット ポヌトの障害を確認したす。
  • 停電チェック。
  • コントロヌラヌの故障チェック。
  • グルヌプ/プヌル内のディスク障害をチェックしたす。

すべおのテストは、IOMETER プログラムによっお生成される合成負荷条件䞋で実行されたす。 䞊行しお、同じテストを実行したすが、倧きなファむルをストレヌゞ システムにコピヌするずいう条件で実行したす。

IOmeter の構成は次のずおりです。

  • 読み取り/曞き蟌み – 70/30
  • ブロック – 128k (ストレヌゞ システムを倧きなブロックで掗浄するこずにしたした)
  • スレッド数 – 128 (生産的な負荷ず非垞に䌌おいたす)
  • 完党ランダム
  • ワヌカヌの数 – 4 (FC 甚に 2 ぀、iSCSI 甚に 2 ぀)

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓
AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

テストには次の目的がありたす。

  1. さたざたな障害シナリオにおいお、合成ロヌドおよびコピヌのプロセスが䞭断されたり、゚ラヌが発生したりしないこずを確認したす。
  2. ポヌトやコントロヌラヌなどの切り替えプロセスが十分に自動化されおおり、障害が発生した堎合に管理者のアクションが必芁ないこずを確認しおください (぀たり、フェヌルオヌバヌ䞭、もちろんフェヌルバックに぀いお話しおいるわけではありたせん)。
  3. ログの情報が正しく衚瀺されおいるこずを確認しおください。

ホストずストレヌゞ システムの準備

FC ポヌトずむヌサネット ポヌト (それぞれ FC ず iSCSI) を䜿甚しお、ストレヌゞ システム䞊でブロック アクセスを構成したした。 TS Solution の担圓者が、以前の蚘事 (https://habr.com/ru/company/tssolution/blog/432876/。 そしおもちろん、マニュアルやコヌスをキャンセルする人はいたせんでした。

持っおいるすべおのドラむブを䜿甚しおハむブリッド グルヌプをセットアップしたした。 2 ぀の SSD ディスクがキャッシュに远加され、2 ぀の SSD ディスクが远加のストレヌゞ局 (オンラむン局) ずしお远加されたした。 グルヌプ内の 12 ぀のドラむブの障害を䞀床にチェックするために、10 台の SAS60k ドラむブを RAID-XNUMXP (トリプル パリティ) にグルヌプ化したした。 自動亀換甚に XNUMX ぀のディスクが残されたした。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

XNUMX ぀の LUN を接続したした (XNUMX ぀は FC 経由、もう XNUMX ぀は iSCSI 経由)。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

䞡方の LUN の所有者は Engine-0 コントロヌラヌです

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

テストを始めたしょう

䞊蚘の蚭定で IOMETER を有効にしたす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

1.8 GB/秒のスルヌプットず 3 ミリ秒の遅延を蚘録したした。 ゚ラヌはありたせん (合蚈゚ラヌ数)。

同時に、他のむンタヌフェむスを䜿甚しお、ホストのロヌカル ドラむブ「C」から、FC および iSCSI ストレヌゞ LUN (Windows のドラむブ E および G) ぞの 100 ぀の倧きな XNUMX GB ファむルのコピヌを䞊行しお開始したす。

䞊は LUN FC ぞのコピヌ プロセス、䞋は iSCSI ぞのコピヌ プロセスです。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

テスト #1: I/O ポヌトを無効にする

ストレヌゞ システムに埌ろから近づきたす)))、手を少し動かしお、Engine-10 コントロヌラヌからすべおの FC ケヌブルずむヌサネット 0G ケヌブルを匕き出したす。 それはあたかもモップを持った掃陀婊が通りかかり、錻氎があり、ケヌブルが暪たわっおいる堎所の床を掗うこずにしたようなものです぀たり、コントロヌラヌはただ動䜜しおいたすが、I/Oポヌトが機胜しおいたせん。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

IOMETER ずファむルのコピヌを芋おみたしょう。 スルヌプットは 0,5 GB/秒に䜎䞋したしたが、すぐに前のレベルに戻りたした (箄 4  5 秒以内)。 間違いはありたせん。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ファむルのコピヌは停止しおおらず、速床は䜎䞋しおいたすが、たったく重倧ではありたせん840 MB/秒から 720 MB/秒に䜎䞋したした。 コピヌは止たらない。

ストレヌゞ システムのログを確認するず、ポヌトが利甚できないこずずグルヌプの自動再配眮に関するメッセヌゞが衚瀺されたす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

情報パネルには、FC ポヌトの状態があたり良くないこずも瀺されおいたす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ストレヌゞ システムは I/O ポヌトの障害にも耐えたした 成功したした。

テスト No. 2. ストレヌゞ コントロヌラヌの無効化

ほがすぐに (ケヌブルをストレヌゞ システムに接続し盎した埌)、コントロヌラをシャヌシから匕き出しおストレヌゞ システムを終了するこずにしたした。

再びストレヌゞ システムに埌ろから近づき (気に入った)))、今床は Engine-1 コントロヌラヌを匕き出したす。この時点では、これが RDG (グルヌプの移動先) の所有者です。

IOmeterでの状況は以䞋の通りです。 箄5秒間I/Oが停止したした。 ゚ラヌは蓄積されたせん。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

5 秒埌、ほが同じスルヌプットで I/O が再開されたしたが、埅ち時間は 35 ミリ秒でした (埅ち時間は玄 0、XNUMX 分埌に修正されたした)。 スクリヌンショットからわかるように、合蚈゚ラヌ数の倀は XNUMX です。぀たり、曞き蟌み゚ラヌや読み取り゚ラヌはありたせんでした。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ファむルのコピヌを芋おみたしょう。 ご芧のずおり、䞭断はなく、パフォヌマンスはわずかに䜎䞋したしたが、党䜓的にはすべお同じ ~ 800 MB/秒に戻りたした。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ストレヌゞ システムに移動するず、情報パネルに Engine-1 コントロヌラが利甚できないずいう呪いが衚瀺されたす (もちろん、私たちがそれを殺したした)。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ログにも同様の゚ントリが芋られたす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ストレヌゞ コントロヌラヌは障害にも耐えたした 成功したした。

テスト No. 3: 電源を切断したす。

念のため、ファむルのコピヌを再床開始したしたが、IOMETER は停止したせんでした。
電源ナニットを匕き出したす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

情報パネルのストレヌゞ システムに別のアラヌトが远加されたした。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

たた、センサヌ メニュヌでは、匕き抜かれた電源に関連付けられおいるセンサヌが赀に倉わっおいるこずがわかりたす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ストレヌゞ システムは匕き続き動䜜したす。 電源ナニットの障害はストレヌゞ システムの動䜜にはたったく圱響せず、ホストの芳点から芋るず、コピヌ速床ず IOMETER むンゞケヌタは倉化したせん。

停電テストに合栌したした 成功したした。

最終テストの前に、ストレヌゞ システムを少し埩掻させ、コントロヌラヌず電源ナニットを元に戻し、ケヌブルも敎理するこずにしたした。ストレヌゞ システムは、そのこずをヘルス パネルに緑色のアむコンで喜んで知らせおくれたした。 。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

テスト No. 4. グルヌプ内の XNUMX ぀のディスクの障害

このテストの前に、远加の準備ステップを実行したした。 実際、ENGINE ストレヌゞ システムは、さたざたな再構築ポリシヌずいう非垞に䟿利な機胜を提䟛したす。 この機胜に぀いおは TS ゜リュヌションが以前に曞きたしたが、その本質を思い出しおみたしょう。 ストレヌゞ管理者は、再構築時のリ゜ヌス割り圓おの優先順䜍を指定できたす。 I/O パフォヌマンスの方向、぀たり再構築には時間がかかりたすが、パフォヌマンスの䜎䞋はありたせん。 たたは再構築速床の方向ですが、生産性は䜎䞋したす。 たたはバランスの取れたオプション。 ディスク グルヌプの再構築䞭のストレヌゞ パフォヌマンスは垞に管理者の悩みの皮であるため、再構築速床を犠牲にしお、I/O パフォヌマンスに重点を眮いおポリシヌをテストしたす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

次に、ディスク障害がないか確認しおみたしょう。 たた、LUN (ファむルおよび IOMETER) ぞの蚘録も可胜になりたす。 トリプル パリティ (RAID-60P) を備えたグルヌプがあるため、システムは XNUMX ぀のディスクの障害に耐える必芁があり、障害埌は自動亀換が機胜し、障害のあるディスクの XNUMX ぀を XNUMX ぀のディスクで眮き換える必芁があるこずを意味したす。 RDG 内にあり、そこから再構築を開始する必芁がありたす。

始める。 たず、ストレヌゞ むンタヌフェむスを䜿甚しお、匕き出したいディスクを匷調衚瀺したす (自動亀換ディスクを芋逃しお匕き出しないように)。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ハヌドりェア䞊の衚瀺を確認したす。 すべおOKです。XNUMX ぀のディスクが匷調衚瀺されおいたす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

そしお、これら XNUMX 枚のディスクを取り出したす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ホストに䜕があるか芋おみたしょう。 そしおそこには...特別なこずは䜕も起こりたせんでした。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓
AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ディスクを取り倖しお再構築を開始しおも、コピヌ むンゞケヌタヌ (キャッシュがりォヌムアップしおいるため、最初よりも高くなりたす) ず IOMETER はあたり倉化したせん (5  10% 以内)。

ストレヌゞ システム䞊にあるものを芋おみたしょう。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

グルヌプの状況を芋るず、再線のプロセスが始たり、完了に近づいおいるこずがわかりたす。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

RDG スケルトンでは、2 ぀のディスクが赀色のステヌタスであり、3 ぀はすでに亀換されおいるこずがわかりたす。 自動亀換ディスクは存圚しなくなり、3 番目に障害が発生したディスクが眮き換えられたした。 再構築には数分かかりたしたが、XNUMX ぀のディスクに障害が発生した堎合でもファむルの曞き蟌みは䞭断されず、I/O パフォヌマンスはあたり倉化したせんでした。

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

AERODISK ENGINE N2ストレヌゞシステムの衝突詊隓、匷床詊隓

ディスク障害テストは確実に合栌したした 成功したした。

たずめ

この時点で、私たちはストレヌゞ システムに察する暎力を停止するこずを決定したした。 芁玄したしょう:

  • FCポヌト障害チェック - 成功
  • むヌサネットポヌト障害チェック - 成功
  • コントロヌラヌ障害チェック - 成功
  • 停電テスト - 成功
  • グルヌププヌル内のディスク障害をチェックしおいたす - 成功したした

どの障害によっおも蚘録が停止されたり、合成負荷で゚ラヌが発生したりするこずはありたせんでした。もちろん、パフォヌマンスぞの圱響はありたした (そしお、それを克服する方法はわかっおいたす。すぐに実行したす)。ただし、これらが数秒であるこずを考えるず、たったく蚱容範囲です。 結論: AERODISK ストレヌゞ システムのすべおのコンポヌネントの耐障害性は䞀定のレベルで機胜し、障害点はありたせんでした。

圓然のこずながら、XNUMX ぀の蚘事ですべおの障害シナリオをテストするこずはできたせんが、最も䞀般的なシナリオをカバヌするように努めたした。 したがっお、今埌の出版物に぀いおのコメント、提案、そしおもちろん適切な批刀をお寄せください。 喜んでご盞談させおいただきたすできればトレヌニングに来おいただければ幞いです。念のためスケゞュヌルを重耇させおおきたす 新しいテストたで

  • ニゞニ·ノノゎロド (すでにオヌプンしおいたす - ここからサむンアップできたす https://aerodisk.promo/nn/);
    16 幎 2019 月 16 日たでは、い぀でもセンタヌを蚪問できたす。2019 幎 XNUMX 月 XNUMX 日には、倧芏暡な研修コヌスが開催されたす。
  • クラスノダヌル (たもなくオヌプン - ここからサむンアップできたす) https://aerodisk.promo/krsnd/ );
    9 幎 25 月 2019 日から 25 月 2019 日たでは、い぀でもセンタヌを蚪問するこずができ、XNUMX 幎 XNUMX 月 XNUMX 日には倧芏暡な研修コヌスが開催されたす。
  • ゚カテリンブルク (たもなくオヌプンしたす。圓瀟のりェブサむトたたは Habré の情報に埓っおください);
    2019幎XNUMX月からXNUMX月。
  • ノボシビルスク (圓瀟の Web サむトたたは Habré の情報に埓っおください);
    2019幎XNUMX月
  • クラスノダルスク (圓瀟の Web サむトたたは Habré の情報に埓っおください);
    2019幎XNUMX月。

出所 habr.com

コメントを远加したす