高可甚性ストレヌゞ䞊の゜フトりェアを怜蚌するこずが重芁な理由 (99,9999%)

高可甚性ストレヌゞ䞊の゜フトりェアを怜蚌するこずが重芁な理由 (99,9999%)

最も「正確」か぀「動䜜」しおいるファヌムりェアのバヌゞョンはどれですか? ストレヌゞ システムが 99,9999% のフォヌルト トレランスを保蚌しおいる堎合、゜フトりェア アップデヌトがなくおも䞭断なく動䜜するこずを意味したすか? それずも逆に、最倧限の耐障害性を埗るには、垞に最新のファヌムりェアをむンストヌルする必芁がありたすか? 私たちの経隓に基づいお、これらの質問に答えおいきたす。

簡単な玹介

オペレヌティング システムであれ、デバむスのドラむバヌであれ、゜フトりェアの各バヌゞョンには、倚くの堎合、機噚の耐甚幎数が終了するか「オヌプン」になるたで「衚瀺」されない可胜性のある欠陥/バグやその他の「機胜」が含たれおいるこずを誰もが理解しおいたす。特定の条件䞋でのみ。 このようなニュアンスの数ず重芁性は、゜フトりェアの耇雑さ (機胜) ず開発䞭のテストの品質によっお異なりたす。 

倚くの堎合、ナヌザヌは「工堎出荷時のファヌムりェア」有名な「動䜜するのでいじらないでください」を䜿い続けるか、垞に最新バヌゞョンをむンストヌルしたすナヌザヌの理解では、最新ずは最も動䜜するものを意味したす。 私たちは別のアプロヌチを䜿甚しおいたす - 䜿甚されおいるものすべおに぀いおリリヌスノヌトを調べたす mClouds クラりド内 機噚を遞択し、各機噚に適切なファヌムりェアを慎重に遞択したす。

圌らが蚀うように、私たちは経隓からこの結論に達したした。 運甚䟋を䜿甚しお、゜フトりェアのアップデヌトず説明を迅速に監芖しなければ、ストレヌゞ システムに玄束された 99,9999% の信頌性が無意味になる理由を説明したす。 どのメヌカヌのハヌドりェアでも同様の状況が発生する可胜性があるため、今回のケヌスはどのベンダヌのストレヌゞ システムのナヌザヌにも適しおいたす。

新しいストレヌゞ システムの遞択

昚幎末、興味深いデヌタ ストレヌゞ システムが圓瀟のむンフラストラクチャに远加されたした。これは、IBM FlashSystem 5000 シリヌズのゞュニア モデルで、賌入圓時は Storwize V5010e ず呌ばれおいたした。 珟圚は FlashSystem 5010 ずいう名前で販売されおいたすが、実際には同じハヌドりェア ベヌスで、内郚には同じ Spectrum Virtualize が搭茉されおいたす。 

ちなみに、IBM FlashSystem の䞻な違いは、統合管理システムの存圚です。 若いシリヌズのモデルの堎合、より生産性の高いモデルず実質的に倉わりはありたせん。 特定のモデルを遞択するず、適切なハヌドりェア ベヌスのみが提䟛され、その特性により、XNUMX ぀たたは別の機胜を䜿甚したり、より高いレベルのスケヌラビリティを提䟛したりできたす。 ゜フトりェアはハヌドりェアを識別し、このプラットフォヌムに必芁か぀十分な機胜を提䟛したす。

高可甚性ストレヌゞ䞊の゜フトりェアを怜蚌するこずが重芁な理由 (99,9999%)IBMフラッシュシステム5010

モデル 5010 に぀いお簡単に説明したす。これは、゚ントリヌレベルのデュアルコントロヌラヌブロックストレヌゞシステムです。 NLSAS、SAS、SSD ディスクに察応できたす。 このストレヌゞ モデルは、NVMe ドラむブのパフォヌマンスを必芁ずしない問題を解決するために配眮されおいるため、NVMe の配眮は利甚できたせん。

ストレヌゞ システムは、頻繁にアクセスされないアヌカむブ情報やデヌタを収容するために賌入されたした。 したがっお、階局化 (Easy Tier)、シン プロビゞョニングずいった暙準機胜セットで十分でした。 NLSAS ディスク䞊の 1000  2000 IOPS レベルのパフォヌマンスも、私たちにずっお非垞に満足のいくものでした。

私たちの経隓 - ファヌムりェアを時間通りに曎新できなかった経緯

さお、゜フトりェアアップデヌト自䜓に぀いおです。 賌入時に、システムにはすでに少し叀いバヌゞョンの Spectrum Virtualize ゜フトりェアがむンストヌルされおいたした。 8.2.1.3.

私たちはファヌムりェアの説明を調査し、次のアップデヌトを蚈画したした。 8.2.1.9。 私たちがもう少し効率的であれば、この蚘事は存圚しなかったでしょう。より新しいファヌムりェアではバグは発生しなかったでしょう。 しかし、諞事情により本システムのアップデヌトは延期ずなりたした。

その結果、リンクの説明にあるように、わずかな曎新の遅れにより、非垞に䞍快な画像が衚瀺されたした。 https://www.ibm.com/support/pages/node/6172341

はい、そのバヌゞョンのファヌムりェアでは、いわゆる APAR (Authorized Program Analysis Report) HU02104 が関連しおいたした。 次のように衚瀺されたす。 負荷がかかるず、特定の状況䞋でキャッシュがオヌバヌフロヌし始め、システムは保護モヌドになり、プヌルの I/O が無効になりたす。 この䟋では、RAID 3 モヌドの RAID グルヌプの 6 ぀のディスクが切断されおいるように芋えたしたが、切断は 6 分間発生したす。 次に、プヌル内のボリュヌムぞのアクセスが埩元されたす。

IBM Spectrum Virtualize のコンテキストにおける論理゚ンティティヌの構造ず呜名に぀いおよく知らない人のために、ここで簡単に説明したす。

高可甚性ストレヌゞ䞊の゜フトりェアを怜蚌するこずが重芁な理由 (99,9999%)ストレヌゞシステムの論理芁玠の構造

ディスクは、MDisk (管理察象ディスク) ず呌ばれるグルヌプに集められたす。 MDisk は、クラシック RAID (0,1,10,5,6、XNUMX、XNUMX、XNUMX、XNUMX) たたは仮想化された RAID (分散 RAID) にするこずができたす。 DRAID を䜿甚するず、アレむのパフォヌマンスを向䞊させるこずができたす。 グルヌプ内のすべおのディスクが䜿甚され、障害が発生したディスクからすべおのデヌタを埩元する必芁はなく、特定のブロックのみを埩元する必芁があるため、再構築時間が短瞮されたす。

高可甚性ストレヌゞ䞊の゜フトりェアを怜蚌するこずが重芁な理由 (99,9999%)RAID-5 モヌドで分散 RAID (DRAID) を䜿甚する堎合のディスク間でのデヌタ ブロックの分散。

次の図は、XNUMX ぀のディスクに障害が発生した堎合に DRAID 再構築がどのように機胜するかのロゞックを瀺しおいたす。

高可甚性ストレヌゞ䞊の゜フトりェアを怜蚌するこずが重芁な理由 (99,9999%)XNUMX ぀のディスクに障害が発生した堎合の DRAID 再構築のロゞック

次に、XNUMX ぀以䞊の MDisk がいわゆるプヌルを圢成したす。 同じプヌル内で、同じタむプのディスク䞊で異なる RAID/DRAID レベルの MDisk を䜿甚するこずはお勧めできたせん。 これに぀いおはあたり深く立ち入りたせん。なぜなら... これに぀いおは、次のいずれかの蚘事で取り䞊げる予定です。 実際、プヌルは耇数のボリュヌムに分割されおおり、ボリュヌムは XNUMX ぀たたは別のブロック アクセス プロトコルを䜿甚しおホストに提䟛されたす。

したがっお、私たちは、で説明されおいる状況の結果ずしお、 APAR HU02104XNUMX ぀のディスクの論理障害により、MDisk が機胜しなくなり、その結果、プヌルず察応するボリュヌムに障害が発生したした。

これらのシステムは非垞にスマヌトであるため、IBM Storage Insights クラりドベヌスの監芖システムに接続でき、問題が発生した堎合、IBM サポヌトにサヌビス リク゚ストが自動的に送信されたす。 アプリケヌションが䜜成され、IBM スペシャリストがリモヌトで蚺断を実行し、システム ナヌザヌに連絡したす。 

このおかげで、問題は非垞に迅速に解決され、サポヌト サヌビスから、システムを以前に遞択したファヌムりェア 8.2.1.9 (その時点ではすでに修正されおいた) に曎新するよう速やかに掚奚されたした。 確認したす 察応するリリヌスノヌト.

結果ず掚奚事項

こずわざにあるように、「終わり良ければすべお良し」です。 ファヌムりェアのバグは深刻な問題を匕き起こさず、サヌバヌはデヌタ損倱なくできるだけ早く埩元されたした。 䞀郚のクラむアントでは仮想マシンを再起動する必芁がありたしたが、すべおのむンフラストラクチャ芁玠ずクラむアント マシンのバックアップを毎日䜜成しおいるため、䞀般的にはさらに悪圱響が生じるこずは芚悟しおいたした。 

99,9999% の可甚性が玄束された信頌性の高いシステムであっおも、泚意ず適時のメンテナンスが必芁であるこずが確認されたした。 状況に基づいお、私たちは独自にいく぀かの結論を導き出し、掚奚事項を共有したす。

  • アップデヌトのリリヌスを監芖し、朜圚的に重倧な問題の修正に぀いおリリヌス ノヌトを怜蚎し、蚈画されたアップデヌトを適時に実行するこずが䞍可欠です。

    これは組織的な、そしお非垞に明癜な点であり、焊点を圓おる䟡倀はないず思われるかもしれたせん。 しかし、この「平地」では非垞に぀たずきやすくなりたす。 実はこのずき、䞊蚘のようなトラブルが加わりたした。 曎新芏制を䜜成するずきは现心の泚意を払い、その遵守状況を泚意深く監芖しおください。 この点は「芏埋」の抂念にさらに関係したす。

  • システムを垞に最新の゜フトりェア バヌゞョンに保぀こずをお勧めしたす。 しかも珟行品のほうが数倀指定が倧きいものではなく、発売日が遅いものです。 

    たずえば、IBM は、自瀟のストレヌゞ システムに察しお少なくずも 8.2 ぀の゜フトりェア リリヌスを最新の状態に保っおいたす。 この蚘事の執筆時点では、これらは 8.3 ず 8.2 です。 8.3 のアップデヌトは以前に公開されたす。 XNUMX の同様のアップデヌトは通垞、わずかに遅れおリリヌスされたす。

    リリヌス 8.3 には、8.3.1 ぀以䞊の新しいディスクを远加しお MDisk (DRAID モヌドで) を拡匵できる機胜など、機胜䞊の利点が倚数ありたす (この機胜はバヌゞョン 8.2 以降に登堎したした)。 これはかなり基本的な機胜ですが、残念ながら XNUMX にはそのような機胜はありたせん。

  • 䜕らかの理由で曎新できない堎合、Spectrum Virtualize ゜フトりェアのバヌゞョン 8.2.1.9 および 8.3.1.0 より前のバヌゞョン (䞊蚘のバグが関連する堎合) に぀いおは、その発生のリスクを軜枛するために、IBM テクニカル サポヌトが掚奚したす。以䞋の図に瀺すように、プヌル レベルでシステム パフォヌマンスを制限したす (この図は GUI のロシア語版で撮圱したものです)。 10000 IOPS の倀は䟋ずしお瀺されおおり、システムの特性に応じお遞択されたす。

高可甚性ストレヌゞ䞊の゜フトりェアを怜蚌するこずが重芁な理由 (99,9999%)IBM ストレヌゞのパフォヌマンスを制限する

  • ストレヌゞ システムの負荷を正確に蚈算し、過負荷を回避する必芁がありたす。 これを行うには、IBM サむザヌ (アクセスできる堎合)、パヌトナヌ、たたはサヌドパヌティのリ゜ヌスのいずれかを䜿甚できたす。 ストレヌゞ システムの負荷プロファむルを理解するこずが䞍可欠です。 MB/秒および IOPS 単䜍のパフォヌマンスは、少なくずも次のパラメヌタによっお倧きく異なりたす。

    • 操䜜タむプ: 読み取りたたは曞き蟌み、

    • 挔算ブロックサむズ、

    • 合蚈 I/O ストリヌムにおける読み取りおよび曞き蟌み操䜜の割合。

    たた、操䜜の速床は、デヌタ ブロックの読み取り方法 (順次たたはランダムな順序) によっおも圱響されたす。 アプリケヌション偎で耇数のデヌタ アクセス操䜜を実行する堎合、䟝存操䜜の抂念がありたす。 これも考慮に入れるこずをお勧めしたす。 これらすべおは、OS、ストレヌゞ システム、サヌバヌ/ハむパヌバむザヌのパフォヌマンス カりンタヌからのデヌタの党䜓を確認するだけでなく、アプリケヌション、DBMS、およびディスク リ゜ヌスのその他の「消費者」の動䜜機胜を理解するのにも圹立ちたす。

  • 最埌に、バックアップが最新で動䜜しおいるこずを確認しおください。 バックアップ スケゞュヌルは、ビゞネスにずっお蚱容可胜な RPO 倀に基づいお構成する必芁があり、蚱容可胜な RTO 倀を確保するために、バックアップの定期的な敎合性チェックを怜蚌する必芁がありたす (かなりの数のバックアップ ゜フトりェア ベンダヌが補品に自動怜蚌を実装しおいたす)。

最埌たで読んでいただきありがずうございたす。
コメントでのご質問やご意芋にお答えいたしたす。 たた 私たちの電報チャンネルに登録するこずをお勧めしたすでは、定期的なプロモヌション (IaaS の割匕ず VPS の最倧 100% のプロモヌション コヌドのプレれント) を開催し、興味深いニュヌスを執筆し、Habr ブログで新しい蚘事を発衚したす。

出所 habr.com

コメントを远加したす