Firwat et wichteg ass Software op Ärer Héichverfügbarkeetspäicherung ze validéieren (99,9999%)

Firwat et wichteg ass Software op Ärer Héichverfügbarkeetspäicherung ze validéieren (99,9999%)

Wéi eng Firmware Versioun ass déi "korrekt" a "schaffen"? Wann e Stockage System Garantien Feeler Toleranz vun 99,9999%, heescht dat, datt et ouni Ënnerbriechung och ouni Software Update funktionnéiert? Oder, am Géigendeel, fir maximal Feeler Toleranz ze kréien, sollt Dir ëmmer déi lescht Firmware installéieren? Mir probéieren dës Froen op Basis vun eiser Erfahrung ze beäntweren.

Eng kleng Aféierung

Mir verstinn all datt all Versioun vu Software, sief et e Betribssystem oder e Chauffer fir en Apparat, dacks Mängel / Bugs an aner "Features" enthält, déi net bis zum Enn vum Liewensdauer vun der Ausrüstung "optrieden", oder "oppen" nëmmen ënner bestëmmte Konditiounen. D'Zuel an d'Bedeitung vun esou Nuancen hänkt vun der Komplexitéit (Funktionalitéit) vun der Software an op der Qualitéit vum Test während senger Entwécklung of. 

Dacks bleiwen d'Benotzer op der "Firmware vun der Fabrik" (de berühmten "et funktionnéiert, also maach der keng Suergen") oder installéiert ëmmer déi lescht Versioun (an hirem Verständnis, déi lescht heescht am meeschte schaffen). Mir benotzen eng aner Approche - mir kucken d'Verëffentlechungsnotizen fir alles wat benotzt gëtt an der mClouds Wollek Ausrüstung a wielt virsiichteg déi entspriechend Firmware fir all Ausrüstungsstéck.

Mir sinn zu dëser Conclusioun komm, wéi se soen, mat Erfahrung. Mat eisem Beispill vun der Operatioun wäerte mir Iech soen firwat déi versprach 99,9999% Zouverlässegkeet vu Späichersystemer näischt bedeit wann Dir net direkt Softwareupdates a Beschreiwunge iwwerwaacht. Eise Fall ass gëeegent fir Benotzer vu Späichersystemer vun all Verkeefer, well eng ähnlech Situatioun ka mat Hardware vun all Hiersteller geschéien.

Wielt en neie Späichersystem

Um Enn vum leschte Joer gouf en interessanten Datelagerungssystem un eis Infrastruktur bäigefüügt: e Juniormodell vun der IBM FlashSystem 5000 Linn, deen zum Zäitpunkt vum Kaf genannt gouf Storwize V5010e. Elo gëtt et ënner dem Numm FlashSystem 5010 verkaaft, awer tatsächlech ass et déiselwecht Hardwarebasis mat deemselwechte Spektrum Virtualize bannen. 

D'Präsenz vun engem vereenegt Gestioun System ass, iwwregens, den Haaptunterschied tëscht IBM FlashSystem. Fir Modeller vun der jéngster Serie ass et praktesch net anescht wéi Modeller vu méi produktiven. D'Wiel vun engem spezifesche Modell bitt nëmmen déi entspriechend Hardwarebasis, d'Charakteristike vun deenen et méiglech maachen eng oder aner Funktionalitéit ze benotzen oder e méi héije Skalierbarkeet ze bidden. D'Software identifizéiert d'Hardware a bitt déi néideg a genuch Funktionalitéit fir dës Plattform.

Firwat et wichteg ass Software op Ärer Héichverfügbarkeetspäicherung ze validéieren (99,9999%)IBM FlashSystem 5010

Kuerz iwwer eise Modell 5010. Dëst ass en Entrée-Niveau Dual-Controller Blockspeichersystem. Et kann NLSAS, SAS, SSD Disken aménagéieren. NVMe Placement ass net verfügbar, well dëse Späichermodell positionéiert ass fir Probleemer ze léisen déi d'Leeschtung vun NVMe Drive net erfuerderen.

De Späichersystem gouf kaaft fir d'Archivinformatioun oder Daten opzehuelen déi net dacks zougänglech sinn. Dofir war de Standardset vu senger Funktionalitéit fir eis genuch: Tiering (Easy Tier), Thin Provision. Leeschtung op NLSAS Disks um Niveau vun 1000-2000 IOPS war och ganz zefriddestellend fir eis.

Eis Erfahrung - wéi mir d'Firmware net op Zäit aktualiséiert hunn

Elo iwwer d'Softwareupdate selwer. Zu der Zäit vum Kaf hat de System schonn eng liicht verännert Versioun vun der Spectrum Virtualize Software, nämlech, 8.2.1.3.

Mir hunn d'Firmware Beschreiwunge studéiert a geplangt en Update fir 8.2.1.9. Wa mir e bësse méi effizient gewiescht wieren, hätt dësen Artikel net existéiert - de Feeler wier net op enger méi rezenter Firmware geschitt. Wéi och ëmmer, aus bestëmmte Grënn gouf d'Aktualiséierung vun dësem System ofgesot.

Als Resultat huet e klengen Update Verspéidung zu engem extrem onsympathesche Bild gefouert, wéi an der Beschreiwung um Link: https://www.ibm.com/support/pages/node/6172341

Jo, an der Firmware vun där Versioun war de sougenannte APAR (Autoriséiert Programm Analyse Bericht) HU02104 relevant. Et schéngt wéi follegt. Ënner Belaaschtung, ënner bestëmmten Ëmstänn, fänkt de Cache ze iwwerflësseg, da geet de System an de Schutzmodus, an deem et I / O fir de Pool deaktivéiert. An eisem Fall huet et ausgesinn wéi 3 Disken fir eng RAID-Grupp am RAID 6 Modus ze trennen.Den Trennung geschitt fir 6 Minutten. Als nächst gëtt den Zougang zu de Volumen am Pool restauréiert.

Wann iergendeen net mat der Struktur an dem Benennung vu logeschen Entitéiten am Kontext vun IBM Spectrum Virtualize vertraut ass, wäert ech elo kuerz erklären.

Firwat et wichteg ass Software op Ärer Héichverfügbarkeetspäicherung ze validéieren (99,9999%)Struktur vun Stockage System logesch Elementer

Disks ginn a Gruppen gesammelt genannt MDisk (Managed Disk). MDisk kann e klassesche RAID (0,1,10,5,6) oder e virtualiséierte sinn - DRAID (Verdeelt RAID). D'Benotzung vun DRAID erlaabt Iech d'Performance vun der Array ze erhéijen, well ... All Disks an der Grupp ginn benotzt, an d'Rekonstruktiounszäit gëtt reduzéiert, wéinst der Tatsaach, datt nëmme bestëmmte Blocks musse restauréiert ginn, an net all Daten aus der gescheitert Scheif.

Firwat et wichteg ass Software op Ärer Héichverfügbarkeetspäicherung ze validéieren (99,9999%)Verdeelung vun Datenblocken iwwer Disken wann Dir Distributed RAID (DRAID) am RAID-5 Modus benotzt.

An dëst Diagramm weist d'Logik wéi eng DRAID-Rebuild funktionnéiert am Fall vun engem Diskfehler:

Firwat et wichteg ass Software op Ärer Héichverfügbarkeetspäicherung ze validéieren (99,9999%)Logik vun der DRAID nei opzebauen wann een Disk feelt

Als nächst bilden een oder méi MDisken e sougenannte Pool. Am selwechte Pool ass et net recommandéiert MDisk mat verschiddene RAID / DRAID Niveauen op Disken vum selwechten Typ ze benotzen. Mir ginn net ze déif an dëst, well ... mir plangen dëst an engem vun den folgenden Artikelen ze Cover. Gutt, tatsächlech ass de Pool a Bänn opgedeelt, déi mat engem oder anere Block Access Protokoll fir d'Host presentéiert ginn.

Also, mir, als Resultat vun der Situatioun beschriwwen an APAR HU02104, Wéinst dem logesche Versoen vun dräi Scheiwen, huet MDisk opgehalen funktionell ze sinn, wat am Tour zum Echec vum Pool an de entspriechende Volumen gefouert huet.

Well dës Systemer zimmlech schlau sinn, kënne se mam IBM Storage Insights Cloud-baséiert Iwwerwaachungssystem verbonne sinn, deen automatesch eng Serviceufro un d'IBM Support schéckt wann e Problem geschitt. Eng Applikatioun gëtt erstallt an IBM Spezialisten maachen d'Diagnostik op afstand a kontaktéieren de System Benotzer. 

Dank dësem gouf d'Thema zimlech séier geléist an eng prompt Empfehlung vum Supportservice kritt fir eise System op déi virdru gewielte Firmware 8.2.1.9 ze aktualiséieren, déi zu där Zäit scho fixéiert gouf. Et bestätegt entspriechend Release Note.

Resultater an eis Empfehlungen

Wéi de Spréchwuert seet: "Alles ass gutt, dat endet gutt." De Feeler an der Firmware huet keng sérieux Problemer verursaacht - d'Servere goufen sou séier wéi méiglech restauréiert an ouni Datenverloscht. E puer Cliente mussen virtuell Maschinnen nei starten, awer allgemeng ware mir op méi negativ Konsequenze virbereet, well mir all Dag Backupe vun all Infrastrukturelementer a Clientmaschinn maachen. 

Mir hunn d'Bestätegung kritt datt och zouverlässeg Systemer mat 99,9999% versprach Disponibilitéit Opmierksamkeet a rechtzäiteg Ënnerhalt erfuerderen. Baséierend op der Situatioun hu mir eng Rei Conclusiounen fir eis selwer gezunn an eis Empfehlungen deelen:

  • Et ass onbedéngt d'Verëffentlechung vun Updates ze iwwerwaachen, Release Notes ze studéieren fir Korrekturen vu potenziell kriteschen Themen, a geplangten Updates op eng fristgerecht Manéier auszeféieren.

    Dëst ass en organisatoreschen an och ganz offensichtleche Punkt, op deen, wéi et schéngt, net derwäert ass ze fokusséieren. Wéi och ëmmer, op dësem "Niveau Buedem" kënnt Dir ganz einfach trëppelen. Eigentlech war et dëse Moment deen d'Problemer uewe beschriwwen bäigefüügt huet. Sidd ganz virsiichteg wann Dir d'Aktualiséierungsreglementer ausschafft an d'Konformitéit mat hinnen net manner suergfälteg iwwerwaachen. Dëse Punkt bezitt sech méi op d'Konzept vun "Disziplin".

  • Et ass ëmmer besser de System mat der leschter Software Versioun ze halen. Ausserdeem ass deen aktuellen net deen, deen eng méi grouss numeresch Bezeechnung huet, mä éischter dee mat engem spéidere Release Datum. 

    Zum Beispill, IBM hält op d'mannst zwee Software Verëffentlechungen fir seng Stockage Systemer aktuell. Zu der Zäit vun dësem Schreiwen sinn dës 8.2 an 8.3. Updates fir 8.2 kommen fréier eraus. En ähnlechen Update fir 8.3 gëtt normalerweis mat engem liichte Verspéidung verëffentlecht.

    Verëffentlechung 8.3 huet eng Rei vu funktionnelle Virdeeler, Zum Beispill, d'Fähegkeet MDisk (am DRAID Modus) auszebauen andeems een oder méi nei Disken bäigefüügt (dës Fonktioun ass zënter Versioun 8.3.1 erschéngt). Dëst ass eng zimlech Basisfunktioun, awer am 8.2 gëtt et leider keng sou Feature.

  • Wann et net méiglech ass aus irgendege Grënn ze aktualiséieren, dann fir Versioune vu Spectrum Virtualize Software virun de Versiounen 8.2.1.9 an 8.3.1.0 (wou de Bugs uewen beschriwwen relevant ass), fir de Risiko vu sengem Optriede ze reduzéieren, IBM technesch Ënnerstëtzung recommandéiert limitéieren System Leeschtung um Pool Niveau, wéi an der Figur ënnendrënner gewisen (d'Bild gouf an der Russified Versioun vun der GUI geholl). De Wäert vun 10000 IOPS gëtt als Beispill gewisen a gëtt no de Charakteristike vun Ärem System ausgewielt.

Firwat et wichteg ass Software op Ärer Héichverfügbarkeetspäicherung ze validéieren (99,9999%)Limitéiert IBM Stockage Leeschtung

  • Et ass néideg der Belaaschtung op Stockage Systemer richteg ze berechnen an iwwerlaascht ze vermeiden. Fir dëst ze maachen, kënnt Dir entweder den IBM Size benotzen (wann Dir Zougang zu et hutt), oder d'Hëllef vu Partner, oder Drëtt Partei Ressourcen. Et ass néideg der Laascht Profil op de Stockage System ze verstoen, well Leeschtung a MB / s an IOPS variéiert staark ofhängeg vun op d'mannst de folgende Parameteren:

    • Operatiounstyp: liesen oder schreiwen,

    • Operatioun Block Gréisst,

    • Prozentsaz vu Lies- a Schreifoperatiounen am Gesamt I / O-Stream.

    Och d'Geschwindegkeet vun den Operatiounen ass beaflosst wéi d'Dateblocken gelies ginn: sequenziell oder an zoufälleg Uerdnung. Wann Dir verschidde Datenzougang Operatiounen op der Applikatiounssäit ausféiert, gëtt et d'Konzept vun ofhängegen Operatiounen. Et ass och ubruecht dëst Rechnung ze huelen. All dëst kann hëllefe fir d'Totalitéit vun den Donnéeën vun der Leeschtungszieler vum OS, de Späichersystem, de Server / Hypervisoren ze gesinn, wéi och e Verständnis vun den Operatiounsfeatures vun Uwendungen, DBMSen an aner "Konsumenten" vun Diskressourcen.

  • A schliisslech, gitt sécher datt Dir Backups up to date hutt a funktionnéiert. De Backup Zäitplang soll konfiguréiert ginn op Basis vun akzeptablen RPO Wäerter fir d'Geschäft, a periodesch Integritéitskontrollen vun de Backupe solle verifizéiert ginn (zimmlech e puer Backup Software Ubidder hunn automatiséiert Verifikatioun an hire Produkter implementéiert) fir en akzeptablen RTO Wäert ze garantéieren.

Merci fir d'Liesen bis zum Schluss.
Mir si prett Är Froen a Kommentaren an de Kommentaren ze beäntweren. Also Mir invitéieren Iech op eisem Telegram Kanal ze abonnéieren, an deem mir regelméisseg Promotiounen halen (Remisen op IaaS a Kaddoen fir Promotiounscodes bis zu 100% op VPS), schreiwen interessant Neiegkeeten an annoncéieren nei Artikelen am Habr Blog.

Source: will.com

Setzt e Commentaire