Wêrom is it wichtich om software te validearjen op jo opslach mei hege beskikberens (99,9999%)

Wêrom is it wichtich om software te validearjen op jo opslach mei hege beskikberens (99,9999%)

Hokker firmwareferzje is de meast "korrekte" en "wurke"? As in opslachsysteem garandearret fouttolerânsje fan 99,9999%, betsjut dat dan dat it sûnder ûnderbrekken sil wurkje sels sûnder in software-update? Of, krekt oarsom, om maksimale fouttolerânsje te krijen, moatte jo altyd de lêste firmware ynstallearje? Wy sille besykje dizze fragen te beantwurdzjen op basis fan ús ûnderfining.

In koarte ynlieding

Wy begripe allegear dat elke ferzje fan software, of it no in bestjoeringssysteem is as in stjoerprogramma foar in apparaat, faak defekten / bugs en oare "funksjes" befettet dy't miskien net "ferskine" oant it ein fan 'e tsjinstlibben fan' e apparatuer, of "iepen" allinnich ûnder bepaalde betingsten. It oantal en de betsjutting fan sokke nuânses hinget ôf fan 'e kompleksiteit (funksjonaliteit) fan' e software en op 'e kwaliteit fan testen tidens syn ûntwikkeling. 

Faak bliuwe brûkers op 'e "firmware fan it fabryk" (de ferneamde "it wurket, dus net rommelje mei it") of ynstallearje altyd de lêste ferzje (yn har begryp betsjut de lêste it meast wurkjen). Wy brûke in oare oanpak - wy sjogge nei de release-notysjes foar alles dat wurdt brûkt yn 'e wolk fan mClouds apparatuer en selektearje foarsichtich de passende firmware foar elk stik apparatuer.

Wy kamen ta dizze konklúzje, sa't se sizze, mei ûnderfining. Mei ús foarbyld fan operaasje sille wy jo fertelle wêrom't de taseine 99,9999% betrouberens fan opslachsystemen neat betsjuttet as jo software-updates en beskriuwingen net fuortendaliks kontrolearje. Us saak is geskikt foar brûkers fan opslachsystemen fan elke ferkeaper, om't in ferlykbere situaasje kin barre mei hardware fan elke fabrikant.

Kies in nij opslachsysteem

Ein ferline jier is in nijsgjirrich data-opslachsysteem tafoege oan ús ynfrastruktuer: in juniormodel fan 'e IBM FlashSystem 5000-line, dat op it momint fan oankeap Storwize V5010e hjitte. No wurdt it ferkocht ûnder de namme FlashSystem 5010, mar yn feite is it deselde hardwarebasis mei deselde Spectrum Virtualize binnen. 

De oanwêzigens fan in unifoarme behearsysteem is, trouwens, it wichtichste ferskil tusken IBM FlashSystem. Foar modellen fan 'e jongere searje is it praktysk net oars fan modellen fan mear produktive. It kiezen fan in spesifyk model jout allinich de passende hardwarebasis, wêrfan de skaaimerken it mooglik meitsje om ien of oare funksjonaliteit te brûken of in heger nivo fan skalberens te leverjen. De software identifisearret de hardware en leveret de nedige en foldwaande funksjonaliteit foar dit platfoarm.

Wêrom is it wichtich om software te validearjen op jo opslach mei hege beskikberens (99,9999%)IBM FlashSystem 5010

Koart oer ús model 5010. Dit is in opslachsysteem mei dûbele kontrôlerblok op yngongsnivo. It kin plak foar NLSAS, SAS, SSD-skiven. NVMe-pleatsing is der net yn beskikber, om't dit opslachmodel gepositioneerd is om problemen op te lossen dy't de prestaasjes fan NVMe-skiven net nedich binne.

It opslachsysteem waard oankocht om argyfynformaasje of gegevens te foldwaan dy't net faak tagonklik wurde. Dêrom wie de standert set fan syn funksjonaliteit genôch foar ús: Tiering (Easy Tier), Thin Provision. Prestaasje op NLSAS-skiven op it nivo fan 1000-2000 IOPS wie ek frij befredigjend foar ús.

Us ûnderfining - hoe't wy de firmware net op 'e tiid hawwe bywurke

No oer de software update sels. Op it momint fan oankeap hie it systeem al in wat ferâldere ferzje fan 'e Spectrum Virtualize-software, nammentlik, 8.2.1.3.

Wy studearre de firmware beskriuwings en plande in update nei 8.2.1.9. As wy in bytsje effisjinter wiene west, soe dit artikel net bestien hawwe - de brek soe net west hawwe op in mear resinte firmware. Om bepaalde redenen waard de fernijing fan dit systeem lykwols útsteld.

As gefolch, in lichte update fertraging late ta in ekstreem onaangename foto, lykas yn 'e beskriuwing op' e keppeling: https://www.ibm.com/support/pages/node/6172341

Ja, yn 'e firmware fan dy ferzje wie it saneamde APAR (Authorized Program Analysis Report) HU02104 relevant. It ferskynt as folget. Under load, ûnder bepaalde omstannichheden, de cache begjint te oerstreamen, dan giet it systeem yn beskermjende modus, wêryn it útskeakelje I / O foar it swimbad. Yn ús gefal like it as losmeitsjen fan 3 skiven foar in RAID-groep yn RAID 6-modus. Dêrnei wurdt tagong ta de Volumes in the Pool wersteld.

As immen net bekend is mei de struktuer en nammejouwing fan logyske entiteiten yn 'e kontekst fan IBM Spectrum Virtualize, sil ik no koart útlizze.

Wêrom is it wichtich om software te validearjen op jo opslach mei hege beskikberens (99,9999%)Struktuer fan opslach systeem logyske eleminten

Disks wurde sammele yn groepen neamd MDisk (Managed Disk). MDisk kin in klassike RAID (0,1,10,5,6) wêze as in virtualisearre - DRAID (Distributed RAID). Mei DRAID kinne jo de prestaasjes fan 'e array ferheegje, om't ... Alle skiven yn 'e groep sille brûkt wurde, en de werboutiid sil wurde fermindere, fanwege it feit dat allinich bepaalde blokken moatte wurde restaurearre, en net alle gegevens fan 'e mislearre skiif.

Wêrom is it wichtich om software te validearjen op jo opslach mei hege beskikberens (99,9999%)Ferdieling fan gegevensblokken oer skiven by it brûken fan Distributed RAID (DRAID) yn RAID-5-modus.

En dit diagram lit de logika sjen fan hoe't in DRAID-werbou wurket yn it gefal fan ien skiiffal:

Wêrom is it wichtich om software te validearjen op jo opslach mei hege beskikberens (99,9999%)Logika fan DRAID opnij as ien skiif mislearret

Dêrnei foarmje ien of mear MDisks in saneamde Pool. Binnen itselde swimbad is it net oan te rieden om MDisk te brûken mei ferskate RAID / DRAID-nivo's op skiven fan itselde type. Wy geane hjir net te djip op yn, want... wy binne fan plan om dit te dekken yn ien fan 'e folgjende artikels. No, yn feite, Pool is ferdield yn Volumes, dy't wurde presintearre mei ien of oare blok tagong protokol oan de hosts.

Sa, wy, as gefolch fan de situaasje beskreaun yn APAR HU02104, Troch it logyske mislearjen fan trije skiven, stoppe MDisk funksjoneel te wêzen, wat op syn beurt resultearre yn it mislearjen fan 'e Pool en de oerienkommende Volumes.

Om't dizze systemen frij tûk binne, kinne se ferbûn wurde mei it IBM Storage Insights cloud-basearre monitorsysteem, dat automatysk in tsjinstfersyk nei IBM-stipe stjoert as der in probleem opkomt. In applikaasje wurdt makke en IBM-spesjalisten fiere op ôfstân diagnostyk út en kontakt opnimme mei de systeembrûker. 

Hjirmei waard it probleem frij fluch oplost en waard in prompt oanbefelling ûntfongen fan 'e stipetsjinst om ús systeem te aktualisearjen nei de earder selektearre firmware 8.2.1.9, dy't op dat stuit al reparearre wie. It befêstiget corresponding Release Note.

Resultaten en ús oanbefellings

As it sprekwurd seit: "Alles goed dat goed einiget." De brek yn 'e firmware hat gjin serieuze problemen feroarsake - de tsjinners waarden sa gau mooglik restaurearre en sûnder gegevensferlies. Guon kliïnten moasten firtuele masines opnij starte, mar yn 't algemien wiene wy ​​taret op mear negative gefolgen, om't wy deistige backups meitsje fan alle ynfrastruktuer-eleminten en kliïntmasines. 

Wy hawwe befêstiging krigen dat sels betroubere systemen mei 99,9999% taseine beskikberens omtinken en yntiids ûnderhâld fereaskje. Op grûn fan 'e situaasje hawwe wy in oantal konklúzjes foar ússels lutsen en ús oanbefellings diele:

  • It is ymperatyf om de frijlitting fan updates te kontrolearjen, Release Notes te studearjen foar korreksjes fan potinsjeel krityske problemen, en plande updates op 'e tiid út te fieren.

    Dit is in organisatoarysk en sels frij dúdlik punt, dêr't, sa't it liket, net de muoite wurdich is om op te rjochtsjen. Op dizze "nivo grûn" kinne jo lykwols frij maklik stroffelje. Eins wie it dit momint dat de hjirboppe beskreaune problemen tafoege. Wês heul foarsichtich by it opstellen fan 'e updateregeljouwing en kontrolearje de neilibjen fan har net minder foarsichtich. Dit punt hat mear te krijen mei it begryp "dissipline".

  • It is altyd better om it systeem te hâlden mei de lêste softwareferzje. Boppedat is de hjoeddeiske net dyjinge dy't in gruttere numerike oantsjutting hat, mar wol dy mei in lettere útjeftedatum. 

    Bygelyks, IBM hâldt op syn minst twa softwarereleases by de tiid foar har opslachsystemen. Op it momint fan dit skriuwen binne dit 8.2 en 8.3. Updates foar 8.2 komme earder út. In ferlykbere update foar 8.3 wurdt normaal frijlitten mei in lichte fertraging.

    Release 8.3 hat in oantal funksjonele foardielen, Bygelyks, de mooglikheid om te wreidzjen MDisk (yn DRAID modus) troch tafoegjen fan ien of mear nije skiven (dizze funksje is ferskynd sûnt ferzje 8.3.1). Dit is in frij basale funksjonaliteit, mar yn 8.2 is d'r spitigernôch gjin sa'n funksje.

  • As it net mooglik is om ien of oare reden te aktualisearjen, dan foar ferzjes fan Spectrum Virtualize-software foarôfgeand oan ferzjes 8.2.1.9 en 8.3.1.0 (wêr't de hjirboppe beskreaune brek relevant is), om it risiko fan it foarkommen te ferminderjen, advisearret IBM technyske stipe beheine systeem prestaasjes op it swimbad nivo, lykas werjûn yn de figuer hjirûnder (de foto waard nommen yn de Russified ferzje fan de GUI). De wearde fan 10000 IOPS wurdt werjûn as foarbyld en wurdt selektearre neffens de skaaimerken fan jo systeem.

Wêrom is it wichtich om software te validearjen op jo opslach mei hege beskikberens (99,9999%)Beheine IBM opslach prestaasjes

  • It is needsaaklik om de lading op opslachsystemen korrekt te berekkenjen en oerladen te foarkommen. Om dit te dwaan, kinne jo gebrûk meitsje fan of de IBM sizer (as jo tagong ta it), of de help fan partners, of tredden boarnen. It is ymperatyf te begripen de lading profyl op de opslach systeem, omdat Prestaasjes yn MB / s en IOPS fariearje sterk ôfhinklik fan op syn minst de folgjende parameters:

    • operaasje type: lêze of skriuwe,

    • operaasje blok grutte,

    • persintaazje lês- en skriuwoperaasjes yn 'e totale I / O-stream.

    Ek de snelheid fan operaasjes wurdt beynfloede troch hoe't gegevens blokken wurde lêzen: sequentially of yn willekeurige folchoarder. By it útfieren fan meardere gegevenstagongsoperaasjes oan 'e applikaasjekant is d'r it konsept fan ôfhinklike operaasjes. It is ek oan te rieden om dêr rekken mei te hâlden. Dit alles kin helpe om de totaliteit fan gegevens te sjen fan prestaasjestellers fan it OS, opslachsysteem, servers / hypervisors, en ek in begryp fan 'e bestjoeringsfunksjes fan applikaasjes, DBMS's en oare "konsuminten" fan skiifboarnen.

  • En as lêste, wês wis dat jo backups bywurke hawwe en wurkje. It reservekopyskema moat wurde konfigureare op basis fan akseptabele RPO-wearden foar it bedriuw, en periodike yntegriteitskontrôles fan 'e backups moatte wurde ferifiearre (hielwat leveransiers fan backupsoftware hawwe automatisearre ferifikaasje ymplementearre yn har produkten) om in akseptabele RTO-wearde te garandearjen.

Tankewol foar it lêzen oant it ein.
Wy binne ree om jo fragen en opmerkingen te beantwurdzjen yn 'e kommentaren. Ek Wy noegje jo út om te abonnearjen op ús telegramkanaal, wêryn wy regelmjittige promoasjes hâlde (koartingen op IaaS en kado's foar promoasjekoades oant 100% op VPS), skriuwe nijsgjirrich nijs en kundigje nije artikels oan op it Habr-blog.

Boarne: www.habr.com

Add a comment