Għaliex huwa Importanti li Tivvalida s-Software fuq il-Ħażna ta' Disponibbiltà Għolja Tiegħek (99,9999%)

Għaliex huwa Importanti li Tivvalida s-Software fuq il-Ħażna ta' Disponibbiltà Għolja Tiegħek (99,9999%)

Liema verżjoni tal-firmware hija l-aktar "korretta" u "taħdem"? Jekk sistema ta' ħażna tiggarantixxi tolleranza għall-ħsarat ta' 99,9999%, dan ifisser li se taħdem mingħajr interruzzjoni anke mingħajr aġġornament tas-softwer? Jew, għall-kuntrarju, biex tikseb tolleranza massima għall-ħsarat, għandek dejjem tinstalla l-aħħar firmware? Se nippruvaw inwieġbu dawn il-mistoqsijiet ibbażati fuq l-esperjenza tagħna.

Introduzzjoni żgħira

Ilkoll nifhmu li kull verżjoni tas-softwer, kemm jekk tkun sistema operattiva jew sewwieq għal apparat, ħafna drabi jkun fiha difetti/bugs u "karatteristiċi" oħra li jistgħu ma "jidhru" sa tmiem il-ħajja tas-servizz tat-tagħmir, jew "miftuħa" biss taħt ċerti kundizzjonijiet. In-numru u s-sinifikat ta 'tali sfumaturi jiddependi fuq il-kumplessità (funzjonalità) tas-softwer u fuq il-kwalità tal-ittestjar matul l-iżvilupp tiegħu. 

Ħafna drabi, l-utenti jibqgħu fuq il-"firmware mill-fabbrika" (il-famuż "taħdem, għalhekk ma tħawwadx magħha") jew dejjem jinstallaw l-aħħar verżjoni (fil-fehma tagħhom, l-aħħar tfisser l-aktar li taħdem). Aħna nużaw approċċ differenti - inħarsu lejn in-noti tar-rilaxx għal dak kollu li ntuża fis-sħaba tal-mClouds tagħmir u agħżel bir-reqqa l-firmware xieraq għal kull biċċa tagħmir.

Wasalna għal din il-konklużjoni, kif jgħidu, bl-esperjenza. Bl-użu ta 'l-eżempju tagħna ta' operazzjoni, aħna ngħidulek għaliex l-affidabilità ta '99,9999% imwiegħda tas-sistemi ta' ħażna ma tfisser xejn jekk ma tissorveljax fil-pront l-aġġornamenti u d-deskrizzjonijiet tas-softwer. Il-każ tagħna huwa adattat għal utenti ta 'sistemi ta' ħażna minn kwalunkwe bejjiegħ, peress li sitwazzjoni simili tista 'tiġri b'ħardwer minn kwalunkwe manifattur.

Għażla ta 'Sistema Ġdida ta' Ħażna

Fl-aħħar tas-sena li għaddiet, ġiet miżjuda sistema ta 'ħażna ta' data interessanti mal-infrastruttura tagħna: mudell junior mil-linja IBM FlashSystem 5000, li fiż-żmien tax-xiri kien jissejjaħ Storwize V5010e. Issa huwa mibjugħ taħt l-isem FlashSystem 5010, iżda fil-fatt huwa l-istess bażi hardware bl-istess Spectrum Virtualize ġewwa. 

Il-preżenza ta 'sistema ta' ġestjoni unifikata hija, mill-mod, id-differenza ewlenija bejn IBM FlashSystem. Għal mudelli tas-serje iżgħar, prattikament mhuwiex differenti minn mudelli ta 'dawk aktar produttivi. L-għażla ta 'mudell speċifiku tipprovdi biss il-bażi tal-ħardwer xierqa, li l-karatteristiċi tagħha jagħmluha possibbli li tintuża waħda jew oħra funzjonalità jew tipprovdi livell ogħla ta' skalabbiltà. Is-softwer jidentifika l-ħardwer u jipprovdi l-funzjonalità meħtieġa u suffiċjenti għal din il-pjattaforma.

Għaliex huwa Importanti li Tivvalida s-Software fuq il-Ħażna ta' Disponibbiltà Għolja Tiegħek (99,9999%)IBM FlashSystem 5010

Fil-qosor dwar il-mudell tagħna 5010. Din hija sistema ta 'ħażna ta' blokki b'kontroll doppju ta 'livell ta' dħul. Jista 'jakkomoda diski NLSAS, SAS, SSD. It-tqegħid ta 'NVMe mhuwiex disponibbli fih, peress li dan il-mudell tal-ħażna huwa pożizzjonat biex isolvi problemi li ma jeħtiġux il-prestazzjoni ta' drives NVMe.

Is-sistema tal-ħażna nxtrat biex takkomoda informazzjoni arkivjali jew data li ma tiġix aċċessata ta’ spiss. Għalhekk, is-sett standard tal-funzjonalità tiegħu kien biżżejjed għalina: Tiring (Easy Tier), Thin Provision. Il-prestazzjoni fuq diski NLSAS fil-livell ta '1000-2000 IOPS kienet ukoll pjuttost sodisfaċenti għalina.

L-esperjenza tagħna - kif aħna ma aġġornajniex il-firmware fil-ħin

Issa dwar l-aġġornament tas-softwer innifsu. Fiż-żmien tax-xiri, is-sistema diġà kellha verżjoni kemmxejn skaduta tas-softwer Spectrum Virtualize, jiġifieri, 8.2.1.3.

Studjajna d-deskrizzjonijiet tal-firmware u ppjanajna aġġornament għal 8.2.1.9. Kieku konna ftit aktar effiċjenti, dan l-artikolu ma kienx jeżisti - il-bug ma kienx iseħħ fuq firmware aktar riċenti. Madankollu, għal ċerti raġunijiet, l-aġġornament ta’ din is-sistema ġie pospost.

Bħala riżultat, dewmien żgħir fl-aġġornament wassal għal stampa estremament spjaċevoli, bħal fid-deskrizzjoni fil-link: https://www.ibm.com/support/pages/node/6172341

Iva, fil-firmware ta' dik il-verżjoni l-hekk imsejjaħ APAR (Rapport ta' Analiżi tal-Programm Awtorizzat) HU02104 kien rilevanti. Jidher kif ġej. Taħt tagħbija, taħt ċerti ċirkostanzi, il-cache jibda jfur, imbagħad is-sistema tidħol fil-mod protettiv, li fiha tiddiżattiva I/O għall-pool. Fil-każ tagħna, deher li skonnettja diski 3 għal grupp RAID fil-modalità RAID 6. L-iskonnessjoni sseħħ għal minuti 6. Sussegwentement, l-aċċess għall-Volumi fil-Pool jiġi restawrat.

Jekk xi ħadd ma jkunx familjari ma 'l-istruttura u l-ismijiet ta' entitajiet loġiċi fil-kuntest ta 'IBM Spectrum Virtualize, issa se nispjega fil-qosor.

Għaliex huwa Importanti li Tivvalida s-Software fuq il-Ħażna ta' Disponibbiltà Għolja Tiegħek (99,9999%)Struttura tal-elementi loġiċi tas-sistema tal-ħażna

Id-diski jinġabru fi gruppi msejħa MDisk (Managed Disk). L-MDisk jista' jkun RAID klassiku (0,1,10,5,6) jew wieħed virtwali - DRAID (Distributed RAID). L-użu tad-DRAID jippermettilek li żżid il-prestazzjoni tal-firxa, minħabba li... Id-diski kollha fil-grupp se jintużaw, u l-ħin tal-bini mill-ġdid jitnaqqas, minħabba l-fatt li ċerti blokki biss se jkollhom bżonn jiġu rrestawrati, u mhux id-data kollha mid-diska falluta.

Għaliex huwa Importanti li Tivvalida s-Software fuq il-Ħażna ta' Disponibbiltà Għolja Tiegħek (99,9999%)Distribuzzjoni ta 'blokki tad-data fuq diski meta tuża Distributed RAID (DRAID) fil-mod RAID-5.

U din id-dijagramma turi l-loġika ta 'kif taħdem mill-ġdid DRAID fil-każ ta' ħsara waħda tad-disk:

Għaliex huwa Importanti li Tivvalida s-Software fuq il-Ħażna ta' Disponibbiltà Għolja Tiegħek (99,9999%)Loġika ta 'DRAID rebuild meta diska waħda tfalli

Sussegwentement, MDisks wieħed jew aktar jiffurmaw l-hekk imsejjaħ Pool. Fl-istess pool, mhux rakkomandat li tuża MDisk b'livelli differenti ta' RAID/DRAID fuq diski tal-istess tip. Mhux se nidħlu f’dan wisq fil-fond, għax... qed nippjanaw li nkopru dan f'wieħed mill-artikoli li ġejjin. Ukoll, fil-fatt, Pool huwa maqsum Volumi, li huma ppreżentati bl-użu ta 'protokoll ta' aċċess blokk wieħed jew ieħor lill-ospiti.

Allura, aħna, bħala riżultat tas-sitwazzjoni deskritta fi APAR HU02104, minħabba l-falliment loġiku ta 'tliet diski, MDisk ma baqax funzjonali, li, min-naħa tiegħu, irriżulta fil-falliment tal-Pool u l-Volumi korrispondenti.

Minħabba li dawn is-sistemi huma pjuttost intelliġenti, jistgħu jiġu konnessi mas-sistema ta 'monitoraġġ ibbażata fuq il-cloud IBM Storage Insights, li awtomatikament tibgħat talba għal servizz lill-appoġġ tal-IBM jekk isseħħ problema. Tinħoloq applikazzjoni u speċjalisti IBM mill-bogħod iwettqu dijanjostiċi u jikkuntattjaw lill-utent tas-sistema. 

Grazzi għal dan, il-kwistjoni ġiet solvuta pjuttost malajr u waslet rakkomandazzjoni fil-pront mis-servizz ta 'appoġġ biex taġġorna s-sistema tagħna għall-firmware 8.2.1.9 magħżul qabel, li dak iż-żmien kien diġà ġie ffissat. Jikkonferma Nota ta' Rilaxx korrispondenti.

Ir-riżultati u r-rakkomandazzjonijiet tagħna

Kif jgħid il-qal: “kollox tajjeb li jispiċċa tajjeb.” Il-bug fil-firmware ma kkawżax problemi serji - is-servers ġew restawrati malajr kemm jista 'jkun u mingħajr telf ta' data. Xi klijenti kellhom jerġgħu jibdew magni virtwali, iżda b'mod ġenerali konna ppreparati għal konsegwenzi aktar negattivi, peress li nagħmlu backups ta 'kuljum tal-elementi kollha tal-infrastruttura u l-magni tal-klijenti. 

Irċevejna konferma li anke sistemi affidabbli b'disponibbiltà mwiegħda ta '99,9999 jeħtieġu attenzjoni u manutenzjoni f'waqtha. Abbażi tas-sitwazzjoni, ġibna għadd ta’ konklużjonijiet għalina nfusna u naqsmu r-rakkomandazzjonijiet tagħna:

  • Huwa imperattiv li tissorvelja r-rilaxx ta 'aġġornamenti, tistudja Noti ta' Rilaxx għal korrezzjonijiet ta 'kwistjonijiet potenzjalment kritiċi, u twettaq aġġornamenti ppjanati fil-ħin.

    Dan huwa punt organizzattiv u saħansitra pjuttost ovvju, li, jidher, mhux ta 'min jiffoka fuqu. Madankollu, fuq din il-"art livell" tista 'tfixkel pjuttost faċilment. Fil-fatt, kien dan il-mument li żied l-inkwiet deskritt hawn fuq. Oqgħod attent ħafna meta tfassal ir-regolamenti tal-aġġornament u timmonitorja l-konformità magħhom mhux inqas bir-reqqa. Dan il-punt jirrelata aktar mal-kunċett ta ' "dixxiplina".

  • Huwa dejjem aħjar li żżomm is-sistema bl-aħħar verżjoni tas-softwer. Barra minn hekk, dik attwali mhix dik li għandha nomina numerika akbar, iżda pjuttost dik b'data ta 'rilaxx aktar tard. 

    Pereżempju, IBM iżżomm mill-inqas żewġ rilaxxi tas-softwer aġġornati għas-sistemi tal-ħażna tagħha. Fiż-żmien ta' din il-kitba, dawn huma 8.2 u 8.3. Aġġornamenti għal 8.2 joħorġu aktar kmieni. Aġġornament simili għal 8.3 normalment jiġi rilaxxat b'dewmien żgħir.

    Ir-Release 8.3 għandu numru ta 'vantaġġi funzjonali, pereżempju, il-kapaċità li jespandi MDisk (fil-modalità DRAID) billi żżid diski waħda jew aktar ġodda (din il-karatteristika dehret mill-verżjoni 8.3.1). Din hija funzjonalità pjuttost bażika, iżda f'8.2, sfortunatament, m'hemm l-ebda karatteristika bħal din.

  • Jekk ma jkunx possibbli li taġġorna għal xi raġuni, allura għall-verżjonijiet tas-softwer Spectrum Virtualize qabel il-verżjonijiet 8.2.1.9 u 8.3.1.0 (fejn il-bug deskritt hawn fuq huwa rilevanti), biex jitnaqqas ir-riskju li jseħħu, l-appoġġ tekniku IBM jirrakkomanda li jillimitaw il-prestazzjoni tas-sistema fil-livell tal-pool, kif muri fil-figura hawn taħt (l-istampa ttieħdet fil-verżjoni Russified tal-GUI). Il-valur ta' 10000 IOPS jidher bħala eżempju u jintgħażel skont il-karatteristiċi tas-sistema tiegħek.

Għaliex huwa Importanti li Tivvalida s-Software fuq il-Ħażna ta' Disponibbiltà Għolja Tiegħek (99,9999%)Limitazzjoni tal-prestazzjoni tal-ħażna tal-IBM

  • Huwa meħtieġ li tikkalkula b'mod korrett it-tagħbija fuq is-sistemi tal-ħażna u tevita tagħbija żejda. Biex tagħmel dan, tista 'tuża jew is-sizer IBM (jekk ikollok aċċess għaliha), jew l-għajnuna ta' msieħba, jew riżorsi ta 'partijiet terzi. Huwa imperattiv li tifhem il-profil tat-tagħbija fuq is-sistema tal-ħażna, għaliex Il-prestazzjoni f'MB/s u IOPS tvarja ħafna skont mill-inqas il-parametri li ġejjin:

    • tip ta 'operazzjoni: aqra jew tikteb,

    • daqs tal-blokka tal-operat,

    • perċentwal ta' operazzjonijiet ta' qari u kitba fil-fluss I/O totali.

    Ukoll, il-veloċità tal-operazzjonijiet hija affettwata minn kif jinqraw il-blokki tad-dejta: b'mod sekwenzjali jew f'ordni każwali. Meta twettaq operazzjonijiet multipli ta 'aċċess għad-dejta fuq in-naħa tal-applikazzjoni, hemm il-kunċett ta' operazzjonijiet dipendenti. Huwa wkoll rakkomandabbli li dan jitqies. Dan kollu jista 'jgħin biex tara t-totalità tad-dejta mill-counters tal-prestazzjoni tal-OS, is-sistema tal-ħażna, is-servers/hypervisors, kif ukoll il-fehim tal-karatteristiċi operattivi tal-applikazzjonijiet, DBMSs u "konsumaturi" oħra tar-riżorsi tad-disk.

  • U fl-aħħarnett, kun żgur li jkollok backups aġġornati u li jaħdmu. L-iskeda tal-backup għandha tiġi kkonfigurata bbażata fuq valuri RPO aċċettabbli għan-negozju, u kontrolli perjodiċi tal-integrità tal-backups għandhom jiġu vverifikati (pjuttost ftit bejjiegħa tas-softwer tal-backup għandhom verifika awtomatizzata implimentata fil-prodotti tagħhom) biex jiżguraw valur RTO aċċettabbli.

Grazzi talli qrajt sal-aħħar.
Aħna lesti nwieġbu l-mistoqsijiet u l-kummenti tiegħek fil-kummenti. Ukoll Nistednuk tabbona għall-kanal tat-telegram tagħna, li fihom inżommu promozzjonijiet regolari (skontijiet fuq IaaS u b'xejn għal kodiċi promozzjonali sa 100% fuq VPS), niktbu aħbarijiet interessanti u nħabbru artikli ġodda fuq il-blog Habr.

Sors: www.habr.com

Żid kumment