Kwa nini ni Muhimu Kuthibitisha Programu kwenye Hifadhi Yako ya Upatikanaji wa Juu (99,9999%)

Kwa nini ni Muhimu Kuthibitisha Programu kwenye Hifadhi Yako ya Upatikanaji wa Juu (99,9999%)

Ni toleo gani la firmware ambalo ni "sahihi" na "linafanya kazi" zaidi? Ikiwa mfumo wa kuhifadhi unahakikisha uvumilivu wa hitilafu wa 99,9999%, hiyo inamaanisha kuwa utafanya kazi bila kukatizwa hata bila sasisho la programu? Au, kinyume chake, ili kupata uvumilivu wa juu wa makosa, unapaswa kusanikisha firmware ya hivi karibuni kila wakati? Tutajaribu kujibu maswali haya kulingana na uzoefu wetu.

Utangulizi mfupi

Sote tunaelewa kuwa kila toleo la programu, iwe mfumo wa uendeshaji au kiendeshi cha kifaa, mara nyingi huwa na kasoro/ hitilafu na "vipengele" vingine ambavyo huenda "visionekane" hadi mwisho wa maisha ya huduma ya kifaa, au "kufunguliwa" tu chini ya hali fulani. Nambari na umuhimu wa nuances vile inategemea utata (utendaji) wa programu na juu ya ubora wa kupima wakati wa maendeleo yake. 

Mara nyingi, watumiaji hukaa kwenye "programu kutoka kwa kiwanda" (maarufu "inafanya kazi, kwa hivyo usiisumbue") au usakinishe toleo la hivi karibuni (kwa ufahamu wao, njia ya hivi karibuni ndiyo inayofanya kazi zaidi). Tunatumia mbinu tofauti - tunaangalia maelezo ya kutolewa kwa kila kitu kilichotumiwa katika wingu la mClouds vifaa na uchague kwa uangalifu firmware inayofaa kwa kila kipande cha vifaa.

Tulifikia hitimisho hili, kama wanasema, na uzoefu. Kwa kutumia mfano wetu wa utendakazi, tutakuambia kwa nini uaminifu ulioahidiwa wa 99,9999% wa mifumo ya hifadhi haimaanishi chochote ikiwa hutafuatilia masasisho na maelezo ya programu mara moja. Kesi yetu inafaa kwa watumiaji wa mifumo ya uhifadhi kutoka kwa muuzaji yeyote, kwani hali kama hiyo inaweza kutokea kwa vifaa kutoka kwa mtengenezaji yeyote.

Kuchagua Mfumo Mpya wa Kuhifadhi

Mwishoni mwa mwaka jana, mfumo wa kuvutia wa kuhifadhi data uliongezwa kwa miundombinu yetu: mfano mdogo kutoka kwa mstari wa IBM FlashSystem 5000, ambao wakati wa ununuzi uliitwa Storwize V5010e. Sasa inauzwa chini ya jina FlashSystem 5010, lakini kwa kweli ni msingi wa vifaa sawa na Spectrum Virtualize ndani. 

Uwepo wa mfumo wa usimamizi wa umoja ni, kwa njia, tofauti kuu kati ya IBM FlashSystem. Kwa mifano ya mfululizo mdogo, ni kivitendo hakuna tofauti na mifano ya uzalishaji zaidi. Kuchagua mtindo maalum hutoa tu msingi wa vifaa vinavyofaa, sifa ambazo hufanya iwezekanavyo kutumia utendaji mmoja au mwingine au kutoa kiwango cha juu cha scalability. Programu hutambua maunzi na hutoa utendakazi muhimu na wa kutosha kwa jukwaa hili.

Kwa nini ni Muhimu Kuthibitisha Programu kwenye Hifadhi Yako ya Upatikanaji wa Juu (99,9999%)IBM FlashSystem 5010

Kwa ufupi kuhusu muundo wetu wa 5010. Huu ni mfumo wa uhifadhi wa vidhibiti viwili vya ngazi ya kuingia. Inaweza kubeba diski za NLSAS, SAS, SSD. Uwekaji wa NVMe haupatikani ndani yake, kwa kuwa mfano huu wa hifadhi umewekwa ili kutatua matatizo ambayo hayahitaji utendaji wa anatoa za NVMe.

Mfumo wa hifadhi ulinunuliwa ili kushughulikia taarifa za kumbukumbu au data ambayo haipatikani mara kwa mara. Kwa hiyo, seti ya kawaida ya utendaji wake ilikuwa ya kutosha kwetu: Tiering (Tier Rahisi), Utoaji Mwembamba. Utendaji kwenye diski za NLSAS katika kiwango cha 1000-2000 IOPS pia ulikuwa wa kuridhisha kwetu.

Uzoefu wetu - jinsi hatukusasisha firmware kwa wakati

Sasa kuhusu sasisho la programu yenyewe. Wakati wa ununuzi, mfumo tayari ulikuwa na toleo la zamani kidogo la programu ya Spectrum Virtualize, ambayo ni, 8.2.1.3.

Tulisoma maelezo ya firmware na tukapanga sasisho kwa 8.2.1.9. Ikiwa tungekuwa na ufanisi zaidi, makala hii haingekuwapo - mdudu haungetokea kwenye firmware ya hivi karibuni zaidi. Hata hivyo, kwa sababu fulani, sasisho la mfumo huu liliahirishwa.

Kwa hivyo, ucheleweshaji mdogo wa sasisho ulisababisha picha isiyofurahisha sana, kama ilivyo katika maelezo kwenye kiungo: https://www.ibm.com/support/pages/node/6172341

Ndiyo, katika firmware ya toleo hilo kinachojulikana kama APAR (Ripoti ya Uchambuzi wa Programu Iliyoidhinishwa) HU02104 ilikuwa muhimu. Inaonekana kama ifuatavyo. Chini ya mzigo, chini ya hali fulani, cache huanza kufurika, kisha mfumo huenda kwenye hali ya kinga, ambayo inazima I / O kwa bwawa. Kwa upande wetu, ilionekana kama kukata diski 3 kwa kikundi cha RAID katika hali ya RAID 6. Kukatwa hutokea kwa dakika 6. Ifuatayo, ufikiaji wa Kiasi kwenye Dimbwi hurejeshwa.

Ikiwa mtu yeyote hajui muundo na majina ya vyombo vya mantiki katika muktadha wa IBM Spectrum Virtualize, sasa nitaelezea kwa ufupi.

Kwa nini ni Muhimu Kuthibitisha Programu kwenye Hifadhi Yako ya Upatikanaji wa Juu (99,9999%)Muundo wa mambo ya mantiki ya mfumo wa uhifadhi

Disks hukusanywa katika vikundi vinavyoitwa MDisk (Diski iliyosimamiwa). MDisk inaweza kuwa RAID classic (0,1,10,5,6) au virtualized - DRAID (Kusambazwa RAID). Kutumia DRAID hukuruhusu kuongeza utendaji wa safu, kwa sababu ... Disks zote katika kikundi zitatumika, na muda wa kujenga upya utapunguzwa, kutokana na ukweli kwamba vitalu fulani tu vitahitajika kurejeshwa, na sio data zote kutoka kwa diski iliyoshindwa.

Kwa nini ni Muhimu Kuthibitisha Programu kwenye Hifadhi Yako ya Upatikanaji wa Juu (99,9999%)Usambazaji wa vizuizi vya data kwenye diski wakati wa kutumia Distributed RAID (DRAID) katika hali ya RAID-5.

Na mchoro huu unaonyesha mantiki ya jinsi ujenzi wa DRAID unavyofanya kazi katika tukio la kutofaulu kwa diski moja:

Kwa nini ni Muhimu Kuthibitisha Programu kwenye Hifadhi Yako ya Upatikanaji wa Juu (99,9999%)Mantiki ya kuunda tena DRAID wakati diski moja itashindwa

Ifuatayo, MDisks moja au zaidi huunda kinachojulikana kama Dimbwi. Ndani ya bwawa sawa, haipendekezi kutumia MDisk na viwango tofauti vya RAID/DRAID kwenye diski za aina moja. Hatutazingatia hili kwa undani sana, kwa sababu ... tunapanga kuzungumzia hilo katika mojawapo ya makala zifuatazo. Naam, kwa kweli, Pool imegawanywa katika Kiasi, ambacho kinawasilishwa kwa kutumia itifaki ya upatikanaji wa kuzuia moja au nyingine kwa majeshi.

Kwa hivyo, sisi, kama matokeo ya hali iliyoelezewa katika APAR HU02104, kutokana na kushindwa kwa mantiki ya disks tatu, MDisk iliacha kufanya kazi, ambayo, kwa upande wake, ilisababisha kushindwa kwa Pool na Volumes sambamba.

Kwa sababu mifumo hii ni mahiri sana, inaweza kuunganishwa kwenye mfumo wa ufuatiliaji wa IBM Storage Insights unaotegemea wingu, ambao hutuma kiotomatiki ombi la huduma kwa usaidizi wa IBM tatizo likitokea. Programu imeundwa na wataalamu wa IBM hufanya uchunguzi kwa mbali na kuwasiliana na mtumiaji wa mfumo. 

Shukrani kwa hili, suala lilitatuliwa haraka sana na pendekezo la haraka lilipokelewa kutoka kwa huduma ya usaidizi ili kusasisha mfumo wetu kwa firmware iliyochaguliwa hapo awali 8.2.1.9, ambayo wakati huo ilikuwa tayari imerekebishwa. Inathibitisha Taarifa ya Kutolewa inayolingana.

Matokeo na mapendekezo yetu

Kama msemo unavyosema: "yote ni sawa ambayo huisha vizuri." Hitilafu katika firmware haikusababisha matatizo makubwa - seva zilirejeshwa haraka iwezekanavyo na bila kupoteza data. Wateja wengine walilazimika kuwasha tena mashine pepe, lakini kwa ujumla tulikuwa tumejitayarisha kwa matokeo mabaya zaidi, kwani tunatengeneza nakala rudufu za kila siku za vitu vyote vya miundombinu na mashine za mteja. 

Tumepokea uthibitisho kwamba hata mifumo ya kuaminika yenye upatikanaji wa 99,9999% iliyoahidiwa inahitaji uangalifu na matengenezo ya wakati. Kulingana na hali hiyo, tumejitolea hitimisho kadhaa na kushiriki mapendekezo yetu:

  • Ni muhimu kufuatilia utolewaji wa masasisho, Utafiti wa Maelezo ya Toleo kwa masahihisho ya masuala yanayoweza kuwa muhimu, na kutekeleza masasisho yaliyopangwa kwa wakati ufaao.

    Hili ni jambo la shirika na hata dhahiri kabisa, ambalo, linaweza kuonekana, haifai kuzingatia. Hata hivyo, kwenye "usawa huu" unaweza kujikwaa kwa urahisi kabisa. Kwa kweli, ilikuwa wakati huu ambao uliongeza shida zilizoelezewa hapo juu. Kuwa mwangalifu sana wakati wa kuandaa kanuni za sasisho na ufuatilie kufuata kwa uangalifu. Hatua hii inahusiana zaidi na dhana ya "nidhamu".

  • Daima ni bora kuweka mfumo na toleo la hivi karibuni la programu. Zaidi ya hayo, ya sasa si ile iliyo na jina kubwa la nambari, bali ile iliyo na tarehe ya kutolewa baadaye. 

    Kwa mfano, IBM husasisha angalau matoleo mawili ya programu kwa mifumo yake ya hifadhi. Wakati wa uandishi huu, hizi ni 8.2 na 8.3. Sasisho za 8.2 hutoka mapema. Sasisho sawa la 8.3 kawaida hutolewa kwa kuchelewa kidogo.

    Kutolewa kwa 8.3 kuna faida kadhaa za kazi, kwa mfano, uwezo wa kupanua MDisk (katika hali ya DRAID) kwa kuongeza diski moja au zaidi (kipengele hiki kimeonekana tangu toleo la 8.3.1). Huu ni utendakazi wa kimsingi, lakini katika 8.2, kwa bahati mbaya, hakuna kipengele kama hicho.

  • Ikiwa haiwezekani kusasisha kwa sababu fulani, basi kwa matoleo ya programu ya Spectrum Virtualize kabla ya matoleo 8.2.1.9 na 8.3.1.0 (ambapo hitilafu iliyoelezwa hapo juu inafaa), ili kupunguza hatari ya kutokea kwake, usaidizi wa kiufundi wa IBM unapendekeza. kupunguza utendaji wa mfumo katika kiwango cha bwawa, kama inavyoonyeshwa kwenye takwimu hapa chini (picha ilichukuliwa katika toleo la Russified la GUI). Thamani ya 10000 IOPS inaonyeshwa kama mfano na huchaguliwa kulingana na sifa za mfumo wako.

Kwa nini ni Muhimu Kuthibitisha Programu kwenye Hifadhi Yako ya Upatikanaji wa Juu (99,9999%)Inapunguza utendaji wa hifadhi ya IBM

  • Inahitajika kuhesabu kwa usahihi mzigo kwenye mifumo ya uhifadhi na epuka upakiaji. Ili kufanya hivyo, unaweza kutumia saizi ya IBM (ikiwa unaweza kuipata), au usaidizi wa washirika, au rasilimali za watu wengine. Ni muhimu kuelewa wasifu wa mzigo kwenye mfumo wa kuhifadhi, kwa sababu Utendaji katika MB/s na IOPS hutofautiana sana kulingana na angalau vigezo vifuatavyo:

    • aina ya operesheni: kusoma au kuandika,

    • ukubwa wa kizuizi cha operesheni,

    • asilimia ya shughuli za kusoma na kuandika katika mtiririko wa jumla wa I/O.

    Pia, kasi ya uendeshaji huathiriwa na jinsi vitalu vya data vinavyosomwa: kwa mfululizo au kwa utaratibu wa nasibu. Wakati wa kufanya shughuli nyingi za ufikiaji wa data kwenye upande wa programu, kuna dhana ya shughuli tegemezi. Inashauriwa pia kuzingatia hili. Yote hii inaweza kusaidia kuona jumla ya data kutoka kwa vihesabu vya utendaji vya OS, mfumo wa hifadhi, seva / hypervisors, pamoja na uelewa wa vipengele vya uendeshaji wa programu, DBMS na "watumiaji" wengine wa rasilimali za disk.

  • Na hatimaye, hakikisha kuwa na chelezo hadi sasa na kufanya kazi. Ratiba ya chelezo inapaswa kusanidiwa kulingana na thamani za RPO zinazokubalika kwa biashara, na ukaguzi wa mara kwa mara wa nakala rudufu unapaswa kuthibitishwa (wachuuzi wachache wa programu chelezo wametekeleza uthibitishaji wa kiotomatiki katika bidhaa zao) ili kuhakikisha thamani inayokubalika ya RTO.

Asante kwa kusoma hadi mwisho.
Tuko tayari kujibu maswali na maoni yako katika maoni. Pia Tunakualika ujiandikishe kwa chaneli yetu ya telegraph, ambamo tunashikilia matangazo ya kawaida (punguzo kwenye IaaS na zawadi kwa misimbo ya matangazo hadi 100% kwenye VPS), andika habari za kupendeza na utangaze nakala mpya kwenye blogi ya Habr.

Chanzo: mapenzi.com

Kuongeza maoni