Kāpēc ir svarīgi pārbaudīt programmatūru jūsu augstas pieejamības krātuvē (99,9999%)

Kāpēc ir svarīgi pārbaudīt programmatūru jūsu augstas pieejamības krātuvē (99,9999%)

Kura programmaparatÅ«ras versija ir ā€œpareizākāā€ un ā€œstrādājoŔākāā€? Ja uzglabāŔanas sistēma garantē kļūdu toleranci 99,9999%, vai tas nozÄ«mē, ka tā darbosies bez pārtraukumiem pat bez programmatÅ«ras atjaunināŔanas? Vai, gluži pretēji, lai iegÅ«tu maksimālu kļūdu toleranci, vienmēr jāinstalē jaunākā programmaparatÅ«ra? Mēs centÄ«simies atbildēt uz Å”iem jautājumiem, pamatojoties uz mÅ«su pieredzi.

Mazs ievads

Mēs visi saprotam, ka katra programmatÅ«ras versija, neatkarÄ«gi no tā, vai tā ir operētājsistēma vai ierÄ«ces draiveris, bieži satur defektus/kļūdas un citas "funkcijas", kas var "neparādÄ«ties" lÄ«dz iekārtas kalpoÅ”anas laika beigām vai "atvērtas". tikai noteiktos apstākļos. Šādu nianÅ”u skaits un nozÄ«me ir atkarÄ«ga no programmatÅ«ras sarežģītÄ«bas (funkcionalitātes) un no testÄ“Å”anas kvalitātes tās izstrādes laikā. 

Bieži vien lietotāji paliek pie ā€œrÅ«pnÄ«cas programmaparatÅ«rasā€ (slavenais ā€œtā darbojas, tāpēc nejaucieties ar toā€) vai vienmēr instalē jaunāko versiju (pēc viņu izpratnes jaunākā nozÄ«mē visdarbÄ«gāko). Mēs izmantojam citu pieeju - mēs skatāmies izlaiduma piezÄ«mes visam izmantotajam mClouds mākonÄ« aprÄ«kojumu un rÅ«pÄ«gi izvēlieties katrai iekārtai atbilstoÅ”o programmaparatÅ«ru.

Pie Ŕāda secinājuma, kā saka, nonācām ar pieredzi. Izmantojot mÅ«su darbÄ«bas piemēru, mēs jums pateiksim, kāpēc solÄ«tā 99,9999% uzglabāŔanas sistēmu uzticamÄ«ba neko nenozÄ«mē, ja jÅ«s nekavējoties neuzraugāt programmatÅ«ras atjauninājumus un aprakstus. MÅ«su korpuss ir piemērots jebkura ražotāja uzglabāŔanas sistēmu lietotājiem, jo ā€‹ā€‹lÄ«dzÄ«ga situācija var notikt ar jebkura ražotāja aparatÅ«ru.

Jaunas uzglabāŔanas sistēmas izvēle

PagājuŔā gada beigās mÅ«su infrastruktÅ«rai tika pievienota interesanta datu uzglabāŔanas sistēma: IBM FlashSystem 5000 lÄ«nijas junioru modelis, kas iegādes brÄ«dÄ« saucās Storwize V5010e. Tagad tas tiek pārdots ar nosaukumu FlashSystem 5010, bet patiesÄ«bā tā ir tā pati aparatÅ«ras bāze ar to paÅ”u Spectrum Virtualize iekÅ”pusē. 

Starp citu, galvenā atŔķirÄ«ba starp IBM FlashSystem ir vienotas pārvaldÄ«bas sistēmas klātbÅ«tne. Jaunākās sērijas modeļiem tas praktiski neatŔķiras no produktÄ«vāko modeļu modeļiem. Izvēloties konkrētu modeli, tiek nodroÅ”ināta tikai atbilstoÅ”a aparatÅ«ras bāze, kuras Ä«paŔības ļauj izmantot vienu vai otru funkcionalitāti vai nodroÅ”ina augstāku mērogojamÄ«bas lÄ«meni. ProgrammatÅ«ra identificē aparatÅ«ru un nodroÅ”ina Å”ai platformai nepiecieÅ”amo un pietiekamo funkcionalitāti.

Kāpēc ir svarīgi pārbaudīt programmatūru jūsu augstas pieejamības krātuvē (99,9999%)IBM FlashSystem 5010

ÄŖsi par mÅ«su modeli 5010. Å Ä« ir sākuma lÄ«meņa divu kontrolieru bloku uzglabāŔanas sistēma. Tas var uzņemt NLSAS, SAS, SSD diskus. NVMe izvietojums tajā nav pieejams, jo Å”is krātuves modelis ir novietots tā, lai atrisinātu problēmas, kurām nav nepiecieÅ”ama NVMe disku veiktspēja.

UzglabāŔanas sistēma tika iegādāta, lai tajā ievietotu arhÄ«va informāciju vai datus, kuriem netiek bieži piekļūts. Tāpēc mums pietika ar tā funkcionalitātes standarta komplektu: Tiering (Easy Tier), Thin Provision. ArÄ« veiktspēja NLSAS diskos 1000-2000 IOPS lÄ«menÄ« mÅ«s bija diezgan apmierinoÅ”a.

Mūsu pieredze - kā mēs neatjauninājām programmaparatūru laikā

Tagad par paÅ”u programmatÅ«ras atjauninājumu. Iegādes brÄ«dÄ« sistēmai jau bija nedaudz novecojusi Spectrum Virtualize programmatÅ«ras versija, proti, 8.2.1.3.

Mēs pētÄ«jām programmaparatÅ«ras aprakstus un plānojām atjauninājumu 8.2.1.9. Ja mēs bÅ«tu bijuÅ”i nedaudz efektÄ«vāki, Ŕī raksta nebÅ«tu ā€” kļūda nebÅ«tu radusies jaunākā programmaparatÅ«rā. Tomēr noteiktu iemeslu dēļ Ŕīs sistēmas atjaunināŔana tika atlikta.

Rezultātā neliela atjaunināŔanas aizkave radÄ«ja ārkārtÄ«gi nepatÄ«kamu attēlu, kā norādÄ«ts saites aprakstā: https://www.ibm.com/support/pages/node/6172341

Jā, Ŕīs versijas programmaparatÅ«rā bija aktuāls tā sauktais APAR (Authorized Program Analysis Report) HU02104. Tas parādās Ŕādi. Slodzes laikā noteiktos apstākļos keÅ”atmiņa sāk pārpildÄ«t, pēc tam sistēma pāriet aizsardzÄ«bas režīmā, kurā tā atspējo kopas I/O. MÅ«su gadÄ«jumā tas izskatÄ«jās pēc 3 disku atvienoÅ”anas RAID grupai režīmā RAID 6. AtvienoÅ”ana notiek 6 minÅ«tes. Pēc tam tiek atjaunota piekļuve baseina sējumiem.

Ja kāds nav pazīstams ar loģisko entītiju struktūru un nosaukumu pieŔķirŔanu IBM Spectrum Virtualize kontekstā, es tagad īsi paskaidroŔu.

Kāpēc ir svarīgi pārbaudīt programmatūru jūsu augstas pieejamības krātuvē (99,9999%)Krātuves sistēmas loģisko elementu uzbūve

Diski tiek apkopoti grupās, ko sauc par MDisk (pārvaldÄ«ts disks). MDisk var bÅ«t klasisks RAID (0,1,10,5,6) vai virtualizēts - DRAID (Distributed RAID). DRAID izmantoÅ”ana ļauj palielināt masÄ«va veiktspēju, jo... Tiks izmantoti visi grupas diski, un atjaunoÅ”anas laiks tiks samazināts, jo bÅ«s jāatjauno tikai daži bloki, nevis visi dati no neveiksmÄ«gā diska.

Kāpēc ir svarīgi pārbaudīt programmatūru jūsu augstas pieejamības krātuvē (99,9999%)Datu bloku sadale pa diskiem, izmantojot Distributed RAID (DRAID) RAID-5 režīmā.

Un Ŕī diagramma parāda loģiku, kā DRAID pārbūve darbojas viena diska atteices gadījumā:

Kāpēc ir svarÄ«gi pārbaudÄ«t programmatÅ«ru jÅ«su augstas pieejamÄ«bas krātuvē (99,9999%)DRAID atjaunoÅ”anas loÄ£ika, ja viens disks neizdodas

Tālāk viens vai vairāki MDiski veido tā saukto kopu. Viena pÅ«la ietvaros nav ieteicams izmantot MDisk ar dažādiem RAID/DRAID lÄ«meņiem viena veida diskos. Mēs neiedziļināsimies Å”ajā jautājumā, jo... mēs plānojam to aplÅ«kot vienā no Å”iem rakstiem. Nu, patiesÄ«bā, Pool ir sadalÄ«ts Volumes, kas tiek prezentēti, izmantojot vienu vai otru bloka piekļuves protokolu saimniekiem.

Tātad, mēs, kā rezultātā aprakstītā situācija APAR HU02104, trīs disku loģiskās kļūmes dēļ MDisk pārstāja darboties, kas, savukārt, izraisīja pūla un attiecīgo sējumu kļūmi.

Tā kā Ŕīs sistēmas ir diezgan gudras, tās var savienot ar IBM Storage Insights mākoņa bāzes uzraudzÄ«bas sistēmu, kas, ja rodas problēma, automātiski nosÅ«ta pakalpojuma pieprasÄ«jumu IBM atbalsta dienestam. Tiek izveidota aplikācija un IBM speciālisti attālināti veic diagnostiku un sazinās ar sistēmas lietotāju. 

Pateicoties tam, problēma tika atrisināta diezgan ātri un tika saņemts operatÄ«vs ieteikums no atbalsta dienesta atjaunināt mÅ«su sistēmu uz iepriekÅ” izvēlēto programmaparatÅ«ru 8.2.1.9, kas tobrÄ«d jau bija labota. Tas apstiprina atbilstoŔā izlaiduma piezÄ«me.

Rezultāti un mūsu ieteikumi

Kā saka: "Kas labi beidzas, tas ir labi." ProgrammaparatÅ«ras kļūda neradÄ«ja nopietnas problēmas - serveri tika atjaunoti pēc iespējas ātrāk un bez datu zuduma. Dažiem klientiem bija jārestartē virtuālās maŔīnas, taču kopumā bijām gatavi negatÄ«vākām sekām, jo ā€‹ā€‹katru dienu veicam visu infrastruktÅ«ras elementu un klientu maŔīnu dublējumus. 

Esam saņēmuÅ”i apstiprinājumu, ka pat uzticamām sistēmām ar 99,9999% solÄ«to pieejamÄ«bu ir nepiecieÅ”ama uzmanÄ«ba un savlaicÄ«ga apkope. Pamatojoties uz situāciju, mēs paÅ”i esam izdarÄ«juÅ”i vairākus secinājumus un dalāmies savos ieteikumos:

  • Ir obligāti jāuzrauga atjauninājumu izlaiÅ”ana, jāizpēta piezÄ«mes par laidienu, lai novērstu potenciāli kritiskas problēmas, un savlaicÄ«gi jāveic plānotie atjauninājumi.

    Tas ir organizatorisks un pat diezgan acÄ«mredzams punkts, uz kuru, Ŕķiet, nav vērts pievērsties. Taču uz Ŕīs ā€œlÄ«dzenās zemesā€ var diezgan viegli paklupt. PatiesÄ«bā tas bija Å”is brÄ«dis, kas pievienoja iepriekÅ” aprakstÄ«tās nepatikÅ”anas. Esiet ļoti uzmanÄ«gs, izstrādājot atjaunināŔanas noteikumus, un ne mazāk rÅ«pÄ«gi uzraugiet to ievēroÅ”anu. Å is punkts vairāk attiecas uz jēdzienu ā€œdisciplÄ«naā€.

  • Vienmēr ir labāk saglabāt sistēmu ar jaunāko programmatÅ«ras versiju. Turklāt paÅ”reizējais nav tas, kuram ir lielāks skaitliskais apzÄ«mējums, bet gan tas, kuram ir vēlāks izlaiÅ”anas datums. 

    Piemēram, IBM atjaunina vismaz divus programmatÅ«ras laidienus savām krātuves sistēmām. Å Ä«s rakstÄ«Å”anas laikā tie ir 8.2 un 8.3. 8.2 atjauninājumi tiek publicēti agrāk. LÄ«dzÄ«gs atjauninājums versijai 8.3 parasti tiek izlaists ar nelielu kavÄ“Å”anos.

    Izlaidumam 8.3 ir vairākas funkcionālas priekÅ”rocÄ«bas, piemēram, iespēja paplaÅ”ināt MDisk (DRAID režīmā), pievienojot vienu vai vairākus jaunus diskus (Ŕī funkcija ir parādÄ«jusies kopÅ” versijas 8.3.1). Å Ä« ir diezgan vienkārÅ”a funkcionalitāte, taču 8.2 versijā diemžēl Ŕādas funkcijas nav.

  • Ja kāda iemesla dēļ nav iespējams atjaunināt, tad Spectrum Virtualize programmatÅ«ras versijām, kas vecākas par 8.2.1.9 un 8.3.1.0 versijām (kur ir aktuāla iepriekÅ” aprakstÄ«tā kļūda), lai samazinātu tās raÅ”anās risku, IBM tehniskais atbalsts iesaka ierobežojot sistēmas veiktspēju baseina lÄ«menÄ«, kā parādÄ«ts attēlā zemāk (attēls tika uzņemts GUI rusificētajā versijā). VērtÄ«ba 10000 IOPS ir parādÄ«ta kā piemērs un tiek izvēlēta atbilstoÅ”i jÅ«su sistēmas Ä«paŔībām.

Kāpēc ir svarÄ«gi pārbaudÄ«t programmatÅ«ru jÅ«su augstas pieejamÄ«bas krātuvē (99,9999%)IBM krātuves veiktspējas ierobežoÅ”ana

  • Ir nepiecieÅ”ams pareizi aprēķināt uzglabāŔanas sistēmu slodzi un izvairÄ«ties no pārslodzes. Lai to izdarÄ«tu, varat izmantot vai nu IBM sizer (ja jums tam ir piekļuve), vai arÄ« partneru palÄ«dzÄ«bu vai treÅ”o puÅ”u resursus. Ir obligāti jāsaprot slodzes profils uzglabāŔanas sistēmā, jo Veiktspēja MB/s un IOPS ievērojami atŔķiras atkarÄ«bā no vismaz Ŕādiem parametriem:

    • darbÄ«bas veids: lasÄ«t vai rakstÄ«t,

    • operāciju bloka lielums,

    • lasÄ«Å”anas un rakstÄ«Å”anas operāciju procentuālā daļa kopējā I/O straumē.

    Tāpat darbÄ«bu ātrumu ietekmē tas, kā tiek nolasÄ«ti datu bloki: secÄ«gi vai nejauŔā secÄ«bā. Veicot vairākas datu piekļuves darbÄ«bas lietojumprogrammas pusē, pastāv atkarÄ«go darbÄ«bu jēdziens. Ieteicams arÄ« to ņemt vērā. Tas viss var palÄ«dzēt redzēt OS veiktspējas skaitÄ«tāju, uzglabāŔanas sistēmas, serveru/hipervizoru datu kopumu, kā arÄ« izpratni par lietojumprogrammu, DBVS un citu diska resursu ā€œpatērētājuā€ darbÄ«bas funkcijām.

  • Visbeidzot, pārliecinieties, ka dublējumkopijas ir atjauninātas un darbojas. DublÄ“Å”anas grafiks ir jākonfigurē, pamatojoties uz uzņēmumam pieņemamām RPO vērtÄ«bām, un ir jāpārbauda periodiskas dublējumu integritātes pārbaudes (daudzi dublējuma programmatÅ«ras pārdevēji savos produktos ir ieviesuÅ”i automatizētu verifikāciju), lai nodroÅ”inātu pieņemamu RTO vērtÄ«bu.

Paldies, ka izlasījāt līdz beigām.
Mēs esam gatavi komentāros atbildēt uz jūsu jautājumiem un komentāriem. Arī Mēs aicinām jūs abonēt mūsu telegrammas kanālu, kurā mēs regulāri rīkojam akcijas (atlaides IaaS un dāvanu kodus līdz 100% VPS), rakstām interesantas ziņas un paziņojam par jauniem rakstiem Habr emuārā.

Avots: www.habr.com

Pievieno komentāru