Zergatik da garrantzitsua softwarea zure erabilgarritasun handiko biltegiratze sisteman probatzea (% 99,9999)

Zergatik da garrantzitsua softwarea zure erabilgarritasun handiko biltegiratze sisteman probatzea (% 99,9999)

Zein firmware bertsio da "zuzena" eta "funtzionagarria"? Biltegiratze-sistema batek %99,9999ko akatsen tolerantzia bermatzen badu, horrek esan nahi du etenik gabe funtzionatuko duela software eguneratu gabe ere? Edo, aitzitik, akatsen tolerantzia maximoa lortzeko, beti instalatu beharko zenuke azken firmwarea? Galdera horiei erantzuten saiatuko gara gure esperientziatik abiatuta.

Sarrera txiki bat

Denok ulertzen dugu softwarearen bertsio bakoitzak, izan sistema eragilea edo gailu baten kontrolatzailea izan, sarritan akatsak/akatsak eta beste "ezaugarri" batzuk dituela ekipoaren bizitza amaitu arte "agertzen" edo "ireki" ez direla. baldintza jakin batzuetan bakarrik. Γ‘abardura horien kopurua eta garrantzia softwarearen konplexutasunaren (funtzionalitatearen) eta bere garapenean zehar egindako proben kalitatearen araberakoa da. 

Sarritan, erabiltzaileak "fabrikatik datorren firmwarean" geratzen dira ("funtzionatzen du, beraz, ez nahastu") edo beti instalatzen dute azken bertsioa (beraien ustez, azkenak esan nahi du funtzionatzen duena). Beste ikuspegi bat erabiltzen dugu - erabilitako guztiaren bertsio-oharrak ikusten ditugu mClouds hodeian ekipamendua eta arretaz hautatu ekipo bakoitzerako firmware egokia.

Ondorio honetara, esaten den bezala, esperientziarekin heldu gara. Gure funtzionamenduaren adibidea erabiliz, esango dizugu zergatik agindutako biltegiratze sistemen % 99,9999ko fidagarritasunak ez duela ezer esan nahi softwarearen eguneraketak eta deskribapenak berehala kontrolatzen ez badituzu. Gure kaxa edozein saltzailetako biltegiratze sistemen erabiltzaileentzat egokia da, edozein fabrikatzailetako hardwarearekin antzeko egoera gerta baitaiteke.

Biltegiratze sistema berri bat aukeratzea

Iazko urte amaieran, gure azpiegiturari datuak biltegiratzeko sistema interesgarri bat gehitu zitzaion: IBM FlashSystem 5000 lineako junior modelo bat, erostean Storwize V5010e izena zuena. Orain FlashSystem 5010 izenarekin saltzen da, baina egia esan hardware-base bera da barruan Spectrum Virtualize bera duena. 

Kudeaketa sistema bateratuaren presentzia da, bide batez, IBM FlashSystem-en arteko desberdintasun nagusia. Serie gazteen ereduetarako, ia ez da desberdina produktiboagoen ereduetatik. Eredu zehatz bat aukeratzeak hardware-oinarri egokia besterik ez du eskaintzen, eta horren ezaugarriek funtzionalitate bat edo beste erabiltzea edo eskalagarritasun maila handiagoa eskaintzen dute. Softwareak hardwarea identifikatzen du eta plataforma honetarako beharrezko eta nahikoa funtzionaltasuna eskaintzen du.

Zergatik da garrantzitsua softwarea zure erabilgarritasun handiko biltegiratze sisteman probatzea (% 99,9999)IBM FlashSystem 5010

Laburbilduz, gure 5010 ereduari buruz. Hau sarrera-mailako kontrolagailu bikoitzeko blokeen biltegiratze sistema da. NLSAS, SAS, SSD diskoak gorde ditzake. NVMe kokatzea ez dago eskuragarri, biltegiratze-eredu hau NVMe unitateen errendimendua behar ez duten arazoak konpontzeko kokatuta baitago.

Biltegiratze-sistema maiz eskuratzen ez den artxibo-informazioa edo datuak jasotzeko erosi zen. Horregatik, bere funtzionaltasunen multzo estandarra nahikoa zen guretzat: Tiring (Easy Tier), Thin Provision. NLSAS diskoen errendimendua 1000-2000 IOPS mailan ere nahiko pozgarria izan zen guretzat.

Gure esperientzia - nola ez genuen firmwarea garaiz eguneratu

Orain software eguneratzeari buruz. Erosteko unean, sistemak jada zaharkituta zegoen Spectrum Virtualize softwarearen bertsioa, hots, 8.2.1.3.

Firmwarearen deskribapenak aztertu eta eguneratzea aurreikusi genuen 8.2.1.9. Pixka bat eraginkorragoak izan bagina, artikulu hau ez zen existituko - akatsa ez zen firmware berriago batean gertatuko. Hala ere, zenbait arrazoirengatik, sistema honen eguneratzea atzeratu egin zen.

Ondorioz, eguneratze-atzerapen apur batek argazki oso desatsegina ekarri zuen, estekan dagoen deskribapenean bezala: https://www.ibm.com/support/pages/node/6172341

Bai, bertsio horretako firmwarean HU02104 APAR izenekoa (Authorized Program Analysis Report) zen garrantzitsua. Honela agertzen da. Kargapean, egoera jakin batzuetan, cachea gainezkatzen hasten da, gero sistema babes moduan sartzen da, eta bertan igerilekurako I/O desgaitzen du. Gure kasuan, RAID talde baterako 3 disko deskonektatzea zirudien RAID 6 moduan. Deskonexioa 6 minutuz gertatzen da. Ondoren, Igerilekuko Bolumenetarako sarbidea berrezartzen da.

Inork ez badaki IBM Spectrum Virtualize-ren testuinguruko entitate logikoen egitura eta izendapena ezagutzen, orain laburki azalduko dut.

Zergatik da garrantzitsua softwarea zure erabilgarritasun handiko biltegiratze sisteman probatzea (% 99,9999)Biltegiratze-sistemaren elementu logikoen egitura

Diskoak MDisk (Managed Disk) izeneko taldeetan biltzen dira. MDisk RAID klasikoa (0,1,10,5,6) edo birtualizatua izan daiteke - DRAID (RAID banatua). DRAID erabiltzeak array-aren errendimendua handitzeko aukera ematen du, izan ere... Taldeko disko guztiak erabiliko dira, eta berreraikitze-denbora murriztuko da, bloke jakin batzuk bakarrik berreskuratu beharko direlako, eta ez huts egin duen diskoaren datu guztiak.

Zergatik da garrantzitsua softwarea zure erabilgarritasun handiko biltegiratze sisteman probatzea (% 99,9999)Datu-blokeak diskoetan banatzea RAID banatua (DRAID) RAID-5 moduan erabiltzean.

Eta diagrama honek DRAID berreraikitze-lanaren logika erakusten du disko baten hutsegitearen kasuan:

Zergatik da garrantzitsua softwarea zure erabilgarritasun handiko biltegiratze sisteman probatzea (% 99,9999)Disko batek huts egiten duenean DRAID berreraikitzeko logika

Ondoren, MDisk batek edo gehiagok Pool izeneko bat osatzen dute. Igerileku berean, ez da gomendagarria mota bereko diskoetan RAID/DRAID maila ezberdineko MDisk erabiltzea. Ez dugu horretan sakonduko, zeren... hurrengo artikuluetako batean hau azaltzeko asmoa dugu. Beno, izan ere, Pool bolumenetan banatzen da, ostalarientzako bloke-sarbide-protokolo bat edo beste erabiliz aurkezten direnak.

Beraz, guk, deskribatutako egoeraren ondorioz APAR HU02104, hiru diskoren hutsegite logikoaren ondorioz, MDisk funtzionala izateari utzi zion, eta, aldi berean, Pool-aren eta dagozkien Bolumenen hutsegitea eragin zuen.

Sistema hauek nahiko adimendunak direnez, IBM Storage Insights hodeian oinarritutako monitorizazio-sistemara konekta daitezke, eta automatikoki zerbitzu-eskaera bat bidaltzen dio IBM laguntza-era arazoren bat gertatzen bada. Aplikazio bat sortzen da eta IBMko espezialistek urrunetik egiten dituzte diagnostikoak eta sistemaren erabiltzailearekin harremanetan jartzen dira. 

Horri esker, arazoa nahiko azkar konpondu zen eta laguntza-zerbitzuaren gomendio bat jaso zen gure sistema aurretik hautatutako firmware 8.2.1.9ra eguneratzeko, garai hartan jada konponduta zegoen. Berresten du dagokion Oharra.

Emaitzak eta gure gomendioak

Esaerak dioen bezala: "Ondo bukatzen dena". Firmwarearen akatsak ez zuen arazo larririk sortu - zerbitzariak lehenbailehen eta datu-galerarik gabe leheneratu ziren. Bezero batzuek makina birtualak berrabiarazi behar izan zituzten, baina, oro har, ondorio negatiboagoak izateko prestatuta geunden, egunero azpiegitura-elementu guztien eta bezero-makinen babeskopiak egiten baititugu. 

Berretsi dugu % 99,9999ko erabilgarritasuna duten sistema fidagarriek ere arreta eta mantentze puntuala behar dutela. Egoeraren arabera, hainbat ondorio atera ditugu eta gure gomendioak partekatzen ditugu:

  • Ezinbestekoa da eguneraketen kaleratzea kontrolatzea, Kaleratze-oharrak aztertzea larri izan daitezkeen arazoen konponketak egiteko eta aurreikusitako eguneraketak garaiz egitea.

    Antolakuntza eta nahiko agerikoa den puntua da, antza denez, arreta jartzea merezi ez duena. Hala ere, "lurzoru maila" honetan nahiko erraz estropezu dezakezu. Egia esan, une hori izan zen goian azaldutako arazoak gehitu zituena. Kontuz ibili eguneratze-araudia idazterakoan eta zaindu horiek betetzen direla ez hain arreta handiz. Puntu hau "diziplina" kontzeptuari dagokio gehiago.

  • Beti da hobe sistema azken software bertsioarekin mantentzea. Gainera, oraingoa ez da zenbakizko izendapen handiagoa duena, beranduago kaleratze data duena baizik. 

    Esaterako, IBM-k gutxienez bi software-oharra eguneratzen ditu bere biltegiratze-sistemetarako. Hau idazteko momentuan, hauek 8.2 eta 8.3 dira. 8.2rako eguneraketak lehenago ateratzen dira. 8.3rako antzeko eguneraketa bat atzerapen apur batekin kaleratu ohi da.

    8.3 bertsioak abantaila funtzional ugari ditu, adibidez, MDisk zabaltzeko gaitasuna (DRAID moduan) disko berri bat edo gehiago gehituz (funtzio hau 8.3.1 bertsiotik agertu da). Hau nahiko oinarrizko funtzionalitate bat da, baina 8.2-n, zoritxarrez, ez dago horrelako ezaugarririk.

  • Arrazoiren bategatik eguneratzea ezinezkoa bada, 8.2.1.9 eta 8.3.1.0 bertsioak baino lehenagoko Spectrum Virtualize softwarearen bertsioetarako (goian deskribatutako akatsa garrantzitsua den kasuetan), hori gertatzeko arriskua murrizteko, IBMko laguntza teknikoak gomendatzen du. sistemaren errendimendua igerileku mailan mugatzea, beheko irudian ikusten den bezala (argazkia GUI-ren Russified bertsioan atera zen). 10000 IOPS-ren balioa adibide gisa erakusten da eta zure sistemaren ezaugarrien arabera hautatzen da.

Zergatik da garrantzitsua softwarea zure erabilgarritasun handiko biltegiratze sisteman probatzea (% 99,9999)IBM biltegiratze-errendimendua mugatzea

  • Beharrezkoa da biltegiratze sistemen karga behar bezala kalkulatzea eta gainkarga saihestea. Horretarako, IBM-ren tamaina erabil dezakezu (horretarako sarbidea baduzu), edo bazkideen laguntza edo hirugarrenen baliabideak. Ezinbestekoa da biltegiratze-sistemako karga-profila ulertzea, zeren MB/s eta IOPS errendimendua asko aldatzen da, gutxienez, parametro hauen arabera:

    • eragiketa mota: irakurri edo idatzi,

    • eragiketa blokearen tamaina,

    • Irakurketa eta idazketa eragiketen ehunekoa I/O korronte osoan.

    Halaber, eragiketen abiadura datu-blokeak irakurtzeko moduak eragiten du: sekuentzialki edo ausazko ordenan. Aplikazioaren aldean hainbat datu sartzeko eragiketa egitean, menpeko eragiketen kontzeptua dago. Hori ere kontuan hartzea komeni da. Horrek guztiak sistema eragilearen, biltegiratze-sistemaren, zerbitzari/hipervisoreen errendimendu-kontagailuen datu guztiak ikusten lagun dezake, baita aplikazioen, DBMSen eta disko-baliabideen beste "kontsumitzaileen" funtzionamendu-ezaugarrien ulermena ere.

  • Eta azkenik, ziurtatu babeskopiak eguneratuta eta funtzionatzen duzula. Babeskopia-egutegia negoziorako RPO balio onargarrietan oinarrituta konfiguratu behar da, eta babeskopien aldian-aldian osotasun-egiaztapenak egiaztatu behar dira (bakoizketako software saltzaile gutxi batzuek egiaztapen automatizatua dute beren produktuetan) RTO balio onargarria ziurtatzeko.

Eskerrik asko amaiera arte irakurtzeagatik.
Zure galdera eta iruzkinak iruzkinetan erantzuteko prest gaude. Gainera Gure telegram kanalera harpidetzera gonbidatzen zaitugu, zeinetan ohiko promozioak egiten ditugu (IaaS-n deskontuak eta %100era arteko promozio-kodeetarako opariak VPSn), albiste interesgarriak idatzi eta artikulu berriak iragartzen ditugu Habr blogean.

Iturria: www.habr.com

Gehitu iruzkin berria