Prečo je dôležité overiť softvér na vašom úložisku s vysokou dostupnosťou (99,9999 %)

Prečo je dôležité overiť softvér na vašom úložisku s vysokou dostupnosťou (99,9999 %)

Ktorá verzia firmvéru je najviac „správna“ a „funkčná“? Ak úložný systém zaručuje odolnosť voči chybám 99,9999 %, znamená to, že bude fungovať bez prerušenia aj bez aktualizácie softvéru? Alebo naopak, aby ste dosiahli maximálnu odolnosť voči chybám, mali by ste vždy nainštalovať najnovší firmvér? Na tieto otázky sa pokúsime odpovedať na základe našich skúseností.

Malý úvod

Všetci chápeme, že každá verzia softvéru, či už ide o operačný systém alebo ovládač zariadenia, často obsahuje chyby/chyby a iné „funkcie“, ktoré sa nemusia „objaviť“ do konca životnosti zariadenia alebo „otvoriť“ len za určitých podmienok. Počet a význam takýchto nuancií závisí od zložitosti (funkčnosti) softvéru a od kvality testovania pri jeho vývoji. 

Používatelia často zostávajú na „firmvéri z továrne“ (známe „funguje, tak sa s ním nehrabte“) alebo si vždy nainštalujú najnovšiu verziu (podľa ich chápania najnovšia znamená najfunkčnejšiu). Používame iný prístup – pozrieme sa na poznámky k vydaniu pre všetko použité v cloude mClouds zariadení a starostlivo vyberte vhodný firmvér pre každý kus zariadenia.

K tomuto záveru sme dospeli, ako sa hovorí, so skúsenosťami. Na našom príklade fungovania vám povieme, prečo sľubovaná 99,9999% spoľahlivosť úložných systémov nič neznamená, ak nebudete promptne sledovať aktualizácie a popisy softvéru. Naša skrinka je vhodná pre používateľov úložných systémov od akéhokoľvek výrobcu, keďže podobná situácia môže nastať s hardvérom od akéhokoľvek výrobcu.

Výber nového úložného systému

Koncom minulého roka pribudol do našej infraštruktúry zaujímavý dátový úložný systém: juniorský model z rady IBM FlashSystem 5000, ktorý sa v čase kúpy volal Storwize V5010e. Teraz sa predáva pod názvom FlashSystem 5010, no v skutočnosti ide o rovnaký hardvérový základ s rovnakým Spectrum Virtualize vo vnútri. 

Prítomnosť jednotného riadiaceho systému je mimochodom hlavným rozdielom medzi IBM FlashSystem. Pri modeloch mladších sérií sa prakticky nelíši od modelov produktívnejších. Výber konkrétneho modelu poskytuje iba vhodnú hardvérovú základňu, ktorej vlastnosti umožňujú používať jednu alebo druhú funkcionalitu alebo poskytujú vyššiu úroveň škálovateľnosti. Softvér identifikuje hardvér a poskytuje potrebnú a dostatočnú funkčnosť pre túto platformu.

Prečo je dôležité overiť softvér na vašom úložisku s vysokou dostupnosťou (99,9999 %)IBM FlashSystem 5010

Stručne o našom modeli 5010. Toto je základný blokový úložný systém s dvoma ovládačmi. Pojme disky NLSAS, SAS, SSD. Umiestnenie NVMe v ňom nie je k dispozícii, pretože tento model úložiska je umiestnený tak, aby riešil problémy, ktoré nevyžadujú výkon jednotiek NVMe.

Úložný systém bol zakúpený na uloženie archívnych informácií alebo údajov, ku ktorým sa často nepristupuje. Stačil nám preto štandardný set jeho funkcionality: Tiering (Easy Tier), Thin Provision. Výkon na NLSAS diskoch na úrovni 1000-2000 IOPS bol pre nás tiež celkom uspokojivý.

Naša skúsenosť - ako sme neaktualizovali firmvér včas

Teraz o samotnej aktualizácii softvéru. V čase nákupu mal systém už mierne zastaranú verziu softvéru Spectrum Virtualize, a to 8.2.1.3.

Študovali sme popisy firmvéru a plánovali aktualizáciu 8.2.1.9. Keby sme boli trochu efektívnejší, tento článok by neexistoval – chyba by sa nevyskytla na novšom firmvéri. Z istých dôvodov však bola aktualizácia tohto systému odložená.

V dôsledku toho mierne oneskorenie aktualizácie viedlo k mimoriadne nepríjemnému obrázku, ako v popise na odkaze: https://www.ibm.com/support/pages/node/6172341

Áno, vo firmvéri tejto verzie bol relevantný takzvaný APAR (Authorized Program Analysis Report) HU02104. Vyzerá to nasledovne. Pri zaťažení sa za určitých okolností začne prepĺňať vyrovnávacia pamäť, potom systém prejde do ochranného režimu, v ktorom zakáže I/O pre fond. V našom prípade to vyzeralo na odpojenie 3 diskov pre RAID skupinu v režime RAID 6. K odpojeniu dochádza po dobu 6 minút. Ďalej sa obnoví prístup k zväzkom v oblasti.

Ak niekto nie je oboznámený so štruktúrou a pomenovaním logických entít v kontexte IBM Spectrum Virtualize, teraz v krátkosti vysvetlím.

Prečo je dôležité overiť softvér na vašom úložisku s vysokou dostupnosťou (99,9999 %)Štruktúra logických prvkov úložného systému

Disky sa zhromažďujú do skupín nazývaných MDisk (Managed Disk). MDisk môže byť klasický RAID (0,1,10,5,6) alebo virtualizovaný - DRAID (Distributed RAID). Použitie DRAID vám umožňuje zvýšiť výkon poľa, pretože... Použijú sa všetky disky v skupine a skráti sa čas prestavby, pretože bude potrebné obnoviť iba určité bloky a nie všetky údaje z chybného disku.

Prečo je dôležité overiť softvér na vašom úložisku s vysokou dostupnosťou (99,9999 %)Distribúcia dátových blokov medzi disky pri použití Distributed RAID (DRAID) v režime RAID-5.

A tento diagram ukazuje logiku toho, ako funguje prestavba DRAID v prípade zlyhania jedného disku:

Prečo je dôležité overiť softvér na vašom úložisku s vysokou dostupnosťou (99,9999 %)Logika DRAID prebudovania, keď jeden disk zlyhá

Ďalej jeden alebo viacero MDisk vytvorí takzvaný Pool. V rámci toho istého fondu sa neodporúča používať MDisk s rôznymi úrovňami RAID/DRAID na diskoch rovnakého typu. Nebudeme to rozoberať príliš hlboko, pretože... to plánujeme pokryť v jednom z nasledujúcich článkov. V skutočnosti je fond rozdelený na zväzky, ktoré sú hostiteľom prezentované pomocou jedného alebo druhého protokolu blokového prístupu.

Takže my, v dôsledku situácie opísanej v APAR HU02104MDisk prestal byť v dôsledku logického zlyhania troch diskov funkčný, čo malo za následok zlyhanie Pool a zodpovedajúcich zväzkov.

Keďže sú tieto systémy celkom inteligentné, možno ich pripojiť ku cloudovému monitorovaciemu systému IBM Storage Insights, ktorý v prípade výskytu problému automaticky odošle servisnú požiadavku na podporu IBM. Vytvorí sa aplikácia a špecialisti IBM na diaľku vykonajú diagnostiku a kontaktujú používateľa systému. 

Vďaka tomu bol problém pomerne rýchlo vyriešený a od servisu prišlo promptné odporúčanie aktualizovať náš systém na predtým zvolený firmvér 8.2.1.9, ktorý bol v tom čase už opravený. Potvrdzuje to príslušná poznámka k vydaniu.

Výsledky a naše odporúčania

Ako sa hovorí: "Všetko dobré, čo sa dobre skončí." Chyba vo firmvéri nespôsobila vážne problémy - servery boli obnovené čo najskôr a bez straty dát. Niektorí klienti museli reštartovať virtuálne stroje, ale vo všeobecnosti sme boli pripravení na negatívnejšie dôsledky, keďže robíme denné zálohy všetkých prvkov infraštruktúry a klientskych strojov. 

Dostali sme potvrdenie, že aj spoľahlivé systémy s 99,9999% sľúbenou dostupnosťou vyžadujú pozornosť a včasnú údržbu. Na základe situácie sme pre seba vyvodili niekoľko záverov a zdieľame naše odporúčania:

  • Je nevyhnutné monitorovať vydávanie aktualizácií, študovať Poznámky k vydaniu kvôli opravám potenciálne kritických problémov a vykonávať plánované aktualizácie včas.

    Toto je organizačný a dokonca celkom zrejmý bod, na ktorý, ako sa zdá, nestojí za to zamerať sa. Na tomto „rovnom teréne“ však môžete celkom ľahko zakopnúť. V skutočnosti to bol tento moment, ktorý pridal vyššie opísané problémy. Buďte veľmi opatrní pri zostavovaní aktualizačných predpisov a nemenej pozorne sledujte ich dodržiavanie. Tento bod sa týka skôr pojmu „disciplína“.

  • Vždy je lepšie udržiavať systém s najnovšou verziou softvéru. Navyše, aktuálna nie je tá, ktorá má väčšie číselné označenie, ale skôr tá s neskorším dátumom vydania. 

    Napríklad IBM aktualizuje aspoň dve verzie softvéru pre svoje úložné systémy. V čase písania tohto článku sú to 8.2 a 8.3. Aktualizácie pre 8.2 vychádzajú skôr. Podobná aktualizácia pre 8.3 je zvyčajne vydaná s miernym oneskorením.

    Vydanie 8.3 má množstvo funkčných výhod, napríklad možnosť rozšírenia MDisk (v režime DRAID) pridaním jedného alebo viacerých nových diskov (táto funkcia sa objavila od verzie 8.3.1). Toto je pomerne základná funkcia, ale v 8.2, žiaľ, takáto funkcia neexistuje.

  • Ak z nejakého dôvodu nie je možné aktualizovať, potom pre verzie softvéru Spectrum Virtualize staršie ako 8.2.1.9 a 8.3.1.0 (kde sa chyba popísaná vyššie týka), aby sa znížilo riziko jej výskytu, technická podpora IBM odporúča obmedzenie výkonu systému na úrovni fondu, ako je znázornené na obrázku nižšie (obrázok bol nasnímaný v rusifikovanej verzii GUI). Hodnota 10000 XNUMX IOPS je uvedená ako príklad a je vybraná podľa charakteristík vášho systému.

Prečo je dôležité overiť softvér na vašom úložisku s vysokou dostupnosťou (99,9999 %)Obmedzenie výkonu úložného priestoru IBM

  • Je potrebné správne vypočítať zaťaženie skladovacích systémov a vyhnúť sa preťaženiu. Na tento účel môžete použiť buď nástroj IBM Sizer (ak k nemu máte prístup), alebo pomoc partnerov alebo zdroje tretích strán. Je nevyhnutné porozumieť profilu zaťaženia úložného systému, pretože Výkon v MB/s a IOPS sa značne líši v závislosti aspoň od nasledujúcich parametrov:

    • typ operácie: čítanie alebo zápis,

    • veľkosť operačného bloku,

    • percento operácií čítania a zápisu v celkovom toku I/O.

    Rýchlosť operácií je ovplyvnená aj tým, ako sa čítajú dátové bloky: sekvenčne alebo v náhodnom poradí. Pri vykonávaní viacerých operácií prístupu k údajom na strane aplikácie existuje koncept závislých operácií. Aj to je vhodné brať do úvahy. To všetko môže pomôcť vidieť súhrn údajov z počítadiel výkonu operačného systému, úložného systému, serverov/hypervízorov, ako aj pochopiť prevádzkové funkcie aplikácií, DBMS a iných „spotrebiteľov“ diskových prostriedkov.

  • A nakoniec sa uistite, že máte zálohy aktuálne a fungujúce. Plán zálohovania by mal byť nakonfigurovaný na základe hodnôt RPO prijateľných pre podnik a mali by sa overovať pravidelné kontroly integrity záloh (mnoho predajcov zálohovacieho softvéru má vo svojich produktoch implementované automatické overovanie), aby sa zabezpečila prijateľná hodnota RTO.

Ďakujem za prečítanie až do konca.
Sme pripravení odpovedať na vaše otázky a pripomienky v komentároch. Tiež Pozývame vás, aby ste sa prihlásili na odber nášho telegramového kanála, v rámci ktorej organizujeme pravidelné akcie (zľavy na IaaS a darčeky za propagačné kódy až do 100% na VPS), píšeme zaujímavé novinky a oznamujeme nové články na blogu Habr.

Zdroj: hab.com

Pridať komentár