Zašto je važno provjeriti valjanost softvera na vašoj pohrani visoke dostupnosti (99,9999%)

Zašto je važno provjeriti valjanost softvera na vašoj pohrani visoke dostupnosti (99,9999%)

Koja verzija firmvera je "najispravnija" i "radna"? Ako sustav za pohranu jamči toleranciju na pogreške od 99,9999%, znači li to da će raditi bez prekida čak i bez ažuriranja softvera? Ili, naprotiv, da biste postigli maksimalnu toleranciju na pogreške, uvijek biste trebali instalirati najnoviji firmware? Pokušat ćemo odgovoriti na ova pitanja na temelju našeg iskustva.

Mali uvod

Svi razumijemo da svaka verzija softvera, bilo da se radi o operativnom sustavu ili upravljačkom programu za uređaj, često sadrži nedostatke/bugove i druge "značajke" koje se možda neće "pojaviti" do kraja životnog vijeka opreme ili "otvoriti" samo pod određenim uvjetima. Broj i značaj takvih nijansi ovisi o složenosti (funkcionalnosti) softvera i kvaliteti testiranja tijekom njegovog razvoja. 

Korisnici često ostaju na "tvorničkom firmveru" (poznato "radi, pa se ne petljajte s njim") ili uvijek instaliraju najnoviju verziju (po njihovom razumijevanju, najnovija znači najfunkcionalnija). Koristimo drugačiji pristup - gledamo napomene o izdanju za sve što se koristi u mClouds oblaku opreme i pažljivo odaberite odgovarajući firmware za svaki dio opreme.

Do ovog zaključka došli smo, kako kažu, iskustvom. Koristeći naš primjer rada, reći ćemo vam zašto obećana 99,9999% pouzdanost sustava za pohranu ne znači ništa ako pravovremeno ne pratite ažuriranja softvera i opise. Naš slučaj je prikladan za korisnike sustava za pohranu bilo kojeg proizvođača, jer se slična situacija može dogoditi s hardverom bilo kojeg proizvođača.

Odabir novog sustava za pohranu

Krajem prošle godine našoj infrastrukturi dodan je zanimljiv sustav za pohranu podataka: junior model iz linije IBM FlashSystem 5000, koji se u trenutku kupnje zvao Storwize V5010e. Sada se prodaje pod imenom FlashSystem 5010, ali zapravo je to ista hardverska baza s istim Spectrum Virtualizeom unutra. 

Usput, prisutnost jedinstvenog sustava upravljanja glavna je razlika između IBM FlashSystem-a. Za modele mlađe serije praktički se ne razlikuje od modela produktivnijih. Odabirom određenog modela dobiva se samo odgovarajuća hardverska baza čije karakteristike omogućuju korištenje jedne ili druge funkcionalnosti ili pružaju višu razinu skalabilnosti. Softver identificira hardver i pruža potrebnu i dovoljnu funkcionalnost za ovu platformu.

Zašto je važno provjeriti valjanost softvera na vašoj pohrani visoke dostupnosti (99,9999%)IBM FlashSystem 5010

Ukratko o našem modelu 5010. Ovo je osnovni sustav za pohranu blokova s ​​dva kontrolera. Može primiti NLSAS, SAS, SSD diskove. NVMe položaj nije dostupan u njemu, budući da je ovaj model pohrane pozicioniran za rješavanje problema koji ne zahtijevaju performanse NVMe pogona.

Sustav pohrane kupljen je za smještaj arhivskih informacija ili podataka kojima se ne pristupa često. Stoga nam je standardni skup njegovih funkcionalnosti bio dovoljan: Tiering (Easy Tier), Thin Provision. Performanse na NLSAS diskovima na razini 1000-2000 IOPS također su bile sasvim zadovoljavajuće za nas.

Naše iskustvo - kako nismo ažurirali firmware na vrijeme

Sada o samom ažuriranju softvera. U trenutku kupnje sustav je već imao malo zastarjelu verziju softvera Spectrum Virtualize, tj. 8.2.1.3.

Proučili smo opise firmvera i planirali ažuriranje na 8.2.1.9. Da smo bili malo učinkovitiji, ovaj članak ne bi postojao - greška se ne bi pojavila na novijem firmveru. Međutim, iz određenih razloga ažuriranje ovog sustava je odgođeno.

Kao rezultat toga, malo kašnjenje ažuriranja dovelo je do izuzetno neugodne slike, kao u opisu na linku: https://www.ibm.com/support/pages/node/6172341

Da, u firmware-u te verzije bio je relevantan takozvani APAR (Authorized Program Analysis Report) HU02104. Čini se kako slijedi. Pod opterećenjem, pod određenim okolnostima, predmemorija se počinje prelijevati, a zatim sustav prelazi u zaštitni način rada, u kojem onemogućuje I/O za skup. U našem slučaju to je izgledalo kao odspajanje 3 diska za RAID grupu u načinu rada RAID 6. Do prekida veze dolazi 6 minuta. Zatim se vraća pristup volumenima u skupu.

Ako netko nije upoznat sa strukturom i imenovanjem logičkih entiteta u kontekstu IBM Spectrum Virtualizea, sada ću ukratko objasniti.

Zašto je važno provjeriti valjanost softvera na vašoj pohrani visoke dostupnosti (99,9999%)Struktura logičkih elemenata sustava za pohranu podataka

Diskovi se skupljaju u grupe koje se nazivaju MDisk (Managed Disk). MDisk može biti klasični RAID (0,1,10,5,6) ili virtualizirani - DRAID (Distributed RAID). Korištenje DRAID-a omogućuje vam povećanje performansi niza, jer... Svi diskovi u grupi će se koristiti, a vrijeme ponovne izgradnje će se smanjiti, zbog činjenice da će samo određene blokove trebati vratiti, a ne sve podatke s pokvarenog diska.

Zašto je važno provjeriti valjanost softvera na vašoj pohrani visoke dostupnosti (99,9999%)Distribucija blokova podataka po diskovima pri korištenju Distribuiranog RAID-a (DRAID) u RAID-5 načinu rada.

A ovaj dijagram pokazuje logiku kako DRAID rebuild radi u slučaju kvara jednog diska:

Zašto je važno provjeriti valjanost softvera na vašoj pohrani visoke dostupnosti (99,9999%)Logika ponovne izgradnje DRAID-a kada jedan disk pokvari

Zatim, jedan ili više MDiska formiraju takozvani Pool. Unutar istog skupa ne preporučuje se korištenje MDisk-a s različitim RAID/DRAID razinama na diskovima iste vrste. Nećemo previše ulaziti u ovo, jer... planiramo to obraditi u jednom od sljedećih članaka. Pa, zapravo, Pool je podijeljen na sveske, koje se hostovima prikazuju pomoću jednog ili drugog protokola za blokiranje pristupa.

Dakle, mi, kao rezultat situacije opisane u APAR HU02104, zbog logičnog kvara tri diska, MDisk je prestao biti funkcionalan, što je pak rezultiralo kvarom Poola i pripadajućih Volumea.

Budući da su ovi sustavi prilično pametni, mogu se spojiti na IBM Storage Insights sustav nadzora temeljen na oblaku, koji automatski šalje zahtjev za uslugu IBM-ovoj podršci ako se pojavi problem. Kreira se aplikacija i IBM stručnjaci daljinski provode dijagnostiku i kontaktiraju korisnika sustava. 

Zahvaljujući tome, problem je riješen prilično brzo i primljena je brza preporuka od službe za podršku da ažuriramo naš sustav na prethodno odabrani firmware 8.2.1.9, koji je u to vrijeme već bio popravljen. Potvrđuje odgovarajuća Napomena o izdanju.

Rezultati i naše preporuke

Kako se kaže: „sve je dobro što dobro završi“. Greška u firmware-u nije uzrokovala ozbiljne probleme - poslužitelji su vraćeni što je prije moguće i bez gubitka podataka. Neki su klijenti morali ponovno pokrenuti virtualne strojeve, ali općenito smo bili spremni na više negativnih posljedica, budući da svakodnevno radimo sigurnosne kopije svih infrastrukturnih elemenata i klijentskih strojeva. 

Dobili smo potvrdu da čak i pouzdani sustavi s obećanom dostupnošću od 99,9999% zahtijevaju pažnju i pravovremeno održavanje. Na temelju situacije izvukli smo niz zaključaka za sebe i podijelili svoje preporuke:

  • Imperativ je pratiti izdavanje ažuriranja, proučavati Napomene o izdanju za ispravke potencijalno kritičnih problema i pravodobno provesti planirana ažuriranja.

    Ovo je organizacijska, pa čak i prilično očita točka, na koju se, čini se, ne vrijedi usredotočiti. No, na ovoj “ravnoj podlozi” vrlo se lako možete spotaknuti. Zapravo, upravo je ovaj trenutak dodao gore opisane nevolje. Budite vrlo oprezni pri izradi ažuriranih propisa i ne manje pažljivo pratite usklađenost s njima. Ovo se više odnosi na koncept "discipline".

  • Uvijek je bolje držati sustav s najnovijom verzijom softvera. Štoviše, sadašnji nije onaj koji ima veću brojčanu oznaku, već onaj s kasnijim datumom izlaska. 

    Na primjer, IBM održava najmanje dva izdanja softvera ažuriranima za svoje sustave pohrane podataka. U vrijeme pisanja ovog teksta, to su 8.2 i 8.3. Ažuriranja za 8.2 izlaze ranije. Slično ažuriranje za 8.3 obično se objavljuje s malim kašnjenjem.

    Izdanje 8.3 ima brojne funkcionalne prednosti, na primjer, mogućnost proširenja MDisk (u DRAID načinu rada) dodavanjem jednog ili više novih diskova (ova se značajka pojavila od verzije 8.3.1). Ovo je prilično osnovna funkcija, ali u 8.2, nažalost, ne postoji takva značajka.

  • Ako nije moguće izvršiti ažuriranje iz nekog razloga, tada za verzije softvera Spectrum Virtualize prije verzija 8.2.1.9 i 8.3.1.0 (gdje je gore opisani bug relevantan), kako bi se smanjio rizik od njegovog pojavljivanja, IBM tehnička podrška preporučuje ograničavanje performansi sustava na razini bazena, kao što je prikazano na slici ispod (slika je snimljena u rusificiranoj verziji GUI-ja). Vrijednost od 10000 IOPS prikazana je kao primjer i odabire se prema karakteristikama vašeg sustava.

Zašto je važno provjeriti valjanost softvera na vašoj pohrani visoke dostupnosti (99,9999%)Ograničavanje performansi IBM-ove pohrane

  • Potrebno je pravilno izračunati opterećenje sustava za pohranu i izbjeći preopterećenje. Da biste to učinili, možete koristiti ili IBM sizer (ako mu imate pristup), ili pomoć partnera ili resurse trećih strana. Neophodno je razumjeti profil opterećenja na sustavu za pohranu, jer Performanse u MB/s i IOPS uvelike variraju ovisno barem o sljedećim parametrima:

    • vrsta operacije: čitanje ili pisanje,

    • veličina operativnog bloka,

    • postotak operacija čitanja i pisanja u ukupnom I/O toku.

    Također, na brzinu operacija utječe način na koji se blokovi podataka čitaju: uzastopno ili slučajnim redoslijedom. Prilikom izvođenja višestrukih operacija pristupa podacima na strani aplikacije, postoji koncept ovisnih operacija. Također je preporučljivo uzeti u obzir ovo. Sve to može pomoći da se vidi cjelina podataka iz brojača performansi OS-a, sustava za pohranu podataka, poslužitelja/hipervizora, kao i razumijevanju operativnih značajki aplikacija, DBMS-ova i drugih "potrošača" diskovnih resursa.

  • I na kraju, pobrinite se da sigurnosne kopije budu ažurirane i rade. Raspored sigurnosnog kopiranja trebao bi biti konfiguriran na temelju prihvatljivih RPO vrijednosti za tvrtku, a periodične provjere integriteta sigurnosnih kopija trebale bi se verificirati (mnogi dobavljači softvera za sigurnosno kopiranje imaju implementiranu automatsku provjeru u svojim proizvodima) kako bi se osigurala prihvatljiva RTO vrijednost.

Hvala što ste pročitali do kraja.
Spremni smo odgovoriti na vaša pitanja i komentare u komentarima. Također Pozivamo vas da se pretplatite na naš telegram kanal, u kojem održavamo redovite promocije (popusti na IaaS i darivanja za promotivne kodove do 100% na VPS), pišemo zanimljive vijesti i najavljujemo nove članke na Habr blogu.

Izvor: www.habr.com

Dodajte komentar