Perchè hè impurtante validà u software nantu à u vostru almacenamentu d'alta disponibilità (99,9999%)

Perchè hè impurtante validà u software nantu à u vostru almacenamentu d'alta disponibilità (99,9999%)

Quale hè a versione di firmware più "corretta" è "funzionante"? Se un sistema di almacenamentu guarantisci a tolleranza di difetti di 99,9999%, significa questu chì hà da travaglià ininterrotta ancu senza un aghjurnamentu di software? O, à u cuntrariu, per ottene una tolleranza massima di difetti, duvete sempre installà l'ultimu firmware? Pruvaremu di risponde à queste dumande basatu nantu à a nostra sperienza.

Una breve introduzione

Tutti capiscenu chì ogni versione di u software, sia un sistema operatore o un driver per un dispositivu, spessu cuntene difetti / bugs è altre "caratteristiche" chì ùn ponu micca "apparisce" finu à a fine di a vita di serviziu di l'equipaggiu, o "apertu". solu in certi cundizioni. U numeru è u significatu di tali sfumature dipende da a cumplessità (funzionalità) di u software è da a qualità di teste durante u so sviluppu. 

Spessu, l'utilizatori stanu nantu à u "firmware da a fabbrica" ​​(u famosu "funciona, cusì ùn fate micca cun ellu") o stallanu sempre l'ultima versione (in a so intelligenza, l'ultimu significa u più travagliu). Utilizemu un approcciu diversu - fighjemu e note di liberazione per tuttu ciò chì hè utilizatu in u nuvulu mClouds equipaggiu è selezziunà currettamente u firmware apprupriatu per ogni equipamentu.

Avemu ghjuntu à sta cunclusione, cum'è dicenu, cù sperienza. Utilizendu u nostru esempiu di operazione, vi diceremu perchè l'affidabilità di 99,9999% prumessa di i sistemi di almacenamentu ùn significa nunda se ùn seguite micca immediatamente l'aghjurnamenti è e descrizzioni di u software. U nostru casu hè adattatu per l'utilizatori di sistemi di almacenamento di qualsiasi venditore, postu chì una situazione simili pò accade cù hardware di qualsiasi fabricatore.

Sceglie un novu sistema di almacenamiento

À a fine di l'annu passatu, un interessante sistema di almacenamiento di dati hè statu aghjuntu à a nostra infrastruttura: un mudellu junior da a linea IBM FlashSystem 5000, chì à u mumentu di a compra era chjamatu Storwize V5010e. Avà hè vindutu sottu u nome FlashSystem 5010, ma in fattu hè a stessa basa di hardware cù u stessu Spectrum Virtualize in l'internu. 

A prisenza di un sistema di gestione unificatu hè, per via, a principal diferenza trà IBM FlashSystem. Per i mudelli di a serie più ghjovana, ùn hè praticamente micca sfarente di mudelli di più pruduttivi. A scelta di un mudellu specificu furnisce solu a basa di hardware approprita, e caratteristiche di quale permette di utilizà una o una altra funziunalità o furnisce un livellu più altu di scalabilità. U software identifica l'hardware è furnisce e funziunalità necessariu è abbastanza per sta piattaforma.

Perchè hè impurtante validà u software nantu à u vostru almacenamentu d'alta disponibilità (99,9999%)IBM FlashSystem 5010

In breve nantu à u nostru mudellu 5010. Questu hè un sistema d'almacenamiento di bloccu dual-controller d'entrata. Puderà accoglie dischi NLSAS, SAS, SSD. U piazzamentu NVMe ùn hè micca dispunibule in questu, postu chì stu mudellu di almacenamentu hè posizionatu per risolve i prublemi chì ùn necessitanu micca u rendiment di unità NVMe.

U sistema d'almacenamiento hè statu acquistatu per accoglie l'infurmazioni d'archiviu o dati chì ùn sò micca accessu freti. Dunque, u settore standard di e so funziunalità era abbastanza per noi: Tiering (Easy Tier), Thin Provision. U rendimentu nantu à i dischi NLSAS à u livellu di 1000-2000 IOPS era ancu abbastanza satisfacente per noi.

A nostra sperienza - cumu ùn avemu micca aghjurnatu u firmware à tempu

Avà circa l'aghjurnamentu di u software stessu. À u mumentu di a compra, u sistema avia digià una versione un pocu obsoleta di u software Spectrum Virtualize, vale à dì, 8.2.1.3.

Avemu studiatu e descrizzioni di firmware è pianificatu un aghjurnamentu à 8.2.1.9. Sè avemu statu un pocu più efficaci, questu articulu ùn saria micca esistitu - u bug ùn hè micca accadutu in un firmware più recente. Tuttavia, per certi mutivi, l'aghjurnamentu di stu sistema hè stata postponata.

In u risultatu, un ligeru ritardu di aghjurnamentu hà purtatu à una stampa estremamente spiacevoli, cum'è in a descrizzione à u ligame: https://www.ibm.com/support/pages/node/6172341

Iè, in u firmware di quella versione u chjamatu APAR (Authorized Program Analysis Report) HU02104 era pertinente. Si vede cum'è seguita. Sottu a carica, in certi circustanzi, u cache cumencia à overflow, allora u sistema passa in modu protettivu, in quale disattiva I / O per a piscina. In u nostru casu, pareva di disconnecting 3 disks per un gruppu RAID in u modu RAID 6. A disconnection occurs for 6 minutes. Next, accessu à i Volumi in u Pool hè risturatu.

Se qualchissia ùn hè micca familiarizatu cù a struttura è a denominazione di l'entità logiche in u cuntestu di IBM Spectrum Virtualize, avà spiegheraghju brevemente.

Perchè hè impurtante validà u software nantu à u vostru almacenamentu d'alta disponibilità (99,9999%)Struttura di l'elementi lògichi di u sistema di almacenamiento

I dischi sò cullati in gruppi chjamati MDisk (Discu Gestionatu). MDisk pò esse un RAID classicu (0,1,10,5,6) o un virtualizatu - DRAID (RAID Distribuitu). Utilizà DRAID permette di aumentà u rendiment di l'array, perchè ... Tutti i discu in u gruppu seranu utilizati, è u tempu di ricustruzzione serà ridutta, per via di u fattu chì solu certi blocchi anu da esse restauratu, è micca tutti i dati da u discu fallutu.

Perchè hè impurtante validà u software nantu à u vostru almacenamentu d'alta disponibilità (99,9999%)Distribuzione di blocchi di dati nantu à i dischi quandu si usa RAID Distribuitu (DRAID) in modu RAID-5.

È stu diagramma mostra a logica di cumu funziona una ricustruzione di DRAID in casu di fallimentu di un discu:

Perchè hè impurtante validà u software nantu à u vostru almacenamentu d'alta disponibilità (99,9999%)A logica di ricustruisce DRAID quandu un discu falla

Dopu, unu o più MDisks formanu un cusì chjamatu Pool. Dentru a listessa piscina, ùn hè micca cunsigliatu per utilizà MDisk cù diversi livelli RAID / DRAID in dischi di u listessu tipu. Ùn andemu micca troppu in questu, perchè ... avemu pensatu à copre questu in unu di l'articuli seguenti. Ebbè, in fatti, Pool hè divisu in Volumi, chì sò prisintatu cù unu o un altru prutucolu accessu à bloccu à l 'ospiti.

Dunque, noi, per via di a situazione descritta in APAR HU02104, a causa di u fallimentu logica di trè dischi, MDisk cessatu di esse funziunali, chì, à u turnu, risultatu in u fallimentu di u Pool è i Volumi currispundenti.

Perchè sti sistemi sò abbastanza intelligenti, ponu esse cunnessi à u sistema di monitoraghju basatu in nuvola IBM Storage Insights, chì automaticamente manda una dumanda di serviziu à u supportu IBM se un prublema si trova. Una applicazione hè creata è i specialisti IBM realizanu remotamente diagnostichi è cuntattate l'utilizatori di u sistema. 

Grazie à questu, u prublema hè stata risolta abbastanza rapidamente è una ricunniscenza pronta hè stata ricevuta da u serviziu di supportu per aghjurnà u nostru sistema à u firmware 8.2.1.9 previamente sceltu, chì in quellu tempu era digià riparatu. Cunfirma Nota di liberazione currispondente.

I risultati e i nostri consigli

Cume dice u proverbio: "tuttu va bè chì finisci bè". U bug in u firmware ùn hà micca causatu prublemi serii - i servitori sò stati restaurati u più prestu pussibule è senza perdita di dati. Certi clienti avianu a riavvià e macchine virtuali, ma in generale eramu preparati per cunsiquenzi più negativi, postu chì facemu copia di salvezza di ogni ghjornu di tutti l'elementi di l'infrastruttura è di e macchine cliente. 

Avemu ricevutu cunferma chì ancu i sistemi affidabili cù a dispunibilità prumessa di 99,9999% necessitanu attenzione è mantenimentu puntuale. Basatu nantu à a situazione, avemu tiratu una quantità di cunclusioni per noi stessi è sparte i nostri cunsiglii:

  • Hè imperativu di monitorà a liberazione di l'aghjurnamenti, studià e Note di Rilascio per correzioni di prublemi potenzialmente critichi, è eseguisce l'aghjurnamenti pianificati in una manera puntuale.

    Questu hè un puntu di l'urganizazione è ancu abbastanza evidenti, chì, pare, ùn vale a pena di fucalizza. Tuttavia, nant'à stu "livellu di terra" si pò stumble abbastanza facirmenti. In fatti, era stu mumentu chì aghjunghjenu i prublemi descritti sopra. Fate assai attenti à l'elaborazione di i regulamenti di l'aghjurnamentu è seguite u rispettu cù elli micca menu attente. Stu puntu riguarda più à u cuncettu di "disciplina".

  • Hè sempre megliu mantene u sistema cù l'ultima versione di u software. Inoltre, l'attuale ùn hè micca quellu chì hà una designazione numerica più grande, ma piuttostu quellu chì hà una data di liberazione più tardi. 

    Per esempiu, IBM mantene almenu duie versioni di software aghjurnata per i so sistemi di almacenamiento. À u mumentu di sta scrittura, questi sò 8.2 è 8.3. L'aghjurnamenti per 8.2 venenu prima. Una aghjurnazione simili per 8.3 hè generalmente liberata cun un pocu ritardu.

    A versione 8.3 hà una quantità di vantaghji funziunali, per esempiu, a capacità di espansione MDisk (in modu DRAID) aghjunghjendu unu o più novi dischi (sta funzione hè apparsa da a versione 8.3.1). Questa hè una funziunalità abbastanza basica, ma in 8.2, sfurtunatamenti, ùn ci hè micca una tale funzione.

  • Se ùn hè micca pussibule di aghjurnà per una certa ragione, allora per e versioni di u software Spectrum Virtualize prima di e versioni 8.2.1.9 è 8.3.1.0 (induve u bug descrittu sopra hè pertinente), per riduce u risicu di a so occurrence, u supportu tecnicu IBM ricumanda. limitazione di u rendiment di u sistema à u livellu di a piscina, cum'è mostra in a figura sottu (a stampa hè stata presa in a versione russificata di a GUI). U valore di 10000 IOPS hè mostratu cum'è un esempiu è hè sceltu secondu e caratteristiche di u vostru sistema.

Perchè hè impurtante validà u software nantu à u vostru almacenamentu d'alta disponibilità (99,9999%)Limitazione di prestazioni di almacenamiento IBM

  • Hè necessariu di calculà currettamente a carica nantu à i sistemi di almacenamento è evità a sovraccarica. Per fà questu, pudete aduprà sia u sizer IBM (s'è vo avete accessu à questu), o l'aiutu di i partenarii, o risorse di terzu-party. Hè imperativu di capisce u prufilu di carica nantu à u sistema di almacenamiento, perchè A prestazione in MB/s è IOPS varieghja assai secondu almenu i seguenti parametri:

    • tipu di operazione: leghje o scrive,

    • taglia di bloccu di operazione,

    • percentuale di operazioni di lettura è scrittura in u flussu I/O tutale.

    Inoltre, a vitezza di l'operazioni hè affettata da a manera di leghje i blocchi di dati: in sequenza o in ordine aleatoriu. Quandu eseguite parechje operazioni d'accessu à e dati da u latu di l'applicazione, ci hè u cuncettu di operazioni dipendente. Hè ancu cunsigliatu di piglià questu in contu. Tuttu chistu pò aiutà à vede a tutalità di e dati da i cuntatori di rendiment di u SO, u sistema di almacenamento, i servitori / ipervisori, è ancu una cunniscenza di e funzioni operative di l'applicazioni, DBMS è altri "consumatori" di risorse di discu.

  • È infine, assicuratevi di avè una copia di salvezza aghjurnata è di travagliu. A pianificazione di salvezza deve esse cunfigurata basatu annantu à i valori RPO accettabili per l'affari, è i cuntrolli periodichi di integrità di e copie di salvezza devenu esse verificati (un pocu di venditori di software di salvezza anu implementatu a verificazione automatizata in i so prudutti) per assicurà un valore RTO accettabile.

Grazie per leghje finu à a fine.
Semu pronti à risponde à e vostre dumande è cumenti in i cumenti. Ancu Vi invitemu à abbonate à u nostru canale di telegram, In quale avemu prumuzione regulare (scontu nantu à IaaS è rigali per codici promozionali finu à 100% in VPS), scrivite nutizie interessanti è annunziate novi articuli nantu à u blog Habr.

Source: www.habr.com

Add a comment