Reduceți riscurile de nefuncționare cu arhitectura Shared Nothing

Subiectul toleranței la erori în sistemele de stocare a datelor este întotdeauna relevant, deoarece în epoca noastră a virtualizării pe scară largă și a consolidării resurselor, sistemele de stocare sunt veriga a cărei defecțiune va duce nu doar la un accident obișnuit, ci și la oprirea pe termen lung a serviciilor. Prin urmare, sistemele moderne de stocare conțin multe componente duplicate (chiar și controlere). Dar este suficientă o astfel de protecție?

Reduceți riscurile de nefuncționare cu arhitectura Shared Nothing

Absolut toți furnizorii, atunci când enumeră caracteristicile sistemelor de stocare, menționează întotdeauna toleranța ridicată la erori a soluțiilor lor, adăugând întotdeauna termenul „fără un singur punct de defecțiune”. Să aruncăm o privire mai atentă la un sistem de stocare tipic. Pentru a evita timpii de nefuncționare la întreținere, sistemul de stocare dublează sursele de alimentare, modulele de răcire, porturile de intrare/ieșire, unitățile (ne referim la RAID) și, bineînțeles, controlere. Dacă te uiți îndeaproape la această arhitectură, vei observa cel puțin două puncte potențiale de eșec, care sunt modeste tăcute:

  1. Disponibilitatea unui singur backplane
  2. Având o copie a datelor

Backplane-ul este un dispozitiv complex din punct de vedere tehnic care trebuie supus unor teste serioase în timpul producției. Și, prin urmare, există cazuri extrem de rare când eșuează complet. Cu toate acestea, chiar și în cazul unor probleme parțiale, cum ar fi un slot de unitate care nu funcționează, va trebui înlocuit cu o oprire completă a sistemului de stocare.

Crearea mai multor copii ale datelor nu este, de asemenea, o problemă la prima vedere. De exemplu, funcționalitatea Clonare în sistemele de stocare, care vă permite să actualizați o copie completă a datelor la anumite intervale, este destul de răspândită. Cu toate acestea, în cazul unor probleme cu aceeași redare în spate, copia va fi la fel de indisponibilă ca și originalul.

O soluție complet evidentă pentru a depăși aceste neajunsuri este replicarea pe alt sistem de stocare. Dacă închidem ochii la dublarea preconizată a costului hardware-ului (presupunem totuși că oamenii care aleg o astfel de decizie gândesc adecvat și acceptă acest fapt din timp), vor exista totuși costuri posibile pentru organizarea replicării sub formă de licențe, suplimentare software și hardware. Și cel mai important, va trebui să vă asigurați cumva consistența datelor replicate. Acestea. construiți un virtualizator de stocare/vSAN/etc., care necesită, de asemenea, bani și resurse de timp.

AccelStor Când ne creăm sistemele de înaltă disponibilitate, ne-am stabilit un obiectiv de a scăpa de deficiențele menționate mai sus. Așa a apărut interpretarea tehnologiei Shared Nothing, care tradusă vag înseamnă „fără utilizarea dispozitivelor partajate”.

Concept Nimic împărtășit arhitectura reprezintă utilizarea a două noduri independente (controlere), fiecare dintre ele având propriul set de date. Replicarea sincronă are loc între noduri prin interfața InfiniBand 56G, complet transparentă pentru software-ul care rulează deasupra sistemului de stocare. Ca urmare, utilizarea virtualizatoarelor de stocare, agenților software etc. nu este necesară.

Din punct de vedere fizic, soluția cu două noduri de la AccelStor poate fi implementată în două modele:

  • H510 — bazat pe servere Twin într-o carcasă 2U, dacă sunt necesare performanțe moderate și capacitate de până la 22TB;
  • H710 — bazat pe servere individuale 2U, dacă sunt necesare performanțe ridicate și capacitate mare (până la 57 TB).

Reduceți riscurile de nefuncționare cu arhitectura Shared Nothing

Modelul H510 bazat pe server Twin

Reduceți riscurile de nefuncționare cu arhitectura Shared Nothing

Modelul H710 bazat pe servere individuale

Utilizarea diferiților factori de formă se datorează necesității unui număr diferit de SSD-uri pentru a obține un anumit volum și performanță. În plus, platforma Twin este mai ieftină și vă permite să oferiți soluții mai accesibile, deși cu un „dezavantaj” condiționat sub forma unui singur backplane. Orice altceva, inclusiv principiile de funcționare, este complet identic pentru ambele modele.

Setul de date pentru fiecare nod are două grupuri FlexiRemap, plus 2 piese de schimb calde. Fiecare grup este capabil să reziste la defecțiunea unui SSD. Toate cererile primite de a înregistra un nod în conformitate cu ideologie FlexiRemap reconstruiește blocurile de 4KB în lanțuri secvențiale, care sunt apoi scrise pe SSD în modul cel mai confortabil pentru ele (înregistrare secvențială). Mai mult, gazda primește o confirmare de înregistrare numai după ce datele sunt plasate fizic pe SSD, adică. fără cache în RAM. Rezultatul este o performanță foarte impresionantă de până la 600 IOPS de scriere și 1M+ IOPS de citire (modelul H710).

După cum am menționat mai devreme, seturile de date sunt sincronizate în timp real prin interfața InfiniBand 56G, care are un randament ridicat și o latență scăzută. Pentru a folosi cât mai eficient canalul de comunicație la transmiterea pachetelor mici. Deoarece Există un singur canal de comunicare; o legătură dedicată de 1GbE este utilizată pentru verificarea suplimentară a ritmului cardiac. Prin ea se transmite doar bătăile inimii, deci nu există cerințe pentru caracteristicile vitezei.

În cazul creșterii capacității sistemului (până la 400+TB) din cauza rafturi de expansiune ele sunt, de asemenea, conectate în perechi pentru a menține conceptul „nici un singur punct de eșec”.

Pentru protecția suplimentară a datelor (pe lângă faptul că AccelStor are deja două copii), se folosește un algoritm de comportament special în cazul unei defecțiuni a oricărui SSD. Dacă SSD-ul eșuează, nodul va începe să reconstruiască datele pe una dintre unitățile de rezervă. Grupul FlexiRemap, care este în stare degradată, va trece în modul numai citire. Acest lucru se face pentru a elimina interferența dintre operațiunile de scriere și reconstrucție de pe discul de rezervă, ceea ce în cele din urmă accelerează procesul de recuperare și reduce timpul în care sistemul este potențial vulnerabil. După finalizarea reconstrucției, nodul revine la modul normal de citire-scriere.

Reduceți riscurile de nefuncționare cu arhitectura Shared Nothing

Desigur, ca și alte sisteme, în timpul reconstrucției performanța generală scade (la urma urmei, unul dintre grupurile FlexiRemap nu funcționează pentru înregistrare). Dar procesul de recuperare în sine are loc cât mai repede posibil, ceea ce distinge sistemele AccelStor de soluțiile de la alți furnizori.

O altă proprietate utilă a tehnologiei arhitecturii Nothing Shared este operarea nodurilor în așa-numitul mod adevărat activ-activ. Spre deosebire de arhitectura „clasică”, în care un singur controler deține un anumit volum/pool, iar al doilea pur și simplu efectuează operațiuni I/O, în sisteme AccelStor fiecare nod lucrează cu propriul set de date și nu transmite cereri către „vecinul său”. Ca rezultat, performanța generală a sistemului este îmbunătățită datorită procesării paralele a solicitărilor I/O de către noduri și accesului la unități. De asemenea, nu există practic nici un lucru ca failover, deoarece pur și simplu nu este nevoie să transferați controlul volumelor către un alt nod în cazul unei defecțiuni.

Dacă comparăm tehnologia arhitecturii Nothing Shared cu duplicarea completă a sistemului de stocare, atunci, la prima vedere, aceasta va fi ușor inferioară implementării complete a recuperării în caz de dezastru în flexibilitate. Acest lucru este valabil mai ales pentru organizarea unei linii de comunicare între sistemele de stocare. Astfel, în modelul H710 este posibilă răspândirea nodurilor pe o distanță de până la 100m prin utilizarea unor cabluri optice active InfiniBand nu foarte ieftine. Dar chiar și în comparație cu implementarea obișnuită a replicării sincrone de la alți furnizori printr-un FibreChannel disponibil, chiar și pe distanțe mai mari, soluția de la AccelStor va fi mai ieftină și mai ușor de instalat/operat, deoarece nu este nevoie să instalați virtualizatoare de stocare și/sau să se integreze cu software (ceea ce nu este întotdeauna posibil în principiu). În plus, nu uitați că soluțiile AccelStor sunt matrice All Flash cu performanțe mai mari decât sistemele de stocare „clasice” doar cu SSD.

Reduceți riscurile de nefuncționare cu arhitectura Shared Nothing

Când utilizați arhitectura Nothing Shared de la AccelStor, este posibil să obțineți o disponibilitate a sistemului de stocare de 99.9999% la un cost foarte rezonabil. Alături de fiabilitatea ridicată a soluției, inclusiv prin utilizarea a două copii de date, și performanță impresionantă datorită algoritmilor proprietari FlexiRemap, solutii din AccelStor sunt candidați excelenți pentru poziții cheie atunci când construiesc un centru de date modern.

Sursa: www.habr.com

Adauga un comentariu