Reduïu els riscos de temps d'inactivitat amb l'arquitectura Shared Nothing

El tema de la tolerància a fallades en els sistemes d'emmagatzematge de dades és sempre rellevant, ja que en la nostra era de virtualització generalitzada i consolidació de recursos, els sistemes d'emmagatzematge són l'enllaç la fallada dels quals no només portarà a un accident normal, sinó a temps d'inactivitat a llarg termini dels serveis. Per tant, els sistemes d'emmagatzematge moderns contenen molts components duplicats (fins i tot controladors). Però, aquesta protecció és suficient?

Reduïu els riscos de temps d'inactivitat amb l'arquitectura Shared Nothing

Absolutament tots els venedors, a l'hora d'enumerar les característiques dels sistemes d'emmagatzematge, sempre esmenten l'alta tolerància a fallades de les seves solucions, afegint sempre el terme "sense un únic punt de fallada". Fem una ullada més de prop a un sistema d'emmagatzematge típic. Per evitar temps d'inactivitat en el manteniment, el sistema d'emmagatzematge duplica fonts d'alimentació, mòduls de refrigeració, ports d'entrada/sortida, unitats (ens referim a RAID) i, per descomptat, controladors. Si observeu de prop aquesta arquitectura, notareu almenys dos possibles punts de fallada, que es mantenen modestament en silenci:

  1. Disponibilitat d'un sol pla posterior
  2. Tenir una còpia de les dades

La placa posterior és un dispositiu tècnicament complex que s'ha de sotmetre a proves serioses durant la producció. I per tant, hi ha casos extremadament rars en què falla completament. Tanmateix, fins i tot en el cas de problemes parcials, com ara una ranura d'unitat que no funciona, caldrà substituir-la per un apagat complet del sistema d'emmagatzematge.

La creació de diverses còpies de dades tampoc és un problema a primera vista. Per exemple, la funcionalitat de clonació dels sistemes d'emmagatzematge, que permet actualitzar una còpia completa de les dades en alguns intervals, està força estesa. Tanmateix, en cas de problemes amb el mateix backplay, la còpia no estarà disponible com l'original.

Una solució completament òbvia per superar aquestes mancances és la replicació a un altre sistema d'emmagatzematge. Si tanquem els ulls a l'esperada duplicació del cost del maquinari (encara assumim que la gent que tria aquesta decisió pensa adequadament i accepta aquest fet per endavant), encara hi haurà possibles costos per organitzar la replicació en forma de llicències, programari i maquinari. I el més important, haureu de garantir d'alguna manera la coherència de les dades replicades. Aquells. crear un virtualitzador d'emmagatzematge/vSAN/etc., que també requereix diners i recursos de temps.

AccelStor Quan creem els nostres sistemes d'alta disponibilitat, ens fixem un objectiu per eliminar les mancances esmentades anteriorment. Així va aparèixer la interpretació de la tecnologia Shared Nothing, que traduïda de manera lliure significa "sense l'ús de dispositius compartits".

Concepte Res compartit L'arquitectura representa l'ús de dos nodes independents (controladors), cadascun dels quals té el seu propi conjunt de dades. La replicació síncrona es produeix entre nodes mitjançant la interfície InfiniBand 56G, completament transparent per al programari que s'executa a la part superior del sistema d'emmagatzematge. Com a resultat, no es requereix l'ús de virtualitzadors d'emmagatzematge, agents de programari, etc.

Físicament, la solució de dos nodes d'AccelStor es pot implementar en dos models:

  • H510 — basat en servidors dobles en un cas de 2U, si es requereix un rendiment moderat i una capacitat de fins a 22 TB;
  • H710 — basat en servidors 2U individuals, si es requereix un alt rendiment i una gran capacitat (fins a 57 TB).

Reduïu els riscos de temps d'inactivitat amb l'arquitectura Shared Nothing

Model H510 basat en servidor doble

Reduïu els riscos de temps d'inactivitat amb l'arquitectura Shared Nothing

Model H710 basat en servidors individuals

L'ús de diferents factors de forma es deu a la necessitat de diferents nombres de SSD per aconseguir un volum i un rendiment determinats. A més, la plataforma Twin és més barata i us permet oferir solucions més assequibles, encara que amb algun "inconvenient" condicional en forma d'un sol pla posterior. Tota la resta, inclosos els principis de funcionament, és completament idèntic per als dos models.

El conjunt de dades de cada node té dos grups FlexiRemap, més 2 recanvis calents. Cada grup és capaç de suportar la fallada d'un SSD. Totes les sol·licituds entrants per gravar un node d'acord amb ideologia FlexiRemap reconstrueix blocs de 4KB en cadenes seqüencials, que després s'escriuen a l'SSD en el mode més còmode per a ells (enregistrament seqüencial). A més, l'amfitrió rep una confirmació de gravació només després que les dades es col·loquin físicament a l'SSD, és a dir. sense memòria cau a la memòria RAM. El resultat és un rendiment molt impressionant de fins a 600 1 IOPS d'escriptura i 710 M+ IOPS de lectura (model HXNUMX).

Com s'ha esmentat anteriorment, els conjunts de dades es sincronitzen en temps real mitjançant la interfície InfiniBand 56G, que té un alt rendiment i una baixa latència. Per tal de fer un ús més eficient del canal de comunicació a l'hora de transmetre petits paquets. Perquè Només hi ha un canal de comunicació; s'utilitza un enllaç dedicat d'1 GbE per comprovar la freqüència cardíaca addicional. Només es transmet el batec del cor, de manera que no hi ha requisits per a les característiques de velocitat.

En cas d'augment de la capacitat del sistema (fins a 400+TB) a causa de prestatgeries d'expansió també estan connectats per parelles per mantenir el concepte de "cap punt de fallada únic".

Per a la protecció de dades addicional (a més del fet que AccelStor ja té dues còpies), s'utilitza un algorisme de comportament especial en cas de fallada de qualsevol SSD. Si el SSD falla, el node començarà a reconstruir les dades en una de les unitats de recanvi. El grup FlexiRemap, que es troba en estat degradat, canviarà al mode només lectura. Això es fa per eliminar la interferència entre les operacions d'escriptura i reconstrucció del disc de còpia de seguretat, la qual cosa en última instància accelera el procés de recuperació i redueix el temps en què el sistema és potencialment vulnerable. Un cop finalitzada la reconstrucció, el node torna al mode de lectura-escriptura normal.

Reduïu els riscos de temps d'inactivitat amb l'arquitectura Shared Nothing

Per descomptat, com altres sistemes, durant la reconstrucció el rendiment general disminueix (al cap i a la fi, un dels grups FlexiRemap no funciona per gravar). Però el procés de recuperació en si es produeix el més ràpid possible, cosa que distingeix els sistemes AccelStor de les solucions d'altres proveïdors.

Una altra propietat útil de la tecnologia d'arquitectura Nothing Shared és el funcionament dels nodes en l'anomenat mode actiu-actiu veritable. A diferència de l'arquitectura "clàssica", on només un controlador posseeix un volum/agrupació específic, i el segon simplement realitza operacions d'E/S, en sistemes. AccelStor cada node treballa amb el seu propi conjunt de dades i no transmet peticions al seu "veí". Com a resultat, el rendiment global del sistema es millora gràcies al processament paral·lel de sol·licituds d'E/S per part dels nodes i l'accés a les unitats. Tampoc hi ha pràcticament res com a failover, ja que simplement no cal transferir el control dels volums a un altre node en cas d'error.

Si comparem la tecnologia d'arquitectura Nothing Shared amb la duplicació completa del sistema d'emmagatzematge, llavors, a primera vista, serà lleugerament inferior a la implementació completa de la recuperació de desastres en flexibilitat. Això és especialment cert per organitzar una línia de comunicació entre sistemes d'emmagatzematge. Així, en el model H710 és possible estendre nodes a una distància de fins a 100 m mitjançant l'ús de cables òptics actius InfiniBand poc econòmics. Però fins i tot si es compara amb la implementació habitual de la replicació síncrona d'altres proveïdors a través d'un FibreChannel disponible, fins i tot a distàncies més llargues, la solució d'AccelStor serà més barata i més fàcil d'instal·lar/operar, perquè no cal instal·lar virtualitzadors d'emmagatzematge i/o integrar-se amb programari (cosa que en principi no sempre és possible). A més, no oblideu que les solucions AccelStor són matrius All Flash amb un rendiment superior al dels sistemes d'emmagatzematge "clàssic" només amb SSD.

Reduïu els riscos de temps d'inactivitat amb l'arquitectura Shared Nothing

Quan s'utilitza l'arquitectura Nothing Shared d'AccelStor, és possible aconseguir una disponibilitat del sistema d'emmagatzematge del 99.9999% a un cost molt raonable. Juntament amb l'alta fiabilitat de la solució, fins i tot mitjançant l'ús de dues còpies de dades, i un rendiment impressionant gràcies als algorismes propietaris FlexiRemap, solucions de AccelStor són excel·lents candidats per a llocs clau a l'hora de construir un centre de dades modern.

Font: www.habr.com

Afegeix comentari