Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Hola a tots! Amb aquest article, AERODISK obre un bloc sobre Habré. Hura, companys!

Articles anteriors sobre Habré tractaven qüestions sobre l'arquitectura i la configuració bàsica dels sistemes d'emmagatzematge. En aquest article considerarem una pregunta que no s'ha tractat anteriorment, però que sovint es fa: sobre la tolerància a errors dels sistemes d'emmagatzematge del MOTOR AERODISK. El nostre equip farà tot el possible perquè el sistema d'emmagatzematge AERODISK deixi de funcionar, és a dir. trenca-ho.

Va succeir que a Habré ja pengen articles sobre la història de la nostra empresa, sobre els nostres productes, així com un exemple d'execució d'implementació, per la qual cosa Moltes gràcies als nostres socis: empreses TS Solution i Softline.

Per tant, aquí no entrenaré habilitats de gestió de copiar i enganxar, sinó que simplement proporcionaré enllaços als originals d'aquests articles:

També vull compartir bones notícies. Però començaré, és clar, pel problema. Nosaltres, com a venedor jove, entre altres costos, ens enfrontem constantment al fet que molts enginyers i administradors simplement no saben com operar correctament el nostre sistema d'emmagatzematge.
És evident que la gestió de la majoria de sistemes d'emmagatzematge sembla aproximadament igual des del punt de vista d'un administrador, però cada fabricant té les seves característiques. I aquí no som una excepció.

Per això, per tal de simplificar la tasca de formació d'especialistes en informàtica, hem decidit dedicar-nos aquest any a l'educació gratuïta. Per fer-ho, a moltes grans ciutats de Rússia estem obrint una xarxa de Centres de Competència AERODISK, en la qual qualsevol especialista tècnic interessat pot fer un curs totalment gratuït i rebre un certificat d'administració de sistemes d'emmagatzematge AERODISK ENGINE.

A cada Centre de Competències instal·larem un estand de demostració complet del sistema d'emmagatzematge AERODISK i un servidor físic, en el qual el nostre professor realitzarà una formació presencial. Publicarem el calendari de treball dels Centres de Competència quan apareguin, però ja hem obert un centre a Nizhny Novgorod i la propera és la ciutat de Krasnodar. Pots apuntar-te a la formació mitjançant els enllaços següents. Aquí teniu la informació coneguda actualment sobre ciutats i dates:

  • Нижний Новгород (JA OBERT - us podeu inscriure aquí https://aerodisk.promo/nn/);
    Fins al 16 d'abril de 2019 es podrà visitar el centre en qualsevol horari laboral, i el 16 d'abril de 2019 s'organitzarà un gran curs de formació.
  • Краснодар (OBERTA PROVIAMENT - us podeu inscriure aquí https://aerodisk.promo/krsnd/ );
    Del 9 d'abril al 25 d'abril de 2019 es podrà visitar el centre en qualsevol horari laboral, i el 25 d'abril de 2019 s'organitzarà un gran curs de formació.
  • Iekaterinburg (OBERTA PROVIAMENT, seguiu la informació a la nostra web o a Habré);
    Maig-juny 2019.
  • Новосибирск (seguiu la informació a la nostra web o a Habré);
    Octubre 2019.
  • Krasnoyarsk (seguiu la informació a la nostra web o a Habré);
    novembre 2019.

I, per descomptat, si Moscou no està lluny de vosaltres, en qualsevol moment podeu visitar la nostra oficina a Moscou i rebre una formació similar.

Tots. Hem acabat amb el màrqueting, passem a la tecnologia!

A Habré publicarem regularment articles tècnics sobre els nostres productes, proves de càrrega, comparacions, característiques d'ús i implementacions interessants.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

ATENCIÓ! Després de llegir l'article, podeu dir: bé, per descomptat, el venedor es comprovarà perquè tot funcioni "amb una explosió", condicions d'hivernacle, etc. Et respondré: res d'això! A diferència dels nostres competidors estrangers, ens trobem aquí, a prop teu, i sempre pots venir a nosaltres (a Moscou o a qualsevol Comitè Central) i provar el nostre sistema d'emmagatzematge de qualsevol manera. Per tant, no té gaire sentit ajustar els resultats a una imatge ideal del món, perquè Som molt fàcils de comprovar. Per a aquells que fan mandra d'anar-hi i no tenen temps, podem organitzar proves a distància. Tenim un laboratori especial per a això. Contacta amb nosaltres.

ACHTUNG-2! Aquesta prova no és una prova de càrrega, perquè aquí només ens importa la tolerància a errors. D'aquí a un parell de setmanes, prepararem un estand més potent i realitzarem proves de càrrega del sistema d'emmagatzematge, publicant els resultats aquí (per cert, s'accepten peticions de proves).

Així doncs, anem a trencar-ho.

banc de proves

El nostre estand consta del següent maquinari:

  • 1 x Sistema d'emmagatzematge Aerodisk Engine N2 (2 controladors, memòria cau de 64 GB, 8 ports FC 8 Gb/s, 4 ports Ethernet 10 Gb/s SFP+, 4 ports Ethernet 1 Gb/s); Els discos següents estan instal·lats al sistema d'emmagatzematge:
  • 4 discos SSD SAS de 900 GB;
  • 12 discos SAS 10k d'1,2 TB;
  • 1 x servidor físic amb Windows Server 2016 (2xXeon E5 2667 v3, 96 GB de RAM, 2x ports FC 8 Gb/s, 2x ports Ethernet 10 Gb/s SFP+);
  • 2 x commutador SAN 8G;
  • 2 x interruptor LAN 10G;

Vam connectar el servidor al sistema d'emmagatzematge mitjançant commutadors mitjançant Ethernet FC i 10G. El diagrama de l'estand es troba a continuació.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Els components que necessitem, com ara l'iniciador MPIO i iSCSI, estan instal·lats al Windows Server.
Les zones es configuren als commutadors FC, les VLAN corresponents es configuren als commutadors LAN i MTU 9000 s'instal·la als ports d'emmagatzematge, commutadors i host (com fer-ho tot es descriu a la nostra documentació, de manera que no descriurem aquest procés aquí).

Metodologia de la prova

El pla de prova de xoc és el següent:

  • Comprovació de la fallada dels ports FC i Ethernet.
  • Comprovació de fallada elèctrica.
  • Comprovació de fallada del controlador.
  • Comprovació d'errors de disc en un grup/agrupació.

Totes les proves es realitzaran en condicions de càrrega sintètica, que generarem pel programa IOMETER. Paral·lelament, farem les mateixes proves, però en condicions de copiar fitxers grans al sistema d'emmagatzematge.

La configuració de l'IOmeter és la següent:

  • Lectura/Escriptura – 70/30
  • Bloc - 128k (vam decidir rentar els sistemes d'emmagatzematge en grans blocs)
  • Nombre de fils: 128 (que és molt similar a la càrrega productiva)
  • Aleatori complet
  • Nombre de treballadors: 4 (2 per FC, 2 per iSCSI)

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència
Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

La prova té els següents objectius:

  1. Assegureu-vos que la càrrega sintètica i el procés de còpia no interrompran ni provocaran errors en diversos escenaris de fallada.
  2. Assegureu-vos que el procés de commutació de ports, controladors, etc. estigui prou automatitzat i no requereix accions de l'administrador en cas de fallades (és a dir, durant les failovers, no es parla de failbacks, és clar).
  3. Assegureu-vos que la informació dels registres es mostra correctament.

Preparació del sistema host i d'emmagatzematge

Hem configurat l'accés de blocs al sistema d'emmagatzematge mitjançant ports FC i Ethernet (FC i iSCSI, respectivament). Els nois de TS Solution van descriure detalladament com fer-ho en un article anterior (https://habr.com/ru/company/tssolution/blog/432876/). I, és clar, ningú va cancel·lar els manuals i els cursos.

Vam crear un grup híbrid utilitzant totes les unitats que teníem. Es van afegir 2 discs SSD a la memòria cau, 2 discos SSD es van afegir com a nivell d'emmagatzematge addicional (nivell en línia). Hem agrupat 12 unitats SAS10k en RAID-60P (triple paritat) per comprovar la fallada de tres unitats del grup alhora. Es va deixar un disc per a la substitució automàtica.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Hem connectat dos LUN (un mitjançant FC, un mitjançant iSCSI).

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

El propietari dels dos LUN és el controlador Engine-0

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Comencem la prova

Activem IOMETER amb la configuració anterior.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Enregistrem un rendiment d'1.8 GB/s i una latència de 3 mil·lisegons. No hi ha errors (Recompte total d'errors).

Al mateix temps, des de la unitat local "C" del nostre amfitrió, comencem a copiar paral·lelament dos fitxers grans de 100 GB als LUN d'emmagatzematge FC i iSCSI (unitats E i G a Windows), utilitzant altres interfícies.

A dalt hi ha el procés de còpia a LUN FC, a continuació a iSCSI.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Prova núm. 1: desactivació dels ports d'E/S

Ens acostem al sistema d'emmagatzematge per darrere))) i amb un lleuger moviment de la mà traiem tots els cables FC i Ethernet 10G del controlador Engine-0. És com si una dona de la neteja amb una fregona passés i decidís rentar el terra just on hi havia el moc i els cables estiguessin (és a dir, el controlador encara funciona, però els ports d'E/S estan morts).

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Vegem l'IÒMETRE i la còpia de fitxers. El rendiment va baixar a 0,5 GB/s, però ràpidament va tornar al seu nivell anterior (en uns 4-5 segons). No hi ha errors.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

La còpia de fitxers no s'ha aturat, hi ha una baixada de velocitat, però no és gens crític (de 840 MB/s ha baixat a 720 MB/s). La còpia no s'ha aturat.

Mirem els registres del sistema d'emmagatzematge i veiem un missatge sobre la indisponibilitat de ports i la reubicació automàtica del grup.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

El panell d'informació també ens diu que no tot està molt bé amb els ports FC.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

El sistema d'emmagatzematge va sobreviure a una fallada dels ports d'E/S amb èxit.

Prova núm. 2. Desactivació del controlador d'emmagatzematge

Gairebé immediatament (després de tornar a connectar els cables al sistema d'emmagatzematge) vam decidir acabar amb el sistema d'emmagatzematge traient el controlador del xassís.

De nou ens apropem al sistema d'emmagatzematge per darrere (ens va agradar))) i aquesta vegada traiem el controlador Engine-1, que en aquest moment és el propietari del RDG (al qual es va traslladar el grup).

La situació a IOmeter és la següent. I/O es va aturar durant uns 5 segons. Els errors no s'acumulen.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Després de 5 segons, l'E/S es va reprendre amb aproximadament el mateix rendiment, però amb latències de 35 mil·lisegons (latencies corregides al cap d'un parell de minuts). Com es pot veure a les captures de pantalla, el valor del recompte d'errors totals és 0, és a dir, no hi ha hagut errors d'escriptura ni de lectura.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Vegem com copiar els nostres fitxers. Com podeu veure, no es va interrompre, hi va haver una lleugera baixada de rendiment, però en general tot va tornar al mateix ~ 800 MB/s.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Anem al sistema d'emmagatzematge i veiem una maledicció al tauler d'informació que el controlador Engine-1 no està disponible (per descomptat, el vam matar).

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

També veiem una entrada similar als registres.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

El controlador d'emmagatzematge també va sobreviure a un error amb èxit.

Prova núm. 3: Desconnexió de l'alimentació.

Per si de cas, vam començar a copiar fitxers de nou, però no vam aturar IOMETER.
Estirem la font d'alimentació.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

S'ha afegit una altra alerta al sistema d'emmagatzematge al tauler d'informació.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

També al menú de sensors veiem que els sensors associats a la font d'alimentació extreta s'han tornat vermells.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

El sistema d'emmagatzematge continua funcionant. La fallada de la font d'alimentació no afecta de cap manera el funcionament del sistema d'emmagatzematge; des del punt de vista de l'amfitrió, la velocitat de còpia i els indicadors IOMETER es van mantenir sense canvis.

S'ha superat la prova de fallada d'alimentació amb èxit.

Abans de la prova final, vam decidir recuperar una mica el sistema d'emmagatzematge, tornar a posar el controlador i la font d'alimentació i també posar els cables en ordre, cosa que el sistema d'emmagatzematge ens va informar feliçment amb icones verdes al seu panell de salut. .

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Prova núm. 4. Fallada de tres discos en un grup

Abans d'aquesta prova, vam realitzar un pas addicional de preparació. El fet és que el sistema d'emmagatzematge ENGINE proporciona una cosa molt útil: diferents polítiques de reconstrucció. TS Solution va escriure sobre aquesta característica anteriorment, però recordem la seva essència. L'administrador d'emmagatzematge pot especificar la prioritat per a l'assignació de recursos durant la reconstrucció. Ja sigui en la direcció del rendiment d'E/S, és a dir, la reconstrucció triga més, però no hi ha cap reducció del rendiment. O en la direcció de la velocitat de reconstrucció, però la productivitat es reduirà. O una opció equilibrada. Com que el rendiment de l'emmagatzematge durant la reconstrucció del grup de discs és sempre un mal de cap per a l'administrador, provarem una política amb un esbiaixament cap al rendiment d'E/S i a costa de la velocitat de reconstrucció.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Ara comprovem la fallada del disc. També habilitem l'enregistrament a LUN (fitxers i IÒMETRE). Com que tenim un grup amb triple paritat (RAID-60P), això vol dir que el sistema ha de suportar la fallada de tres discos, i després de la fallada, la substitució automàtica ha de funcionar, un disc ha de substituir un dels fallats. al RDG, i s'ha de començar a reconstruir-hi.

Comença. Primer, a través de la interfície d'emmagatzematge, destaquem els discos que volem treure (per no perdre'ns i estirar el disc de canvi automàtic).

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Comprovem la indicació del maquinari. Tot està bé, veiem tres discos destacats.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

I traiem aquests tres discos.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Vegem què hi ha a l'amfitrió. I allà... no va passar res especial.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència
Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Els indicadors de còpia (són més alts que al principi, perquè la memòria cau s'ha escalfat) i IOMETER no canvien gaire en treure els discs i iniciar la reconstrucció (entre el 5 i el 10%).

Vegem què hi ha al sistema d'emmagatzematge.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

En l'estatus del grup, veiem que el procés de reestructuració ha començat i està a punt d'acabar.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

A l'esquelet RDG podeu veure que 2 discs estan en estat vermell i un ja s'ha substituït. El disc de substitució automàtica ja no hi és; va substituir el tercer disc fallit. La reconstrucció va trigar uns quants minuts, l'escriptura de fitxers quan fallaven 3 discs no es va interrompre i el rendiment d'E/S no va canviar gaire.

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

Proves de xoc del sistema d'emmagatzematge AERODISK ENGINE N2, prova de resistència

La prova de fallada del disc ha superat definitivament amb èxit.

Conclusió

En aquest punt, vam decidir aturar la violència contra els sistemes d'emmagatzematge. Resumim:

  • Comprovació d'error del port FC: correcta
  • Comprovació d'error del port Ethernet: correcta
  • Comprovació d'error del controlador: correcta
  • Prova de fallada d'alimentació: èxit
  • Comprovació de l'error del disc a la agrupació de grups: correcta

Cap de les fallades va deixar de gravar ni va provocar errors en la càrrega sintètica; és clar, hi va haver un èxit de rendiment (i sabem com superar-lo, que farem aviat), però tenint en compte que són segons, és força acceptable. Conclusió: la tolerància a fallades de tots els components del sistema d'emmagatzematge AERODISK va funcionar a nivell, no hi havia punts de fallada.

Òbviament, en un article no podem provar tots els escenaris de fallada, però hem intentat cobrir els més populars. Per tant, si us plau, envieu els vostres comentaris, suggeriments per a futures publicacions i, per descomptat, les crítiques adequades. Estarem encantats de discutir (o millor encara, vine a la formació, duplico l'horari per si de cas)! Fins a noves proves!

  • Нижний Новгород (JA OBERT - us podeu inscriure aquí https://aerodisk.promo/nn/);
    Fins al 16 d'abril de 2019 es podrà visitar el centre en qualsevol horari laboral, i el 16 d'abril de 2019 s'organitzarà un gran curs de formació.
  • Краснодар (OBERTA PROVIAMENT - us podeu inscriure aquí https://aerodisk.promo/krsnd/ );
    Del 9 d'abril al 25 d'abril de 2019 es podrà visitar el centre en qualsevol horari laboral, i el 25 d'abril de 2019 s'organitzarà un gran curs de formació.
  • Iekaterinburg (OBERTA PROVIAMENT, seguiu la informació a la nostra web o a Habré);
    Maig-juny 2019.
  • Новосибирск (seguiu la informació a la nostra web o a Habré);
    Octubre 2019.
  • Krasnoyarsk (seguiu la informació a la nostra web o a Habré);
    novembre 2019.

Font: www.habr.com

Afegeix comentari