Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Salutare tuturor! Cu acest articol, AERODISK deschide un blog pe Habré. Ura, tovarăși!

Articolele anterioare despre Habré au discutat întrebări despre arhitectura și configurația de bază a sistemelor de stocare. În acest articol vom lua în considerare o întrebare care nu a fost abordată anterior, dar care este adesea adresată - despre toleranța la erori a sistemelor de stocare AERODISK ENGINE. Echipa noastră va face totul pentru a se asigura că sistemul de stocare AERODISK nu mai funcționează, de exemplu. Rupe-o.

S-a întâmplat că articole despre istoria companiei noastre, despre produsele noastre, precum și un exemplu de implementare cu succes sunt deja atârnate de Habré, pentru care Mulțumim partenerilor noștri - companiile TS Solution și Softline.

Prin urmare, nu voi instrui aici abilitățile de gestionare a copierii și lipirii, ci pur și simplu voi oferi link-uri către originalele acestor articole:

De asemenea, vreau să împărtășesc o veste bună. Dar voi începe, desigur, cu problema. Noi, în calitate de tânăr furnizor, printre alte costuri, ne confruntăm în mod constant cu faptul că mulți ingineri și administratori pur și simplu nu știu cum să opereze corect sistemul nostru de stocare.
Este clar că gestionarea majorității sistemelor de stocare arată aproximativ la fel din punctul de vedere al unui administrator, dar fiecare producător are propriile caracteristici. Și nu facem excepție aici.

Prin urmare, pentru a simplifica sarcina de formare a specialiștilor IT, am decis să ne dedicăm anul acesta educației gratuite. Pentru a face acest lucru, în multe orașe mari din Rusia deschidem o rețea de Centre de Competență AERODISK, în care orice specialist tehnic interesat poate urma un curs absolut gratuit și poate primi un certificat în administrarea sistemelor de stocare AERODISK ENGINE.

În fiecare Centru de competențe vom instala un stand demo cu drepturi depline din sistemul de stocare AERODISK și un server fizic, pe care profesorul nostru va desfășura instruire față în față. Vom publica programul de lucru al Centrelor de competență la apariția lor, dar am deschis deja un centru la Nijni Novgorod și urmează orașul Krasnodar. Vă puteți înscrie la antrenament folosind link-urile de mai jos. Iată informațiile cunoscute în prezent despre orașe și date:

  • Nijni Novgorod (DEJA DESCHIS – vă puteți înscrie aici https://aerodisk.promo/nn/);
    Până pe 16 aprilie 2019, puteți vizita centrul la orice oră de lucru, iar pe 16 aprilie 2019 va fi organizat un amplu curs de formare.
  • Krasnodar (DESCHIDERE ÎN CURÂND - vă puteți înscrie aici https://aerodisk.promo/krsnd/ );
    Din 9 aprilie până în 25 aprilie 2019, puteți vizita centrul la orice oră de lucru, iar pe 25 aprilie 2019 va fi organizat un amplu curs de formare.
  • Yekaterinburg (DESCHIDERE ÎN CURÂND, urmăriți informațiile de pe site-ul nostru sau de pe Habré);
    mai-iunie 2019.
  • Novosibirsk (urmați informațiile de pe site-ul nostru sau de pe Habré);
    octombrie 2019
  • Krasnoyarsk (urmați informațiile de pe site-ul nostru sau de pe Habré);
    noiembrie 2019.

Și, desigur, dacă Moscova nu este departe de tine, atunci poți oricând să vizitezi biroul nostru din Moscova și să urmezi o pregătire similară.

Toate. Am terminat cu marketingul, să trecem la tehnologie!

Pe Habré vom publica în mod regulat articole tehnice despre produsele noastre, teste de încărcare, comparații, caracteristici de utilizare și implementări interesante.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

ATENȚIE! După ce ați citit articolul, puteți spune: bine, bineînțeles, vânzătorul se va verifica, astfel încât totul să funcționeze „cu explozie”, condiții de seră etc. O sa raspund: nimic de genul asta! Spre deosebire de concurenții noștri străini, ne aflăm aici, aproape de dumneavoastră, și puteți oricând să veniți la noi (la Moscova sau orice Comitetul Central) și să ne testați sistemul de stocare în orice fel. Astfel, nu are prea mult sens pentru noi să ajustăm rezultatele la o imagine ideală a lumii, deoarece Suntem foarte ușor de verificat. Pentru cei cărora le este prea lene să meargă și nu au timp, putem organiza testarea la distanță. Avem un laborator special pentru asta. Contactaţi-ne.

ACHTUNG-2! Acest test nu este un test de sarcină, deoarece aici ne pasă doar de toleranța la greșeală. În câteva săptămâni, vom pregăti un stand mai puternic și vom efectua teste de încărcare a sistemului de stocare, publicând rezultatele aici (apropo, cererile de teste sunt acceptate).

Deci, hai să-l spargem.

stand de testare

Standul nostru este format din urmatoarele feronerie:

  • 1 x sistem de stocare Aerodisk Engine N2 (2 controlere, 64 GB cache, 8 porturi FC 8 Gb/s, 4 porturi Ethernet 10 Gb/s SFP+, 4 porturi Ethernet 1 Gb/s); Următoarele discuri sunt instalate în sistemul de stocare:
  • 4 x discuri SSD SAS 900 GB;
  • 12 x discuri SAS 10k 1,2 TB;
  • 1 x server fizic cu Windows Server 2016 (2xXeon E5 2667 v3, 96 GB RAM, 2 x porturi FC 8 Gb/s, 2 x porturi Ethernet 10 Gb/s SFP+);
  • 2 x switch SAN 8G;
  • 2 x comutator LAN 10G;

Am conectat serverul la sistemul de stocare prin intermediul comutatoarelor atât prin Ethernet FC, cât și 10G. Diagrama standului este mai jos.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Componentele de care avem nevoie, cum ar fi inițiatorul MPIO și iSCSI, sunt instalate pe Windows Server.
Zonele sunt configurate pe switch-urile FC, VLAN-urile corespunzătoare sunt configurate pe switch-urile LAN și MTU 9000 este instalat pe porturile de stocare, switch-uri și gazdă (cum se face toate acestea este descris în documentația noastră, așa că nu vom descrie acest proces aici).

Metodologia de testare

Planul de test de impact este următorul:

  • Verificarea defecțiunii porturilor FC și Ethernet.
  • Verificare pene de curent.
  • Verificarea defecțiunii controlerului.
  • Verificarea erorilor de disc într-un grup/pool.

Toate testele vor fi efectuate în condiții de încărcare sintetică, pe care le vom genera prin programul IOMETER. În paralel, vom efectua aceleași teste, dar în condițiile copierii fișierelor mari în sistemul de stocare.

Configurația IOmeter este după cum urmează:

  • Citire/Scrie – 70/30
  • Bloc – 128k (am decis să spălăm sistemele de depozitare în blocuri mari)
  • Numărul de fire – 128 (care este foarte asemănător cu sarcina productivă)
  • Aleatoriu complet
  • Număr de lucrători – 4 (2 pentru FC, 2 pentru iSCSI)

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență
Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Testul are următoarele obiective:

  1. Asigurați-vă că procesul de încărcare și copiere sintetică nu va întrerupe sau provoca erori în diferite scenarii de defecțiune.
  2. Asigurați-vă că procesul de comutare a porturilor, controlerelor etc. este suficient de automatizat și nu necesită acțiuni ale administratorului în caz de eșecuri (adică în timpul failover-urilor, nu vorbim despre failback-uri, desigur).
  3. Asigurați-vă că informațiile din jurnale sunt afișate corect.

Pregătirea gazdă și a sistemului de stocare

Am configurat blocarea accesului pe sistemul de stocare folosind porturile FC și Ethernet (FC și respectiv iSCSI). Băieții de la TS Solution au descris în detaliu cum să facă acest lucru într-un articol anterior (https://habr.com/ru/company/tssolution/blog/432876/). Și, desigur, nimeni nu a anulat manualele și cursurile.

Am înființat un grup hibrid folosind toate unitățile pe care le aveam. Au fost adăugate 2 discuri SSD în cache, 2 discuri SSD au fost adăugate ca nivel de stocare suplimentar (nivel online). Am grupat 12 unități SAS10k în RAID-60P (triple parity) pentru a verifica defecțiunea a trei unități din grup simultan. Un disc a fost lăsat pentru înlocuire automată.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Am conectat două LUN-uri (unul prin FC, unul prin iSCSI).

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Proprietarul ambelor LUN-uri este controlerul Engine-0

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Să începem testul

Activem IOMETER cu configurația de mai sus.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Înregistrăm un debit de 1.8 GB/s și o latență de 3 milisecunde. Nu există erori (Număr total de erori).

În același timp, de pe unitatea locală „C” a gazdei noastre, începem paralel să copiem două fișiere mari de 100 GB în LUN-uri de stocare FC și iSCSI (unitățile E și G în Windows), folosind alte interfețe.

Mai sus este procesul de copiere în LUN FC, mai jos în iSCSI.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Testul #1: Dezactivarea porturilor I/O

Ne apropiem de sistemul de stocare din spate))) și cu o ușoară mișcare a mâinii scoatem toate cablurile FC și Ethernet 10G din controlerul Engine-0. Este ca și cum o femeie de curățenie cu un mop a trecut și a decis să spele podeaua chiar acolo unde zăcea mucurile și cablurile (adică controlerul încă funcționează, dar porturile I/O sunt moarte).

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Să ne uităm la IOMETER și la copierea fișierelor. Debitul a scăzut la 0,5 GB/s, dar a revenit rapid la nivelul anterior (în aproximativ 4-5 secunde). Nu există erori.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Copierea fișierelor nu s-a oprit, este o scădere a vitezei, dar nu este deloc critică (de la 840 MB/s a scăzut la 720 MB/s). Copierea nu s-a oprit.

Ne uităm la jurnalele sistemului de stocare și vedem un mesaj despre indisponibilitatea porturilor și relocarea automată a grupului.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Panoul de informații ne mai spune că nu totul este foarte bine cu porturile FC.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Sistemul de stocare a supraviețuit unei defecțiuni a porturilor I/O cu succes.

Testul nr. 2. Dezactivarea controlerului de stocare

Aproape imediat (după ce am reconectat cablurile la sistemul de stocare) am decis să terminăm sistemul de stocare trăgând controlerul din șasiu.

Din nou abordăm sistemul de stocare din spate (ne-a plăcut))) și de data aceasta scoatem controlerul Engine-1, care în acest moment este proprietarul RDG-ului (la care s-a mutat grupul).

Situația în IOmeter este următoarea. I/O s-a oprit pentru aproximativ 5 secunde. Erorile nu se acumulează.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

După 5 secunde, I/O a reluat cu aproximativ aceeași debit, dar cu latențe de 35 de milisecunde (latențe corectate după aproximativ câteva minute). După cum se poate vedea din capturi de ecran, valoarea Total error count este 0, adică nu au existat erori de scriere sau citire.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Să ne uităm la copierea fișierelor noastre. După cum puteți vedea, nu a fost întrerupt, a existat o ușoară scădere a performanței, dar per total totul a revenit la aceeași ~ 800 MB/s.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Mergem la sistemul de stocare și vedem un blestem în panoul de informații că controlerul Engine-1 nu este disponibil (desigur, l-am ucis).

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Vedem și o intrare similară în jurnale.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Controlerul de stocare a supraviețuit și el unui eșec cu succes.

Testul nr. 3: Deconectarea sursei de alimentare.

Pentru orice eventualitate, am început să copiem din nou fișierele, dar nu am oprit IOMETER.
Tragem unitatea de alimentare.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

O altă alertă a fost adăugată sistemului de stocare din panoul de informații.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

De asemenea, în meniul senzori vedem că senzorii asociați cu sursa de alimentare scoasă au devenit roșii.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Sistemul de stocare continuă să funcționeze. Defectarea unității de alimentare nu afectează în niciun fel funcționarea sistemului de stocare; din punctul de vedere al gazdei, indicatorii de viteză de copiere și IOMETER au rămas neschimbați.

Testul de întrerupere a curentului a trecut cu succes.

Înainte de testul final, am decis să readucem puțin la viață sistemul de stocare, să punem la loc controlerul și unitatea de alimentare și, de asemenea, să punem în ordine cablurile, despre care sistemul de stocare ne-a informat cu bucurie cu pictograme verzi în panoul său de sănătate .

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Testul nr. 4. Eșecul a trei discuri dintr-un grup

Înainte de acest test, am efectuat un pas suplimentar de pregătire. Faptul este că sistemul de stocare ENGINE oferă un lucru foarte util - politici diferite de reconstrucție. TS Solution a scris mai devreme despre această caracteristică, dar să ne amintim esența ei. Administratorul de stocare poate specifica prioritatea pentru alocarea resurselor în timpul reconstrucției. Fie în direcția performanței I/O, adică reconstrucția durează mai mult, dar nu există nicio reducere a performanței. Sau în direcția vitezei de reconstrucție, dar productivitatea va fi redusă. Sau o variantă echilibrată. Deoarece performanța stocării în timpul reconstrucției grupului de discuri este întotdeauna o bătaie de cap pentru administrator, vom testa o politică cu o părtinire către performanța I/O și în detrimentul vitezei de reconstrucție.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Acum haideți să verificăm dacă există defecțiuni ale discului. De asemenea, activăm înregistrarea în LUN-uri (fișiere și IOMETER). Deoarece avem un grup cu paritate triplă (RAID-60P), aceasta înseamnă că sistemul trebuie să reziste la defecțiunea a trei discuri, iar după defecțiune, înlocuirea automată trebuie să funcționeze, un disc trebuie să ia locul unuia dintre cele eșuate. în RDG, iar reconstrucția trebuie să înceapă pe el.

ÎNCEPE. În primul rând, prin interfața de stocare, să evidențiem discurile pe care vrem să le scoatem (pentru a nu rata și trage discul autoschimbat).

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Verificăm indicația de pe hardware. Totul este OK, vedem trei discuri evidențiate.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Și scoatem aceste trei discuri.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Să ne uităm la ce este pe gazdă. Și acolo... nu sa întâmplat nimic special.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență
Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Indicatorii de copiere (sunt mai mari decât la început, deoarece memoria cache s-a încălzit) și IOMETER nu se schimbă prea mult la scoaterea discurilor și la pornirea reconstrucției (în interval de 5-10%).

Să ne uităm la ce este pe sistemul de stocare.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

În starea grupului, vedem că procesul de restructurare a început și este aproape de finalizare.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

În scheletul RDG puteți vedea că 2 discuri sunt în stare roșie, iar unul a fost deja înlocuit. Discul de autoînlocuire nu mai este acolo; a înlocuit al treilea disc eșuat. Reconstrucția a durat câteva minute, scrierea fișierelor atunci când 3 discuri au eșuat nu a fost întreruptă, iar performanța I/O nu s-a schimbat prea mult.

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Teste de impact ale sistemului de stocare AERODISK ENGINE N2, test de rezistență

Testul de defecțiune a discului a trecut cu siguranță cu succes.

Concluzie

În acest moment, am decis să oprim violența împotriva sistemelor de stocare. Să rezumăm:

  • Verificarea eșecului portului FC - reușită
  • Verificarea eșecului portului Ethernet - reușită
  • Verificarea defecțiunii controlerului - reușită
  • Test de întrerupere a alimentării - Reușit
  • Verificarea eșecului discului în grupul de grup - cu succes

Niciuna dintre defecțiuni nu a oprit înregistrarea și nici nu a provocat erori în încărcarea sintetică; desigur, a existat o lovitură de performanță (și știm să o depășim, ceea ce vom face în curând), dar având în vedere că sunt secunde, este destul de acceptabil. Concluzie: toleranța la erori a tuturor componentelor sistemului de stocare AERODISK a funcționat la nivel, nu au existat puncte de defecțiune.

Evident, într-un articol nu putem testa toate scenariile de eșec, dar am încercat să le acoperim pe cele mai populare. Prin urmare, vă rugăm să trimiteți comentariile dumneavoastră, sugestii pentru viitoare publicații și, bineînțeles, critici adecvate. Vom fi bucuroși să discutăm (sau mai bine zis, vino la antrenament, dublez programul pentru orice eventualitate)! Până la noi teste!

  • Nijni Novgorod (DEJA DESCHIS – vă puteți înscrie aici https://aerodisk.promo/nn/);
    Până pe 16 aprilie 2019, puteți vizita centrul la orice oră de lucru, iar pe 16 aprilie 2019 va fi organizat un amplu curs de formare.
  • Krasnodar (DESCHIDERE ÎN CURÂND - vă puteți înscrie aici https://aerodisk.promo/krsnd/ );
    Din 9 aprilie până în 25 aprilie 2019, puteți vizita centrul la orice oră de lucru, iar pe 25 aprilie 2019 va fi organizat un amplu curs de formare.
  • Yekaterinburg (DESCHIDERE ÎN CURÂND, urmăriți informațiile de pe site-ul nostru sau de pe Habré);
    mai-iunie 2019.
  • Novosibirsk (urmați informațiile de pe site-ul nostru sau de pe Habré);
    octombrie 2019
  • Krasnoyarsk (urmați informațiile de pe site-ul nostru sau de pe Habré);
    noiembrie 2019.

Sursa: www.habr.com

Adauga un comentariu