Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Ahojte všetci! Týmto článkom AERODISK otvára blog na Habré. Hurá, súdruhovia!

Predchádzajúce články o Habré rozoberali otázky týkajúce sa architektúry a základnej konfigurácie úložných systémov. V tomto článku sa budeme zaoberať otázkou, ktorá ešte nebola spomenutá, ale často sa pýtame - o odolnosti úložných systémov AERODISK ENGINE. Náš tím urobí všetko pre to, aby skladový systém AERODISK prestal fungovať, t.j. zlom to.

Tak sa stalo, že na Habré už visia články o histórii našej spoločnosti, o našich produktoch, ako aj príklad úspešnej implementácie, za ktorú Veľká vďaka patrí našim partnerom – spoločnostiam TS Solution a Softline.

Preto tu nebudem trénovať schopnosti správy kopírovania a vkladania, ale jednoducho poskytnem odkazy na originály týchto článkov:

Chcem sa tiež podeliť o dobré správy. Ale začnem, samozrejme, problémom. My, ako mladý predajca, sa okrem iných nákladov neustále stretávame s tým, že mnohí inžinieri a správcovia jednoducho nevedia, ako správne prevádzkovať náš skladovací systém.
Je jasné, že správa väčšiny úložných systémov vyzerá z pohľadu správcu približne rovnako, ale každý výrobca má svoje vlastné charakteristiky. A tu nie sme výnimkou.

Preto, aby sme si zjednodušili prípravu IT špecialistov, rozhodli sme sa tento rok venovať bezplatnému vzdelávaniu. Aby sme to dosiahli, v mnohých veľkých mestách Ruska otvárame sieť kompetenčných centier AERODISK, v ktorých môže každý technický špecialista, ktorý má záujem, absolvovať kurz úplne zadarmo a získať certifikát na správu skladovacích systémov AERODISK ENGINE.

V každom Kompetenčnom centre nainštalujeme plnohodnotný demo stojan z úložného systému AERODISK a fyzický server, na ktorom bude náš pedagóg viesť prezenčné školenia. Pracovný harmonogram kompetenčných centier zverejníme hneď, ako sa objavia, ale už sme otvorili centrum v Nižnom Novgorode a ďalšie je mesto Krasnodar. Na školenie sa môžete prihlásiť pomocou nižšie uvedených odkazov. Tu sú aktuálne známe informácie o mestách a dátumoch:

  • Nižnij Novgorod (UŽ OTVORENÉ – prihlásiť sa môžete tu https://aerodisk.promo/nn/);
    Do 16. apríla 2019 môžete centrum navštíviť v akomkoľvek pracovnom čase a 16. apríla 2019 sa bude konať veľké školenie.
  • Krasnodar (ČOSKORO OTVORÍME - prihlásiť sa môžete tu https://aerodisk.promo/krsnd/ );
    Od 9. apríla do 25. apríla 2019 môžete centrum navštíviť v akomkoľvek pracovnom čase a dňa 25. apríla 2019 sa bude konať veľké školenie.
  • Jekaterinburg (ČOSKORO OTVORÍME, sledujte informácie na našej stránke alebo na Habré);
    Máj – jún 2019.
  • Novosibirsk (sledujte informácie na našej webovej stránke alebo na Habré);
    október 2019.
  • Krasnojarsk (sledujte informácie na našej webovej stránke alebo na Habré);
    novembra 2019.

A samozrejme, ak Moskva nie je ďaleko od vás, môžete kedykoľvek navštíviť našu kanceláriu v Moskve a absolvovať podobné školenie.

Všetky. S marketingom sme skončili, prejdime k technológiám!

Na Habré budeme pravidelne publikovať technické články o našich produktoch, záťažové testy, porovnania, vlastnosti použitia a zaujímavé implementácie.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

POZOR! Po prečítaní článku môžete povedať: no, samozrejme, predajca sa skontroluje, aby všetko fungovalo „s treskom“, skleníkové podmienky atď. Odpoviem: nič také! Na rozdiel od našich zahraničných konkurentov sa nachádzame tu, blízko vás a kedykoľvek môžete prísť k nám (do Moskvy alebo na ktorýkoľvek Ústredný výbor) a otestovať náš skladovací systém akýmkoľvek spôsobom. Preto pre nás nemá veľký zmysel prispôsobovať výsledky ideálnemu obrazu sveta, pretože Dá sa veľmi ľahko skontrolovať. Pre tých, ktorí sú príliš leniví ísť a nemajú čas, môžeme zorganizovať testovanie na diaľku. Máme na to špeciálne laboratórium. Kontaktuj nás.

ACHTUNG-2! Tento test nie je zaťažkávacím testom, pretože tu nám záleží len na tolerancii chýb. O pár týždňov pripravíme výkonnejší stojan a vykonáme záťažové testovanie úložného systému, pričom výsledky zverejníme tu (mimochodom, požiadavky na testy sú akceptované).

Takže, poďme to rozbiť.

skúšobná stolica

Náš stánok pozostáva z nasledujúceho hardvéru:

  • 1 x úložný systém Aerodisk Engine N2 (2 radiče, 64GB cache, 8xFC porty 8Gb/s, 4xEthernet porty 10Gb/s SFP+, 4xEthernet porty 1Gb/s); V úložnom systéme sú nainštalované nasledujúce disky:
  • 4 x SAS SSD disky 900 GB;
  • 12 x SAS 10k disky 1,2 TB;
  • 1 x Fyzický server s Windows Server 2016 (2xXeon E5 2667 v3, 96GB RAM, 2xFC porty 8Gb/s, 2xEthernet porty 10Gb/s SFP+);
  • 2 x prepínač SAN 8G;
  • 2 x LAN 10G prepínač;

Server sme pripojili k úložnému systému cez switche cez FC aj 10G Ethernet. Schéma stojana je uvedená nižšie.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Komponenty, ktoré potrebujeme, ako napríklad MPIO a iniciátor iSCSI, sú nainštalované na Windows Server.
Zóny sú nakonfigurované na prepínačoch FC, príslušné siete VLAN sú nakonfigurované na prepínačoch LAN a MTU 9000 je nainštalovaný na úložných portoch, prepínačoch a hostiteľovi (ako to všetko urobiť je popísané v našej dokumentácii, takže nebudeme popisovať tento proces tu).

Metodika testovania

Plán nárazových skúšok je nasledovný:

  • Kontrola zlyhania FC a Ethernet portov.
  • Kontrola výpadku napájania.
  • Kontrola zlyhania ovládača.
  • Kontrola zlyhania disku v skupine/poole.

Všetky testy budú vykonávané pri syntetických podmienkach zaťaženia, ktoré vygenerujeme programom IOMETER. Paralelne vykonáme rovnaké testy, ale za podmienok kopírovania veľkých súborov do úložného systému.

Konfigurácia IOmeter je nasledovná:

  • Čítanie/zápis – 70/30
  • Blok – 128k (rozhodli sme sa umývať skladovacie systémy vo veľkých blokoch)
  • Počet vlákien – 128 (čo je veľmi podobné produktívnemu zaťaženiu)
  • Úplné náhodné
  • Počet pracovníkov – 4 (2 pre FC, 2 pre iSCSI)

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti
Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Test má nasledujúce ciele:

  1. Zabezpečte, aby proces syntetického načítania a kopírovania neprerušil alebo nespôsobil chyby v rôznych scenároch zlyhania.
  2. Dbajte na to, aby bol proces prepínania portov, radičov a pod. dostatočne automatizovaný a v prípade porúch (teda pri failoveroch, samozrejme nehovoríme o failbackoch) nevyžaduje zásah administrátora.
  3. Uistite sa, že sa informácie v protokoloch zobrazujú správne.

Príprava hostiteľského a úložného systému

Blokový prístup na úložnom systéme sme nakonfigurovali pomocou portov FC a Ethernet (FC a iSCSI). Chlapci z TS Solution podrobne opísali, ako to urobiť v predchádzajúcom článku (https://habr.com/ru/company/tssolution/blog/432876/). A, samozrejme, nikto nezrušil príručky a kurzy.

Nastavili sme hybridnú skupinu pomocou všetkých pohonov, ktoré sme mali. 2 SSD disky boli pridané do vyrovnávacej pamäte, 2 SSD disky boli pridané ako dodatočná úložná vrstva (Online-tier). Zoskupili sme 12 diskov SAS10k do RAID-60P (trojitá parita), aby sme skontrolovali zlyhanie troch diskov v skupine naraz. Jeden disk zostal na automatickú výmenu.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Pripojili sme dve LUN (jeden cez FC, jeden cez iSCSI).

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Vlastníkom oboch LUN je ovládač Engine-0

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Začnime s testom

IOMETER povolíme pomocou vyššie uvedenej konfigurácie.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Zaznamenávame priepustnosť 1.8 GB/s a latenciu 3 milisekúnd. Neexistujú žiadne chyby (celkový počet chýb).

Zároveň z lokálneho disku „C“ nášho hostiteľa začneme paralelne kopírovať dva veľké 100 GB súbory na úložné jednotky FC a iSCSI LUN (jednotky E a G vo Windowse) pomocou iných rozhraní.

Vyššie je proces kopírovania do LUN FC, nižšie do iSCSI.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Test č. 1: Vypnutie I/O portov

Zozadu sa priblížime k úložnému systému))) a miernym pohybom ruky vytiahneme všetky káble FC a Ethernet 10G z ovládača Engine-0. Je to ako keby okolo išla upratovačka s mopom a rozhodla sa umyť podlahu práve tam, kde ležal soplík a ležali káble (t.j. ovládač stále funguje, ale I/O porty sú mŕtve).

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Pozrime sa na IOMETER a kopírovanie súborov. Priepustnosť klesla na 0,5 GB/s, ale rýchlo sa vrátila na predchádzajúcu úroveň (asi za 4-5 sekúnd). Nie sú tam žiadne chyby.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Kopírovanie súborov sa nezastavilo, došlo k poklesu rýchlosti, ale nie je to vôbec kritické (z 840 MB/s kleslo na 720 MB/s). Kopírovanie sa nezastavilo.

Pozeráme sa na denníky úložného systému a vidíme správu o nedostupnosti portov a automatickom premiestnení skupiny.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Informačný panel nám tiež hovorí, že s FC portmi nie je všetko veľmi dobré.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Úložný systém prežil zlyhanie I/O portov úspešne.

Test č. 2. Vypnutie radiča úložiska

Takmer okamžite (po pripojení káblov späť do úložného systému) sme sa rozhodli dokončiť úložný systém vytiahnutím ovládača zo šasi.

Opäť sa priblížime k úložnému systému zozadu (páčilo sa nám to))) a tentokrát vytiahneme ovládač Engine-1, ktorý je v tejto chvíli vlastníkom RDG (do ktorého sa skupina presunula).

Situácia v IOmeter je nasledovná. I/O sa zastavili na približne 5 sekúnd. Chyby sa nehromadia.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Po 5 sekundách sa I/O obnovil s približne rovnakou priepustnosťou, ale s latenciou 35 milisekúnd (latencie opravené asi po niekoľkých minútach). Ako je možné vidieť zo snímok obrazovky, hodnota celkového počtu chýb je 0, to znamená, že sa nevyskytli žiadne chyby pri písaní alebo čítaní.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Pozrime sa na kopírovanie našich súborov. Ako vidíte, neprerušovalo sa, došlo k miernemu poklesu výkonu, ale celkovo sa všetko vrátilo na rovnakých ~ 800 MB/s.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Ideme do úložného systému a na informačnom paneli vidíme kliatbu, že ovládač Engine-1 je nedostupný (samozrejme, zabili sme ho).

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Podobný záznam vidíme aj v protokoloch.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Úložný radič tiež prežil zlyhanie úspešne.

Test č. 3: Odpojenie napájania.

Pre každý prípad sme znova začali kopírovať súbory, ale nezastavili sme IOMETER.
Vytiahneme napájaciu jednotku.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Do úložného systému v informačnom paneli pribudlo ďalšie upozornenie.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Aj v ponuke senzorov vidíme, že senzory spojené s vytiahnutým zdrojom sa zmenili na červenú.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Úložný systém naďalej funguje. Porucha napájacej jednotky žiadnym spôsobom neovplyvňuje prevádzku úložného systému, z pohľadu hostiteľa zostali indikátory rýchlosti kopírovania a IOMETER nezmenené.

Test výpadku napájania prešiel úspešne úspešne.

Pred záverečným testom sme sa rozhodli trochu oživiť úložný systém, vrátiť späť ovládač a napájací zdroj a dať do poriadku aj káble, o čom nás úložný systém s radosťou informoval zelenými ikonami na paneli zdravia. .

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Test č. 4. Porucha troch diskov v skupine

Pred týmto testom sme vykonali ďalší prípravný krok. Faktom je, že úložný systém ENGINE poskytuje veľmi užitočnú vec – rôzne politiky prestavby. TS Solution o tejto funkcii písalo skôr, ale pripomeňme si jej podstatu. Správca úložného priestoru môže špecifikovať prioritu prideľovania prostriedkov počas prestavby. Buď v smere výkonu I/O, to znamená, že prestavba trvá dlhšie, ale nedochádza k žiadnemu poklesu výkonu. Alebo v smere rýchlosti prestavby, ale produktivita sa zníži. Alebo vyvážená možnosť. Keďže výkon úložiska počas prestavby skupiny diskov je vždy problémom správcu, otestujeme politiku so sklonom k ​​výkonu I/O a na úkor rýchlosti prestavby.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Teraz skontrolujeme zlyhanie disku. Umožňujeme aj nahrávanie na LUN (súbory a IOMETER). Keďže máme skupinu s trojitou paritou (RAID-60P), znamená to, že systém musí odolať zlyhaniu troch diskov a po zlyhaní musí fungovať automatická výmena, jeden disk musí nahradiť jeden z neúspešných diskov. v RDG a musí sa na ňom začať prestavba.

Začať. Najprv prostredníctvom rozhrania úložiska zvýrazníme disky, ktoré chceme vytiahnuť (aby sme nezmeškali a nevytiahli disk s automatickou výmenou).

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Kontrolujeme indikáciu na hardvéri. Všetko je v poriadku, vidíme tri zvýraznené disky.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

A vytiahneme tieto tri disky.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Pozrime sa, čo je na hostiteľovi. A tam... sa nestalo nič zvláštne.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti
Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Indikátory kopírovania (sú vyššie ako na začiatku, pretože vyrovnávacia pamäť sa zahriala) a IOMETER sa pri vyberaní diskov a spustení prestavby príliš nemenia (v rozmedzí 5-10%).

Pozrime sa, čo je na úložnom systéme.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Na štatúte skupiny vidíme, že proces reštrukturalizácie sa začal a je blízko ukončenia.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

V kostre RDG môžete vidieť, že 2 disky sú v červenom stave a jeden už bol vymenený. Disk na automatickú výmenu tam už nie je, nahradil 3. neúspešný disk. Prestavba trvala niekoľko minút, zápis súborov pri zlyhaní 3 diskov nebol prerušený a výkon I/O sa príliš nezmenil.

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Nárazové skúšky úložného systému AERODISK ENGINE N2, skúška pevnosti

Test zlyhania disku definitívne prešiel úspešne.

Záver

V tomto bode sme sa rozhodli zastaviť násilie voči skladovacím systémom. Poďme si to zhrnúť:

  • Kontrola zlyhania portu FC - úspešná
  • Kontrola zlyhania ethernetového portu – úspešná
  • Kontrola zlyhania ovládača - úspešná
  • Test výpadku napájania – úspešný
  • Kontrola zlyhania disku v skupine skupín – úspešná

Žiadna z porúch neprestala zaznamenávať ani nespôsobovala chyby v syntetickej záťaži, samozrejme, došlo k výkonnostnému zásahu (a vieme, ako ho prekonať, čo čoskoro urobíme), ale vzhľadom na to, že ide o sekundy, je to celkom prijateľné. Záver: odolnosť všetkých komponentov úložného systému AERODISK fungovala na úrovni, nevyskytli sa žiadne poruchové body.

Je zrejmé, že v jednom článku nemôžeme otestovať všetky scenáre zlyhania, ale pokúsili sme sa pokryť tie najpopulárnejšie. Posielajte preto svoje pripomienky, návrhy na ďalšie publikácie a samozrejme primeranú kritiku. Radi sa porozprávame (alebo ešte lepšie príďte na tréning, pre každý prípad duplikujem rozvrh)! Až do nových testov!

  • Nižnij Novgorod (UŽ OTVORENÉ – prihlásiť sa môžete tu https://aerodisk.promo/nn/);
    Do 16. apríla 2019 môžete centrum navštíviť v akomkoľvek pracovnom čase a 16. apríla 2019 sa bude konať veľké školenie.
  • Krasnodar (ČOSKORO OTVORÍME - prihlásiť sa môžete tu https://aerodisk.promo/krsnd/ );
    Od 9. apríla do 25. apríla 2019 môžete centrum navštíviť v akomkoľvek pracovnom čase a dňa 25. apríla 2019 sa bude konať veľké školenie.
  • Jekaterinburg (ČOSKORO OTVORÍME, sledujte informácie na našej stránke alebo na Habré);
    Máj – jún 2019.
  • Novosibirsk (sledujte informácie na našej webovej stránke alebo na Habré);
    október 2019.
  • Krasnojarsk (sledujte informácie na našej webovej stránke alebo na Habré);
    novembra 2019.

Zdroj: hab.com

Pridať komentár