Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Ahoj všichni! Tímto článkem AERODISK otevírá blog na Habré. Hurá, soudruzi!

Předchozí články o Habré diskutovaly o otázkách architektury a základní konfigurace úložných systémů. V tomto článku se budeme zabývat otázkou, která nebyla dříve řešena, ale je často kladena - o odolnosti úložných systémů AERODISK ENGINE. Náš tým udělá vše pro to, aby úložný systém AERODISK přestal fungovat, tzn. Rozbij to.

Tak se stalo, že články o historii naší firmy, o našich produktech, ale i příklad úspěšné realizace již visí na Habré, za které Děkujeme našim partnerům – společnostem TS Solution a Softline.

Proto zde nebudu trénovat dovednosti správy kopírování a vkládání, ale pouze uvedu odkazy na originály těchto článků:

Chci se také podělit o dobré zprávy. Ale začnu samozřejmě problémem. My, jako mladý dodavatel, se kromě jiných nákladů neustále potýkáme s tím, že mnoho inženýrů a správců prostě neví, jak správně provozovat náš úložný systém.
Je jasné, že správa většiny úložných systémů vypadá z pohledu správce přibližně stejně, ale každý výrobce má své vlastní charakteristiky. A my tady nejsme výjimkou.

Proto, abychom si zjednodušili úkol školení IT specialistů, rozhodli jsme se tento rok věnovat bezplatnému vzdělávání. Za tímto účelem v mnoha velkých městech Ruska otevíráme síť kompetenčních center AERODISK, ve kterých může každý technický specialista, který má zájem, absolvovat kurz zcela zdarma a získat certifikát o správě skladovacích systémů AERODISK ENGINE.

V každém Kompetenčním centru nainstalujeme plnohodnotný demo stojan z úložného systému AERODISK a fyzický server, na kterém bude náš učitel provádět prezenční školení. Harmonogram práce kompetenčních center zveřejníme, jakmile se objeví, ale již jsme otevřeli centrum v Nižném Novgorodu a na řadě je město Krasnodar. Na školení se můžete přihlásit pomocí níže uvedených odkazů. Zde jsou aktuálně známé informace o městech a datech:

  • Nižnij Novgorod (JIŽ OTEVŘENO – přihlásit se můžete zde https://aerodisk.promo/nn/);
    Do 16. dubna 2019 můžete centrum navštívit v kteroukoli pracovní dobu a 16. dubna 2019 bude uspořádáno velké školení.
  • Krasnodar (BRZY OTEVÍRÁME - přihlásit se můžete zde https://aerodisk.promo/krsnd/ );
    Od 9. dubna do 25. dubna 2019 můžete centrum navštívit v kteroukoli pracovní dobu a 25. dubna 2019 bude uspořádáno velké školení.
  • Jekatěrinburg (BRZY OTEVÍRÁME, sledujte informace na našem webu nebo na Habré);
    květen–červen 2019.
  • Novosibirsk (sledujte informace na našich webových stránkách nebo na Habré);
    října 2019
  • Krasnojarsk (sledujte informace na našich webových stránkách nebo na Habré);
    Listopad 2019.

A samozřejmě, pokud je Moskva nedaleko od vás, můžete kdykoli navštívit naši kancelář v Moskvě a podstoupit podobné školení.

Všechno. S marketingem jsme skončili, pojďme k technologiím!

Na Habré budeme pravidelně publikovat technické články o našich produktech, zátěžové testy, srovnání, vlastnosti použití a zajímavé implementace.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

POZOR! Po přečtení článku můžete říci: no, samozřejmě, prodejce se sám zkontroluje, aby vše fungovalo „s třeskem“, skleníkové podmínky atd. Odpovím: nic takového! Na rozdíl od našich zahraničních konkurentů se nacházíme zde, blízko vás, a vždy můžete přijít k nám (do Moskvy nebo na jakýkoli ústřední výbor) a náš skladovací systém jakkoli otestovat. Proto pro nás nedává příliš smysl upravovat výsledky do ideálního obrazu světa, protože Jsme velmi snadno kontrolovatelní. Pro ty, kteří jsou příliš líní jít a nemají čas, můžeme zorganizovat vzdálené testování. Máme na to speciální laboratoř. Kontaktujte nás.

ACHTUNG-2! Tento test není zátěžovým testem, protože zde se staráme pouze o odolnost proti chybám. Za pár týdnů připravíme výkonnější stojan a provedeme zátěžové testování úložného systému, výsledky zveřejníme zde (mimochodem, požadavky na testy jsou přijímány).

Tak to pojďme zlomit.

Zkušební stojan

Náš stánek se skládá z následujícího hardwaru:

  • 1 x úložný systém Aerodisk Engine N2 (2 řadiče, 64GB cache, 8xFC porty 8Gb/s, 4xEthernet porty 10Gb/s SFP+, 4xEthernet porty 1Gb/s); V úložném systému jsou nainstalovány následující disky:
  • 4 x SAS SSD disky 900 GB;
  • 12 x SAS 10k disky 1,2 TB;
  • 1 x Fyzický server s Windows Server 2016 (2xXeon E5 2667 v3, 96GB RAM, 2xFC porty 8Gb/s, 2xEthernet porty 10Gb/s SFP+);
  • 2 x přepínač SAN 8G;
  • 2 x LAN 10G přepínač;

Server jsme připojili k úložnému systému přes switche přes FC i 10G Ethernet. Schéma stojanu je níže.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Komponenty, které potřebujeme, jako je MPIO a iniciátor iSCSI, jsou nainstalovány na Windows Server.
Zóny jsou nakonfigurovány na přepínačích FC, odpovídající VLAN jsou nakonfigurovány na přepínačích LAN a MTU 9000 je nainstalována na portech úložiště, přepínačích a hostiteli (jak to udělat, je popsáno v naší dokumentaci, takže nebudeme popisovat tento proces zde).

Metodika testování

Plán nárazových zkoušek je následující:

  • Kontrola selhání FC a Ethernet portů.
  • Kontrola výpadku napájení.
  • Kontrola selhání ovladače.
  • Kontrola selhání disku ve skupině/fondu.

Všechny testy budou prováděny za syntetických zatěžovacích podmínek, které vygenerujeme programem IOMETER. Paralelně budeme provádět stejné testy, ale za podmínek kopírování velkých souborů do úložného systému.

Konfigurace IOmeter je následující:

  • Čtení/zápis – 70/30
  • Blok – 128k (rozhodli jsme se umýt skladovací systémy ve velkých blocích)
  • Počet vláken – 128 (což je velmi podobné produktivní zátěži)
  • Plně náhodné
  • Počet pracovníků – 4 (2 pro FC, 2 pro iSCSI)

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška
Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Test má následující cíle:

  1. Zajistěte, aby proces syntetického načtení a kopírování nepřerušil nebo nezpůsobil chyby v různých scénářích selhání.
  2. Ujistěte se, že proces přepínání portů, řadičů atd. je dostatečně automatizován a nevyžaduje zásah administrátora v případě výpadků (tedy při failoverech, samozřejmě nemluvíme o failbackech).
  3. Ujistěte se, že se informace v protokolech zobrazují správně.

Příprava hostitelského a úložného systému

Nakonfigurovali jsme blokový přístup na úložném systému pomocí portů FC a Ethernet (FC a iSCSI). Kluci z TS Solution podrobně popsali, jak to udělat v předchozím článku (https://habr.com/ru/company/tssolution/blog/432876/). A příručky a kurzy samozřejmě nikdo nezrušil.

Nastavili jsme hybridní skupinu využívající všechny pohony, které jsme měli. 2 SSD disky byly přidány do mezipaměti, 2 SSD disky byly přidány jako další vrstva úložiště (Online-tier). Seskupili jsme 12 disků SAS10k do RAID-60P (trojitá parita), abychom zkontrolovali selhání tří disků ve skupině najednou. Jeden disk byl ponechán pro automatickou výměnu.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Připojili jsme dva LUNy (jeden přes FC, jeden přes iSCSI).

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Vlastníkem obou LUN je ovladač Engine-0

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Začněme test

IOMETER povolíme pomocí výše uvedené konfigurace.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Zaznamenáváme propustnost 1.8 GB/s a latenci 3 milisekundy. Nejsou žádné chyby (celkový počet chyb).

Současně z místního disku „C“ našeho hostitele začneme paralelně kopírovat dva velké 100GB soubory do FC a iSCSI úložných LUN (disky E a G ve Windows) pomocí jiných rozhraní.

Nahoře je proces kopírování do LUN FC, dole do iSCSI.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Test č. 1: Deaktivace I/O portů

Přistoupíme k úložnému systému zezadu))) a mírným pohybem ruky vytáhneme všechny FC a Ethernet 10G kabely z ovladače Engine-0. Je to, jako kdyby kolem šla uklízečka s mopem a rozhodla se umýt podlahu právě tam, kde ležel šmejd a ležely kabely (tedy ovladač stále funguje, ale I/O porty jsou mrtvé).

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Podívejme se na IOMETER a kopírování souborů. Propustnost klesla na 0,5 GB/s, ale rychle se vrátila na předchozí úroveň (asi za 4-5 sekund). Nejsou žádné chyby.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Kopírování souborů se nezastavilo, dochází k poklesu rychlosti, ale není to vůbec kritické (z 840 MB/s klesla na 720 MB/s). Kopírování se nezastavilo.

Podíváme se do logů úložného systému a vidíme zprávu o nedostupnosti portů a automatickém přemístění skupiny.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Informační panel nám také říká, že s FC porty není vše příliš dobré.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Úložný systém přežil selhání I/O portů úspěšně.

Test č. 2. Deaktivace řadiče úložiště

Téměř okamžitě (po zapojení kabelů zpět do úložného systému) jsme se rozhodli dokončit úložný systém vytažením ovladače ze šasi.

Opět přistupujeme k úložnému systému zezadu (líbilo se nám to))) a tentokrát vytahujeme ovladač Engine-1, který je v tuto chvíli vlastníkem RDG (do kterého se skupina přesunula).

Situace v IOmeter je následující. I/O se asi na 5 sekund zastavilo. Chyby se nehromadí.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Po 5 sekundách se I/O obnovil s přibližně stejnou propustností, ale s latencí 35 milisekund (zpoždění opraveno asi po několika minutách). Jak je vidět ze snímků obrazovky, hodnota celkového počtu chyb je 0, to znamená, že nedošlo k žádným chybám při zápisu nebo čtení.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Podívejme se na kopírování našich souborů. Jak vidíte, nepřerušovalo se, došlo k mírnému poklesu výkonu, ale celkově se vše vrátilo na stejných ~ 800 MB/s.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Jdeme do úložného systému a na informačním panelu vidíme kletbu, že ovladač Engine-1 je nedostupný (samozřejmě jsme ho zabili).

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Podobný záznam vidíme také v protokolech.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Řadič úložiště také přežil selhání úspěšně.

Test č. 3: Odpojení napájení.

Pro jistotu jsme začali znovu kopírovat soubory, ale nezastavili jsme IOMETER.
Vytáhneme napájecí jednotku.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Do úložného systému v informačním panelu přibylo další upozornění.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Také v nabídce senzorů vidíme, že senzory spojené s vytaženým napájecím zdrojem zčervenaly.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Úložný systém nadále funguje. Porucha napájecího zdroje nemá žádný vliv na provoz úložného systému, z pohledu hostitele zůstala rychlost kopírování a indikátory IOMETER nezměněny.

Test výpadku napájení prošel úspěšně.

Před finálním testem jsme se rozhodli trochu oživit úložný systém, vrátit ovladač a napájecí jednotku a dát do pořádku i kabely, o čemž nás úložný systém s radostí informoval zelenými ikonami ve svém zdravotním panelu .

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Test č. 4. Porucha tří disků ve skupině

Před tímto testem jsme provedli další krok přípravy. Faktem je, že úložný systém ENGINE poskytuje velmi užitečnou věc – různé zásady přestavby. TS Solution o této funkci psalo dříve, ale připomeňme si její podstatu. Správce úložiště může určit prioritu pro alokaci prostředků během přestavby. Buď ve směru I/O výkonu, to znamená, že přestavba trvá déle, ale nedochází k žádnému snížení výkonu. Nebo ve směru rychlosti přestavby, ale produktivita se sníží. Nebo vyvážená varianta. Vzhledem k tomu, že výkon úložiště během přestavby skupiny disků je vždy bolestí hlavy správce, otestujeme zásadu se zaujatostí vůči I/O výkonu a na úkor rychlosti přestavby.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Nyní zkontrolujeme selhání disku. Umožňujeme také nahrávání do LUN (soubory a IOMETER). Protože máme skupinu s trojitou paritou (RAID-60P), znamená to, že systém musí odolat selhání tří disků a po selhání musí fungovat automatická výměna, jeden disk musí nahradit jeden z neúspěšných disků. v RDG a musí na něm začít přestavba.

Začít. Nejprve prostřednictvím rozhraní úložiště zvýrazněme disky, které chceme vytáhnout (abychom nezmeškali a nevytáhli disk s automatickou výměnou).

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Kontrolujeme indikaci na hardwaru. Vše je v pořádku, vidíme tři zvýrazněné disky.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

A vytáhneme tyto tři disky.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Podívejme se, co je na hostiteli. A tam... se nestalo nic zvláštního.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška
Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Indikátory kopírování (jsou vyšší než na začátku, protože se zahřála mezipaměť) a IOMETER se při vyjímání disků a zahájení přestavby příliš nemění (v rozmezí 5-10 %).

Podívejme se, co je na úložném systému.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Ve stavu skupiny vidíme, že proces restrukturalizace začal a je blízko dokončení.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

V kostře RDG vidíte, že 2 disky jsou v červeném stavu a jeden již byl vyměněn. Disk pro automatickou výměnu již neexistuje, nahradil 3. neúspěšný disk. Přestavba trvala několik minut, zápis souborů při selhání 3 disků nebyl přerušen a výkon I/O se příliš nezměnil.

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Nárazové zkoušky úložného systému AERODISK ENGINE N2, pevnostní zkouška

Test selhání disku rozhodně prošel úspěšně.

Závěr

V tuto chvíli jsme se rozhodli zastavit násilí proti úložným systémům. Pojďme si to shrnout:

  • Kontrola selhání FC portu - úspěšná
  • Kontrola selhání ethernetového portu - úspěšná
  • Kontrola selhání ovladače - úspěšná
  • Test výpadku napájení – úspěšný
  • Kontrola selhání disku ve skupinovém fondu – úspěšná

Žádná z poruch se nepřestala zaznamenávat ani nezpůsobovala chyby v syntetické zátěži, samozřejmě došlo k výkonnostnímu zásahu (a my víme, jak jej překonat, což brzy uděláme), ale vzhledem k tomu, že jde o vteřiny, je to vcelku přijatelné. Závěr: poruchová odolnost všech komponent úložného systému AERODISK fungovala na úrovni, nebyly žádné body selhání.

Je zřejmé, že v jednom článku nemůžeme otestovat všechny scénáře selhání, ale pokusili jsme se pokrýt ty nejoblíbenější. Zašlete proto prosím své připomínky, náměty na budoucí publikace a samozřejmě adekvátní kritiku. Rádi se domluvíme (nebo ještě lépe přijďte na školení, rozvrh pro jistotu duplikuji)! Až do nových testů!

  • Nižnij Novgorod (JIŽ OTEVŘENO – přihlásit se můžete zde https://aerodisk.promo/nn/);
    Do 16. dubna 2019 můžete centrum navštívit v kteroukoli pracovní dobu a 16. dubna 2019 bude uspořádáno velké školení.
  • Krasnodar (BRZY OTEVÍRÁME - přihlásit se můžete zde https://aerodisk.promo/krsnd/ );
    Od 9. dubna do 25. dubna 2019 můžete centrum navštívit v kteroukoli pracovní dobu a 25. dubna 2019 bude uspořádáno velké školení.
  • Jekatěrinburg (BRZY OTEVÍRÁME, sledujte informace na našem webu nebo na Habré);
    květen–červen 2019.
  • Novosibirsk (sledujte informace na našich webových stránkách nebo na Habré);
    října 2019
  • Krasnojarsk (sledujte informace na našich webových stránkách nebo na Habré);
    Listopad 2019.

Zdroj: www.habr.com

Přidat komentář