Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Cześć wszystkim! Tym artykułem AERODISK otwiera blog na temat Habré. Hurra, towarzysze!

W poprzednich artykułach na temat Habré omawiano pytania dotyczące architektury i podstawowej konfiguracji systemów pamięci masowej. W tym artykule rozważymy pytanie, które nie zostało wcześniej poruszone, ale jest często zadawane - dotyczące odporności na awarie systemów przechowywania danych AERODISK ENGINE. Nasz zespół zrobi wszystko, aby system przechowywania AERODISK przestał działać, tj. Złam to.

Tak się złożyło, że artykuły o historii naszej firmy, o naszych produktach, a także przykład udanej realizacji wiszą już na Habré, za co Serdecznie dziękujemy naszym partnerom – firmom TS Solution i Softline.

Dlatego nie będę tutaj trenował umiejętności zarządzania kopiowaniem i wklejaniem, ale po prostu podam linki do oryginałów tych artykułów:

Chcę też podzielić się dobrą nowiną. Ale zacznę oczywiście od problemu. Jako młody sprzedawca, między innymi, stale stawiamy czoła temu, że wielu inżynierów i administratorów po prostu nie wie, jak prawidłowo obsługiwać nasz system przechowywania.
Oczywiste jest, że zarządzanie większością systemów pamięci masowej z punktu widzenia administratora wygląda w przybliżeniu tak samo, ale każdy producent ma swoją własną charakterystykę. I nie jesteśmy tutaj wyjątkiem.

Dlatego, aby uprościć zadanie szkolenia specjalistów IT, postanowiliśmy przeznaczyć ten rok na bezpłatną edukację. W tym celu w wielu dużych miastach Rosji otwieramy sieć Centrów Kompetencyjnych AERODISK, w których każdy zainteresowany specjalista techniczny może całkowicie bezpłatnie odbyć kurs i otrzymać certyfikat w zakresie administrowania systemami magazynowania AERODISK ENGINE.

W każdym Centrum Kompetencji zainstalujemy pełnoprawne stanowisko demonstracyjne z systemu pamięci masowej AERODISK oraz serwer fizyczny, na którym nasz nauczyciel będzie prowadził szkolenia bezpośrednie. Harmonogram pracy Centrów Kompetencji opublikujemy po ich pojawieniu się, ale otworzyliśmy już centrum w Niżnym Nowogrodzie, a następnym krokiem będzie Krasnodar. Na szkolenie można zapisać się korzystając z linków poniżej. Oto aktualnie znane informacje o miastach i datach:

  • Niżny Nowogród (JUŻ OTWARTE – możesz zapisać się tutaj https://aerodisk.promo/nn/);
    Do 16 kwietnia 2019 r. Centrum można zwiedzać w dowolnych godzinach pracy, a 16 kwietnia 2019 r. odbędzie się duże szkolenie.
  • Krasnodar (OTWARCIE WKRÓTCE - zapisać się można tutaj https://aerodisk.promo/krsnd/ );
    W dniach 9-25 kwietnia 2019 r. Centrum można zwiedzać w dowolnych godzinach pracy, a 25 kwietnia 2019 r. odbędzie się duże szkolenie.
  • Jekaterynburg (OTWARCIE WKRÓTCE, śledź informacje na naszej stronie internetowej lub na Habré);
    maj-czerwiec 2019.
  • Nowosybirsk (śledź informacje na naszej stronie internetowej lub w Habré);
    październik 2019
  • Krasnojarsk (śledź informacje na naszej stronie internetowej lub w Habré);
    Listopad 2019.

I oczywiście, jeśli Moskwa nie jest daleko od Ciebie, w każdej chwili możesz odwiedzić nasze biuro w Moskwie i przejść podobne szkolenie.

Wszystko. Skończyliśmy z marketingiem, przejdźmy do technologii!

Na Habré będziemy regularnie publikować artykuły techniczne dotyczące naszych produktów, testy obciążeniowe, porównania, cechy użytkowe i ciekawe wdrożenia.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

UWAGA! Po przeczytaniu artykułu możesz powiedzieć: cóż, oczywiście, sprzedawca sam sprawdzi, czy wszystko działa „z hukiem”, warunki szklarniowe itp. Odpowiem: nic takiego! W przeciwieństwie do naszych zagranicznych konkurentów, jesteśmy zlokalizowani tutaj, blisko Ciebie i zawsze możesz do nas przyjechać (w Moskwie lub dowolnym KC) i w dowolny sposób przetestować nasz system magazynowania. Nie ma więc większego sensu, abyśmy dopasowywali wyniki do idealnego obrazu świata, bo Bardzo łatwo nas sprawdzić. Dla tych, którzy są zbyt leniwi i nie mają czasu, możemy zorganizować zdalne testy. Mamy do tego specjalne laboratorium. Skontaktuj się z nami.

ACHTUNG-2! Ten test nie jest testem obciążenia, ponieważ tutaj interesuje nas tylko tolerancja na błędy. Za kilka tygodni przygotujemy mocniejsze stanowisko i przeprowadzimy testy obciążeniowe systemu przechowywania, wyniki publikując tutaj (przy okazji, prośby o testy są akceptowane).

Więc chodźmy to złamać.

Stanowisko badawcze

Nasze stoisko składa się z następującego sprzętu:

  • 1 x system pamięci masowej Aerodisk Engine N2 (2 kontrolery, 64 GB pamięci podręcznej, 8 portów FC 8 Gb/s, 4 porty Ethernet 10 Gb/s SFP+, 4 porty Ethernet 1 Gb/s); W systemie pamięci masowej instalowane są następujące dyski:
  • 4 dyski SSD SAS 900 GB;
  • 12 dysków SAS 10 tys. 1,2 TB;
  • 1 x serwer fizyczny z systemem Windows Server 2016 (2xXeon E5 2667 v3, 96GB RAM, 2xporty FC 8Gb/s, 2xporty Ethernet 10Gb/s SFP+);
  • 2 x przełącznik SAN 8G;
  • 2 x przełącznik LAN 10G;

Połączyliśmy serwer z systemem pamięci masowej za pomocą przełączników zarówno poprzez FC, jak i 10G Ethernet. Schemat stojaka znajduje się poniżej.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Potrzebne nam komponenty, takie jak MPIO i inicjator iSCSI, są zainstalowane na Windows Server.
Strefy są konfigurowane na przełącznikach FC, odpowiednie sieci VLAN są konfigurowane na przełącznikach LAN, a MTU 9000 jest instalowany na portach pamięci masowej, przełącznikach i hoście (jak to wszystko zrobić opisano w naszej dokumentacji, więc nie będziemy opisywać ten proces tutaj).

Metodologia testów

Plan testów zderzeniowych jest następujący:

  • Sprawdzenie awarii portów FC i Ethernet.
  • Kontrola awarii zasilania.
  • Kontrola awarii sterownika.
  • Sprawdzanie awarii dysku w grupie/puli.

Wszystkie testy zostaną wykonane w syntetycznych warunkach obciążenia, które wygenerujemy za pomocą programu IOMETER. Równolegle będziemy wykonywać te same testy, ale w warunkach kopiowania dużych plików na system pamięci masowej.

Konfiguracja IOmeter wygląda następująco:

  • Odczyt/zapis – 70/30
  • Blok – 128 tys. (postanowiliśmy umyć systemy magazynowania w dużych blokach)
  • Liczba wątków – 128 (co jest bardzo zbliżone do obciążenia produkcyjnego)
  • Pełna losowość
  • Liczba pracowników – 4 (2 dla FC, 2 dla iSCSI)

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa
Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Test ma następujące cele:

  1. Upewnij się, że proces syntetycznego ładowania i kopiowania nie przerwie ani nie spowoduje błędów w przypadku różnych scenariuszy awarii.
  2. Upewnij się, że proces przełączania portów, kontrolerów itp. jest wystarczająco zautomatyzowany i nie wymaga działań administratora w przypadku awarii (czyli podczas przełączania awaryjnego nie mówimy oczywiście o powrocie po awarii).
  3. Upewnij się, że informacje w logach wyświetlają się poprawnie.

Przygotowanie hosta i systemu pamięci masowej

Skonfigurowaliśmy dostęp blokowy do systemu pamięci masowej za pomocą portów FC i Ethernet (odpowiednio FC i iSCSI). Chłopaki z TS Solution szczegółowo opisali, jak to zrobić w poprzednim artykule (https://habr.com/ru/company/tssolution/blog/432876/). I oczywiście nikt nie odwołał podręczników i kursów.

Stworzyliśmy grupę hybrydową, wykorzystując wszystkie dyski, jakie mieliśmy. Do pamięci podręcznej dodano 2 dyski SSD, dodano 2 dyski SSD jako dodatkową warstwę pamięci masowej (warstwa Online). Zgrupowaliśmy 12 dysków SAS10k w RAID-60P (potrójna parzystość), aby jednocześnie sprawdzić awarię trzech dysków w grupie. Pozostał jeden dysk do automatycznej wymiany.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Połączyliśmy dwie jednostki LUN (jedna przez FC, druga przez iSCSI).

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Właścicielem obu jednostek LUN jest kontroler Engine-0

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Zacznijmy test

Włączamy IOMETER z powyższą konfiguracją.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Odnotowujemy przepustowość 1.8 GB/s i opóźnienie 3 milisekundy. Nie ma błędów (całkowita liczba błędów).

Jednocześnie z lokalnego dysku „C” naszego hosta równolegle rozpoczynamy kopiowanie dwóch dużych plików o pojemności 100 GB do jednostek LUN pamięci FC i iSCSI (dyski E i G w systemie Windows), korzystając z innych interfejsów.

Powyżej przedstawiono proces kopiowania do LUN FC, poniżej do iSCSI.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Test nr 1: Wyłączanie portów we/wy

Podchodzimy do systemu przechowywania od tyłu))) i lekkim ruchem ręki wyciągamy wszystkie kable FC i Ethernet 10G ze sterownika Engine-0. To tak, jakby obok przechodziła sprzątaczka z mopem i postanowiła umyć podłogę dokładnie tam, gdzie leżał smar i leżały kable (czyli sterownik nadal działa, ale porty I/O padły).

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Przyjrzyjmy się IOMETERowi i kopiowaniu plików. Przepustowość spadła do 0,5 GB/s, ale szybko wróciła do poprzedniego poziomu (w około 4-5 sekund). Nie ma żadnych błędów.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Kopiowanie plików nie ustało, następuje spadek prędkości, ale wcale nie jest to krytyczne (z 840 MB/s spadło do 720 MB/s). Kopiowanie nie zostało zatrzymane.

Zaglądamy do logów systemu przechowywania i widzimy komunikat o niedostępności portów i automatycznej relokacji grupy.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Z panelu informacyjnego dowiadujemy się także, że z portami FC nie wszystko jest najlepiej.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

System pamięci masowej przetrwał awarię portów we/wy z powodzeniem.

Test nr 2. Wyłączenie kontrolera pamięci masowej

Niemal natychmiast (po ponownym podłączeniu kabli do systemu pamięci masowej) postanowiliśmy wykończyć system pamięci masowej, wyciągając kontroler z obudowy.

Ponownie podchodzimy do systemu przechowywania od tyłu (podobało nam się))) i tym razem wyciągamy kontroler Engine-1, który w tym momencie jest właścicielem RDG (do którego przeniosła się grupa).

Sytuacja w IOmeter wygląda następująco. We/wy zatrzymane na około 5 sekund. Błędy się nie kumulują.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Po 5 sekundach operacje we/wy zostały wznowione z mniej więcej taką samą przepustowością, ale z opóźnieniami wynoszącymi 35 milisekund (opóźnienia skorygowane po około kilku minutach). Jak widać na zrzutach ekranu, wartość całkowitego licznika błędów wynosi 0, co oznacza, że ​​nie było błędów zapisu ani odczytu.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Przyjrzyjmy się kopiowaniu naszych plików. Jak widać nie było przerwane, nastąpił lekki spadek wydajności, ale ogólnie wszystko wróciło do tego samego ~800 MB/s.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Wchodzimy do systemu przechowywania i na panelu informacyjnym widzimy przekleństwo, że kontroler Engine-1 jest niedostępny (oczywiście go zabiliśmy).

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Podobny wpis widzimy także w logach.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Kontroler pamięci masowej również przetrwał awarię z powodzeniem.

Test nr 3: Odłączenie zasilania.

Na wszelki wypadek ponownie zaczęliśmy kopiować pliki, ale nie zatrzymywaliśmy IOMETER.
Wyciągamy zasilacz.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Do systemu przechowywania w panelu informacyjnym dodano kolejny alert.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Również w menu czujników widzimy, że czujniki powiązane z odłączonym zasilaczem zmieniły kolor na czerwony.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

System przechowywania nadal działa. Awaria zasilacza nie wpływa w żaden sposób na pracę systemu przechowywania danych, z punktu widzenia hosta prędkość kopiowania i wskaźniki IOMETER pozostały niezmienione.

Test awarii zasilania przeszedł pomyślnie z powodzeniem.

Przed ostatecznym testem postanowiliśmy trochę ożywić system przechowywania, odłożyć kontroler i zasilacz, a także uporządkować kable, o czym magazyn z radością poinformował nas zielonymi ikonami w panelu zdrowia .

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Test nr 4. Awaria trzech dysków w grupie

Przed tym testem przeprowadziliśmy dodatkowy etap przygotowawczy. Faktem jest, że system przechowywania ENGINE zapewnia bardzo przydatną rzecz - różne zasady odbudowy. O tej funkcjonalności TS Solution pisało już wcześniej, ale przypomnijmy sobie jej istotę. Administrator pamięci masowej może określić priorytet alokacji zasobów podczas odbudowy. Oznacza to, że przebudowa trwa dłużej, ale nie powoduje spadku wydajności. Lub w kierunku szybkości odbudowy, ale produktywność zostanie zmniejszona. Lub zrównoważona opcja. Ponieważ wydajność pamięci masowej podczas odbudowy grupy dysków zawsze jest problemem dla administratora, przetestujemy politykę z naciskiem na wydajność operacji we/wy, kosztem szybkości odbudowy.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Sprawdźmy teraz, czy nie ma awarii dysku. Umożliwiamy także nagrywanie do jednostek LUN (pliki i IOMETER). Ponieważ mamy grupę z potrójną parzystością (RAID-60P), oznacza to, że system musi wytrzymać awarię trzech dysków, a po awarii musi zadziałać automatyczna wymiana, jeden dysk musi zastąpić jeden z uszkodzonych w RDG i należy rozpocząć w nim odbudowę.

Zaczynać. Najpierw poprzez interfejs przechowywania zaznaczmy dyski, które chcemy wyciągnąć (aby nie przegapić i nie wyciągnąć dysku autochange).

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Sprawdzamy wskazanie na sprzęcie. Wszystko jest w porządku, widzimy trzy podświetlone dyski.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

I wyciągamy te trzy dyski.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Przyjrzyjmy się temu, co jest na hoście. A tam... nic szczególnego się nie wydarzyło.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa
Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Wskaźniki kopiowania (są wyższe niż na początku, bo pamięć podręczna się nagrzała) i IOMETER nie zmieniają się zbytnio po wyjęciu dysków i rozpoczęciu przebudowy (w granicach 5-10%).

Przyjrzyjmy się zawartości systemu przechowywania.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Ze stanu grupy widzimy, że proces restrukturyzacji się rozpoczął i jest bliski zakończenia.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

W szkielecie RDG widać, że 2 dyski mają status czerwony, a jeden został już wymieniony. Dysku automatycznej wymiany już nie ma; zastąpił trzeci uszkodzony dysk. Przebudowa trwała kilka minut, zapisywanie plików w przypadku awarii 3 dysków nie zostało przerwane, a wydajność we/wy nie uległa większym zmianom.

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Testy zderzeniowe systemu przechowywania AERODISK ENGINE N2, próba wytrzymałościowa

Test awarii dysku zdecydowanie przeszedł pomyślnie z powodzeniem.

wniosek

W tym momencie postanowiliśmy zaprzestać stosowania przemocy wobec systemów pamięci masowej. Podsumujmy:

  • Kontrola awarii portu FC - pomyślna
  • Kontrola awarii portu Ethernet – pomyślna
  • Kontrola awarii kontrolera - pomyślna
  • Test awarii zasilania – pomyślny
  • Sprawdzanie awarii dysku w puli grupowej - powiodło się

Żadna z awarii nie zatrzymała rejestracji ani nie spowodowała błędów w obciążeniu syntetycznym, oczywiście był hit wydajnościowy (i wiemy, jak to pokonać, co wkrótce zrobimy), ale biorąc pod uwagę, że są to sekundy, jest to w miarę do zaakceptowania. Wniosek: odporność na awarie wszystkich komponentów systemu przechowywania AERODISK działała na poziomie, nie było żadnych punktów awarii.

Oczywiście w jednym artykule nie jesteśmy w stanie przetestować wszystkich scenariuszy awarii, ale staraliśmy się omówić te najpopularniejsze. Dlatego prosimy o przesyłanie komentarzy, sugestii dotyczących przyszłych publikacji i oczywiście odpowiedniej krytyki. Chętnie porozmawiamy (albo jeszcze lepiej przyjdź na szkolenie, na wszelki wypadek zamieszczam harmonogram)! Aż do nowych testów!

  • Niżny Nowogród (JUŻ OTWARTE – możesz zapisać się tutaj https://aerodisk.promo/nn/);
    Do 16 kwietnia 2019 r. Centrum można zwiedzać w dowolnych godzinach pracy, a 16 kwietnia 2019 r. odbędzie się duże szkolenie.
  • Krasnodar (OTWARCIE WKRÓTCE - zapisać się można tutaj https://aerodisk.promo/krsnd/ );
    W dniach 9-25 kwietnia 2019 r. Centrum można zwiedzać w dowolnych godzinach pracy, a 25 kwietnia 2019 r. odbędzie się duże szkolenie.
  • Jekaterynburg (OTWARCIE WKRÓTCE, śledź informacje na naszej stronie internetowej lub na Habré);
    maj-czerwiec 2019.
  • Nowosybirsk (śledź informacje na naszej stronie internetowej lub w Habré);
    październik 2019
  • Krasnojarsk (śledź informacje na naszej stronie internetowej lub w Habré);
    Listopad 2019.

Źródło: www.habr.com

Dodaj komentarz