Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Zdravo svima! Ovim člankom AERODISK otvara blog na Habréu. Ura, drugovi!

Prethodni članci o Habréu raspravljali su o pitanjima o arhitekturi i osnovnoj konfiguraciji sistema za skladištenje podataka. U ovom članku ćemo razmotriti pitanje koje ranije nije obrađeno, ali se često postavlja - o toleranciji grešaka sistema za skladištenje AERODISK ENGINE. Naš tim će učiniti sve da AERODISK sistem skladištenja prestane da radi, tj. slomi to.

Dogodilo se da na Habréu već vise članci o istoriji naše kompanije, o našim proizvodima, kao i o primjeru uspješne implementacije, zbog čega Veliko hvala našim partnerima - kompanijama TS Solution i Softline.

Stoga, ovdje neću trenirati vještine upravljanja kopiranjem i lijepljenjem, već ću jednostavno dati veze do originala ovih članaka:

Također želim podijeliti dobre vijesti. Ali počeću, naravno, sa problemom. Mi, kao mladi dobavljač, između ostalih troškova, stalno se suočavamo sa činjenicom da mnogi inženjeri i administratori jednostavno ne znaju kako pravilno upravljati našim sistemom za skladištenje podataka.
Jasno je da upravljanje većinom sistema za skladištenje izgleda približno isto sa administratorske tačke gledišta, ali svaki proizvođač ima svoje karakteristike. I mi tu nismo izuzetak.

Stoga smo, kako bismo pojednostavili zadatak obuke IT stručnjaka, odlučili ovu godinu posvetiti besplatnom obrazovanju. Da bismo to učinili, u mnogim velikim gradovima Rusije otvaramo mrežu AERODISK kompetentnih centara, u kojima svaki zainteresovani tehnički stručnjak može apsolutno besplatno pohađati kurs i dobiti sertifikat za administriranje sistema za skladištenje AERODISK ENGINE.

U svakom centru kompetencija instaliraćemo kompletan demo štand iz AERODISK sistema za skladištenje i fizički server, na kojem će naš nastavnik provoditi obuku licem u lice. Raspored rada centara kompetencija objavićemo po njihovom pojavljivanju, ali već smo otvorili centar u Nižnjem Novgorodu, a na redu je grad Krasnodar. Možete se prijaviti za obuku koristeći linkove ispod. Evo trenutno poznatih informacija o gradovima i datumima:

  • Nižnji Novgorod (VEĆ OTVORENO – možete se prijaviti ovdje https://aerodisk.promo/nn/);
    Do 16. aprila 2019. godine možete posjetiti centar u bilo koje radno vrijeme, a 16. aprila 2019. godine biće organizovan veliki kurs obuke.
  • Krasnodar (USKORO OTVARANJE - možete se prijaviti ovdje https://aerodisk.promo/krsnd/ );
    Od 9. aprila do 25. aprila 2019. godine centar možete posjetiti u bilo koje radno vrijeme, a 25. aprila 2019. godine biće organizovan veliki kurs obuke.
  • Екатеринбург (USKORO OTVARANJE, pratite informacije na našoj web stranici ili na Habré-u);
    Maj-jun 2019.
  • Новосибирск (pratite informacije na našoj web stranici ili na Habré-u);
    oktobar 2019.
  • Красноярск (pratite informacije na našoj web stranici ili na Habré-u);
    Novembra 2019.

I, naravno, ako Moskva nije daleko od vas, onda u bilo koje vrijeme možete posjetiti našu kancelariju u Moskvi i proći sličnu obuku.

Sve. Završili smo s marketingom, idemo na tehnologiju!

Na Habré-u ćemo redovno objavljivati ​​tehničke članke o našim proizvodima, testove opterećenja, poređenja, karakteristike upotrebe i zanimljive implementacije.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

UPOZORENJE! Nakon što pročitate članak, možete reći: pa, naravno, prodavač će sam provjeriti da li sve radi "s praskom", uvjeti staklenika itd. Ja ću odgovoriti: ništa tako! Za razliku od naših stranih konkurenata, mi se nalazimo ovdje, blizu vas, i uvijek možete doći kod nas (u Moskvu ili bilo koji Centralni komitet) i testirati naš sistem skladištenja na bilo koji način. Dakle, za nas nema mnogo smisla prilagođavati rezultate idealnoj slici svijeta, jer Vrlo nas je lako provjeriti. Za one koji su previše lijeni i nemaju vremena, možemo organizirati testiranje na daljinu. Imamo posebnu laboratoriju za ovo. Kontaktiraj nas.

ACHTUNG-2! Ovaj test nije test opterećenja, jer ovdje nam je stalo samo do tolerancije grešaka. Za nekoliko sedmica ćemo pripremiti moćniji štand i provesti testiranje opterećenja sistema za pohranu podataka, objavljujući rezultate ovdje (usput, zahtjevi za testove se prihvaćaju).

Dakle, hajde da ga razbijemo.

Test stalak

Naš štand se sastoji od sledećeg hardvera:

  • 1 x Aerodisk Engine N2 sistem za skladištenje (2 kontrolera, 64GB keš memorije, 8xFC portova 8Gb/s, 4xEthernet porta 10Gb/s SFP+, 4xEthernet porta 1Gb/s); Sledeći diskovi su instalirani u sistemu za skladištenje:
  • 4 x SAS SSD diska 900 GB;
  • 12 x SAS 10k diskova 1,2 TB;
  • 1 x Fizički server sa Windows Serverom 2016 (2xXeon E5 2667 v3, 96GB RAM-a, 2xFC porta 8Gb/s, 2xEthernet porta 10Gb/s SFP+);
  • 2 x SAN 8G prekidač;
  • 2 x LAN 10G prekidač;

Povezali smo server sa sistemom za skladištenje preko prekidača i preko FC i 10G Etherneta. Dijagram postolja je ispod.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Komponente koje su nam potrebne, kao što su MPIO i iSCSI pokretač, instalirane su na Windows Server.
Zone su konfigurisane na FC prekidačima, odgovarajući VLAN-ovi su konfigurisani na LAN prekidačima, a MTU 9000 je instaliran na portovima za skladištenje, prekidačima i hostu (kako se sve ovo radi opisano je u našoj dokumentaciji, pa nećemo opisivati ovaj proces ovdje).

Metodologija testiranja

Plan crash testa je sljedeći:

  • Provjera kvara FC i Ethernet portova.
  • Provjera nestanka struje.
  • Provjera kvara kontrolera.
  • Provjera kvara diska u grupi/skupu.

Svi testovi će se izvoditi pod uslovima sintetičkog opterećenja, koje ćemo generisati programom IOMETER. Paralelno ćemo izvoditi iste testove, ali pod uslovima kopiranja velikih datoteka u sistem za skladištenje.

IOmeter konfiguracija je sljedeća:

  • Čitanje/pisanje – 70/30
  • Blok – 128k (odlučili smo da peremo skladišne ​​sisteme u velikim blokovima)
  • Broj niti – 128 (što je vrlo slično produktivnom opterećenju)
  • Full Random
  • Broj radnika – 4 (2 za FC, 2 za iSCSI)

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće
Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Test ima sljedeće ciljeve:

  1. Osigurajte da proces sintetičkog učitavanja i kopiranja neće prekinuti ili uzrokovati greške u različitim scenarijima kvarova.
  2. Uvjerite se da je proces prebacivanja portova, kontrolera itd. dovoljno automatiziran i da ne zahtijeva radnje administratora u slučaju kvarova (odnosno, prilikom preuzimanja greške, naravno, ne govorimo o povratnim greškama).
  3. Uvjerite se da su informacije u evidenciji ispravno prikazane.

Priprema hosta i sistema za skladištenje podataka

Konfigurisali smo blok pristup sistemu za skladištenje koristeći FC i Ethernet portove (FC i iSCSI, respektivno). Momci iz TS Solution su detaljno opisali kako se to radi u prethodnom članku (https://habr.com/ru/company/tssolution/blog/432876/). I, naravno, niko nije otkazao priručnike i kurseve.

Postavili smo hibridnu grupu koristeći sve pogone koje smo imali. 2 SSD diska su dodana u keš memoriju, 2 SSD diska su dodana kao dodatni nivo skladištenja (Online-tier). Grupisali smo 12 SAS10k diskova u RAID-60P (trostruki paritet) kako bismo provjerili kvar tri diska u grupi odjednom. Jedan disk je ostavljen za automatsku zamjenu.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Povezali smo dva LUN-a (jedan preko FC, jedan preko iSCSI).

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Vlasnik oba LUN-a je Engine-0 kontroler

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Počnimo sa testom

Omogućavamo IOMETER sa gornjom konfiguracijom.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Bilježimo protok od 1.8 GB/s i kašnjenje od 3 milisekunde. Nema grešaka (Ukupan broj grešaka).

Istovremeno, sa lokalnog diska “C” našeg hosta, paralelno počinjemo kopiranje dva velika fajla od 100 GB na FC i iSCSI LUN-ove za pohranu (diskovi E i G u Windows-u), koristeći druga sučelja.

Gore je proces kopiranja na LUN FC, ispod na iSCSI.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Test #1: Onemogućavanje I/O portova

Prilazimo sistemu za skladištenje odostraga))) i laganim pokretom ruke izvlačimo sve FC i Ethernet 10G kablove iz Engine-0 kontrolera. Kao da je čistačica sa krpom prošla i odlučila da opere pod upravo na mestu gde su ležali šmrklji i ležali kablovi (tj. kontroler i dalje radi, ali su I/O portovi mrtvi).

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Pogledajmo IOMETER i kopiranje fajlova. Protok je pao na 0,5 GB/s, ali se brzo vratio na prethodni nivo (za oko 4-5 sekundi). Nema grešaka.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Kopiranje fajlova nije stalo, postoji pad brzine, ali to nije nimalo kritično (sa 840 MB/s pala je na 720 MB/s). Kopiranje nije prestalo.

Gledamo logove sistema za skladištenje i vidimo poruku o nedostupnosti portova i automatskom preseljenju grupe.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Informacioni panel nam takođe govori da nije sve dobro sa FC portovima.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Sistem za skladištenje je preživeo kvar I/O portova uspješno.

Test br. 2. Onemogućavanje kontrolera memorije

Skoro odmah (nakon što smo kablove ponovo priključili u sistem za skladištenje) odlučili smo da završimo sistem skladištenja izvlačenjem kontrolera iz šasije.

Ponovo pristupamo sistemu za skladištenje odostraga (sviđalo nam se))) i ovog puta izvlačimo kontroler Engine-1, koji je u ovom trenutku vlasnik RDG-a (na koji se grupa preselila).

Situacija u IOmeteru je sljedeća. I/O je zaustavljen na oko 5 sekundi. Greške se ne akumuliraju.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Nakon 5 sekundi, I/O je nastavljen sa približno istom propusnošću, ali sa kašnjenjem od 35 milisekundi (kašnjenja su ispravljena nakon otprilike nekoliko minuta). Kao što se može vidjeti na snimcima ekrana, vrijednost ukupnog broja grešaka je 0, odnosno nije bilo grešaka u pisanju ili čitanju.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Pogledajmo kopiranje naših fajlova. Kao što vidite, nije prekinut, došlo je do blagog pada performansi, ali sveukupno se sve vratilo na istih ~800 MB/s.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Idemo do skladišnog sistema i vidimo kletvu na informativnoj ploči da je motor-1 kontroler nedostupan (naravno, ubili smo ga).

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Također vidimo sličan unos u zapisnicima.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Kontroler skladištenja je također preživio kvar uspješno.

Test br. 3: Isključivanje napajanja.

Za svaki slučaj, ponovo smo počeli da kopiramo fajlove, ali nismo zaustavili IOMETER.
Povlačimo jedinicu za napajanje.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Dodatno je još jedno upozorenje sistemu za skladištenje u informacionoj tabli.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Takođe u meniju senzora vidimo da su senzori povezani sa izvučenim napajanjem postali crveni.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Sistem skladištenja nastavlja sa radom. Kvar jedinice za napajanje ni na koji način ne utječe na rad sustava za pohranu; sa stanovišta domaćina, brzina kopiranja i indikatori IOMETER ostali su nepromijenjeni.

Test nestanka struje je prošao uspješno.

Pre završnog testa odlučili smo da malo oživimo sistem za skladištenje podataka, vratimo kontroler i jedinicu za napajanje, kao i da dovedemo u red kablove, o čemu nas je sistem za skladištenje rado obavestio sa zelenim ikonama na svom zdravstvenom panelu. .

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Test br. 4. Otkaz tri diska u grupi

Prije ovog testa izvršili smo dodatni pripremni korak. Činjenica je da sistem skladištenja ENGINE pruža vrlo korisnu stvar - različite politike rekonstrukcije. TS Solution je ranije pisao o ovoj funkciji, ali hajde da se podsetimo njene suštine. Administrator skladišta može odrediti prioritet za dodjelu resursa tokom ponovne izgradnje. Bilo u pravcu I/O performansi, to jest, rekonstrukcija traje duže, ali nema smanjenja performansi. Ili u smjeru brzine obnove, ali produktivnost će biti smanjena. Ili balansirana opcija. Pošto su performanse skladištenja tokom ponovne izgradnje grupe diskova uvek glavobolja administratora, mi ćemo testirati politiku sa pristrasnošću prema I/O performansama i nauštrb brzine ponovne izgradnje.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Sada provjerimo ima li diska kvar. Omogućavamo i snimanje na LUN-ove (datoteke i IOMETER). Pošto imamo grupu sa trostrukim paritetom (RAID-60P), to znači da sistem mora izdržati kvar tri diska, a nakon kvara mora proraditi automatska zamjena, jedan disk mora zauzeti mjesto jednog od otkazanih u RDG-u i na njemu mora početi obnova.

Počni. Prvo, kroz sučelje za pohranu, označimo diskove koje želimo izvući (kako ne bismo propustili i povukli disk za automatsku promjenu).

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Provjeravamo indikaciju na hardveru. Sve je u redu, vidimo tri svetleća diska.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

I izvlačimo ova tri diska.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Pogledajmo šta je na hostu. I tamo... ništa posebno se nije dogodilo.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće
Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Indikatori kopiranja (veći su nego na početku, jer se keš zagrijao) i IOMETER se ne mijenjaju mnogo prilikom vađenja diskova i pokretanja rebuild-a (unutar 5-10%).

Pogledajmo šta je na sistemu za skladištenje.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

U statusu grupe vidimo da je proces restrukturiranja počeo i da je pri kraju.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

U RDG skeletu možete vidjeti da su 2 diska u crvenom statusu, a jedan je već zamijenjen. Disk za automatsku zamjenu više nije tu; zamijenio je treći neispravan disk. Rekonstrukcija je trajala nekoliko minuta, pisanje datoteka kada su 3 diska otkazala nije prekinuto, a I/O performanse se nisu mnogo promijenile.

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće

Test kvara diska je definitivno prošao uspješno.

zaključak

U ovom trenutku, odlučili smo da zaustavimo nasilje nad sistemima za skladištenje podataka. Hajde da rezimiramo:

  • Provjera greške FC porta - uspješna
  • Provjera greške Ethernet porta - uspješna
  • Provjera kvara kontrolera - uspješna
  • Test nestanka struje - uspješno
  • Provjera kvara diska u grupi grupa - uspješna

Nijedan kvar nije zaustavio snimanje niti je doveo do grešaka u sintetičkom učitavanju, naravno da je došlo do kvara u performansama (i znamo kako da ga savladamo, što ćemo uskoro učiniti), ali s obzirom da su to sekunde, sasvim je prihvatljivo. Zaključak: tolerancija grešaka svih komponenti AERODISK sistema za skladištenje je radila na nivou, nije bilo tačaka kvara.

Očigledno, u jednom članku ne možemo testirati sve scenarije kvarova, ali smo pokušali pokriti one najpopularnije. Stoga vas molimo da pošaljete svoje komentare, prijedloge za buduća izdanja i, naravno, adekvatne kritike. Rado ćemo razgovarati (ili još bolje, dođite na trening, dupliram raspored za svaki slučaj)! Do novih testova!

  • Nižnji Novgorod (VEĆ OTVORENO – možete se prijaviti ovdje https://aerodisk.promo/nn/);
    Do 16. aprila 2019. godine možete posjetiti centar u bilo koje radno vrijeme, a 16. aprila 2019. godine biće organizovan veliki kurs obuke.
  • Krasnodar (USKORO OTVARANJE - možete se prijaviti ovdje https://aerodisk.promo/krsnd/ );
    Od 9. aprila do 25. aprila 2019. godine centar možete posjetiti u bilo koje radno vrijeme, a 25. aprila 2019. godine biće organizovan veliki kurs obuke.
  • Екатеринбург (USKORO OTVARANJE, pratite informacije na našoj web stranici ili na Habré-u);
    Maj-jun 2019.
  • Новосибирск (pratite informacije na našoj web stranici ili na Habré-u);
    oktobar 2019.
  • Красноярск (pratite informacije na našoj web stranici ili na Habré-u);
    Novembra 2019.

izvor: www.habr.com

Dodajte komentar