ProHoster > Блог > Administracija > Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće
Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće
Zdravo svima! Ovim člankom AERODISK otvara blog na Habréu. Ura, drugovi!
Prethodni članci o Habréu raspravljali su o pitanjima o arhitekturi i osnovnoj konfiguraciji sistema za skladištenje podataka. U ovom članku ćemo razmotriti pitanje koje ranije nije obrađeno, ali se često postavlja - o toleranciji grešaka sistema za skladištenje AERODISK ENGINE. Naš tim će učiniti sve da AERODISK sistem skladištenja prestane da radi, tj. slomi to.
Dogodilo se da na Habréu već vise članci o istoriji naše kompanije, o našim proizvodima, kao i o primjeru uspješne implementacije, zbog čega Veliko hvala našim partnerima - kompanijama TS Solution i Softline.
Stoga, ovdje neću trenirati vještine upravljanja kopiranjem i lijepljenjem, već ću jednostavno dati veze do originala ovih članaka:
Također želim podijeliti dobre vijesti. Ali počeću, naravno, sa problemom. Mi, kao mladi dobavljač, između ostalih troškova, stalno se suočavamo sa činjenicom da mnogi inženjeri i administratori jednostavno ne znaju kako pravilno upravljati našim sistemom za skladištenje podataka.
Jasno je da upravljanje većinom sistema za skladištenje izgleda približno isto sa administratorske tačke gledišta, ali svaki proizvođač ima svoje karakteristike. I mi tu nismo izuzetak.
Stoga smo, kako bismo pojednostavili zadatak obuke IT stručnjaka, odlučili ovu godinu posvetiti besplatnom obrazovanju. Da bismo to učinili, u mnogim velikim gradovima Rusije otvaramo mrežu AERODISK kompetentnih centara, u kojima svaki zainteresovani tehnički stručnjak može apsolutno besplatno pohađati kurs i dobiti sertifikat za administriranje sistema za skladištenje AERODISK ENGINE.
U svakom centru kompetencija instaliraćemo kompletan demo štand iz AERODISK sistema za skladištenje i fizički server, na kojem će naš nastavnik provoditi obuku licem u lice. Raspored rada centara kompetencija objavićemo po njihovom pojavljivanju, ali već smo otvorili centar u Nižnjem Novgorodu, a na redu je grad Krasnodar. Možete se prijaviti za obuku koristeći linkove ispod. Evo trenutno poznatih informacija o gradovima i datumima:
Nižnji Novgorod (VEĆ OTVORENO – možete se prijaviti ovdje https://aerodisk.promo/nn/);
Do 16. aprila 2019. godine možete posjetiti centar u bilo koje radno vrijeme, a 16. aprila 2019. godine biće organizovan veliki kurs obuke.
Krasnodar (USKORO OTVARANJE - možete se prijaviti ovdje https://aerodisk.promo/krsnd/ );
Od 9. aprila do 25. aprila 2019. godine centar možete posjetiti u bilo koje radno vrijeme, a 25. aprila 2019. godine biće organizovan veliki kurs obuke.
Екатеринбург (USKORO OTVARANJE, pratite informacije na našoj web stranici ili na Habré-u);
Maj-jun 2019.
Новосибирск (pratite informacije na našoj web stranici ili na Habré-u);
oktobar 2019.
Красноярск (pratite informacije na našoj web stranici ili na Habré-u);
Novembra 2019.
I, naravno, ako Moskva nije daleko od vas, onda u bilo koje vrijeme možete posjetiti našu kancelariju u Moskvi i proći sličnu obuku.
Sve. Završili smo s marketingom, idemo na tehnologiju!
Na Habré-u ćemo redovno objavljivati tehničke članke o našim proizvodima, testove opterećenja, poređenja, karakteristike upotrebe i zanimljive implementacije.
Testovi sudara AERODISK ENGINE N2 sistema za skladištenje, test čvrstoće
UPOZORENJE!Nakon što pročitate članak, možete reći: pa, naravno, prodavač će sam provjeriti da li sve radi "s praskom", uvjeti staklenika itd. Ja ću odgovoriti: ništa tako! Za razliku od naših stranih konkurenata, mi se nalazimo ovdje, blizu vas, i uvijek možete doći kod nas (u Moskvu ili bilo koji Centralni komitet) i testirati naš sistem skladištenja na bilo koji način. Dakle, za nas nema mnogo smisla prilagođavati rezultate idealnoj slici svijeta, jer Vrlo nas je lako provjeriti. Za one koji su previše lijeni i nemaju vremena, možemo organizirati testiranje na daljinu. Imamo posebnu laboratoriju za ovo. Kontaktiraj nas.
ACHTUNG-2!Ovaj test nije test opterećenja, jer ovdje nam je stalo samo do tolerancije grešaka. Za nekoliko sedmica ćemo pripremiti moćniji štand i provesti testiranje opterećenja sistema za pohranu podataka, objavljujući rezultate ovdje (usput, zahtjevi za testove se prihvaćaju).
Dakle, hajde da ga razbijemo.
Test stalak
Naš štand se sastoji od sledećeg hardvera:
1 x Aerodisk Engine N2 sistem za skladištenje (2 kontrolera, 64GB keš memorije, 8xFC portova 8Gb/s, 4xEthernet porta 10Gb/s SFP+, 4xEthernet porta 1Gb/s); Sledeći diskovi su instalirani u sistemu za skladištenje:
4 x SAS SSD diska 900 GB;
12 x SAS 10k diskova 1,2 TB;
1 x Fizički server sa Windows Serverom 2016 (2xXeon E5 2667 v3, 96GB RAM-a, 2xFC porta 8Gb/s, 2xEthernet porta 10Gb/s SFP+);
2 x SAN 8G prekidač;
2 x LAN 10G prekidač;
Povezali smo server sa sistemom za skladištenje preko prekidača i preko FC i 10G Etherneta. Dijagram postolja je ispod.
Komponente koje su nam potrebne, kao što su MPIO i iSCSI pokretač, instalirane su na Windows Server.
Zone su konfigurisane na FC prekidačima, odgovarajući VLAN-ovi su konfigurisani na LAN prekidačima, a MTU 9000 je instaliran na portovima za skladištenje, prekidačima i hostu (kako se sve ovo radi opisano je u našoj dokumentaciji, pa nećemo opisivati ovaj proces ovdje).
Metodologija testiranja
Plan crash testa je sljedeći:
Provjera kvara FC i Ethernet portova.
Provjera nestanka struje.
Provjera kvara kontrolera.
Provjera kvara diska u grupi/skupu.
Svi testovi će se izvoditi pod uslovima sintetičkog opterećenja, koje ćemo generisati programom IOMETER. Paralelno ćemo izvoditi iste testove, ali pod uslovima kopiranja velikih datoteka u sistem za skladištenje.
IOmeter konfiguracija je sljedeća:
Čitanje/pisanje – 70/30
Blok – 128k (odlučili smo da peremo skladišne sisteme u velikim blokovima)
Broj niti – 128 (što je vrlo slično produktivnom opterećenju)
Full Random
Broj radnika – 4 (2 za FC, 2 za iSCSI)
Test ima sljedeće ciljeve:
Osigurajte da proces sintetičkog učitavanja i kopiranja neće prekinuti ili uzrokovati greške u različitim scenarijima kvarova.
Uvjerite se da je proces prebacivanja portova, kontrolera itd. dovoljno automatiziran i da ne zahtijeva radnje administratora u slučaju kvarova (odnosno, prilikom preuzimanja greške, naravno, ne govorimo o povratnim greškama).
Uvjerite se da su informacije u evidenciji ispravno prikazane.
Priprema hosta i sistema za skladištenje podataka
Konfigurisali smo blok pristup sistemu za skladištenje koristeći FC i Ethernet portove (FC i iSCSI, respektivno). Momci iz TS Solution su detaljno opisali kako se to radi u prethodnom članku (https://habr.com/ru/company/tssolution/blog/432876/). I, naravno, niko nije otkazao priručnike i kurseve.
Postavili smo hibridnu grupu koristeći sve pogone koje smo imali. 2 SSD diska su dodana u keš memoriju, 2 SSD diska su dodana kao dodatni nivo skladištenja (Online-tier). Grupisali smo 12 SAS10k diskova u RAID-60P (trostruki paritet) kako bismo provjerili kvar tri diska u grupi odjednom. Jedan disk je ostavljen za automatsku zamjenu.
Povezali smo dva LUN-a (jedan preko FC, jedan preko iSCSI).
Vlasnik oba LUN-a je Engine-0 kontroler
Počnimo sa testom
Omogućavamo IOMETER sa gornjom konfiguracijom.
Bilježimo protok od 1.8 GB/s i kašnjenje od 3 milisekunde. Nema grešaka (Ukupan broj grešaka).
Istovremeno, sa lokalnog diska “C” našeg hosta, paralelno počinjemo kopiranje dva velika fajla od 100 GB na FC i iSCSI LUN-ove za pohranu (diskovi E i G u Windows-u), koristeći druga sučelja.
Gore je proces kopiranja na LUN FC, ispod na iSCSI.
Test #1: Onemogućavanje I/O portova
Prilazimo sistemu za skladištenje odostraga))) i laganim pokretom ruke izvlačimo sve FC i Ethernet 10G kablove iz Engine-0 kontrolera. Kao da je čistačica sa krpom prošla i odlučila da opere pod upravo na mestu gde su ležali šmrklji i ležali kablovi (tj. kontroler i dalje radi, ali su I/O portovi mrtvi).
Pogledajmo IOMETER i kopiranje fajlova. Protok je pao na 0,5 GB/s, ali se brzo vratio na prethodni nivo (za oko 4-5 sekundi). Nema grešaka.
Kopiranje fajlova nije stalo, postoji pad brzine, ali to nije nimalo kritično (sa 840 MB/s pala je na 720 MB/s). Kopiranje nije prestalo.
Gledamo logove sistema za skladištenje i vidimo poruku o nedostupnosti portova i automatskom preseljenju grupe.
Informacioni panel nam takođe govori da nije sve dobro sa FC portovima.
Sistem za skladištenje je preživeo kvar I/O portova uspješno.
Test br. 2. Onemogućavanje kontrolera memorije
Skoro odmah (nakon što smo kablove ponovo priključili u sistem za skladištenje) odlučili smo da završimo sistem skladištenja izvlačenjem kontrolera iz šasije.
Ponovo pristupamo sistemu za skladištenje odostraga (sviđalo nam se))) i ovog puta izvlačimo kontroler Engine-1, koji je u ovom trenutku vlasnik RDG-a (na koji se grupa preselila).
Situacija u IOmeteru je sljedeća. I/O je zaustavljen na oko 5 sekundi. Greške se ne akumuliraju.
Nakon 5 sekundi, I/O je nastavljen sa približno istom propusnošću, ali sa kašnjenjem od 35 milisekundi (kašnjenja su ispravljena nakon otprilike nekoliko minuta). Kao što se može vidjeti na snimcima ekrana, vrijednost ukupnog broja grešaka je 0, odnosno nije bilo grešaka u pisanju ili čitanju.
Pogledajmo kopiranje naših fajlova. Kao što vidite, nije prekinut, došlo je do blagog pada performansi, ali sveukupno se sve vratilo na istih ~800 MB/s.
Idemo do skladišnog sistema i vidimo kletvu na informativnoj ploči da je motor-1 kontroler nedostupan (naravno, ubili smo ga).
Također vidimo sličan unos u zapisnicima.
Kontroler skladištenja je također preživio kvar uspješno.
Test br. 3: Isključivanje napajanja.
Za svaki slučaj, ponovo smo počeli da kopiramo fajlove, ali nismo zaustavili IOMETER.
Povlačimo jedinicu za napajanje.
Dodatno je još jedno upozorenje sistemu za skladištenje u informacionoj tabli.
Takođe u meniju senzora vidimo da su senzori povezani sa izvučenim napajanjem postali crveni.
Sistem skladištenja nastavlja sa radom. Kvar jedinice za napajanje ni na koji način ne utječe na rad sustava za pohranu; sa stanovišta domaćina, brzina kopiranja i indikatori IOMETER ostali su nepromijenjeni.
Test nestanka struje je prošao uspješno.
Pre završnog testa odlučili smo da malo oživimo sistem za skladištenje podataka, vratimo kontroler i jedinicu za napajanje, kao i da dovedemo u red kablove, o čemu nas je sistem za skladištenje rado obavestio sa zelenim ikonama na svom zdravstvenom panelu. .
Test br. 4. Otkaz tri diska u grupi
Prije ovog testa izvršili smo dodatni pripremni korak. Činjenica je da sistem skladištenja ENGINE pruža vrlo korisnu stvar - različite politike rekonstrukcije. TS Solution je ranije pisao o ovoj funkciji, ali hajde da se podsetimo njene suštine. Administrator skladišta može odrediti prioritet za dodjelu resursa tokom ponovne izgradnje. Bilo u pravcu I/O performansi, to jest, rekonstrukcija traje duže, ali nema smanjenja performansi. Ili u smjeru brzine obnove, ali produktivnost će biti smanjena. Ili balansirana opcija. Pošto su performanse skladištenja tokom ponovne izgradnje grupe diskova uvek glavobolja administratora, mi ćemo testirati politiku sa pristrasnošću prema I/O performansama i nauštrb brzine ponovne izgradnje.
Sada provjerimo ima li diska kvar. Omogućavamo i snimanje na LUN-ove (datoteke i IOMETER). Pošto imamo grupu sa trostrukim paritetom (RAID-60P), to znači da sistem mora izdržati kvar tri diska, a nakon kvara mora proraditi automatska zamjena, jedan disk mora zauzeti mjesto jednog od otkazanih u RDG-u i na njemu mora početi obnova.
Počni. Prvo, kroz sučelje za pohranu, označimo diskove koje želimo izvući (kako ne bismo propustili i povukli disk za automatsku promjenu).
Provjeravamo indikaciju na hardveru. Sve je u redu, vidimo tri svetleća diska.
I izvlačimo ova tri diska.
Pogledajmo šta je na hostu. I tamo... ništa posebno se nije dogodilo.
Indikatori kopiranja (veći su nego na početku, jer se keš zagrijao) i IOMETER se ne mijenjaju mnogo prilikom vađenja diskova i pokretanja rebuild-a (unutar 5-10%).
Pogledajmo šta je na sistemu za skladištenje.
U statusu grupe vidimo da je proces restrukturiranja počeo i da je pri kraju.
U RDG skeletu možete vidjeti da su 2 diska u crvenom statusu, a jedan je već zamijenjen. Disk za automatsku zamjenu više nije tu; zamijenio je treći neispravan disk. Rekonstrukcija je trajala nekoliko minuta, pisanje datoteka kada su 3 diska otkazala nije prekinuto, a I/O performanse se nisu mnogo promijenile.
Test kvara diska je definitivno prošao uspješno.
zaključak
U ovom trenutku, odlučili smo da zaustavimo nasilje nad sistemima za skladištenje podataka. Hajde da rezimiramo:
Provjera greške FC porta - uspješna
Provjera greške Ethernet porta - uspješna
Provjera kvara kontrolera - uspješna
Test nestanka struje - uspješno
Provjera kvara diska u grupi grupa - uspješna
Nijedan kvar nije zaustavio snimanje niti je doveo do grešaka u sintetičkom učitavanju, naravno da je došlo do kvara u performansama (i znamo kako da ga savladamo, što ćemo uskoro učiniti), ali s obzirom da su to sekunde, sasvim je prihvatljivo. Zaključak: tolerancija grešaka svih komponenti AERODISK sistema za skladištenje je radila na nivou, nije bilo tačaka kvara.
Očigledno, u jednom članku ne možemo testirati sve scenarije kvarova, ali smo pokušali pokriti one najpopularnije. Stoga vas molimo da pošaljete svoje komentare, prijedloge za buduća izdanja i, naravno, adekvatne kritike. Rado ćemo razgovarati (ili još bolje, dođite na trening, dupliram raspored za svaki slučaj)! Do novih testova!
Nižnji Novgorod (VEĆ OTVORENO – možete se prijaviti ovdje https://aerodisk.promo/nn/);
Do 16. aprila 2019. godine možete posjetiti centar u bilo koje radno vrijeme, a 16. aprila 2019. godine biće organizovan veliki kurs obuke.
Krasnodar (USKORO OTVARANJE - možete se prijaviti ovdje https://aerodisk.promo/krsnd/ );
Od 9. aprila do 25. aprila 2019. godine centar možete posjetiti u bilo koje radno vrijeme, a 25. aprila 2019. godine biće organizovan veliki kurs obuke.
Екатеринбург (USKORO OTVARANJE, pratite informacije na našoj web stranici ili na Habré-u);
Maj-jun 2019.
Новосибирск (pratite informacije na našoj web stranici ili na Habré-u);
oktobar 2019.
Красноярск (pratite informacije na našoj web stranici ili na Habré-u);
Novembra 2019.