Tere kõigile! Selle artikliga avab AERODISK Habré ajaveebi. Hurraa, seltsimehed!
Varasemates Habré artiklites käsitleti salvestussüsteemide arhitektuuri ja põhikonfiguratsiooni küsimusi. Selles artiklis käsitleme küsimust, mida pole varem käsitletud, kuid mida sageli küsitakse - AERODISK ENGINE salvestussüsteemide tõrketaluvuse kohta. Meie meeskond teeb kõik selleks, et AERODISK salvestussüsteem lakkaks töötamast, st. murda see.
Juhtus nii, et Habrel ripuvad juba artiklid meie ettevõtte ajaloost, meie toodetest, aga ka näide edukast rakendamisest, mille jaoks Suur tänu meie koostööpartneritele – TS Solution ja Softline ettevõtetele.
Seetõttu ei treeni ma siin kopeerimise ja kleepimise haldamise oskusi, vaid annan lihtsalt lingid nende artiklite originaalidele:
Samuti tahan jagada häid uudiseid. Aga alustan loomulikult probleemist. Meie kui noor müüja seisame muuhulgas pidevalt silmitsi tõsiasjaga, et paljud insenerid ja administraatorid lihtsalt ei tea, kuidas meie salvestussüsteemi õigesti kasutada.
On selge, et enamiku salvestussüsteemide haldamine näeb administraatori seisukohast välja ligikaudu sama, kuid igal tootjal on oma eripärad. Ja me pole siin erand.
Seetõttu otsustasime IT-spetsialistide koolitamise ülesande lihtsustamiseks pühendada selle aasta tasuta õppele. Selleks avame paljudes Venemaa suurlinnades AERODISKi kompetentsikeskuste võrgustiku, kus iga huvitatud tehnikaspetsialist saab täiesti tasuta kursuse läbida ja saada AERODISK ENGINE salvestussüsteemide haldamise tunnistuse.
Igasse kompetentsikeskusesse paigaldame AERODISK salvestussüsteemist täisväärtusliku demostendi ja füüsilise serveri, millel meie õpetaja viib läbi näost-näkku koolitusi. Kompetentsikeskuste töögraafiku avaldame nende ilmumisel, kuid oleme juba avanud keskuse Nižni Novgorodis ja järgmine on Krasnodari linn. Koolitusele saad registreeruda allolevate linkide kaudu. Siin on praegu teadaolev teave linnade ja kuupäevade kohta:
Nižni Novgorodi (JUBA AVATUD – registreeruda saad siin https://aerodisk.promo/nn/);
Kuni 16 saab keskust külastada igal tööajal ning 2019 korraldatakse suur koolitus.
Krasnodar (VARSTI AVAB – registreeruda saad siin https://aerodisk.promo/krsnd/ );
9. aprillist 25. aprillini 2019 saab keskust külastada igal tööajal ning 25. aprillil 2019 korraldatakse suur koolitus.
Jekaterinburg (VARSTI AVAB, jälgi infot meie kodulehel või Habré lehel);
Mai-juuni 2019.
Novosibirsk (jälgige teavet meie veebisaidil või Habré lehel);
oktoober 2019.
Krasnojarski (jälgige teavet meie veebisaidil või Habré lehel);
november 2019.
Ja muidugi, kui Moskva pole teist kaugel, võite igal ajal külastada meie kontorit Moskvas ja läbida sarnase koolituse.
Kõik. Oleme turundusega lõpetanud, liigume edasi tehnoloogia juurde!
Habres avaldame regulaarselt tehnilisi artikleid meie toodete, koormustestide, võrdluste, kasutusvõimaluste ja huvitavate rakenduste kohta.
HOIATUS!Pärast artikli lugemist võite öelda: noh, muidugi, müüja kontrollib ennast, et kõik toimiks "pauguga", kasvuhoonetingimused jne. Vastan: ei midagi sellist! Erinevalt välismaistest konkurentidest asume siin, teie lähedal ja te võite alati tulla meie juurde (Moskvasse või ükskõik millisesse keskkomiteesse) ja meie salvestussüsteemi mis tahes viisil testida. Seega ei ole meil erilist mõtet kohandada tulemusi ideaalse maailmapildiga, sest Meid on väga lihtne kontrollida. Neile, kes on liiga laisad ja kellel pole aega, saame korraldada kaugtestimise. Meil on selleks spetsiaalne labor. Võta meiega ühendust.
ACHTUNG-2!See test ei ole koormustest, sest siin hoolime ainult veataluvusest. Paari nädala pärast valmistame ette võimsama stendi ja viime läbi salvestussüsteemi koormustesti, avaldades tulemused siin (muide, testide taotlusi võetakse vastu).
Niisiis, lähme purustame selle.
Katselaud
Meie stend koosneb järgmisest riistvarast:
1 x Aerodisk Engine N2 salvestussüsteem (2 kontrollerit, 64GB vahemälu, 8xFC pordid 8Gb/s, 4xEthernet pordid 10Gb/s SFP+, 4xEthernet pordid 1Gb/s); Salvestussüsteemi on installitud järgmised kettad:
4 x SAS SSD ketast 900 GB;
12 x SAS 10k ketast 1,2 TB;
1 x füüsiline server Windows Server 2016-ga (2xXeon E5 2667 v3, 96GB RAM, 2xFC porti 8Gb/s, 2xEtherneti porti 10Gb/s SFP+);
2 x SAN 8G lüliti;
2 x LAN 10G lülitit;
Serveri ühendasime salvestussüsteemiga lülitite kaudu nii FC kui ka 10G Etherneti kaudu. Stendi skeem on allpool.
Vajalikud komponendid, nagu MPIO ja iSCSI initsiaator, on installitud Windows Serverisse.
Tsoonid on konfigureeritud FC-lülititel, vastavad VLAN-id konfigureeritakse LAN-lülititel ja MTU 9000 on installitud salvestusportidesse, lülititesse ja hostidesse (kuidas seda kõike teha on kirjeldatud meie dokumentatsioonis, seega me ei kirjelda seda see protsess siin).
Testimise metoodika
Kokkupõrkekatse plaan on järgmine:
FC ja Etherneti portide rikke kontrollimine.
Elektrikatkestuse kontroll.
Kontrolleri rikke kontroll.
Kettatõrgete kontrollimine rühmas/kogumis.
Kõik testid viiakse läbi sünteetilise koormuse tingimustes, mille genereerime programmi IOMETER abil. Paralleelselt teostame samu teste, kuid suurte failide salvestussüsteemi kopeerimise tingimustes.
IOmeteri konfiguratsioon on järgmine:
Loe/kirjuta – 70/30
Plokk – 128k (laosüsteemid otsustasime pesta suurte plokkidena)
Keermete arv – 128 (mis on väga sarnane produktiivse koormusega)
Täielik juhuslik
Töötajate arv – 4 (2 FC jaoks, 2 iSCSI jaoks)
Testil on järgmised eesmärgid:
Veenduge, et sünteetilise laadimise ja kopeerimise protsess ei katkestaks ega põhjustaks vigu erinevate tõrkestsenaariumide korral.
Veenduge, et pordi, kontrollerite jms vahetamise protsess oleks piisavalt automatiseeritud ega nõuaks tõrgete korral administraatori tegevust (st tõrkevahetuste ajal ei räägi me loomulikult tõrketagastustest).
Veenduge, et logides olev teave oleks õigesti kuvatud.
Hosti- ja salvestussüsteemi ettevalmistamine
Konfigureerisime salvestussüsteemi blokkjuurdepääsu, kasutades FC ja Etherneti porte (vastavalt FC ja iSCSI). TS Solutioni poisid kirjeldasid üksikasjalikult, kuidas seda teha eelmises artiklis (https://habr.com/ru/company/tssolution/blog/432876/). Ja loomulikult ei tühistanud keegi käsiraamatuid ja kursusi.
Me moodustasime hübriidrühma, kasutades kõiki meil olevaid draive. Vahemällu lisati 2 SSD ketast, täiendava salvestustasandina (Online-tier) lisati 2 SSD ketast. Rühmitasime 12 SAS10k ketast RAID-60P-sse (kolmepaarsus), et kontrollida korraga kolme ketta riket rühmas. Üks ketas jäi automaatseks asendamiseks.
Ühendasime kaks LUN-i (üks FC, teine iSCSI kaudu).
Mõlema LUN-i omanik on Engine-0 kontroller
Alustame testiga
Lubame IOMETERi ülaltoodud konfiguratsiooniga.
Salvestame läbilaskevõimeks 1.8 GB/s ja latentsusajaks 3 millisekundit. Vigu pole (tõrkede koguarv).
Samal ajal hakkame oma hosti kohalikult kettalt “C” paralleelselt kopeerima kahte suurt 100 GB faili FC ja iSCSI salvestusruumi LUN-i (Windowsis draivid E ja G), kasutades muid liideseid.
Ülal on kopeerimisprotsess LUN FC-sse, allpool iSCSI-sse.
Test nr 1: I/O-portide keelamine
Läheneme salvestussüsteemile tagant))) ja tõmbame kerge käeliigutusega kõik FC ja Ethernet 10G kaablid Engine-0 kontrollerist välja. Justkui mopiga koristaja oleks mööda läinud ja otsustanud põrandat pesta just seal, kus tatt lamas ja kaablid lebasid (st kontroller ikka töötab, aga I/O pordid on surnud).
Vaatame IOMETERit ja failide kopeerimist. Läbilaskevõime langes 0,5 GB/s-ni, kuid jõudis kiiresti tagasi endisele tasemele (umbes 4-5 sekundiga). Vigu pole.
Failide kopeerimine pole katkenud, kiirust on küll langenud, kuid see pole sugugi kriitiline (840 MB/s langes 720 MB/s peale). Kopeerimine pole peatunud.
Vaatame salvestussüsteemi logisid ja näeme teadet portide kättesaamatuse ja grupi automaatse ümberpaigutamise kohta.
Infopaneel ütleb meile ka, et FC-portidega pole kõik väga hästi.
Salvestussüsteem elas üle I/O-portide rikke edukalt.
Test nr 2. Salvestuskontrolleri keelamine
Peaaegu kohe (pärast kaablite salvestussüsteemi tagasi ühendamist) otsustasime salvestussüsteemi lõpetada, tõmmates kontrolleri šassiist välja.
Jällegi läheneme salvestussüsteemile tagant (meile meeldis))) ja seekord tõmbame välja mootori-1 kontrolleri, mis on praegu RDG (kuhu grupp kolis) omanik.
IOmeteri olukord on järgmine. I/O peatus umbes 5 sekundiks. Vead ei kogune.
5 sekundi pärast jätkus sisend/väljund umbes sama läbilaskevõimega, kuid latentsusajad olid 35 millisekundit (latentsusajad parandati umbes paari minuti pärast). Nagu ekraanipiltidelt näha, on Total error count väärtus 0, st kirjutamis- ega lugemisvigu ei esinenud.
Vaatame oma failide kopeerimist. Nagu näete, see ei katkenud, jõudlus oli veidi langenud, kuid üldiselt naasis kõik samale ~ 800 MB/s juurde.
Läheme salvestussüsteemi ja näeme infopaneelil needust, et Engine-1 kontroller pole saadaval (loomulikult me tapsime selle).
Sarnast kirjet näeme ka logides.
Salvestuskontroller elas üle ka rikke edukalt.
Test nr 3: toiteallika lahtiühendamine.
Hakkasime igaks juhuks uuesti faile kopeerima, aga IOMETERit ei lõpetanud.
Tõmbame toiteploki.
Teabepaneelil on salvestussüsteemi lisatud veel üks hoiatus.
Ka sensorite menüüs näeme, et väljatõmmatud toiteallikaga seotud andurid on muutunud punaseks.
Salvestussüsteem töötab edasi. Toiteploki rike ei mõjuta kuidagi salvestussüsteemi tööd, hosti seisukohalt jäid kopeerimiskiiruse ja IOMETERi näidikud muutumatuks.
Elektrikatkestuse test läbitud edukalt.
Enne viimast testi otsustasime salvestussüsteemi veidi elustada, tagasi panna kontrolleri ja toiteploki ning ka juhtmed korda teha, millest salvestussüsteem meid rõõmsalt oma tervisepaneelil roheliste ikoonidega teavitas. .
Test nr 4. Kolme ketta rike rühmas
Enne seda testi tegime täiendava ettevalmistusetapi. Fakt on see, et ENGINE'i salvestussüsteem pakub väga kasulikku asja - erinevaid ümberehituspoliitikaid. TS Solution kirjutas sellest funktsioonist varem, kuid meenutagem selle olemust. Salvestusadministraator saab ümberehitamise ajal määrata ressursside eraldamise prioriteedi. Kas I/O jõudluse suunas, see tähendab, et ümberehitamine võtab kauem aega, kuid jõudluse vähenemist ei toimu. Või taastamiskiiruse suunas, kuid tootlikkus väheneb. Või tasakaalustatud variant. Kuna salvestusruumi jõudlus kettarühma ümberehitamise ajal on alati administraatorile peavalu valmistav, testime poliitikat, mis kaldub I/O jõudluse poole ja taastehitamise kiiruse arvelt.
Nüüd kontrollime ketta riket. Võimaldame salvestada ka LUN-i (failid ja IOMETER). Kuna meil on kolmikpaarsusega grupp (RAID-60P), siis see tähendab, et süsteem peab vastu pidama kolme ketta rikkele ning peale riket peab toimima automaatne asendamine, ühe rikki läinud ketta asemele peab üks ketas. RDG-s ja selle ümberehitamist tuleb alustada.
Alusta. Esmalt tõstkem salvestusliidese kaudu esile kettad, mida tahame välja tõmmata (et mitte vahele jätta ja vahetusketast tõmmata).
Kontrollime riistvara näidust. Kõik on korras, näeme kolme esiletõstetud ketast.
Ja me tõmbame need kolm ketast välja.
Vaatame, mis hostis on. Ja seal... midagi erilist ei juhtunud.
Kopeerimise indikaatorid (need on kõrgemad kui alguses, sest vahemälu on soojenenud) ja IOMETER ei muutu eriti plaatide eemaldamisel ja ümberehituse alustamisel (5-10% piires).
Vaatame, mis on salvestussüsteemis.
Grupi staatuses näeme, et ümberkorraldusprotsess on alanud ja see on lõpule jõudmas.
RDG skeletis näete, et 2 ketast on punases olekus ja üks on juba asendatud. Automaatset asendusketast pole enam olemas; see asendas kolmanda ebaõnnestunud ketta. Ümberehitamine võttis aega mitu minutit, failide kirjutamine 3 ketta rikke korral ei katkenud ja I/O jõudlus palju ei muutunud.
Kettatõrke test läbis kindlasti edukalt.
Järeldus
Siinkohal otsustasime peatada vägivalla salvestussüsteemide vastu. Teeme kokkuvõtte:
FC pordi tõrkekontroll – õnnestus
Etherneti pordi tõrkekontroll – õnnestus
Kontrolleri tõrkekontroll – õnnestus
Toitekatkestuse test – edukas
Kettatõrke kontrollimine grouppoolis - õnnestus
Ükski rike ei katkestanud salvestamist ega põhjustanud sünteetilises koormuses tõrkeid, loomulikult oli jõudluse hitt (ja me teame, kuidas sellest üle saada, mida teeme varsti), kuid arvestades, et need on sekundid, on see üsna vastuvõetav. Järeldus: AERODISK salvestussüsteemi kõigi komponentide tõrketaluvus töötas tasemel, rikkepunkte polnud.
Ilmselgelt ei saa me ühes artiklis kõiki ebaõnnestumise stsenaariume testida, kuid püüdsime hõlmata kõige populaarsemaid. Seetõttu palun saatke oma kommentaarid, ettepanekud tulevaste väljaannete jaoks ja loomulikult adekvaatne kriitika. Arutame hea meelega (või veel parem, tule koolitusele, ajakava dubleerin igaks juhuks)! Uute katseteni!
Nižni Novgorodi (JUBA AVATUD – registreeruda saad siin https://aerodisk.promo/nn/);
Kuni 16 saab keskust külastada igal tööajal ning 2019 korraldatakse suur koolitus.
Krasnodar (VARSTI AVAB – registreeruda saad siin https://aerodisk.promo/krsnd/ );
9. aprillist 25. aprillini 2019 saab keskust külastada igal tööajal ning 25. aprillil 2019 korraldatakse suur koolitus.
Jekaterinburg (VARSTI AVAB, jälgi infot meie kodulehel või Habré lehel);
Mai-juuni 2019.
Novosibirsk (jälgige teavet meie veebisaidil või Habré lehel);
oktoober 2019.
Krasnojarski (jälgige teavet meie veebisaidil või Habré lehel);
november 2019.