Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Hello, qarrejja Habr! Fl-aħħar artiklu, tkellimna dwar mezz sempliċi ta 'rkupru minn diżastri fis-sistemi ta' ħażna AERODISK ENGINE - replikazzjoni. F'dan l-artikolu, se nidħlu f'suġġett aktar kumpless u interessanti - il-metrocluster, jiġifieri, mezz ta 'protezzjoni awtomatizzata minn diżastri għal żewġ ċentri tad-dejta, li jippermetti liċ-ċentri tad-dejta joperaw f'modalità attiva-attiva. Aħna ngħidulek, nuruk, inkissruh u nirranġawha.

Bħas-soltu, it-teorija l-ewwel

Metrocluster huwa raggruppament mifrux fuq diversi siti fi ħdan belt jew reġjun. Il-kelma "cluster" tagħtina ħjiel ċar li l-kumpless huwa awtomatizzat, jiġifieri, il-bidla tan-nodi tal-cluster fil-każ ta 'fallimenti sseħħ awtomatikament.

Dan huwa fejn tinsab id-differenza ewlenija bejn metrocluster u replikazzjoni regolari. Awtomazzjoni ta' operazzjonijiet. Jiġifieri, fil-każ ta 'ċerti inċidenti (falliment taċ-ċentru tad-dejta, kanali miksura, eċċ.), is-sistema tal-ħażna twettaq b'mod indipendenti l-azzjonijiet meħtieġa sabiex iżżomm id-disponibbiltà tad-dejta. Meta tuża repliki regolari, dawn l-azzjonijiet jitwettqu kompletament jew parzjalment manwalment mill-amministratur.

Għalxiex?

L-għan ewlieni li l-klijenti jsegwu meta jużaw ċerti implimentazzjonijiet tal-metrocluster huwa li jimminimizzaw l-RTO (Recovery Time Objective). Jiġifieri, biex jiġi minimizzat il-ħin ta 'rkupru tas-servizzi tal-IT wara falliment. Jekk tuża replikazzjoni regolari, il-ħin ta 'rkupru dejjem ikun itwal mill-ħin ta' rkupru b'metrocluster. Għaliex? Sempliċi ħafna. L-amministratur għandu jkun fuq l-iskrivanija tiegħu u jaqleb ir-replikazzjoni manwalment, u l-metrocluster jagħmel dan awtomatikament.

Jekk ma jkollokx amministratur iddedikat fuq xogħol li ma jorqodx, ma jiekolx, ma jpejjipx jew jimrad, u jara l-istat tas-sistema tal-ħażna 24 siegħa kuljum, allura m'hemm l-ebda mod biex jiggarantixxi li l-amministratur se tkun disponibbli għal bidla manwali waqt ħsara.

Għaldaqstant, RTO fin-nuqqas ta 'metrocluster jew admin immortali tad-99 livell tas-servizz tad-dmir tal-amministratur ikun ugwali għas-somma tal-ħin tal-bdil tas-sistemi kollha u l-perjodu massimu ta' żmien li warajh l-amministratur huwa garantit li jibda jaħdem. b'sistemi ta' ħażna u sistemi relatati.

Għalhekk, naslu għall-konklużjoni ovvja li l-metrocluster għandu jintuża jekk ir-rekwiżit għal RTO huwa minuti, mhux sigħat jew jiem.Jiġifieri, meta fil-każ tal-agħar falliment taċ-ċentru tad-dejta, id-dipartiment tal-IT għandu jipprovdi n-negozju biż-żmien biex tirrestawra l-aċċess għas-servizzi tal-IT fi ftit minuti, jew saħansitra sekondi.

Kif taħdem?

Fil-livell aktar baxx, il-metrocluster juża mekkaniżmu għar-replikazzjoni sinkronika tad-dejta, li ddeskrivejna fl-artikolu preċedenti (ara. rabta). Peress li r-replikazzjoni hija sinkronika, ir-rekwiżiti għaliha huma korrispondenti, jew aħjar:

  • fibra ottika bħala fiżika, 10 gigabit Ethernet (jew ogħla);
  • id-distanza bejn iċ-ċentri tad-data ma tkunx aktar minn 40 kilometru;
  • dewmien tal-kanal ottiku bejn iċ-ċentri tad-dejta (bejn is-sistemi tal-ħażna) huwa sa 5 millisekondi (l-aħjar 2).

Dawn ir-rekwiżiti kollha huma ta’ natura konsultattiva, jiġifieri, il-metrocluster jaħdem anke jekk dawn ir-rekwiżiti ma jiġux sodisfatti, iżda rridu nifhmu li l-konsegwenzi tan-nuqqas ta’ konformità ma’ dawn ir-rekwiżiti huma ugwali għal tnaqqis fit-tħaddim taż-żewġ sistemi ta’ ħażna f’ il-metrocluster.

Allura, replika sinkronika tintuża biex tittrasferixxi d-dejta bejn is-sistemi tal-ħażna, u kif ir-repliki jaqilbu awtomatikament u, l-aktar importanti, kif tevita l-qsim tal-moħħ? Biex tagħmel dan, f'livell ogħla, tintuża entità addizzjonali - arbitru.

Kif jaħdem arbitru u x'inhu l-kompitu tiegħu?

L-arbitru huwa magna virtwali żgħira jew raggruppament tal-ħardwer li għandu jiġi mniedi fuq sit terz (per eżempju, f'uffiċċju) u jipprovdi aċċess għas-sistema tal-ħażna permezz ta 'ICMP u SSH. Wara t-tnedija, l-arbitru għandu jistabbilixxi l-IP, u mbagħad min-naħa tal-ħażna jindika l-indirizz tiegħu, flimkien mal-indirizzi tal-kontrolluri remoti li jipparteċipaw fil-metrocluster. Wara dan, ir-referee lest biex jaħdem.

L-arbitru jimmonitorja kontinwament is-sistemi kollha ta 'ħażna fil-metrocluster u jekk sistema ta' ħażna partikolari ma tkunx disponibbli, wara li tikkonferma n-nuqqas ta 'disponibbiltà minn membru ieħor tal-cluster (waħda mis-sistemi ta' ħażna "ħaj"), jiddeċiedi li jniedi l-proċedura għall-bidla tar-regoli ta 'replikazzjoni. u l-immappjar.

Punt importanti ħafna. L-arbitru għandu dejjem ikun jinsab fuq sit differenti minn dawk li fuqhom jinsabu s-sistemi tal-ħażna, jiġifieri, la fiċ-ċentru tad-dejta 1, fejn hija installata s-sistema tal-ħażna 1, u lanqas fiċ-ċentru tad-dejta 2, fejn hija installata s-sistema tal-ħażna 2.

Għaliex? Minħabba li dan huwa l-uniku mod li arbitru, bl-għajnuna ta 'waħda mis-sistemi ta' ħażna superstiti, jista 'jiddetermina b'mod mhux ambigwu u preċiż il-waqgħa ta' kwalunkwe miż-żewġ siti fejn is-sistemi ta 'ħażna huma installati. Kwalunkwe metodu ieħor ta 'tqegħid ta' arbitru jista 'jirriżulta f'moħħ maqsum.

Issa ejja ngħaddu fid-dettalji tax-xogħol tal-arbitru.

L-arbitru jmexxi diversi servizzi li kontinwament jivvutaw il-kontrolluri tal-ħażna kollha. Jekk ir-riżultat tal-istħarriġ ikun differenti minn dak preċedenti (disponibbli/mhux disponibbli), allura jiġi rreġistrat f'database żgħira, li taħdem ukoll fuq l-arbitru.

Ejja nħarsu lejn il-loġika tal-ħidma tal-arbitru f'aktar dettall.

Pass 1: Iddetermina n-nuqqas ta 'disponibbiltà. Avveniment ta' falliment tas-sistema tal-ħażna huwa n-nuqqas ta' ping miż-żewġ kontrolluri tal-istess sistema tal-ħażna fi żmien 5 sekondi.

Pass 2. Ibda l-proċedura tal-bidla. Wara li l-arbitru jkun induna li waħda mis-sistemi ta 'ħażna mhix disponibbli, huwa jibgħat talba lis-sistema ta' ħażna "ħaj" sabiex jiżgura li s-sistema ta 'ħażna "mejta" hija verament mejta.

Wara li tirċievi kmand bħal dan mill-arbitru, it-tieni sistema ta 'ħażna (ħaj) tiċċekkja wkoll id-disponibbiltà tal-ewwel sistema ta' ħażna li waqa 'u, jekk ma tkunx hemm, tibgħat konferma lill-arbitru tal-raden tiegħu. Is-sistema tal-ħażna hija tabilħaqq mhux disponibbli.

Wara li jirċievi tali konferma, l-arbitru jniedi proċedura remota biex jaqleb ir-replikazzjoni u jgħolli l-immappjar fuq dawk ir-repliki li kienu attivi (primarji) fuq is-sistema ta’ ħażna li waqa’, u jibgħat kmand lit-tieni sistema ta’ ħażna biex tibdel dawn ir-repliki minn sekondarja għal primarja u jgħollu l-immappjar. Ukoll, it-tieni sistema ta 'ħażna, għalhekk, twettaq dawn il-proċeduri, u mbagħad tipprovdi aċċess għal-LUNs mitlufa minnha nnifisha.

Għaliex hija meħtieġa verifika addizzjonali? Għall-kworum. Jiġifieri, maġġoranza tan-numru fard totali (3) ta 'membri tal-cluster iridu jikkonfermaw il-waqgħa ta' wieħed min-nodi tal-cluster. Hekk biss din id-deċiżjoni tkun definittivament korretta. Dan huwa meħtieġ sabiex jiġi evitat bidla żbaljata u, għaldaqstant, split-brain.

Il-pass tal-ħin 2 jieħu bejn wieħed u ieħor 5 - 10 sekondi, għalhekk, b'kont meħud tal-ħin meħtieġ biex tiġi ddeterminata n-nuqqas ta 'disponibbiltà (5 sekondi), fi żmien 10 - 15-il sekonda wara l-inċident, LUNs mis-sistema ta' ħażna waqgħet se jkunu awtomatikament disponibbli biex jaħdmu mal-live. sistema ta 'ħażna.

Huwa ċar li sabiex tevita li titlef il-konnessjonijiet mal-hosts, trid ukoll tieħu ħsieb li tikkonfigura b'mod korrett timeouts fuq l-hosts. Il-timeout rakkomandat huwa mill-inqas 30 sekonda. Dan se jipprevjeni lill-host milli jaqta 'l-konnessjoni mas-sistema tal-ħażna waqt il-bdil tat-tagħbija fil-każ ta' diżastru u jista 'jiżgura li ma jkunx hemm interruzzjonijiet I/O.

Stenna sekonda, jirriżulta li jekk kollox huwa daqshekk tajjeb mal-metrocluster, għaliex għandna bżonn replikazzjoni regolari?

Fir-realtà, kollox mhux daqshekk sempliċi.

Ejja nikkunsidraw il-vantaġġi u l-iżvantaġġi tal-metrocluster

Allura, indunajna li l-vantaġġi ovvji tal-metrocluster meta mqabbla mar-replikazzjoni konvenzjonali huma:

  • Awtomazzjoni sħiħa, li tiżgura ħin minimu ta 'rkupru fil-każ ta' diżastru;
  • Dak kollox :-).

U issa, attenzjoni, l-iżvantaġġi:

  • Spiża tas-soluzzjoni. Għalkemm il-metrocluster fis-sistemi Aerodisk ma jeħtieġx liċenzjar addizzjonali (l-istess liċenzja tintuża bħal għar-replika), l-ispiża tas-soluzzjoni xorta se tkun saħansitra ogħla mill-użu ta 'replikazzjoni sinkronika. Ikollok bżonn timplimenta r-rekwiżiti kollha għal replika sinkronika, flimkien mar-rekwiżiti għall-metrocluster assoċjati ma' bidla addizzjonali u sit addizzjonali (ara l-ippjanar tal-metrocluster);
  • Kumplessità tas-soluzzjoni. Il-metrocluster huwa ħafna aktar kumpless minn replika regolari, u jeħtieġ ħafna aktar attenzjoni u sforz għall-ippjanar, il-konfigurazzjoni u d-dokumentazzjoni.

Eventwalment. Metrocluster huwa ċertament soluzzjoni teknoloġikament avvanzata u tajba ħafna meta verament ikollok bżonn tipprovdi RTO f'sekondi jew minuti. Imma jekk ma jkun hemm l-ebda kompitu bħal dan, u RTO f'sigħat huwa OK għan-negozju, allura m'hemm l-ebda punt li tispara lill-għasafar minn kanun. Ir-replikazzjoni tas-soltu ħaddiema-bdiewa hija biżżejjed, peress li cluster tal-metro se jikkawża spejjeż addizzjonali u kumplikazzjoni tal-infrastruttura tal-IT.

Ippjanar tal-Metrocluster

Din it-taqsima ma tippretendix li hija gwida komprensiva għad-disinn tal-metrocluster, iżda turi biss id-direzzjonijiet ewlenin li għandhom jinħadmu jekk tiddeċiedi li tibni sistema bħal din. Għalhekk, meta fil-fatt timplimenta metrocluster, kun żgur li tinvolvi lill-manifattur tas-sistema tal-ħażna (jiġifieri, lilna) u sistemi oħra relatati għall-konsultazzjonijiet.

Postijiet

Kif intqal hawn fuq, metrocluster jeħtieġ minimu ta 'tliet siti. Żewġ ċentri tad-dejta fejn se joperaw is-sistemi tal-ħażna u s-sistemi relatati, kif ukoll it-tielet sit fejn se jaħdem l-arbitru.

Id-distanza rakkomandata bejn iċ-ċentri tad-dejta mhijiex aktar minn 40 kilometru. Distanza akbar x'aktarx li tikkawża dewmien addizzjonali, li fil-każ ta 'metrocluster huwa estremament mhux mixtieq. Ejjew infakkarkom li d-dewmien għandu jkun sa 5 millisekondi, għalkemm huwa rakkomandabbli li jinżammu fi żmien 2.

Huwa rrakkomandat li tiċċekkja d-dewmien ukoll waqt il-proċess tal-ippjanar. Kwalunkwe fornitur aktar jew inqas matur li jipprovdi fibra ottika bejn iċ-ċentri tad-dejta jista 'jorganizza verifika tal-kwalità pjuttost malajr.

Fir-rigward tad-dewmien quddiem l-arbitru (jiġifieri, bejn it-tielet sit u l-ewwel tnejn), il-limitu ta 'dewmien rakkomandat huwa sa 200 millisekondi, jiġifieri, konnessjoni korporattiva regolari VPN fuq l-Internet hija adattata.

Qlib u Netwerking

B'differenza mill-iskema ta 'replikazzjoni, fejn huwa biżżejjed li tgħaqqad sistemi ta' ħażna minn siti differenti, l-iskema tal-metrocluster teħtieġ li tgħaqqad hosts maż-żewġ sistemi ta 'ħażna f'siti differenti. Biex tagħmilha aktar ċara x'inhi d-differenza, iż-żewġ skemi huma murija hawn taħt.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Kif jidher mid-dijagramma, l-ospiti tas-sit 1 tagħna jħarsu kemm lejn is-sistema tal-ħażna 1 kif ukoll lejn is-sistema tal-ħażna 2. Ukoll, għall-kuntrarju, l-ospiti tas-sit 2 iħarsu kemm lejn is-sistema tal-ħażna 2 kif ukoll lejn is-sistema tal-ħażna 1. Jiġifieri, kull ospitanti jara ż-żewġ sistemi ta 'ħażna. Dan huwa prerekwiżit għat-tħaddim tal-metrocluster.

Ovvjament, m'hemmx bżonn li kull host tgħaqqad b'korda ottika ma' ċentru tad-dejta ieħor; l-ebda port jew kurdun ma jkun biżżejjed. Dawn il-konnessjonijiet kollha għandhom isiru permezz ta 'swiċċijiet Ethernet 10G+ jew FibreChannel 8G+ (FC huwa biss għall-konnessjoni ta' hosts u sistemi ta 'ħażna għal IO, il-kanal ta' replikazzjoni bħalissa huwa disponibbli biss permezz tal-IP (Ethernet 10G+).

Issa ftit kliem dwar it-topoloġija tan-netwerk. Punt importanti huwa l-konfigurazzjoni korretta tas-subnets. Huwa meħtieġ li jiġu definiti immedjatament diversi subnets għat-tipi ta' traffiku li ġejjin:

  • Is-subnet tar-replikazzjoni li fuqha d-dejta se tkun sinkronizzata bejn is-sistemi tal-ħażna. Jista 'jkun hemm bosta minnhom, f'dan il-każ ma jimpurtax, kollox jiddependi fuq it-topoloġija tan-netwerk attwali (diġà implimentata). Jekk hemm tnejn minnhom, allura ovvjament ir-rotot għandu jiġi kkonfigurat bejniethom;
  • Subnets tal-ħażna li permezz tagħhom l-hosts se jkollhom aċċess għar-riżorsi tal-ħażna (jekk ikun iSCSI). Għandu jkun hemm subnet waħda bħal din f'kull ċentru tad-dejta;
  • Kontroll subnets, jiġifieri, tliet subnets routable fuq tliet siti li minnhom huma ġestiti sistemi ta 'ħażna, u l-arbitru jinsab ukoll hemmhekk.

Ma nqisux sottonets għall-aċċess tar-riżorsi ospitanti hawnhekk, peress li huma dipendenti ħafna fuq il-kompiti.

Is-separazzjoni tat-traffiku differenti f'subnets differenti hija estremament importanti (huwa importanti speċjalment li tissepara r-replika mill-I/O), għaliex jekk tħallat it-traffiku kollu f'subnet waħda "ħoxna", allura dan it-traffiku jkun impossibbli li jiġi mmaniġġjat, u f' il-kundizzjonijiet ta 'żewġ ċentri tad-dejta dan xorta jista' jikkawża għażliet differenti ta 'ħabta tan-netwerk. Mhux se nidħlu fil-fond f'din il-kwistjoni fil-qafas ta 'dan l-artikolu, peress li tista' taqra dwar l-ippjanar ta 'netwerk imġebbda bejn ċentri tad-dejta dwar ir-riżorsi tal-manifatturi tat-tagħmir tan-netwerk, fejn dan huwa deskritt fid-dettall kbir.

Konfigurazzjoni tal-arbitru

L-arbitru għandu jipprovdi aċċess għall-interfaces ta' ġestjoni kollha tas-sistema tal-ħażna permezz tal-protokolli ICMP u SSH. Għandek taħseb ukoll dwar il-failsafe tal-arbitru. Hemm sfumatura hawn.

Il-falliment tal-arbitru huwa mixtieq ħafna, iżda mhux meħtieġ. X'jiġri jekk ir-referee jikkraxxja fil-ħin ħażin?

  • It-tħaddim tal-metrocluster fil-modalità normali mhux se jinbidel, għaliex arbtir m'għandu assolutament l-ebda effett fuq l-operat tal-metrocluster fil-modalità normali (il-kompitu tiegħu huwa li jaqleb it-tagħbija bejn iċ-ċentri tad-dejta fil-ħin)
  • Barra minn hekk, jekk l-arbitru għal xi raġuni jew oħra jaqa 'u "jorqod permezz" ta' inċident fiċ-ċentru tad-dejta, allura ma jseħħ l-ebda bidla, għax ma jkun hemm ħadd li jagħti l-kmandi meħtieġa ta 'bidla u jorganizza kworum. F'dan il-każ, il-metrocluster ser jinbidel fi skema regolari b'replikazzjoni, li se jkollha tinbidel manwalment waqt diżastru, li se taffettwa l-RTO.

X'jirriżulta minn dan? Jekk tassew għandek bżonn tiżgura RTO minimu, trid tiżgura li l-arbitru huwa tolleranti għall-ħsarat. Hemm żewġ għażliet għal dan:

  • Tnedija ta 'magna virtwali b'arbitru fuq hypervisor li tollera l-ħsarat, fortunatament l-iperviżuri adulti kollha jappoġġjaw it-tolleranza tal-ħsarat;
  • Jekk fit-tielet sit (f'uffiċċju konvenzjonali) inti għażżien wisq biex tinstalla cluster normali u m'hemm l-ebda cluster hypervozor eżistenti, allura ipprovdejna verżjoni tal-ħardwer tal-arbitru, li hija magħmula f'kaxxa 2U li fiha żewġ ordinarji servers x-86 jaħdmu u li jistgħu jsalvaw falliment lokali.

Nirrakkomandaw bil-qawwa li tiġi żgurata t-tolleranza tal-ħsarat tal-arbitru, minkejja l-fatt li l-metrocluster m'għandux bżonnha fil-mod normali. Imma kif juru kemm it-teorija kif ukoll il-prattika, jekk tibni infrastruttura tassew affidabbli kontra d-diżastri, allura huwa aħjar li tilgħabha sigura. Huwa aħjar li tipproteġi lilek innifsek u n-negozju tiegħek mill-"liġi tal-meanness", jiġifieri mill-falliment kemm tal-arbitru kif ukoll ta 'wieħed mis-siti fejn tinsab is-sistema tal-ħażna.

Arkitettura tas-soluzzjoni

Meta wieħed iqis ir-rekwiżiti ta 'hawn fuq, irridu nġibu l-arkitettura ġenerali tas-soluzzjoni li ġejja.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

LUNs għandhom ikunu mqassma b'mod uniformi fuq żewġ siti biex tiġi evitata tagħbija żejda severa. Fl-istess ħin, meta d-daqs fiż-żewġ ċentri tad-dejta, għandek tinkludi mhux biss volum doppju (li huwa meħtieġ biex taħżen id-dejta simultanjament fuq żewġ sistemi ta 'ħażna), iżda wkoll prestazzjoni doppja f'IOPS u MB/s sabiex tevita d-degradazzjoni tal-applikazzjoni f' l-eventwalità ta' falliment ta' wieħed miċ-ċentri tad-dejta.

Separatament, ninnotaw li bl-approċċ xieraq għad-daqs (jiġifieri, sakemm ipprovdejna l-limiti superjuri xierqa ta 'IOPS u MB/s, kif ukoll ir-riżorsi meħtieġa CPU u RAM), jekk waħda mis-sistemi ta' ħażna fil- cluster metro jonqos, mhux se jkun hemm tnaqqis serju fil-prestazzjoni taħt kundizzjonijiet xogħol temporanju fuq sistema ta 'ħażna waħda.

Dan huwa spjegat mill-fatt li meta żewġ siti qed joperaw simultanjament, replikazzjoni sinkronika "jiekol" nofs il-prestazzjoni tal-kitba, peress li kull tranżazzjoni trid tinkiteb f'żewġ sistemi ta 'ħażna (simili għal RAID-1/10). Allura, jekk waħda mis-sistemi ta 'ħażna tfalli, l-influwenza tar-replikazzjoni temporanjament (sakemm is-sistema ta' ħażna falluta tirkupra) tisparixxi, u jkollna żieda doppja fil-prestazzjoni tal-kitba. Wara li l-LUNs tas-sistema tal-ħażna falluta jerġgħu jibdew fuq is-sistema tal-ħażna tax-xogħol, din iż-żieda doppja tisparixxi minħabba l-fatt li t-tagħbija tidher mill-LUNs tas-sistema tal-ħażna l-oħra, u nerġgħu lura għall-istess livell ta 'prestazzjoni li kellna qabel il- “waqgħa”, iżda biss fil-qafas ta’ sit wieħed.

Bl-għajnuna ta 'daqs kompetenti, tista' tiżgura kundizzjonijiet li taħthom l-utenti ma jħossux il-falliment ta 'sistema sħiħa ta' ħażna. Imma nirrepetu għal darb'oħra, dan jeħtieġ daqs bir-reqqa ħafna, li għalih, bil-mod, tista 'tikkuntattjana b'xejn :-).

It-twaqqif ta' metrocluster

It-twaqqif ta 'metrocluster huwa simili ħafna għat-twaqqif ta' replikazzjoni regolari, li ddeskrivejna fiha artikolu preċedenti. Għalhekk, ejja niffukaw biss fuq id-differenzi. Waqqafna bank fil-laboratorju bbażat fuq l-arkitettura ta 'hawn fuq, f'verżjoni minima biss: żewġ sistemi ta' ħażna konnessi permezz ta '10G Ethernet, żewġ swiċċijiet 10G u host wieħed li jħares mill-iswiċċijiet fiż-żewġ sistemi ta' ħażna b'portijiet 10G. L-arbitru jimxi fuq magna virtwali.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Meta tikkonfigura IPs virtwali (VIPs) għal replika, għandek tagħżel it-tip VIP - għal metrocluster.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Ħloqna żewġ links ta’ replikazzjoni għal żewġ LUNs u qassamhom fuq żewġ sistemi ta’ ħażna: LUN TEST Primarja fuq is-sistema ta’ ħażna 1 (link METRO), LUN TEST2 Primarja għas-sistema ta’ ħażna 2 (link METRO2).

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Għalihom, aħna kkonfigurajna żewġ miri identiċi (fil-każ tagħna iSCSI, iżda FC huwa wkoll appoġġjat, il-loġika tas-setup hija l-istess).

Sistema ta 'ħażna1:

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Sistema ta 'ħażna2:

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Għal konnessjonijiet ta 'replikazzjoni, saru mappings fuq kull sistema ta' ħażna.

Sistema ta 'ħażna1:

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Sistema ta 'ħażna2:

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Waqqafna multipath u ppreżentajna lill-host.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Twaqqif ta' arbitru

M'għandekx bżonn tagħmel xi ħaġa speċjali ma 'l-arbitru innifsu; għandek bżonn biss li tattivah fuq it-tielet sit, tagħtih IP u kkonfigurat aċċess għaliha permezz ta' ICMP u SSH. Is-setup innifsu jitwettaq mis-sistemi tal-ħażna nfushom. F'dan il-każ, huwa biżżejjed li jiġi kkonfigurat l-arbitru darba fuq kwalunkwe kontrollur tal-ħażna fil-metrocluster; dawn is-settings jitqassmu lill-kontrolluri kollha awtomatikament.

Fit-taqsima Replikazzjoni mill-bogħod>> Metrocluster (fuq kwalunkwe kontrollur)>> il-buttuna “Kkonfigura”.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Aħna nidħlu l-IP ta 'l-arbitru, kif ukoll l-interfaces ta' kontroll ta 'żewġ kontrolluri tal-ħażna remota.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Wara dan, jeħtieġ li tattiva s-servizzi kollha (il-buttuna "Ibda Kollox"). Jekk jiġu kkonfigurati mill-ġdid fil-futur, is-servizzi għandhom jerġgħu jibdew biex is-settings jidħlu fis-seħħ.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Aħna niċċekkjaw li s-servizzi kollha qed jaħdmu.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Dan itemm is-setup tal-metrocluster.

Crash test

It-test tal-ħabta fil-każ tagħna se jkun pjuttost sempliċi u veloċi, peress li l-funzjonalità tar-replikazzjoni (bdil, konsistenza, eċċ.) ġiet diskussa f' l-aħħar artikolu. Għalhekk, biex tittestja l-affidabbiltà tal-metrocluster, huwa biżżejjed għalina li niċċekkjaw l-awtomazzjoni tas-sejbien tal-falliment, il-bidla u n-nuqqas ta 'telf ta' reġistrazzjoni (I/O jieqaf).

Biex tagħmel dan, aħna nimitaw falliment sħiħ ta 'waħda mis-sistemi ta' ħażna billi nitfi fiżikament iż-żewġ kontrolluri tagħha, wara li l-ewwel bdejna nikkopja fajl kbir fil-LUN, li għandu jiġi attivat fuq is-sistema ta 'ħażna l-oħra.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Iddiżattiva sistema ta 'ħażna waħda. Fuq it-tieni sistema ta 'ħażna naraw twissijiet u messaġġi fir-zkuk li l-konnessjoni mas-sistema ġirien intilfet. Jekk in-notifiki permezz tal-monitoraġġ SMTP jew SNMP huma kkonfigurati, l-amministratur jirċievi notifiki korrispondenti.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Eżattament 10 sekondi wara (viżibbli fiż-żewġ screenshots), il-konnessjoni ta 'replikazzjoni METRO (dik li kienet Primarja fuq is-sistema ta' ħażna falluta) awtomatikament saret Primarja fuq is-sistema ta 'ħażna li taħdem. Bl-użu tal-immappjar eżistenti, LUN TEST baqa 'disponibbli għall-ospitant, ir-reġistrazzjoni dipped ftit (fi ħdan l-10 fil-mija imwiegħda), iżda ma ġietx interrotta.

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

Magna AERODISK: Reżistenza għad-diżastri. Parti 2. Metrocluster

It-test tlesta b'suċċess.

Fil-qosor

L-implimentazzjoni attwali tal-metrocluster fis-sistemi ta 'ħażna ta' AERODISK Engine N-serje tippermetti bis-sħiħ is-soluzzjoni ta 'problemi fejn huwa meħtieġ li jiġu eliminati jew minimizzati l-perijodi ta' waqfien għas-servizzi tal-IT u jiġi żgurat it-tħaddim tagħhom 24/7/365 bi spejjeż minimi tax-xogħol.

Nistgħu ngħidu, ovvjament, li dan kollu huwa teorija, kundizzjonijiet ideali tal-laboratorju, eċċ... IMMA għandna għadd ta 'proġetti implimentati li fihom implimentajna funzjonalità ta' reżiljenza għad-diżastri, u s-sistemi jaħdmu perfettament. Wieħed mill-klijenti pjuttost magħrufa tagħna, li juża biss żewġ sistemi ta 'ħażna f'konfigurazzjoni kontra d-diżastri, diġà qabel li jippubblika informazzjoni dwar il-proġett, għalhekk fil-parti li jmiss se nitkellmu dwar l-implimentazzjoni tal-ġlieda kontra.

Grazzi, nistennew bil-ħerqa diskussjoni produttiva.

Sors: www.habr.com

Żid kumment