Sveiki, Habr lasÄ«tÄji! PÄdÄjÄ rakstÄ mÄs runÄjÄm par vienkÄrÅ”u lÄ«dzekli avÄrijas seku novÄrÅ”anai AERODISK ENGINE uzglabÄÅ”anas sistÄmÄs - replikÄciju. Å ajÄ rakstÄ mÄs iedziļinÄsimies sarežģītÄkÄ un interesantÄkÄ tÄmÄ - metroklasterÄ, tas ir, divu datu centru automatizÄtÄ katastrofu aizsardzÄ«bas lÄ«dzeklÄ«, kas ļauj datu centriem darboties aktÄ«vÄ-aktÄ«vÄ režīmÄ. MÄs jums pateiksim, parÄdÄ«sim, salauzÄ«sim un salabosim.
KÄ parasti, vispirms teorija
Metroklasteris ir klasteris, kas izvietots vairÄkÄs vietÄs pilsÄtas vai reÄ£iona ietvaros. VÄrds āklasterisā mums skaidri norÄda, ka komplekss ir automatizÄts, tas ir, klastera mezglu pÄrslÄgÅ”ana kļūmju gadÄ«jumÄ notiek automÄtiski.
Å eit ir galvenÄ atŔķirÄ«ba starp metroklasteri un parasto replikÄciju. OperÄciju automatizÄcija. Tas ir, noteiktu incidentu gadÄ«jumÄ (datu centra atteice, bojÄti kanÄli utt.), uzglabÄÅ”anas sistÄma patstÄvÄ«gi veiks nepiecieÅ”amÄs darbÄ«bas, lai saglabÄtu datu pieejamÄ«bu. Izmantojot parastÄs kopijas, administrators Ŕīs darbÄ«bas pilnÄ«bÄ vai daļÄji veic manuÄli.
Ko tas dara?
Galvenais mÄrÄ·is, ko klienti cenÅ”as sasniegt, izmantojot noteiktas metroklasteru ievieÅ”anas iespÄjas, ir samazinÄt RTO (atkopÅ”anas laika mÄrÄ·i). Tas ir, lai samazinÄtu IT pakalpojumu atkopÅ”anas laiku pÄc neveiksmes. Ja izmantojat regulÄru replikÄciju, atkopÅ”anas laiks vienmÄr bÅ«s ilgÄks nekÄ atkopÅ”anas laiks, izmantojot metroklasteri. KÄpÄc? Ä»oti vienkÄrÅ”i. Administratoram ir jÄatrodas pie sava galda un jÄpÄrslÄdz replikÄcija manuÄli, un metroklasteris to dara automÄtiski.
Ja jums nav dežurÄjoÅ”a administratora, kurÅ” neguļ, neÄd, nesmÄÄ·Ä vai neslimst un 24 stundas diennaktÄ« uzrauga uzglabÄÅ”anas sistÄmas stÄvokli, tad nevar garantÄt, ka administrators jÄbÅ«t pieejamai manuÄlai pÄrslÄgÅ”anai kļūmes laikÄ.
AttiecÄ«gi RTO, ja nav metroklastera vai nemirstÄ«gÄ administratora dežūrpakalpojuma 99. lÄ«meÅa administratora, bÅ«s vienÄds ar visu sistÄmu pÄrslÄgÅ”anÄs laiku un maksimÄlo laika periodu, pÄc kura administratoram tiek garantÄta darba uzsÄkÅ”ana. ar uzglabÄÅ”anas sistÄmÄm un saistÄ«tÄm sistÄmÄm.
TÄdÄjÄdi mÄs nonÄkam pie acÄ«mredzama secinÄjuma, ka metroklasteri vajadzÄtu izmantot, ja prasÄ«ba RTO ir minÅ«tes, nevis stundas vai dienas, proti, kad vissliktÄkÄs datu centra atteices gadÄ«jumÄ IT nodaļai ir jÄnodroÅ”ina uzÅÄmumam laiks. lai atjaunotu piekļuvi IT pakalpojumiem dažu minÅ«Å”u vai pat sekunžu laikÄ.
KÄ tas strÄdÄ?
ZemÄkÄ lÄ«menÄ« metroklasteris izmanto sinhronas datu replikÄcijas mehÄnismu, ko mÄs aprakstÄ«jÄm iepriekÅ”ÄjÄ rakstÄ (sk.
- optiskÄ Å”Ä·iedra kÄ fizika, 10 gigabitu Ethernet (vai lielÄks);
- attÄlums starp datu centriem nav lielÄks par 40 kilometriem;
- optiskÄ kanÄla aizkave starp datu centriem (starp uzglabÄÅ”anas sistÄmÄm) ir lÄ«dz 5 milisekundÄm (optimÄli 2).
VisÄm Ŕīm prasÄ«bÄm ir ieteikuma raksturs, tas ir, metroklasteris darbosies arÄ« tad, ja Ŕīs prasÄ«bas netiks izpildÄ«tas, taÄu jÄsaprot, ka Å”o prasÄ«bu neievÄroÅ”anas sekas ir lÄ«dzvÄrtÄ«gas abu uzglabÄÅ”anas sistÄmu darbÄ«bas palÄninÄjumam. metroklasteris.
TÄtad datu pÄrsÅ«tÄ«Å”anai starp uzglabÄÅ”anas sistÄmÄm tiek izmantota sinhronÄ kopija, un kÄ replikas automÄtiski pÄrslÄdzas un, pats galvenais, kÄ izvairÄ«ties no smadzeÅu sadalÄ«Å”anas? Lai to izdarÄ«tu, augstÄkÄ lÄ«menÄ« tiek izmantota papildu vienÄ«ba - ŔķīrÄjtiesnesis.
KÄ strÄdÄ Å”Ä·Ä«rÄjtiesnesis un kÄds ir viÅa uzdevums?
Å Ä·Ä«rÄjtiesnesis ir maza virtuÄlÄ maŔīna vai aparatÅ«ras klasteris, kas jÄpalaiž treÅ”ajÄ vietnÄ (piemÄram, birojÄ) un nodroÅ”ina piekļuvi krÄtuves sistÄmai, izmantojot ICMP un SSH. PÄc palaiÅ”anas ŔķīrÄjtiesnesim jÄiestata IP un pÄc tam no krÄtuves puses jÄnorÄda tÄ adrese, kÄ arÄ« tÄlvadÄ«bas pults adreses, kas piedalÄs metroklasterÄ. PÄc tam tiesnesis ir gatavs darbam.
Å Ä·Ä«rÄjtiesnesis pastÄvÄ«gi uzrauga visas krÄtuves sistÄmas metroklasterÄ un, ja konkrÄta krÄtuves sistÄma nav pieejama, pÄc nepieejamÄ«bas apstiprinÄÅ”anas no cita klastera dalÄ«bnieka (vienas no ādzÄ«vajÄmā krÄtuves sistÄmÄm), viÅÅ” nolemj uzsÄkt replikÄcijas noteikumu pÄrslÄgÅ”anas procedÅ«ru. un kartÄÅ”anu.
Ä»oti svarÄ«gs punkts. Å Ä·Ä«rÄjtiesnesim vienmÄr jÄatrodas vietÄ, kas atŔķiras no tÄm, kur atrodas uzglabÄÅ”anas sistÄmas, tas ir, ne 1. datu centrÄ, kur ir uzstÄdÄ«ta 1. uzglabÄÅ”anas sistÄma, ne 2. datu centrÄ, kur ir uzstÄdÄ«ta 2. uzglabÄÅ”anas sistÄma.
KÄpÄc? Jo tikai tÄ Å”Ä·Ä«rÄjtiesnesis ar vienas no saglabÄjuÅ”Äs uzglabÄÅ”anas sistÄmas palÄ«dzÄ«bu var viennozÄ«mÄ«gi un precÄ«zi noteikt jebkuras no divÄm vietÄm, kur ir uzstÄdÄ«tas uzglabÄÅ”anas sistÄmas, kritumu. JebkÄdas citas ŔķīrÄjtiesneÅ”a iecelÅ”anas metodes var izraisÄ«t smadzeÅu ŔķelÅ”anos.
Tagad iedziļinÄsimies ŔķīrÄjtiesneÅ”a darba detaļÄs.
Å Ä·Ä«rÄjtiesnesis vada vairÄkus pakalpojumus, kas pastÄvÄ«gi aptaujÄ visus krÄtuves kontrolierus. Ja aptaujas rezultÄts atŔķiras no iepriekÅ”ÄjÄ (pieejams/nav pieejams), tad tas tiek ierakstÄ«ts nelielÄ datu bÄzÄ, kas darbojas arÄ« uz arbitra.
ApskatÄ«sim ŔķīrÄjtiesneÅ”a darba loÄ£iku sÄ«kÄk.
1. darbÄ«ba: nosakiet nepieejamÄ«bu. KrÄtuves sistÄmas kļūmes notikums ir tas, ka 5 sekunžu laikÄ netiek veikta ping no vienas un tÄs paÅ”as sistÄmas abiem kontrolleriem.
2. darbÄ«ba. SÄciet pÄrslÄgÅ”anas procedÅ«ru. PÄc tam, kad ŔķīrÄjtiesnesis ir sapratis, ka viena no uzglabÄÅ”anas sistÄmÄm nav pieejama, viÅÅ” nosÅ«ta pieprasÄ«jumu uz ādzÄ«voā uzglabÄÅ”anas sistÄmu, lai pÄrliecinÄtos, ka āmirusÄ«ā glabÄÅ”anas sistÄma patieÅ”Äm ir mirusi.
PÄc Å”Ädas ŔķīrÄjtiesneÅ”a komandas saÅemÅ”anas otrÄ (dzÄ«vÄ) uzglabÄÅ”anas sistÄma papildus pÄrbauda nokrituÅ”Äs pirmÄs glabÄÅ”anas sistÄmas pieejamÄ«bu un, ja tÄs nav, nosÅ«ta ŔķīrÄjtiesnesim apstiprinÄjumu viÅa minÄjumam. UzglabÄÅ”anas sistÄma patieÅ”Äm nav pieejama.
PÄc Å”Äda apstiprinÄjuma saÅemÅ”anas ŔķīrÄjtiesnesis uzsÄk attÄlo procedÅ«ru, lai pÄrslÄgtu replikÄciju un kartÄÅ”anas palielinÄÅ”anu tÄm replikÄm, kas bija aktÄ«vas (primÄrÄs) krituÅ”ajÄ krÄtuves sistÄmÄ, un nosÅ«ta komandu otrajai krÄtuves sistÄmai mainÄ«t Ŕīs kopijas no sekundÄrÄs uz primÄro un paaugstinÄt kartÄÅ”anu. Nu, otrÄ uzglabÄÅ”anas sistÄma attiecÄ«gi veic Ŕīs procedÅ«ras un pÄc tam nodroÅ”ina piekļuvi zaudÄtajiem LUN no sevis.
KÄpÄc nepiecieÅ”ama papildu pÄrbaude? Par kvorumu. Tas nozÄ«mÄ, ka lielÄkajai daļai no kopÄjÄ nepÄra (3) klastera dalÄ«bnieku skaita ir jÄapstiprina viena klastera mezgla kriÅ”ana. Tikai tad Å”is lÄmums noteikti bÅ«s pareizs. Tas ir nepiecieÅ”ams, lai izvairÄ«tos no kļūdainas pÄrslÄgÅ”anas un attiecÄ«gi smadzeÅu sadalÄ«Å”anas.
Laika solis 2 aizÅem aptuveni 5 - 10 sekundes, lÄ«dz ar to, Åemot vÄrÄ nepieejamÄ«bas noteikÅ”anai nepiecieÅ”amo laiku (5 sekundes), 10 - 15 sekunžu laikÄ pÄc negadÄ«juma, LUN no nokrituÅ”Äs uzglabÄÅ”anas sistÄmas bÅ«s automÄtiski pieejami darbam ar strÄvu. uzglabÄÅ”anas sistÄma.
Ir skaidrs, ka, lai nezaudÄtu savienojumus ar resursdatoriem, jums ir arÄ« jÄrÅ«pÄjas par pareizu taimautu konfigurÄÅ”anu resursdatoros. Ieteicamais taimauts ir vismaz 30 sekundes. Tas neļaus resursdatoram pÄrtraukt savienojumu ar uzglabÄÅ”anas sistÄmu slodzes pÄrslÄgÅ”anas laikÄ katastrofas gadÄ«jumÄ un var nodroÅ”inÄt, ka nav I/O pÄrtraukumu.
Pagaidiet, izrÄdÄs, ja ar metroklasteri viss ir tik labi, kÄpÄc mums vispÄr ir nepiecieÅ”ama regulÄra replikÄcija?
PatiesÄ«bÄ viss nav tik vienkÄrÅ”i.
ApsvÄrsim metroklastera plusus un mÄ«nusus
TÄtad, mÄs sapratÄm, ka metroklastera acÄ«mredzamÄs priekÅ”rocÄ«bas salÄ«dzinÄjumÄ ar parasto replikÄciju ir:
- Pilna automatizÄcija, nodroÅ”inot minimÄlu atkopÅ”anas laiku katastrofas gadÄ«jumÄ;
- Tas ir viss :-).
Un tagad, uzmanību, mīnusi:
- RisinÄjuma izmaksas. Lai gan metroklasterim Aerodisk sistÄmÄs nav nepiecieÅ”ama papildu licencÄÅ”ana (tiek izmantota tÄ pati licence kÄ replikai), risinÄjuma izmaksas joprojÄm bÅ«s pat augstÄkas nekÄ sinhronÄs replikÄcijas izmantoÅ”ana. Jums bÅ«s jÄievieÅ” visas prasÄ«bas sinhronajai replikai, kÄ arÄ« prasÄ«bas metroklasterim, kas saistÄ«ts ar papildu pÄrslÄgÅ”anu un papildu vietni (skatiet metroklasteru plÄnoÅ”anu);
- RisinÄjuma sarežģītÄ«ba. Metroklasteris ir daudz sarežģītÄks nekÄ parasta kopija, un plÄnoÅ”anai, konfigurÄÅ”anai un dokumentÄcijai ir nepiecieÅ”ams daudz vairÄk uzmanÄ«bas un pūļu.
Galu galÄ. Metrocluster noteikti ir ļoti tehnoloÄ£iski progresÄ«vs un labs risinÄjums, ja jums patieÅ”Äm ir jÄnodroÅ”ina RTO dažu sekunžu vai minÅ«Å”u laikÄ. Bet, ja tÄda uzdevuma nav, un RTO stundÄs ir OK biznesam, tad nav jÄgas Å”aut zvirbuļus no lielgabala. Pietiek ar parasto strÄdnieku-zemnieku replikÄciju, jo metro klasteris radÄ«s papildu izmaksas un sarežģīs IT infrastruktÅ«ru.
Metroklasteru plÄnoÅ”ana
Å Ä« sadaļa nepretendÄ uz visaptveroÅ”u ceļvedi metroklasteru projektÄÅ”anÄ, bet parÄda tikai galvenos virzienus, kas bÅ«tu jÄizstrÄdÄ, ja nolemjat izveidot Å”Ädu sistÄmu. TÄpÄc, reÄli ievieÅ”ot metroklasteri, konsultÄcijÄm noteikti iesaistiet uzglabÄÅ”anas sistÄmas ražotÄju (tas ir, mÅ«s) un citas saistÄ«tÄs sistÄmas.
Platformas
KÄ minÄts iepriekÅ”, metroklasterim ir nepiecieÅ”amas vismaz trÄ«s vietnes. Divi datu centri, kuros darbosies uzglabÄÅ”anas sistÄmas un ar tÄm saistÄ«tÄs sistÄmas, kÄ arÄ« treÅ”Ä vieta, kur strÄdÄs ŔķīrÄjtiesnesis.
Ieteicamais attÄlums starp datu centriem nav lielÄks par 40 kilometriem. LielÄks attÄlums, visticamÄk, radÄ«s papildu kavÄjumus, kas metroklastera gadÄ«jumÄ ir ÄrkÄrtÄ«gi nevÄlami. AtgÄdinÄm, ka aizkavei jÄbÅ«t lÄ«dz 5 milisekundÄm, lai gan vÄlams tÄs saglabÄt 2 milisekundÄs.
KavÄjumus ieteicams pÄrbaudÄ«t arÄ« plÄnoÅ”anas procesÄ. JebkurÅ” vairÄk vai mazÄk nobriedis pakalpojumu sniedzÄjs, kas nodroÅ”ina optisko Ŕķiedru starp datu centriem, var diezgan Ätri organizÄt kvalitÄtes pÄrbaudi.
Kas attiecas uz kavÄÅ”anos ŔķīrÄjtiesneÅ”a priekÅ”Ä (tas ir, starp treÅ”o vietni un pirmajÄm divÄm), ieteicamais aizkaves slieksnis ir lÄ«dz 200 milisekundÄm, tas ir, ir piemÄrots parasts korporatÄ«vais VPN savienojums, izmantojot internetu.
PÄrslÄgÅ”ana un tÄ«kla izveide
AtŔķirÄ«bÄ no replikÄcijas shÄmas, kur pietiek ar krÄtuves sistÄmu pieslÄgÅ”anu no dažÄdÄm vietÄm, metroklasteru shÄmai ir nepiecieÅ”ams savienot saimniekdatorus ar abÄm krÄtuves sistÄmÄm dažÄdÄs vietÄs. Lai bÅ«tu skaidrÄk, kÄda ir atŔķirÄ«ba, abas shÄmas ir parÄdÄ«tas zemÄk.
KÄ redzams diagrammÄ, mÅ«su vietnes 1 saimnieki aplÅ«ko gan 1., gan 2. krÄtuves sistÄmu. TÄpat, gluži pretÄji, 2. vietnes saimniekdatori aplÅ«ko gan 2., gan 1. krÄtuves sistÄmu. Tas nozÄ«mÄ, ka katrs saimniekdators redz abas uzglabÄÅ”anas sistÄmas. Tas ir priekÅ”noteikums metroklastera darbÄ«bai.
Protams, nav nepiecieÅ”ams savienot katru saimniekdatoru ar optisko vadu ar citu datu centru, nepietiks ar pieslÄgvietÄm vai vadiem. Visi Å”ie savienojumi ir jÄizveido, izmantojot Ethernet 10G+ vai FibreChannel 8G+ slÄdžus (FC ir paredzÄts tikai resursdatoru un uzglabÄÅ”anas sistÄmu savienoÅ”anai IO, replikÄcijas kanÄls paÅ”laik ir pieejams tikai caur IP (Ethernet 10G+).
Tagad daži vÄrdi par tÄ«kla topoloÄ£iju. SvarÄ«gs punkts ir pareiza apakÅ”tÄ«klu konfigurÄcija. Ir nepiecieÅ”ams nekavÄjoties definÄt vairÄkus apakÅ”tÄ«klus Å”Ädiem trafika veidiem:
- ReplikÄcijas apakÅ”tÄ«kls, kurÄ dati tiks sinhronizÄti starp krÄtuves sistÄmÄm. Tie var bÅ«t vairÄki, Å”ajÄ gadÄ«jumÄ tas nav svarÄ«gi, viss ir atkarÄ«gs no paÅ”reizÄjÄs (jau ieviestÄs) tÄ«kla topoloÄ£ijas. Ja tie ir divi, tad acÄ«mredzot starp tiem ir jÄkonfigurÄ marÅ”rutÄÅ”ana;
- KrÄtuves apakÅ”tÄ«kli, caur kuriem resursdatori piekļūs krÄtuves resursiem (ja tas ir iSCSI). KatrÄ datu centrÄ jÄbÅ«t vienam Å”Ädam apakÅ”tÄ«klam;
- KontrolÄjiet apakÅ”tÄ«klus, tas ir, trÄ«s marÅ”rutÄjamus apakÅ”tÄ«klus trÄ«s vietnÄs, no kurÄm tiek pÄrvaldÄ«tas krÄtuves sistÄmas, un tur atrodas arÄ« arbitrs.
Å eit mÄs neÅemam vÄrÄ apakÅ”tÄ«klus, lai piekļūtu resursdatora resursiem, jo āātie ir ļoti atkarÄ«gi no uzdevumiem.
DažÄdas trafika sadalÄ«Å”ana dažÄdos apakÅ”tÄ«klos ir ÄrkÄrtÄ«gi svarÄ«ga (Ä«paÅ”i svarÄ«gi ir atdalÄ«t reprodukciju no I/O), jo, ja visu trafiku sajaucat vienÄ ābiezÄā apakÅ”tÄ«klÄ, tad Å”o trafiku nebÅ«s iespÄjams pÄrvaldÄ«t. divu datu centru apstÄkļos tas joprojÄm var izraisÄ«t dažÄdas tÄ«kla sadursmes iespÄjas. Å ajÄ rakstÄ mÄs neiedziļinÄsimies Å”ajÄ jautÄjumÄ, jo par tÄ«kla plÄnoÅ”anu, kas izstiepts starp datu centriem, varat lasÄ«t par tÄ«kla iekÄrtu ražotÄju resursiem, kur tas ir ļoti detalizÄti aprakstÄ«ts.
Å Ä·Ä«rÄjtiesneÅ”a konfigurÄcija
Å Ä·Ä«rÄjtiesnesim ir jÄnodroÅ”ina piekļuve visÄm uzglabÄÅ”anas sistÄmas pÄrvaldÄ«bas saskarnÄm, izmantojot ICMP un SSH protokolus. Jums vajadzÄtu arÄ« padomÄt par ŔķīrÄjtiesneÅ”a atteices droŔību. Å eit ir kÄda nianse.
Arbitera kļūmjpÄrlÄce ir ļoti vÄlama, bet nav obligÄta. Kas notiek, ja tiesnesis avarÄs nepareizÄ laikÄ?
- Metroklastera darbÄ«ba parastajÄ režīmÄ nemainÄ«sies, jo arbtir absolÅ«ti nekÄdi neietekmÄ metroklastera darbÄ«bu normÄlÄ režīmÄ (tÄ uzdevums ir savlaicÄ«gi pÄrslÄgt slodzi starp datu centriem)
- TurklÄt, ja ŔķīrÄjtiesnesis viena vai otra iemesla dÄļ iekrÄ«t un āizguļā avÄriju datu centrÄ, tad nekÄda pÄrslÄgÅ”anÄs nenotiks, jo nebÅ«s kam dot nepiecieÅ”amÄs pÄrslÄgÅ”anas komandas un organizÄt kvorumu. Å ajÄ gadÄ«jumÄ metroklasteris pÄrvÄrtÄ«sies par parastu shÄmu ar replikÄciju, kas katastrofas laikÄ bÅ«s jÄpÄrslÄdz manuÄli, kas ietekmÄs RTO.
Kas no tÄ izriet? Ja jums patieÅ”Äm ir jÄnodroÅ”ina minimÄlais RTO, jums ir jÄnodroÅ”ina, lai ŔķīrÄjtiesnesis bÅ«tu izturÄ«gs pret kļūmÄm. Tam ir divas iespÄjas:
- Palaidiet virtuÄlo maŔīnu ar kļūdu izturÄ«gÄ hipervizora ŔķīrÄjtiesnesi. Par laimi visi pieauguÅ”ie hipervizori atbalsta kļūdu toleranci;
- Ja treÅ”ajÄ vietÄ (parastÄ birojÄ) esat pÄrÄk slinks, lai uzstÄdÄ«tu parasto klasteru un nav esoÅ”a hipervozoru klastera, tad mÄs esam nodroÅ”inÄjuÅ”i arbitra aparatÅ«ras versiju, kas ir izgatavota 2U kastÄ, kurÄ divas parastÄs x-86 serveri darbojas un var pÄrdzÄ«vot lokÄlu atteici.
MÄs stingri iesakÄm nodroÅ”inÄt ŔķīrÄjtiesneÅ”a kļūdu toleranci, neskatoties uz to, ka metroklasterim tas nav vajadzÄ«gs parastajÄ režīmÄ. Bet, kÄ rÄda gan teorija, gan prakse, ja jÅ«s izveidojat patiesi uzticamu, katastrofu droÅ”u infrastruktÅ«ru, tad labÄk ir rÄ«koties droÅ”i. LabÄk ir pasargÄt sevi un savu biznesu no ānelikumÄ«bas likumaā, tas ir, no ŔķīrÄjtiesneÅ”a un vienas no vietÄm, kur atrodas uzglabÄÅ”anas sistÄma, neveiksmes.
RisinÄjuma arhitektÅ«ra
Å emot vÄrÄ iepriekÅ” minÄtÄs prasÄ«bas, mÄs iegÅ«stam Å”Ädu vispÄrÄ«gu risinÄjuma arhitektÅ«ru.
LUN vienmÄrÄ«gi jÄsadala divÄs vietÄs, lai izvairÄ«tos no nopietnas pÄrslodzes. TajÄ paÅ”Ä laikÄ, nosakot izmÄrus abos datu centros, ir jÄiekļauj ne tikai dubults apjoms (kas nepiecieÅ”ams, lai datus vienlaikus uzglabÄtu divÄs uzglabÄÅ”anas sistÄmÄs), bet arÄ« dubultÄ veiktspÄja IOPS un MB/s, lai novÄrstu lietojumprogrammu degradÄciju. viena datu centra atteices gadÄ«jumÄ ov.
AtseviŔķi mÄs atzÄ«mÄjam, ka ar pareizu pieeju izmÄru noteikÅ”anai (tas ir, ja esam nodroÅ”inÄjuÅ”i pareizus IOPS un MB/s augÅ”Äjos ierobežojumus, kÄ arÄ« nepiecieÅ”amos CPU un RAM resursus), ja kÄda no uzglabÄÅ”anas sistÄmÄm metro klasteris neizdodas, nebÅ«s nopietns veiktspÄjas kritums apstÄkļos pagaidu darbs pie vienas uzglabÄÅ”anas sistÄmas.
Tas izskaidrojams ar to, ka, vienlaikus darbojoties divÄm vietnÄm, sinhronÄ replikÄcija āapÄdā pusi no rakstÄ«Å”anas veiktspÄjas, jo katra transakcija ir jÄieraksta divÄs uzglabÄÅ”anas sistÄmÄs (lÄ«dzÄ«gi kÄ RAID-1/10). TÄtad, ja kÄda no uzglabÄÅ”anas sistÄmÄm neizdodas, replikÄcijas ietekme uz laiku (lÄ«dz atkopjas neveiksmÄ«gÄ krÄtuves sistÄma) pazÅ«d, un mÄs iegÅ«stam divkÄrÅ”u rakstÄ«Å”anas veiktspÄjas pieaugumu. PÄc neveiksmÄ«gÄs krÄtuves sistÄmas LUN restartÄÅ”anas darba krÄtuves sistÄmÄ Å”is divkÄrÅ”ais pieaugums pazÅ«d, jo tiek parÄdÄ«ta slodze no otras krÄtuves sistÄmas LUN, un mÄs atgriežamies pie tÄ paÅ”a veiktspÄjas lÄ«meÅa, kÄds bija pirms ākritumsā, bet tikai vienas vietnes ietvaros.
Izmantojot kompetentu izmÄru noteikÅ”anu, jÅ«s varat nodroÅ”inÄt apstÄkļus, kÄdos lietotÄji nemaz nejutÄ«s visas uzglabÄÅ”anas sistÄmas kļūmi. Bet mÄs atkÄrtojam vÄlreiz, tas prasa ļoti rÅ«pÄ«gu izmÄru noteikÅ”anu, par ko, starp citu, varat sazinÄties ar mums bez maksas :-).
Metroklastera iestatīŔana
Metroklastera iestatÄ«Å”ana ir ļoti lÄ«dzÄ«ga regulÄras replikÄcijas iestatÄ«Å”anai, ko mÄs aprakstÄ«jÄm
KonfigurÄjot virtuÄlos IP (VIP) reprodukcijai, jums vajadzÄtu izvÄlÄties VIP veidu - metroklasterim.
MÄs izveidojÄm divas replikÄcijas saites diviem LUN un izplatÄ«jÄm tÄs divÄs uzglabÄÅ”anas sistÄmÄs: LUN TEST primÄrais 1. krÄtuves sistÄmÄ (METRO saite), LUN TEST2 primÄrais 2. krÄtuves sistÄmai (METRO2 saite).
ViÅiem mÄs konfigurÄjÄm divus identiskus mÄrÄ·us (mÅ«su gadÄ«jumÄ iSCSI, bet tiek atbalstÄ«ts arÄ« FC, iestatÄ«Å”anas loÄ£ika ir tÄda pati).
UzglabÄÅ”anas sistÄma1:
UzglabÄÅ”anas sistÄma2:
ReplikÄcijas savienojumiem kartÄjumi tika veikti katrÄ uzglabÄÅ”anas sistÄmÄ.
UzglabÄÅ”anas sistÄma1:
UzglabÄÅ”anas sistÄma2:
MÄs uzstÄdÄ«jÄm daudzceļus un prezentÄjÄm to saimniekam.
Å Ä·Ä«rÄjtiesneÅ”a izveidoÅ”ana
Ar paÅ”u ŔķīrÄjtiesnesi jums nav jÄdara nekas Ä«paÅ”s; jums tas vienkÄrÅ”i jÄiespÄjo treÅ”ajÄ vietnÄ, jÄpieŔķir tai IP un jÄkonfigurÄ piekļuve, izmantojot ICMP un SSH. Pati iestatÄ«Å”ana tiek veikta no paÅ”Äm uzglabÄÅ”anas sistÄmÄm. Å ajÄ gadÄ«jumÄ pietiek vienreiz konfigurÄt arbitru jebkurÄ no krÄtuves kontrolleriem metroklasterÄ; Å”ie iestatÄ«jumi tiks automÄtiski izplatÄ«ti visiem kontrolieriem.
SadaÄ¼Ä AttÄlÄ replikÄcija>> Metrocluster (uz jebkura kontrollera)>> pogu āKonfigurÄtā.
MÄs ievadÄm ŔķīrÄjtiesneÅ”a IP, kÄ arÄ« divu attÄlÄs atmiÅas kontrolieru vadÄ«bas saskarnes.
PÄc tam jums ir jÄiespÄjo visi pakalpojumi (poga āRestartÄt visuā). Ja pakalpojumi tiks atkÄrtoti konfigurÄti nÄkotnÄ, tie ir jÄrestartÄ, lai iestatÄ«jumi stÄtos spÄkÄ.
MÄs pÄrbaudÄm, vai visi pakalpojumi darbojas.
Tas pabeidz metroklastera iestatīŔanu.
AvÄrijas tests
AvÄrijas tests mÅ«su gadÄ«jumÄ bÅ«s diezgan vienkÄrÅ”s un Ätrs, jo replikÄcijas funkcionalitÄte (pÄrslÄgÅ”ana, konsekvence utt.) tika apspriesta
Lai to izdarÄ«tu, mÄs atdarinÄm pilnÄ«gu vienas krÄtuves sistÄmas kļūmi, fiziski izslÄdzot abus tÄs kontrollerus, vispirms sÄkot kopÄt lielu failu uz LUN, kas jÄaktivizÄ otrÄ krÄtuves sistÄmÄ.
AtspÄjot vienu uzglabÄÅ”anas sistÄmu. OtrajÄ krÄtuves sistÄmÄ mÄs redzam brÄ«dinÄjumus un ziÅojumus žurnÄlos, ka savienojums ar blakus esoÅ”o sistÄmu ir zudis. Ja ir konfigurÄti paziÅojumi, izmantojot SMTP vai SNMP uzraudzÄ«bu, administrators saÅems atbilstoÅ”us paziÅojumus.
TieÅ”i pÄc 10 sekundÄm (redzams abos ekrÄnuzÅÄmumos) METRO replikÄcijas savienojums (tas, kas bija primÄrais atteices krÄtuves sistÄmÄ) automÄtiski kļuva par primÄro darboÅ”ajÄ krÄtuves sistÄmÄ. Izmantojot esoÅ”o kartÄÅ”anu, LUN TEST palika pieejams saimniekam, ieraksts nedaudz pasliktinÄjÄs (solÄ«to 10 procentu robežÄs), bet netika pÄrtraukts.
PÄrbaude veiksmÄ«gi pabeigta.
Apkopojot
PaÅ”reizÄjÄ metroklastera ievieÅ”ana AERODISK Engine N-sÄrijas uzglabÄÅ”anas sistÄmÄs pilnÄ«bÄ Ä¼auj atrisinÄt problÄmas, kurÄs nepiecieÅ”ams novÄrst vai minimizÄt IT pakalpojumu dÄ«kstÄves un nodroÅ”inÄt to darbÄ«bu 24/7/365 ar minimÄlÄm darbaspÄka izmaksÄm.
Var, protams, teikt, ka tas viss ir teorija, ideÄli laboratorijas apstÄkļi un tÄ tÄlÄk... BET mums ir vairÄki realizÄti projekti, kuros esam ieviesuÅ”i katastrofu noturÄ«bas funkcionalitÄti, un sistÄmas strÄdÄ perfekti. Viens no mÅ«su diezgan pazÄ«stamajiem klientiem, kurÅ” izmanto tikai divas glabÄÅ”anas sistÄmas katastrofu droÅ”Ä konfigurÄcijÄ, jau ir piekritis publicÄt informÄciju par projektu, tÄpÄc nÄkamajÄ daÄ¼Ä runÄsim par kaujas ievieÅ”anu.
Paldies, ceram uz produktīvu diskusiju.
Avots: www.habr.com