ProHoster > Katastrofu noturÄ«gs mÄkonis: kÄ tas darbojas
Katastrofu noturÄ«gs mÄkonis: kÄ tas darbojas
Äau Habr!
PÄc Jaungada brÄ«vdienÄm mÄs atsÄkÄm katastrofu droÅ”u mÄkoni, pamatojoties uz divÄm vietnÄm. Å odien mÄs jums pastÄstÄ«sim, kÄ tas darbojas, un parÄdÄ«sim, kas notiek ar klientu virtuÄlajÄm maŔīnÄm, kad atseviŔķi klastera elementi neizdodas un visa vietne avarÄ (spoileris ā ar tiem viss ir kÄrtÄ«bÄ).
Zem pÄrsega klasterim ir Cisco UCS serveri ar VMware ESXi hipervizoru, divas INFINIDAT InfiniBox F2240 uzglabÄÅ”anas sistÄmas, Cisco Nexus tÄ«kla aprÄ«kojums, kÄ arÄ« Brocade SAN slÄdži. Klasteris ir sadalÄ«ts divÄs vietÄs - OST un NORD, t.i., katram datu centram ir identisks aprÄ«kojuma komplekts. PatiesÄ«bÄ tas padara to izturÄ«gu pret katastrofÄm.
Vienas vietnes ietvaros tiek dublÄti arÄ« galvenie elementi (saimnieki, SAN slÄdži, tÄ«kls).
Abas vietas ir savienotas ar Ä«paÅ”iem optiskÄs Ŕķiedras marÅ”rutiem, kas arÄ« ir rezervÄti.
Daži vÄrdi par uzglabÄÅ”anas sistÄmÄm. MÄs izveidojÄm pirmo katastrofu droÅ”a mÄkoÅa versiju vietnÄ NetApp. Å eit mÄs izvÄlÄjÄmies INFINIDAT, un lÅ«k, kÄpÄc:
AktÄ«va-aktÄ«va replikÄcijas opcija. Tas ļauj virtuÄlajai maŔīnai turpinÄt darboties pat tad, ja kÄda no uzglabÄÅ”anas sistÄmÄm pilnÄ«bÄ neizdodas. Es jums pastÄstÄ«Å”u vairÄk par replikÄciju vÄlÄk.
TrÄ«s disku kontrolleri, lai palielinÄtu sistÄmas kļūdu toleranci. Parasti ir divi.
Gatavs risinÄjums. MÄs saÅÄmÄm iepriekÅ” saliktu plauktu, kas tikai jÄpievieno tÄ«klam un jÄkonfigurÄ.
UzmanÄ«gs tehniskais atbalsts. INFINIDAT inženieri pastÄvÄ«gi analizÄ krÄtuves sistÄmas žurnÄlus un notikumus, instalÄ jaunas programmaparatÅ«ras versijas un palÄ«dz konfigurÄt.
Å eit ir daži fotoattÄli no izpakoÅ”anas:
KÄ tas darbojas
MÄkonis jau sevÄ« ir izturÄ«gs pret kļūmÄm. Tas aizsargÄ klientu no atseviŔķÄm aparatÅ«ras un programmatÅ«ras kļūmÄm. IzturÄ«ba pret katastrofÄm palÄ«dzÄs aizsargÄties pret masÄ«vÄm kļūmÄm vienÄ vietnÄ: piemÄram, krÄtuves sistÄmas (vai SDS klastera, kas notiek diezgan bieži š) kļūmÄm, masveida kļūdÄm krÄtuves tÄ«klÄ utt. Nu, un pats galvenais: Å”Äds mÄkonis glÄbj, kad visa vietne kļūst nepieejama ugunsgrÄka, aptumÅ”oÅ”anas, raidera pÄrÅemÅ”anas vai citplanÄtieÅ”u nolaiÅ”anÄs dÄļ.
Visos Å”ajos gadÄ«jumos klienta virtuÄlÄs maŔīnas turpina darboties, un lÅ«k, kÄpÄc.
Klastera dizains ir izstrÄdÄts tÄ, lai jebkurÅ” ESXi resursdators ar klienta virtuÄlajÄm maŔīnÄm varÄtu piekļūt jebkurai no divÄm krÄtuves sistÄmÄm. Ja OST vietnes krÄtuves sistÄma neizdodas, virtuÄlÄs maŔīnas turpinÄs darboties: resursdatori, kuros tie darbojas, piekļūs NORD datu uzglabÄÅ”anas sistÄmai.
Å Ädi izskatÄs savienojuma shÄma klasterÄ«.
Tas ir iespÄjams tÄpÄc, ka starp abu vietÅu SAN slÄdžiem ir konfigurÄta Inter-Switch saite: Fabric A OST SAN slÄdzis ir savienots ar Fabric A NORD SAN slÄdzi un lÄ«dzÄ«gi Fabric B SAN slÄdžiem.
Lai visÄm Ŕīm SAN rÅ«pnÄ«cu sarežģītÄ«bÄm bÅ«tu jÄga, Active-Active replikÄcija ir konfigurÄta starp abÄm uzglabÄÅ”anas sistÄmÄm: informÄcija gandrÄ«z vienlaikus tiek ierakstÄ«ta lokÄlajÄ un attÄlajÄ krÄtuves sistÄmÄ, RPO = 0. IzrÄdÄs, ka oriÄ£inÄlie dati tiek glabÄti vienÄ uzglabÄÅ”anas sistÄmÄ, bet tÄ kopija tiek glabÄta otrÄ. Dati tiek replicÄti krÄtuves apjomu lÄ«menÄ«, un VM dati (tÄ diski, konfigurÄcijas fails, mijmaiÅas fails utt.) tiek glabÄti tajos.
ESXi resursdators redz primÄro sÄjumu un tÄ repliku kÄ vienu diska ierÄ«ci (atmiÅas ierÄ«ci). Ir 24 ceļi no ESXi resursdatora uz katru diska ierÄ«ci:
12 ceļi savieno to ar vietÄjo krÄtuves sistÄmu (optimÄlie ceļi), bet atlikuÅ”ie 12 ceļi savieno ar attÄlo krÄtuves sistÄmu (neoptimÄlie ceļi). ParastÄ situÄcijÄ ESXi piekļūst datiem vietÄjÄ krÄtuves sistÄmÄ, izmantojot āoptimÄlosā ceļus. Ja Ŕī krÄtuves sistÄma neizdodas, ESXi zaudÄ optimÄlos ceļus un pÄrslÄdzas uz āneoptimÄlajiemā. TÄ tas izskatÄs diagrammÄ.
Katastrofu droÅ”a klastera shÄma.
Visi klientu tÄ«kli ir savienoti ar abÄm vietnÄm, izmantojot kopÄju tÄ«kla struktÅ«ru. KatrÄ vietnÄ darbojas Provider Edge (PE), kurÄ tiek pÄrtraukti klienta tÄ«kli. PE ir apvienoti kopÄjÄ klasterÄ«. Ja PE neizdodas vienÄ vietnÄ, visa trafika tiek novirzÄ«ta uz otro vietni. Pateicoties tam, virtuÄlÄs maŔīnas no vietnes, kas palikuÅ”as bez PE, klientam paliek pieejamas tÄ«klÄ.
Tagad redzÄsim, kas notiks ar klientu virtuÄlajÄm maŔīnÄm dažÄdu kļūmju laikÄ. SÄksim ar vieglÄkajÄm iespÄjÄm un beigsim ar visnopietnÄko - visas vietnes neveiksmi. PiemÄros galvenÄ platforma bÅ«s OST, bet rezerves platforma ar datu replikÄm bÅ«s NORD.
Kas notiek ar klienta virtuÄlo maŔīnu, ja...
ReplicÄÅ”anas saite neizdodas. ReplikÄcija starp abu vietÅu uzglabÄÅ”anas sistÄmÄm apstÄjas.
ESXi darbosies tikai ar vietÄjÄm diska ierÄ«cÄm (izmantojot optimÄlos ceļus).
VirtuÄlÄs maŔīnas turpina strÄdÄt.
ISL (Inter-Switch Link) pÄrtrÅ«kst. Lieta ir maz ticama. Ja vien kÄds traks ekskavators neizrok vairÄkus optiskos marÅ”rutus vienlaikus, kuri kursÄ pa neatkarÄ«giem marÅ”rutiem un tiek atvesti uz objektiem caur dažÄdiem ievadiem. Bet vienalga. Å ajÄ gadÄ«jumÄ ESXi saimniekdatori zaudÄ pusi ceļu un var piekļūt tikai savÄm vietÄjÄm krÄtuves sistÄmÄm. Replikas tiek savÄktas, taÄu saimnieki tÄm nevarÄs piekļūt.
VirtuÄlÄs maŔīnas darbojas normÄli.
SAN slÄdzis neizdodas vienÄ no vietnÄm. ESXi saimniekdatori zaudÄ dažus ceļus uz krÄtuves sistÄmu. Å ajÄ gadÄ«jumÄ saimniekdatori tajÄ vietÄ, kurÄ pÄrslÄgÅ”anÄs neizdevÄs, darbosies tikai ar vienu no saviem HBA.
VirtuÄlÄs maŔīnas turpina darboties kÄ parasti.
Visi SAN slÄdži vienÄ no vietnÄm neizdodas. PieÅemsim, ka Å”Äda katastrofa notika OST vietnÄ. Å ÄdÄ gadÄ«jumÄ ESXi saimniekdatori Å”ajÄ vietnÄ zaudÄs visus ceļus uz savÄm diska ierÄ«cÄm. SÄk darboties standarta VMware vSphere HA mehÄnisms: tas restartÄs visas NORD vietnes OST virtuÄlÄs maŔīnas maksimÄli 140 sekunžu laikÄ.
VirtuÄlÄs maŔīnas, kas darbojas uz NORD vietÅu saimniekiem, darbojas normÄli.
ESXi saimniekdators neizdodas vienÄ vietnÄ. Å eit vSphere HA mehÄnisms atkal darbojas: virtuÄlÄs maŔīnas no neveiksmÄ«gÄ resursdatora tiek restartÄtas citos saimniekdatoros - tajÄ paÅ”Ä vai attÄlajÄ vietnÄ. VirtuÄlÄs maŔīnas restartÄÅ”anas laiks ir lÄ«dz 1 minÅ«tei.
Ja visi ESXi saimniekdatori OST vietnÄ neizdodas, nav iespÄju: virtuÄlÄs maŔīnas tiek restartÄtas citÄ. RestartÄÅ”anas laiks ir tÄds pats.
UzglabÄÅ”anas sistÄma nedarbojas vienÄ vietÄ. PieÅemsim, ka uzglabÄÅ”anas sistÄma OST vietnÄ neizdodas. PÄc tam OST vietnes ESXi saimnieki pÄriet uz darbu ar krÄtuves replikÄm NORD. Kad neveiksmÄ«gÄ krÄtuves sistÄma atgriezÄ«sies darbÄ, notiks piespiedu replikÄcija un ESXi OST resursdatori atkal sÄks piekļūt vietÄjai krÄtuves sistÄmai.
VirtuÄlÄs maŔīnas visu Å”o laiku ir strÄdÄjuÅ”as normÄli.
Viena no vietnÄm nedarbojas. Å ajÄ gadÄ«jumÄ visas virtuÄlÄs maŔīnas tiks restartÄtas dublÄjuma vietnÄ, izmantojot vSphere HA mehÄnismu. VirtuÄlÄs maŔīnas restartÄÅ”anas laiks ir 140 sekundes. Å ajÄ gadÄ«jumÄ visi virtuÄlÄs maŔīnas tÄ«kla iestatÄ«jumi tiks saglabÄti, un tie bÅ«s pieejami klientam tÄ«klÄ.
Lai nodroÅ”inÄtu, ka iekÄrtu restartÄÅ”ana dublÄÅ”anas vietÄ norit nevainojami, katra vietne ir tikai puse pilna. OtrÄ puse ir rezerve gadÄ«jumam, ja visas virtuÄlÄs maŔīnas pÄriet no otrÄs, bojÄtÄs vietnes.
Katastrofu izturÄ«gs mÄkonis, kura pamatÄ ir divi datu centri, aizsargÄ pret Å”ÄdÄm kļūmÄm.
Å is prieks nav lÄts, jo papildus galvenajiem resursiem ir nepiecieÅ”ama rezerve otrajÄ vietÄ. LÄ«dz ar to tÄdÄ mÄkonÄ« tiek ievietoti biznesam kritiskie pakalpojumi, kuru ilgstoÅ”a dÄ«kstÄve rada lielus finansiÄlus un reputÄcijas zaudÄjumus vai arÄ« informÄcijas sistÄmai tiek piemÄrotas regulatoru vai uzÅÄmuma iekÅ”Äjo normatÄ«vo aktu prasÄ«bas par noturÄ«bu pret katastrofÄm.