Katastrofu noturīgs mākonis: kā tas darbojas

Čau Habr!

Pēc Jaungada brÄ«vdienām mēs atsākām katastrofu droÅ”u mākoni, pamatojoties uz divām vietnēm. Å odien mēs jums pastāstÄ«sim, kā tas darbojas, un parādÄ«sim, kas notiek ar klientu virtuālajām maŔīnām, kad atseviŔķi klastera elementi neizdodas un visa vietne avarē (spoileris ā€” ar tiem viss ir kārtÄ«bā).

Katastrofu noturīgs mākonis: kā tas darbojas
Katastrofu izturīga mākoņu krātuves sistēma OST vietnē.

Kas ir iekŔā

Zem pārsega klasterim ir Cisco UCS serveri ar VMware ESXi hipervizoru, divas INFINIDAT InfiniBox F2240 uzglabāŔanas sistēmas, Cisco Nexus tÄ«kla aprÄ«kojums, kā arÄ« Brocade SAN slēdži. Klasteris ir sadalÄ«ts divās vietās - OST un NORD, t.i., katram datu centram ir identisks aprÄ«kojuma komplekts. PatiesÄ«bā tas padara to izturÄ«gu pret katastrofām.

Vienas vietnes ietvaros tiek dublēti arī galvenie elementi (saimnieki, SAN slēdži, tīkls).
Abas vietas ir savienotas ar Ä«paÅ”iem optiskās Ŕķiedras marÅ”rutiem, kas arÄ« ir rezervēti.

Daži vārdi par uzglabāŔanas sistēmām. Mēs izveidojām pirmo katastrofu droÅ”a mākoņa versiju vietnē NetApp. Å eit mēs izvēlējāmies INFINIDAT, un lÅ«k, kāpēc:

  • AktÄ«va-aktÄ«va replikācijas opcija. Tas ļauj virtuālajai maŔīnai turpināt darboties pat tad, ja kāda no uzglabāŔanas sistēmām pilnÄ«bā neizdodas. Es jums pastāstÄ«Å”u vairāk par replikāciju vēlāk.
  • TrÄ«s disku kontrolleri, lai palielinātu sistēmas kļūdu toleranci. Parasti ir divi.
  • Gatavs risinājums. Mēs saņēmām iepriekÅ” saliktu plauktu, kas tikai jāpievieno tÄ«klam un jākonfigurē.
  • UzmanÄ«gs tehniskais atbalsts. INFINIDAT inženieri pastāvÄ«gi analizē krātuves sistēmas žurnālus un notikumus, instalē jaunas programmaparatÅ«ras versijas un palÄ«dz konfigurēt.

Å eit ir daži fotoattēli no izpakoÅ”anas:

Katastrofu noturīgs mākonis: kā tas darbojas

Katastrofu noturīgs mākonis: kā tas darbojas

Kā tas darbojas

Mākonis jau sevÄ« ir izturÄ«gs pret kļūmēm. Tas aizsargā klientu no atseviŔķām aparatÅ«ras un programmatÅ«ras kļūmēm. IzturÄ«ba pret katastrofām palÄ«dzēs aizsargāties pret masÄ«vām kļūmēm vienā vietnē: piemēram, krātuves sistēmas (vai SDS klastera, kas notiek diezgan bieži šŸ™‚) kļūmēm, masveida kļūdām krātuves tÄ«klā utt. Nu, un pats galvenais: Ŕāds mākonis glābj, kad visa vietne kļūst nepieejama ugunsgrēka, aptumÅ”oÅ”anas, raidera pārņemÅ”anas vai citplanētieÅ”u nolaiÅ”anās dēļ.

Visos Å”ajos gadÄ«jumos klienta virtuālās maŔīnas turpina darboties, un lÅ«k, kāpēc.

Klastera dizains ir izstrādāts tā, lai jebkurÅ” ESXi resursdators ar klienta virtuālajām maŔīnām varētu piekļūt jebkurai no divām krātuves sistēmām. Ja OST vietnes krātuves sistēma neizdodas, virtuālās maŔīnas turpinās darboties: resursdatori, kuros tie darbojas, piekļūs NORD datu uzglabāŔanas sistēmai.

Katastrofu noturīgs mākonis: kā tas darbojas
Šādi izskatās savienojuma shēma klasterī.

Tas ir iespējams tāpēc, ka starp abu vietņu SAN slēdžiem ir konfigurēta Inter-Switch saite: Fabric A OST SAN slēdzis ir savienots ar Fabric A NORD SAN slēdzi un līdzīgi Fabric B SAN slēdžiem.

Lai visām Ŕīm SAN rÅ«pnÄ«cu sarežģītÄ«bām bÅ«tu jēga, Active-Active replikācija ir konfigurēta starp abām uzglabāŔanas sistēmām: informācija gandrÄ«z vienlaikus tiek ierakstÄ«ta lokālajā un attālajā krātuves sistēmā, RPO = 0. Izrādās, ka oriÄ£inālie dati tiek glabāti vienā uzglabāŔanas sistēmā, bet tā kopija tiek glabāta otrā. Dati tiek replicēti krātuves apjomu lÄ«menÄ«, un VM dati (tā diski, konfigurācijas fails, mijmaiņas fails utt.) tiek glabāti tajos.

ESXi resursdators redz primāro sējumu un tā repliku kā vienu diska ierīci (atmiņas ierīci). Ir 24 ceļi no ESXi resursdatora uz katru diska ierīci:

12 ceļi savieno to ar vietējo krātuves sistēmu (optimālie ceļi), bet atlikuÅ”ie 12 ceļi savieno ar attālo krātuves sistēmu (neoptimālie ceļi). Parastā situācijā ESXi piekļūst datiem vietējā krātuves sistēmā, izmantojot ā€œoptimālosā€ ceļus. Ja Ŕī krātuves sistēma neizdodas, ESXi zaudē optimālos ceļus un pārslēdzas uz ā€œneoptimālajiemā€. Tā tas izskatās diagrammā.

Katastrofu noturīgs mākonis: kā tas darbojas
Katastrofu droÅ”a klastera shēma.

Visi klientu tÄ«kli ir savienoti ar abām vietnēm, izmantojot kopēju tÄ«kla struktÅ«ru. Katrā vietnē darbojas Provider Edge (PE), kurā tiek pārtraukti klienta tÄ«kli. PE ir apvienoti kopējā klasterÄ«. Ja PE neizdodas vienā vietnē, visa trafika tiek novirzÄ«ta uz otro vietni. Pateicoties tam, virtuālās maŔīnas no vietnes, kas palikuÅ”as bez PE, klientam paliek pieejamas tÄ«klā.

Tagad redzēsim, kas notiks ar klientu virtuālajām maŔīnām dažādu kļūmju laikā. Sāksim ar vieglākajām iespējām un beigsim ar visnopietnāko - visas vietnes neveiksmi. Piemēros galvenā platforma bÅ«s OST, bet rezerves platforma ar datu replikām bÅ«s NORD.

Kas notiek ar klienta virtuālo maŔīnu, ja...

ReplicÄ“Å”anas saite neizdodas. Replikācija starp abu vietņu uzglabāŔanas sistēmām apstājas.
ESXi darbosies tikai ar vietējām diska ierīcēm (izmantojot optimālos ceļus).
Virtuālās maŔīnas turpina strādāt.

Katastrofu noturīgs mākonis: kā tas darbojas

ISL (Inter-Switch Link) pārtrÅ«kst. Lieta ir maz ticama. Ja vien kāds traks ekskavators neizrok vairākus optiskos marÅ”rutus vienlaikus, kuri kursē pa neatkarÄ«giem marÅ”rutiem un tiek atvesti uz objektiem caur dažādiem ievadiem. Bet vienalga. Å ajā gadÄ«jumā ESXi saimniekdatori zaudē pusi ceļu un var piekļūt tikai savām vietējām krātuves sistēmām. Replikas tiek savāktas, taču saimnieki tām nevarēs piekļūt.

Virtuālās maŔīnas darbojas normāli.

Katastrofu noturīgs mākonis: kā tas darbojas

SAN slēdzis neizdodas vienā no vietnēm. ESXi saimniekdatori zaudē dažus ceļus uz krātuves sistēmu. Å ajā gadÄ«jumā saimniekdatori tajā vietā, kurā pārslēgÅ”anās neizdevās, darbosies tikai ar vienu no saviem HBA.

Virtuālās maŔīnas turpina darboties kā parasti.

Katastrofu noturīgs mākonis: kā tas darbojas

Visi SAN slēdži vienā no vietnēm neizdodas. Pieņemsim, ka Ŕāda katastrofa notika OST vietnē. Šādā gadÄ«jumā ESXi saimniekdatori Å”ajā vietnē zaudēs visus ceļus uz savām diska ierÄ«cēm. Sāk darboties standarta VMware vSphere HA mehānisms: tas restartēs visas NORD vietnes OST virtuālās maŔīnas maksimāli 140 sekunžu laikā.

Virtuālās maŔīnas, kas darbojas uz NORD vietņu saimniekiem, darbojas normāli.

Katastrofu noturīgs mākonis: kā tas darbojas

ESXi saimniekdators neizdodas vienā vietnē. Å eit vSphere HA mehānisms atkal darbojas: virtuālās maŔīnas no neveiksmÄ«gā resursdatora tiek restartētas citos saimniekdatoros - tajā paŔā vai attālajā vietnē. Virtuālās maŔīnas restartÄ“Å”anas laiks ir lÄ«dz 1 minÅ«tei.

Ja visi ESXi saimniekdatori OST vietnē neizdodas, nav iespēju: virtuālās maŔīnas tiek restartētas citā. RestartÄ“Å”anas laiks ir tāds pats.

Katastrofu noturīgs mākonis: kā tas darbojas

UzglabāŔanas sistēma nedarbojas vienā vietā. Pieņemsim, ka uzglabāŔanas sistēma OST vietnē neizdodas. Pēc tam OST vietnes ESXi saimnieki pāriet uz darbu ar krātuves replikām NORD. Kad neveiksmÄ«gā krātuves sistēma atgriezÄ«sies darbā, notiks piespiedu replikācija un ESXi OST resursdatori atkal sāks piekļūt vietējai krātuves sistēmai.

Virtuālās maŔīnas visu Ŕo laiku ir strādājuŔas normāli.

Katastrofu noturīgs mākonis: kā tas darbojas

Viena no vietnēm nedarbojas. Å ajā gadÄ«jumā visas virtuālās maŔīnas tiks restartētas dublējuma vietnē, izmantojot vSphere HA mehānismu. Virtuālās maŔīnas restartÄ“Å”anas laiks ir 140 sekundes. Å ajā gadÄ«jumā visi virtuālās maŔīnas tÄ«kla iestatÄ«jumi tiks saglabāti, un tie bÅ«s pieejami klientam tÄ«klā.

Lai nodroÅ”inātu, ka iekārtu restartÄ“Å”ana dublÄ“Å”anas vietā norit nevainojami, katra vietne ir tikai puse pilna. Otrā puse ir rezerve gadÄ«jumam, ja visas virtuālās maŔīnas pāriet no otrās, bojātās vietnes.

Katastrofu noturīgs mākonis: kā tas darbojas

Katastrofu izturÄ«gs mākonis, kura pamatā ir divi datu centri, aizsargā pret Ŕādām kļūmēm.

Å is prieks nav lēts, jo papildus galvenajiem resursiem ir nepiecieÅ”ama rezerve otrajā vietā. LÄ«dz ar to tādā mākonÄ« tiek ievietoti biznesam kritiskie pakalpojumi, kuru ilgstoÅ”a dÄ«kstāve rada lielus finansiālus un reputācijas zaudējumus vai arÄ« informācijas sistēmai tiek piemērotas regulatoru vai uzņēmuma iekŔējo normatÄ«vo aktu prasÄ«bas par noturÄ«bu pret katastrofām.

Avoti:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Avots: www.habr.com

Pievieno komentāru