Oblak otporan na katastrofe: kako funkcionira

Hej Habr!

Nakon novogodišnjih praznika ponovno smo pokrenuli oblak otporan na katastrofe temeljen na dvije stranice. Danas ćemo vam reći kako to radi i pokazati što se događa s klijentskim virtualnim strojevima kada pojedinačni elementi klastera zakažu i cijela se stranica sruši (spojler - s njima je sve u redu).

Oblak otporan na katastrofe: kako funkcionira
Sustav za pohranu u oblaku otporan na katastrofe na OST stranici.

Što je unutra

Ispod haube, klaster ima Cisco UCS poslužitelje s VMware ESXi hipervizorom, dva INFINIDAT InfiniBox F2240 sustava za pohranu podataka, Cisco Nexus mrežnu opremu, kao i Brocade SAN preklopnike. Klaster je podijeljen na dvije lokacije - OST i NORD, tj. svaki podatkovni centar ima identičan set opreme. Zapravo, to je ono što ga čini otpornim na katastrofe.

Unutar jedne stranice, glavni elementi se također dupliciraju (hostovi, SAN preklopnici, umrežavanje).
Dvije su lokacije povezane namjenskim optičkim pravcima, koji su također rezervirani.

Nekoliko riječi o sustavima za pohranu. Izgradili smo prvu verziju oblaka otpornog na katastrofe na NetAppu. Ovdje smo odabrali INFINIDAT, a evo i zašto:

  • Active-Active opcija replikacije. Omogućuje da virtualni stroj ostane operativan čak i ako jedan od sustava za pohranu potpuno otkaže. Kasnije ću vam reći više o replikaciji.
  • Tri disk kontrolera za povećanje otpornosti sustava na pogreške. Obično su dva.
  • Spremno rješenje. Dobili smo već montirani stalak koji samo treba spojiti na mrežu i konfigurirati.
  • Pažljiva tehnička podrška. INFINIDAT inženjeri neprestano analiziraju zapisnike i događaje sustava za pohranu, instaliraju nove verzije firmvera i pomažu u konfiguraciji.

Evo nekoliko fotografija s raspakiravanja:

Oblak otporan na katastrofe: kako funkcionira

Oblak otporan na katastrofe: kako funkcionira

Kako to radi

Oblak je već sam po sebi tolerantan na greške. Štiti klijenta od pojedinačnih kvarova hardvera i softvera. Otporan na katastrofe pomoći će u zaštiti od masovnih kvarova unutar jednog mjesta: na primjer, kvara sustava za pohranu (ili SDS klastera, što se često događa 🙂), velikih grešaka u mreži za pohranu itd. Pa, i što je najvažnije: takav oblak spašava kada cijela stranica postane nedostupna zbog požara, zamračenja, napadačkog preuzimanja ili slijetanja vanzemaljaca.

U svim tim slučajevima klijentska virtualna računala nastavljaju raditi, a evo i zašto.

Dizajn klastera dizajniran je tako da svaki ESXi host s klijentskim virtualnim strojevima može pristupiti bilo kojem od dva sustava za pohranu. Ako sustav za pohranu na OST mjestu zakaže, virtualni strojevi će nastaviti raditi: hostovi na kojima se pokreću pristupit će sustavu za pohranu na NORD-u za podatke.

Oblak otporan na katastrofe: kako funkcionira
Ovako izgleda dijagram povezivanja u klasteru.

To je moguće zbog činjenice da je Inter-Switch Link konfiguriran između SAN tkanina dviju stranica: Fabric A OST SAN sklopka povezana je s Fabric A NORD SAN sklopkom, a slično je i za Fabric B SAN sklopke.

Pa, kako bi sve te zamršenosti SAN tvornica imale smisla, Active-Active replikacija je konfigurirana između dva sustava za pohranu: informacije se gotovo istovremeno zapisuju u lokalne i udaljene sustave za pohranu, RPO = 0. Ispada da su izvorni podaci pohranjeni na jednom sustavu za pohranu, a njihova replika na drugom. Podaci se repliciraju na razini skladišnih volumena, a VM podaci (njegovi diskovi, konfiguracijska datoteka, swap datoteka itd.) pohranjuju se na njih.

ESXi host vidi primarni volumen i njegovu repliku kao jedan disk uređaj (uređaj za pohranu). Postoje 24 staze od ESXi hosta do svakog diskovnog uređaja:

12 staza povezuje ga s lokalnim sustavom pohrane (optimalne staze), a preostalih 12 s udaljenim sustavom pohrane (neoptimalne staze). U normalnoj situaciji, ESXi pristupa podacima na lokalnom sustavu za pohranu koristeći "optimalne" staze. Kada ovaj sustav pohrane zakaže, ESXi gubi optimalne staze i prebacuje se na one "neoptimalne". Ovako to izgleda na dijagramu.

Oblak otporan na katastrofe: kako funkcionira
Shema klastera otpornog na katastrofe.

Sve klijentske mreže povezane su s obje stranice putem zajedničke mreže. Svako mjesto pokreće Provider Edge (PE), na kojem se završavaju klijentove mreže. PE su ujedinjeni u zajednički klaster. Ako PE zakaže na jednom mjestu, sav se promet preusmjerava na drugo mjesto. Zahvaljujući tome, virtualni strojevi sa stranice koja je ostala bez PE ostaju dostupni preko mreže klijentu.

Pogledajmo sada što će se dogoditi s klijentskim virtualnim strojevima tijekom raznih kvarova. Počnimo s najlakšim opcijama i završimo s najozbiljnijim - kvarom cijele stranice. U primjerima će glavna platforma biti OST, a rezervna platforma, s replikama podataka, bit će NORD.

Što se događa s virtualnim strojem klijenta ako...

Veza replikacije ne uspijeva. Prestaje replikacija između sustava za pohranu dvaju mjesta.
ESXi će raditi samo s lokalnim diskovnim uređajima (preko optimalnih staza).
Virtualni strojevi nastavljaju s radom.

Oblak otporan na katastrofe: kako funkcionira

ISL (Inter-Switch Link) se prekida. Slučaj je malo vjerojatan. Osim ako neki ludi bager ne iskopa nekoliko optičkih ruta odjednom, koje idu neovisnim trasama i dovode se do gradilišta kroz različite ulaze. Ali svejedno. U ovom slučaju, ESXi hostovi gube polovicu staza i mogu pristupiti samo svojim lokalnim sustavima za pohranu. Replike se prikupljaju, ali domaćini im neće moći pristupiti.

Virtualni strojevi rade normalno.

Oblak otporan na katastrofe: kako funkcionira

SAN prekidač ne radi na jednom od mjesta. ESXi hostovi gube neke od putova do sustava za pohranu. U ovom slučaju, hostovi na mjestu na kojem nije uspjelo prebacivanje radit će samo preko jednog od svojih HBA.

Virtualni strojevi nastavljaju raditi normalno.

Oblak otporan na katastrofe: kako funkcionira

Svi SAN prekidači na jednoj od stranica ne rade. Recimo da se takva katastrofa dogodila na OST stranici. U tom će slučaju ESXi hostovi na ovoj stranici izgubiti sve putove do svojih diskovnih uređaja. U igru ​​ulazi standardni VMware vSphere HA mehanizam: ponovno će pokrenuti sve virtualne strojeve OST stranice u NORD-u za najviše 140 sekundi.

Virtualni strojevi koji se pokreću na NORD hostovima rade normalno.

Oblak otporan na katastrofe: kako funkcionira

ESXi host ne radi na jednom mjestu. Ovdje vSphere HA mehanizam ponovno radi: virtualni strojevi s pokvarenog hosta ponovno se pokreću na drugim hostovima - na istom ili udaljenom mjestu. Vrijeme ponovnog pokretanja virtualnog stroja je do 1 minute.

Ako svi ESXi hostovi OST stranice zakažu, nema opcija: VM-ovi se ponovno pokreću na drugom. Vrijeme ponovnog pokretanja je isto.

Oblak otporan na katastrofe: kako funkcionira

Sustav za pohranu ne radi na jednom mjestu. Recimo da sustav za pohranu ne uspije na OST mjestu. Tada se ESXi domaćini OST stranice prebacuju na rad s replikama za pohranu u NORD-u. Nakon što se pokvareni sustav za pohranu vrati u funkciju, dogodit će se prisilna replikacija i ESXi OST hostovi ponovno će početi pristupati lokalnom sustavu za pohranu.

Virtualni strojevi sve ovo vrijeme rade normalno.

Oblak otporan na katastrofe: kako funkcionira

Jedna od stranica ne radi. U tom će se slučaju svi virtualni strojevi ponovno pokrenuti na sigurnosnoj stranici putem vSphere HA mehanizma. Vrijeme ponovnog pokretanja VM-a je 140 sekundi. U tom će slučaju sve mrežne postavke virtualnog računala biti spremljene, a klijentu ostaje dostupan preko mreže.

Kako bi se osiguralo da ponovno pokretanje strojeva na sigurnosnom mjestu teče glatko, svako je mjesto samo napola puno. Druga polovica je rezerva u slučaju da se svi virtualni strojevi presele s drugog, oštećenog mjesta.

Oblak otporan na katastrofe: kako funkcionira

Oblak otporan na katastrofe temeljen na dva podatkovna centra štiti od takvih kvarova.

Ovo zadovoljstvo nije jeftino, jer je, pored glavnih resursa, potrebna rezerva na drugom mjestu. Stoga se usluge kritične za poslovanje smještaju u takav oblak, čiji dugotrajni zastoji uzrokuju velike financijske i reputacijske gubitke ili ako informacijski sustav podliježe zahtjevima regulatora ili internih propisa tvrtke za otpornost na katastrofe.

Izvori:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Izvor: www.habr.com

Dodajte komentar