Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

Hej Habr!

Pas festave të Vitit të Ri, ne rifilluam një re të mbrojtur nga fatkeqësitë e bazuar në dy site. Sot do t'ju tregojmë se si funksionon dhe do t'ju tregojmë se çfarë ndodh me makinat virtuale të klientëve kur elementët individualë të grupit dështojnë dhe i gjithë siti rrëzohet (spoiler - gjithçka është në rregull me ta).

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon
Sistemi i ruajtjes së resë kompjuterike rezistente ndaj fatkeqësive në sitin OST.

Farë është brenda

Nën kapuç, grupi ka serverë Cisco UCS me një hipervizor VMware ESXi, dy sisteme ruajtjeje INFINIDAT InfiniBox F2240, pajisje rrjeti Cisco Nexus, si dhe ndërprerës Brocade SAN. Grupi ndahet në dy site - OST dhe NORD, d.m.th. secila qendër e të dhënave ka një grup identik pajisjesh. Në fakt, kjo është ajo që e bën atë rezistent ndaj fatkeqësive.

Brenda një faqeje, elementët kryesorë janë gjithashtu të dyfishuar (hostët, ndërprerësit SAN, rrjetet).
Të dy vendet janë të lidhura me rrugë të dedikuara me fibra optike, gjithashtu të rezervuara.

Disa fjalë për sistemet e ruajtjes. Ne ndërtuam versionin e parë të një reje kompjuterike kundër fatkeqësive në NetApp. Këtu kemi zgjedhur INFINIDAT, dhe ja pse:

  • Opsioni i përsëritjes aktive-aktive. Ai lejon që makina virtuale të mbetet funksionale edhe nëse një nga sistemet e ruajtjes dështon plotësisht. Do t'ju tregoj më shumë për përsëritjen më vonë.
  • Tre kontrollues të diskut për të rritur tolerancën e gabimeve të sistemit. Zakonisht ka dy.
  • Zgjidhje e gatshme. Ne morëm një raft të montuar paraprakisht që thjesht duhet të lidhet me rrjetin dhe të konfigurohet.
  • Mbështetje teknike e vëmendshme. Inxhinierët e INFINIDAT analizojnë vazhdimisht regjistrat dhe ngjarjet e sistemit të ruajtjes, instalojnë versione të reja të firmuerit dhe ndihmojnë me konfigurimin.

Këtu janë disa foto nga paketimi:

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

Si punon kjo

Reja tashmë është rezistente ndaj gabimeve brenda vetes. Ai mbron klientin nga dështimet e vetme të harduerit dhe softuerit. Rezistenca ndaj katastrofave do të ndihmojë në mbrojtjen kundër dështimeve masive brenda një siti: për shembull, dështimi i një sistemi ruajtjeje (ose një grupi SDS, i cili ndodh mjaft shpesh 🙂), gabime masive në një rrjet ruajtjeje, etj. Epo, dhe më e rëndësishmja: një re e tillë kursen kur një faqe e tërë bëhet e paarritshme për shkak të një zjarri, ndërprerjeje, marrjes së sulmuesit ose uljes së të huajve.

Në të gjitha këto raste, makinat virtuale të klientit vazhdojnë të punojnë, dhe ja pse.

Dizajni i grupit është krijuar në mënyrë që çdo host ESXi me makina virtuale të klientit të mund të aksesojë cilindo nga dy sistemet e ruajtjes. Nëse sistemi i ruajtjes në sitin OST dështon, makinat virtuale do të vazhdojnë të punojnë: hostet në të cilat ato po funksionojnë do të hyjnë në sistemin e ruajtjes në NORD për të dhëna.

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon
Kështu duket diagrami i lidhjes në një grup.

Kjo është e mundur për shkak të faktit se një Lidhje Inter-Switch është konfiguruar midis pëlhurave SAN të dy faqeve: ndërprerësi Fabric A OST SAN është i lidhur me ndërprerësin Fabric A NORD SAN, dhe në mënyrë të ngjashme për çelsat Fabric B SAN.

Epo, në mënyrë që të gjitha këto ndërlikime të fabrikave SAN të kenë kuptim, riprodhimi Active-Active është konfiguruar midis dy sistemeve të ruajtjes: informacioni shkruhet pothuajse njëkohësisht në sistemet e ruajtjes lokale dhe në distancë, RPO = 0. Rezulton se të dhënat origjinale ruhen në një sistem ruajtjeje, dhe kopja e tij ruhet në tjetrin. Të dhënat përsëriten në nivelin e vëllimeve të ruajtjes dhe të dhënat e VM (disqet e tij, skedari i konfigurimit, skedari i shkëmbimit, etj.) ruhen në to.

Pritësi ESXi e sheh volumin primar dhe kopjen e tij si një pajisje disku (Pajisja ruajtëse). Ka 24 shtigje nga hosti ESXi në çdo pajisje disk:

12 shtigje e lidhin atë me sistemin lokal të ruajtjes (shtigjet optimale), dhe 12 të tjerat me sistemin e ruajtjes në distancë (shtigje jo optimale). Në një situatë normale, ESXi akseson të dhënat në sistemin lokal të ruajtjes duke përdorur shtigje "optimale". Kur ky sistem ruajtjeje dështon, ESXi humbet shtigjet optimale dhe kalon në ato "jo optimale". Kështu duket në diagram.

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon
Skema e një grupi rezistent ndaj fatkeqësive.

Të gjitha rrjetet e klientëve janë të lidhur me të dy faqet përmes një rrjeti të përbashkët. Çdo sajt drejton një skaj të ofruesit (PE), në të cilin mbyllen rrjetet e klientit. NP-të janë bashkuar në një grup të përbashkët. Nëse një PE dështon në një vend, i gjithë trafiku ridrejtohet në faqen e dytë. Falë kësaj, makinat virtuale nga faqja e mbetur pa PE mbeten të aksesueshme përmes rrjetit për klientin.

Le të shohim tani se çfarë do të ndodhë me makinat virtuale të klientëve gjatë dështimeve të ndryshme. Le të fillojmë me opsionet më të lehta dhe të përfundojmë me më seriozin - dështimin e të gjithë sitit. Në shembujt, platforma kryesore do të jetë OST, dhe platforma rezervë, me kopje të të dhënave, do të jetë NORD.

Çfarë ndodh me makinën virtuale të klientit nëse...

Lidhja e përsëritjes dështon. Replikimi midis sistemeve të ruajtjes së dy vendeve ndalon.
ESXi do të punojë vetëm me pajisjet lokale të diskut (nëpërmjet shtigjeve optimale).
Makinat virtuale vazhdojnë të punojnë.

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

ISL (Lidhja Ndër-Switch) prishet. Rasti nuk ka gjasa. Përveç nëse ndonjë ekskavator i çmendur gërmon disa rrugë optike në të njëjtën kohë, të cilat shkojnë në rrugë të pavarura dhe sillen në lokacione përmes hyrjeve të ndryshme. Por gjithsesi. Në këtë rast, hostet ESXi humbasin gjysmën e shtigjeve dhe mund të hyjnë vetëm në sistemet e tyre të ruajtjes lokale. Replikat janë mbledhur, por hostet nuk do të jenë në gjendje t'i qasen.

Makinat virtuale funksionojnë normalisht.

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

Ndërrimi SAN dështon në një nga faqet. Pritësit ESXi humbasin disa nga shtigjet drejt sistemit të ruajtjes. Në këtë rast, hostet në vendin ku kalimi dështoi do të funksionojnë vetëm përmes një prej HBA-ve të tyre.

Makinat virtuale vazhdojnë të funksionojnë normalisht.

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

Të gjithë çelsat SAN në një nga faqet dështojnë. Le të themi se një fatkeqësi e tillë ka ndodhur në faqen e OST. Në këtë rast, hostet ESXi në këtë sajt do të humbasin të gjitha shtigjet drejt pajisjeve të tyre të diskut. Mekanizmi standard VMware vSphere HA hyn në lojë: ai do të rifillojë të gjitha makinat virtuale të faqes OST në NORD në një maksimum prej 140 sekondash.

Makinat virtuale që funksionojnë në hostet e faqeve NORD funksionojnë normalisht.

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

Pritësi ESXi dështon në një sajt. Këtu mekanizmi vSphere HA funksionon përsëri: makinat virtuale nga hosti i dështuar rifillojnë në hostet e tjerë - në të njëjtin sajt ose të largët. Koha e rifillimit të makinës virtuale është deri në 1 minutë.

Nëse të gjithë hostet ESXi në sitin OST dështojnë, nuk ka opsione: VM-të rifillojnë në një tjetër. Koha e rifillimit është e njëjtë.

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

Sistemi i ruajtjes dështon në një vend. Le të themi se sistemi i ruajtjes dështon në sitin e OST. Pastaj hostet ESXi të sitit OST kalojnë në punën me kopjet e ruajtjes në NORD. Pasi sistemi i ruajtjes së dështuar të kthehet në shërbim, do të ndodhë përsëritja e detyruar dhe hostet ESXi OST do të fillojnë përsëri të hyjnë në sistemin lokal të ruajtjes.

Makinat virtuale kanë punuar normalisht gjatë gjithë kësaj kohe.

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

Një nga faqet dështon. Në këtë rast, të gjitha makinat virtuale do të rifillojnë në faqen rezervë përmes mekanizmit vSphere HA. Koha e rifillimit të VM është 140 sekonda. Në këtë rast, të gjitha cilësimet e rrjetit të makinës virtuale do të ruhen dhe ajo mbetet e aksesueshme për klientin përmes rrjetit.

Për të siguruar që rinisja e makinerive në sitin rezervë të shkojë pa probleme, çdo sajt është vetëm gjysma e plotë. Gjysma e dytë është një rezervë në rast se të gjitha makinat virtuale lëvizin nga faqja e dytë, e dëmtuar.

Reja e qëndrueshme ndaj fatkeqësive: Si funksionon

Një re rezistente ndaj fatkeqësive e bazuar në dy qendra të dhënash mbron nga dështime të tilla.

Kjo kënaqësi nuk është e lirë, pasi, përveç burimeve kryesore, nevojitet një rezervë në faqen e dytë. Prandaj, shërbimet kritike për biznesin vendosen në një re të tillë, ndërprerja afatgjatë e së cilës shkakton humbje të mëdha financiare dhe reputacioni, ose nëse sistemi i informacionit i nënshtrohet kërkesave për qëndrueshmëri ndaj fatkeqësive nga rregullatorët ose rregulloret e brendshme të kompanisë.

Burimet:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Burimi: www.habr.com

Shto një koment