Cloud Reżiljenti għad-Diżastri: Kif Taħdem

Ħej Habr!

Wara l-vaganzi tas-Sena l-Ġdida, nedejna mill-ġdid sħaba li tiflaħ għad-diżastri bbażata fuq żewġ siti. Illum ngħidulek kif taħdem u nuru x'jiġri mill-magni virtwali tal-klijenti meta l-elementi individwali tal-cluster ifallu u s-sit kollu jiġġarraf (spoiler - kollox tajjeb magħhom).

Cloud Reżiljenti għad-Diżastri: Kif Taħdem
Sistema ta’ ħażna tas-sħab reżistenti għad-diżastri fuq is-sit tal-OST.

X'hemm ġewwa

Taħt il-barnuża, il-cluster għandu servers Cisco UCS b'hypervisor VMware ESXi, żewġ sistemi ta 'ħażna INFINIDAT InfiniBox F2240, tagħmir tan-netwerk Cisco Nexus, kif ukoll swiċċijiet Brocade SAN. Il-cluster huwa maqsum f'żewġ siti - OST u NORD, jiġifieri kull ċentru tad-dejta għandu sett identiku ta 'tagħmir. Fil-fatt, dan huwa dak li jagħmilha prova tad-diżastri.

Fi ħdan sit wieħed, l-elementi ewlenin huma wkoll duplikati (hosts, swiċċijiet SAN, netwerking).
Iż-żewġ siti huma konnessi minn rotot dedikati tal-fibra ottika, riservati wkoll.

Ftit kelmiet dwar sistemi ta 'ħażna. Bnejna l-ewwel verżjoni ta’ sħaba kontra d-diżastri fuq NetApp. Hawnhekk għażilna INFINIDAT, u hawn għaliex:

  • Għażla ta 'replikazzjoni Attiva-Attiva. Jippermetti li l-magna virtwali tibqa’ operattiva anki jekk waħda mis-sistemi tal-ħażna tfalli kompletament. Jien ngħidlek aktar dwar ir-replikazzjoni aktar tard.
  • Tliet kontrolluri tad-disk biex tiżdied it-tolleranza tal-ħsarat tas-sistema. Normalment ikun hemm tnejn.
  • Soluzzjoni lesta. Irċevejna rack immuntat minn qabel li jeħtieġ biss li jiġi konness man-netwerk u kkonfigurat.
  • Appoġġ tekniku attent. L-inġiniera INFINIDAT janalizzaw kontinwament ir-reġistri u l-avvenimenti tas-sistema tal-ħażna, jinstallaw verżjonijiet ġodda tal-firmware, u jgħinu fil-konfigurazzjoni.

Hawn huma xi ritratti mill-ħatt l-ippakkjar:

Cloud Reżiljenti għad-Diżastri: Kif Taħdem

Cloud Reżiljenti għad-Diżastri: Kif Taħdem

Kif taħdem

Is-sħaba hija diġà tolleranti għall-ħsarat fiha nnifisha. Jipproteġi lill-klijent minn fallimenti ta' hardware u software. Reżistenti għad-diżastri tgħin biex tipproteġi kontra fallimenti kbar f'sit wieħed: pereżempju, falliment ta' sistema ta' ħażna (jew cluster SDS, li jiġri spiss 🙂), żbalji kbar f'netwerk ta' ħażna, eċċ. Ukoll, u l-aktar importanti: sħaba bħal din issalva meta sit sħiħ isir inaċċessibbli minħabba nar, blackout, teħid ta 'raider, jew inżul aljeni.

F'dawn il-każijiet kollha, il-magni virtwali tal-klijenti jkomplu jaħdmu, u hawn għaliex.

Id-disinn tal-cluster huwa ddisinjat sabiex kwalunkwe host ESXi b'magni virtwali tal-klijenti jista 'jaċċessa kwalunkwe miż-żewġ sistemi ta' ħażna. Jekk is-sistema tal-ħażna fuq is-sit OST tfalli, il-magni virtwali se jkomplu jaħdmu: l-hosts li qed jaħdmu fuqhom se jaċċessaw is-sistema tal-ħażna fuq NORD għad-dejta.

Cloud Reżiljenti għad-Diżastri: Kif Taħdem
Hekk tidher id-dijagramma tal-konnessjoni fi cluster.

Dan huwa possibbli minħabba l-fatt li Inter-Switch Link hija kkonfigurata bejn id-drappijiet SAN taż-żewġ siti: is-swiċċ Fabric A OST SAN huwa konness mal-iswiċċ Fabric A NORD SAN, u bl-istess mod għas-swiċċijiet Fabric B SAN.

Ukoll, sabiex dawn l-intricacies kollha tal-fabbriki SAN jagħmlu sens, ir-replikazzjoni Attiva-Attiva hija kkonfigurata bejn iż-żewġ sistemi ta 'ħażna: l-informazzjoni tinkiteb kważi simultanjament fis-sistemi ta' ħażna lokali u remoti, RPO = 0. Jirriżulta li d-dejta oriġinali hija maħżuna fuq sistema ta 'ħażna waħda, u r-replika tagħha hija maħżuna fuq l-oħra. Id-dejta hija replikata fil-livell tal-volumi tal-ħażna, u d-dejta tal-VM (id-diski tagħha, il-fajl tal-konfigurazzjoni, il-fajl tal-iskambju, eċċ.) hija maħżuna fuqhom.

Il-host ESXi jara l-volum primarju u r-replika tiegħu bħala mezz ta 'disk wieħed (Apparat ta' Ħażna). Hemm 24 mogħdija mill-host ESXi għal kull apparat tad-diska:

12-il mogħdija jgħaqqduha mas-sistema tal-ħażna lokali (mogħdijiet ottimali), u t-12 li jifdal mas-sistema tal-ħażna remota (mogħdijiet mhux ottimali). F'sitwazzjoni normali, ESXi jaċċessa dejta fuq is-sistema ta 'ħażna lokali billi juża mogħdijiet "ottimali". Meta din is-sistema ta 'ħażna tfalli, ESXi jitlef mogħdijiet ottimali u jaqleb għal dawk "mhux ottimali". Dan huwa kif jidher fuq id-dijagramma.

Cloud Reżiljenti għad-Diżastri: Kif Taħdem
Skema ta' cluster li ma jgħaddix minn diżastri.

In-netwerks tal-klijenti kollha huma konnessi maż-żewġ siti permezz ta’ drapp ta’ netwerk komuni. Kull sit imexxi Provider Edge (PE), li fuqu jintemmu n-netwerks tal-klijent. PEs huma magħquda fi cluster komuni. Jekk PE jonqos f'sit wieħed, it-traffiku kollu jiġi ridirett lejn it-tieni sit. Grazzi għal dan, magni virtwali mis-sit li tħallew mingħajr PE jibqgħu aċċessibbli fuq in-netwerk għall-klijent.

Ejja issa naraw x'se jiġri mill-magni virtwali tal-klijenti waqt diversi fallimenti. Nibdew bl-eħfef għażliet u nispiċċaw bl-aktar serji - falliment tas-sit kollu. Fl-eżempji, il-pjattaforma ewlenija se tkun OST, u l-pjattaforma tal-backup, b'repliki tad-dejta, se tkun NORD.

X'jiġri mill-magna virtwali tal-klijent jekk...

Replikazzjoni Link ifalli. Ir-replikazzjoni bejn is-sistemi tal-ħażna taż-żewġ siti tieqaf.
ESXi se jaħdem biss b'apparat tad-disk lokali (permezz ta 'mogħdijiet ottimali).
Magni virtwali jkomplu jaħdmu.

Cloud Reżiljenti għad-Diżastri: Kif Taħdem

L-ISL (Inter-Switch Link) jinkiser. Il-każ huwa improbabbli. Sakemm xi excavator crazy ħaffer diversi rotot ottiċi f'daqqa, li jimxu fuq rotot indipendenti u jinġiebu fis-siti permezz ta 'inputs differenti. Imma xorta waħda. F'dan il-każ, l-hosts ESXi jitilfu nofs il-mogħdijiet u jistgħu jaċċessaw biss is-sistemi ta 'ħażna lokali tagħhom. Ir-repliki jinġabru, iżda l-ospiti mhux se jkunu jistgħu jaċċessawhom.

Magni virtwali qed jaħdmu b'mod normali.

Cloud Reżiljenti għad-Diżastri: Kif Taħdem

Is-swiċċ SAN jfalli fuq wieħed mis-siti. L-hosts ESXi jitilfu xi wħud mill-mogħdijiet għas-sistema tal-ħażna. F'dan il-każ, l-ospiti fis-sit fejn falla l-iswiċċ se jaħdmu biss permezz ta 'wieħed mill-HBAs tagħhom.

Il-magni virtwali jkomplu joperaw b'mod normali.

Cloud Reżiljenti għad-Diżastri: Kif Taħdem

Is-swiċċijiet kollha SAN fuq wieħed mis-siti ifallu. Ejja ngħidu diżastru bħal dan ġara fuq is-sit OST. F'dan il-każ, ESXi hosts fuq dan is-sit se jitilfu l-mogħdijiet kollha għall-apparat tad-disk tagħhom. Jidħol fis-seħħ il-mekkaniżmu standard VMware vSphere HA: se jerġa 'jibda l-magni virtwali kollha tas-sit OST f'NORD f'massimu ta' 140 sekonda.

Magni virtwali li jaħdmu fuq hosts tas-sit NORD qed joperaw b'mod normali.

Cloud Reżiljenti għad-Diżastri: Kif Taħdem

Il-host ESXi jonqos fuq sit wieħed. Hawnhekk il-mekkaniżmu vSphere HA jerġa' jaħdem: magni virtwali mill-host fallut jerġgħu jibdew fuq hosts oħra - fuq l-istess sit jew remot. Il-ħin tal-bidu mill-ġdid tal-magna virtwali huwa sa minuta.

Jekk l-hosts ESXi kollha fuq is-sit OST ifallu, m'hemm l-ebda għażla: il-VMs jerġgħu jibdew fuq ieħor. Il-ħin tal-bidu huwa l-istess.

Cloud Reżiljenti għad-Diżastri: Kif Taħdem

Is-sistema tal-ħażna tfalli f'sit wieħed. Ejja ngħidu li s-sistema tal-ħażna tfalli fis-sit OST. Imbagħad il-hosts ESXi tas-sit OST jaqilbu biex jaħdmu ma 'repliki tal-ħażna f'NORD. Wara li s-sistema ta 'ħażna falluta terġa' lura għas-servizz, se sseħħ replikazzjoni sfurzata u l-hosts ESXi OST jerġgħu jibdew jaċċessaw is-sistema ta 'ħażna lokali.

Magni virtwali ilhom jaħdmu b'mod normali dan iż-żmien kollu.

Cloud Reżiljenti għad-Diżastri: Kif Taħdem

Wieħed mis-siti jonqos. F'dan il-każ, il-magni virtwali kollha se jerġgħu jibdew fuq is-sit tal-backup permezz tal-mekkaniżmu vSphere HA. Il-ħin tal-bidu mill-ġdid tal-VM huwa 140 sekonda. F'dan il-każ, is-settings kollha tan-netwerk tal-magna virtwali se jiġu ffrankati, u tibqa 'aċċessibbli għall-klijent fuq in-netwerk.

Biex jiġi żgurat li l-istartjar mill-ġdid tal-magni fis-sit tal-backup jimxi bla xkiel, kull sit huwa biss nofs sħiħ. It-tieni nofs hija riserva f'każ li l-magni virtwali kollha jimxu mit-tieni sit bil-ħsara.

Cloud Reżiljenti għad-Diżastri: Kif Taħdem

Sħaba reżistenti għad-diżastri bbażata fuq żewġ ċentri tad-dejta tipproteġi kontra tali fallimenti.

Dan il-pjaċir mhuwiex irħis, peress li, minbarra r-riżorsi ewlenin, hemm bżonn ta 'riżerva fit-tieni sit. Għalhekk, is-servizzi kritiċi għan-negozju jitqiegħdu f'tali sħaba, li l-waqfien fit-tul tiegħu jikkawża telf finanzjarju u ta' reputazzjoni kbir, jew jekk is-sistema tal-informazzjoni tkun soġġetta għal rekwiżiti ta' reżiljenza għad-diżastri minn regolaturi jew regolamenti interni tal-kumpanija.

Sorsi:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Sors: www.habr.com

Żid kumment