Disaster Resilient Cloud: Hoe it wurket

Hoi Habr!

Nei de nijjiersfakânsje hawwe wy in rampbestindige wolk opnij lansearre op basis fan twa siden. Hjoed sille wy jo fertelle hoe't it wurket en sjen litte wat der bart mei firtuele masines fan kliïnten as yndividuele eleminten fan it kluster mislearje en de heule side crasht (spoiler - alles is goed mei har).

Disaster Resilient Cloud: Hoe it wurket
Disaster-resistant wolk opslachsysteem op 'e OST-side.

Wat is deryn

Under de kap hat it kluster Cisco UCS-tsjinners mei in VMware ESXi-hypervisor, twa INFINIDAT InfiniBox F2240-opslachsystemen, Cisco Nexus-netwurkapparatuer, lykas Brocade SAN-skeakels. It kluster is ferdield yn twa siden - OST en NORD, d.w.s. elk datasintrum hat in identike set fan apparatuer. Eins is dit wat it rampbestindich makket.

Binnen ien side wurde de haadeleminten ek duplisearre (hosts, SAN-skeakels, netwurking).
De twa siden binne ferbûn troch spesjale glêstriedrûtes, ek reservearre.

In pear wurden oer opslachsystemen. Wy bouden de earste ferzje fan in rampbestindige wolk op NetApp. Hjir hawwe wy keazen foar INFINIDAT, en hjir is wêrom:

  • Aktive-aktive replikaasje opsje. It lit de firtuele masine operasjoneel bliuwe, sels as ien fan 'e opslachsystemen folslein mislearret. Ik sil jo letter mear fertelle oer replikaasje.
  • Trije skiif controllers te fergrutsjen systeem flater tolerânsje. Gewoanlik binne der twa.
  • Klear oplossing. Wy krigen in pre-assembled rack dat krekt moat wurde ferbûn mei it netwurk en konfigurearre.
  • Opmerklike technyske stipe. INFINIDAT-yngenieurs analysearje konstant logs en eveneminten fan opslachsysteem, ynstallearje nije firmwareferzjes en helpe mei konfiguraasje.

Hjir binne wat foto's fan it útpakke:

Disaster Resilient Cloud: Hoe it wurket

Disaster Resilient Cloud: Hoe it wurket

Hoe't it wurket

De wolk is yn himsels al fouttolerant. It beskermet de kliïnt tsjin ienige hardware- en softwarefouten. Disaster-resistant sil helpe te beskermjen tsjin massive mislearrings binnen ien side: bygelyks, falen fan in opslach systeem (of in SDS kluster, dat bart hiel faak 🙂), massive flaters yn in opslach netwurk, etc. No ja, en it wichtichste: sa'n wolk rêdt as in hiele side ûnberikber wurdt troch in brân, blackout, oerfaller oername of lâning fan aliens.

Yn al dizze gefallen bliuwe de firtuele masines fan 'e kliïnt wurkje, en hjir is wêrom.

It klusterûntwerp is ûntwurpen sadat elke ESXi-host mei firtuele masines foar kliïnten tagong kin ta ien fan 'e twa opslachsystemen. As it opslachsysteem op 'e OST-side mislearret, sille de firtuele masines trochgean te wurkjen: de hosts wêrop se rinne sille tagong krije ta it opslachsysteem op NORD foar gegevens.

Disaster Resilient Cloud: Hoe it wurket
Dit is hoe't it ferbiningsdiagram yn in kluster derút sjocht.

Dit is mooglik troch it feit dat in Inter-Switch Link is konfigureare tusken de SAN-stoffen fan 'e twa siden: de Fabric A OST SAN-skeakel is ferbûn mei de Fabric A NORD SAN-skeakel, en ek foar de Fabric B SAN-skeakels.

No, sadat al dizze intricacies fan SAN-fabriken sin meitsje, is Active-Active replikaasje konfigureare tusken de twa opslachsystemen: ynformaasje wurdt hast tagelyk skreaun nei de lokale en opslachsystemen op ôfstân, RPO = 0. It docht bliken dat de orizjinele gegevens wurde opslein op ien opslachsysteem, en har replika wurdt opslein op 'e oare. Gegevens wurde replikearre op it nivo fan opslachvoluminten, en de VM-gegevens (syn skiven, konfiguraasjetriem, wikselbestân, ensfh.) wurde opslein op har.

De ESXi-host sjocht it primêre folume en syn replika as ien skiifapparaat (Storage Device). D'r binne 24 paden fan 'e ESXi-host nei elk skiifapparaat:

12 paden ferbine it mei it lokale opslachsysteem (optimale paden), en de oerbleaune 12 mei it opslachsysteem op ôfstân (net-optimale paden). Yn in normale situaasje, tagong ESXi gegevens op de lokale opslach systeem mei help fan "optimale" paden. Wannear't dit opslach systeem mislearret, ferliest ESXi optimale paden en skeakelt nei "net-optimale" ones. Dit is hoe't it liket op it diagram.

Disaster Resilient Cloud: Hoe it wurket
Skema fan in ramp-proof kluster.

Alle kliïntnetwurken binne ferbûn mei beide siden fia in mienskiplike netwurkstof. Elke side rint in Provider Edge (PE), wêrop de netwurken fan 'e kliïnt wurde beëinige. PE's wurde ferienige yn in mienskiplik kluster. As in PE op ien side mislearret, wurdt alle ferkear omlaat nei de twadde side. Hjirmei bliuwe firtuele masines fan 'e side oerbleaun sûnder PE tagonklik oer it netwurk foar de kliïnt.

Litte wy no sjen wat der sil barre mei firtuele masines fan kliïnten tidens ferskate flaters. Litte wy begjinne mei de lichtste opsjes en einigje mei de meast serieuze - mislearjen fan 'e heule side. Yn 'e foarbylden sil it haadplatfoarm OST wêze, en it backupplatfoarm, mei replika's fan gegevens, sil NORD wêze.

Wat bart der mei de client firtuele masine as ...

Replikaasjekeppeling mislearret. Replikaasje tusken de opslachsystemen fan 'e twa siden stopt.
ESXi sil allinnich wurkje mei lokale skiif apparaten (fia optimale paden).
Firtuele masines wurkje fierder.

Disaster Resilient Cloud: Hoe it wurket

De ISL (Inter-Switch Link) brekt. De saak is net wierskynlik. Behalven as guon gekke graafmachines tagelyk ferskate optyske rûtes opgrave, dy't rinne op ûnôfhinklike rûtes en wurde troch ferskate yngongen nei de siden brocht. Mar hoe dan ek. Yn dit gefal ferlieze ESXi-hosts de helte fan 'e paden en kinne allinich tagong krije ta har lokale opslachsystemen. Replika's wurde sammele, mar hosts sille net by steat wêze om tagong ta harren.

Firtuele masines wurkje normaal.

Disaster Resilient Cloud: Hoe it wurket

De SAN-skeakel mislearret op ien fan 'e siden. ESXi-hosts ferlieze guon fan 'e paden nei it opslachsysteem. Yn dit gefal sille de hosts op 'e side wêr't de skeakel mislearre wurkje allinich fia ien fan har HBA's.

De firtuele masines bliuwe normaal wurkje.

Disaster Resilient Cloud: Hoe it wurket

Alle SAN skakelaars op ien fan 'e siden fail. Litte wy sizze dat sa'n ramp barde op 'e OST-side. Yn dit gefal sille ESXi-hosts op dizze side alle paden nei har skiifapparaten ferlieze. De standert VMware vSphere HA-meganisme komt yn spiel: it sil alle firtuele masines fan 'e OST-side yn NORD yn maksimaal 140 sekonden opnij starte.

Firtuele masines dy't rinne op NORD-sidehosts wurkje normaal.

Disaster Resilient Cloud: Hoe it wurket

De ESXi-host falt op ien side. Hjir wurket it vSphere HA-meganisme wer: firtuele masines fan 'e mislearre host wurde opnij starte op oare hosts - op deselde of op ôfstân side. De werstarttiid fan 'e firtuele masine is oant 1 minút.

As alle ESXi-hosts op 'e OST-side mislearje, binne d'r gjin opsjes: de VM's wurde opnij starte op in oare. Restart tiid is itselde.

Disaster Resilient Cloud: Hoe it wurket

It opslachsysteem mislearret op ien side. Litte wy sizze dat it opslachsysteem mislearret op 'e OST-side. Dan skeakelje de ESXi-hosts fan 'e OST-side oer nei wurkjen mei opslachreplika's yn NORD. Neidat it mislearre opslachsysteem weromkomt yn tsjinst, sil twongen replikaasje foarkomme en de ESXi OST-hosts sille opnij begjinne mei tagong ta it lokale opslachsysteem.

Firtuele masines hawwe al dizze tiid normaal wurke.

Disaster Resilient Cloud: Hoe it wurket

Ien fan 'e siden mislearret. Yn dit gefal wurde alle firtuele masines opnij starte op 'e reservekopyside fia it vSphere HA-meganisme. VM werstart tiid is 140 sekonden. Yn dit gefal wurde alle netwurkynstellingen fan 'e firtuele masine bewarre, en it bliuwt tagonklik foar de kliïnt oer it netwurk.

Om derfoar te soargjen dat it trochstarten fan masines op 'e reservekopyside soepel giet, is elke side mar heal fol. De twadde helte is in reserve yn it gefal dat alle firtuele masines ferpleatse fan 'e twadde, skansearre side.

Disaster Resilient Cloud: Hoe it wurket

In ramp-resistinte wolk basearre op twa datasintra beskermet tsjin sokke mislearrings.

Dizze wille is net goedkeap, om't, neist de wichtichste boarnen, in reserve nedich is op 'e twadde side. Dêrom wurde saaklike krityske tsjinsten yn sa'n wolk pleatst, wêrfan de lange-termyn downtime grutte finansjele en reputaasjeferlies feroarsaket, of as it ynformaasjesysteem ûnderwurpen is oan easken foar rampbestendigheid fan tafersjochhâlders of ynterne bedriuwsregels.

Boarne:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Boarne: www.habr.com

Add a comment