Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Hoy Habr!

Pagkahuman sa mga pangilin sa Bag-ong Tuig, gilusad namon ang usa ka panganod nga wala’y katalagman nga gibase sa duha ka mga site. Karon isulti namon kanimo kung giunsa kini molihok ug ipakita kung unsa ang mahitabo sa mga virtual machine sa kliyente kung ang indibidwal nga mga elemento sa cluster mapakyas ug ang tibuuk nga site nahagsa (spoiler - ang tanan maayo sa kanila).

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho
Disaster-resistant nga cloud storage system sa OST site.

Unsa ang naa sa sulod

Ubos sa hood, ang cluster adunay Cisco UCS servers nga adunay VMware ESXi hypervisor, duha ka INFINIDAT InfiniBox F2240 storage systems, Cisco Nexus network equipment, ingon man ang Brocade SAN switch. Ang cluster gibahin sa duha ka mga site - OST ug NORD, i.e. ang matag data center adunay parehas nga set sa kagamitan. Sa tinuud, kini ang nakapahimo niini nga dili makasugakod sa katalagman.

Sulod sa usa ka site, ang mga nag-unang elemento gikopya usab (mga host, SAN switch, networking).
Ang duha ka mga site konektado sa gipahinungod nga mga ruta sa fiber optic, gireserba usab.

Pipila ka mga pulong bahin sa mga sistema sa pagtipig. Gitukod namo ang unang bersyon sa cloud-proof sa kalamidad sa NetApp. Dinhi among gipili ang INFINIDAT, ug mao kini ang hinungdan:

  • Aktibo-Aktibo nga replikasyon kapilian. Gitugotan niini ang virtual nga makina nga magpabilin nga magamit bisan kung ang usa sa mga sistema sa pagtipig hingpit nga napakyas. Isulti ko kanimo ang dugang bahin sa pagkopya sa ulahi.
  • Tulo ka mga controller sa disk aron madugangan ang pagtugot sa sayup sa sistema. Kasagaran adunay duha.
  • Andam nga solusyon. Nakadawat kami usa ka pre-assembled rack nga kinahanglan ra nga konektado sa network ug ma-configure.
  • Atentibo nga teknikal nga suporta. Ang mga inhenyero sa INFINIDAT kanunay nga nag-analisar sa mga log ug panghitabo sa sistema sa pagtipig, nag-install og bag-ong mga bersyon sa firmware, ug nagtabang sa pag-configure.

Ania ang pipila ka mga litrato gikan sa pag-unpack:

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Giunsa kini pagtrabaho

Ang panganod kay fault-tolerant na sa sulod sa iyang kaugalingon. Gipanalipdan niini ang kliyente gikan sa usa ka pagkapakyas sa hardware ug software. Ang resistensya sa katalagman makatabang sa pagpanalipod batok sa daghang mga kapakyasan sa sulod sa usa ka site: pananglitan, pagkapakyas sa usa ka sistema sa pagtipig (o usa ka kumpol sa SDS, nga kanunay mahitabo πŸ™‚), daghang mga sayup sa usa ka network sa pagtipig, ug uban pa. Aw, ug labing hinungdanon: ang ingon nga panganod makaluwas kung ang usa ka tibuuk nga site dili ma-access tungod sa usa ka sunog, blackout, pagkuha sa raider, o pag-landing sa langyaw.

Sa tanan niini nga mga kaso, ang kliyente nga virtual machine nagpadayon sa pagtrabaho, ug ania kung ngano.

Ang disenyo sa cluster gidisenyo aron ang bisan kinsang ESXi host nga adunay kliyente nga virtual machine maka-access sa bisan hain sa duha ka storage system. Kung ang sistema sa pagtipig sa site sa OST mapakyas, ang mga virtual nga makina magpadayon sa pagtrabaho: ang mga host nga ilang gipadagan maka-access sa sistema sa pagtipig sa NORD alang sa datos.

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho
Kini ang hitsura sa diagram sa koneksyon sa usa ka cluster.

Posible kini tungod sa kamatuoran nga ang usa ka Inter-Switch Link gi-configure tali sa mga tela sa SAN sa duha ka mga site: ang Fabric A OST SAN switch konektado sa Fabric A NORD SAN switch, ug parehas alang sa Fabric B SAN switch.

Aw, aron ang tanan nga kini nga mga intricacies sa mga pabrika sa SAN adunay kahulugan, ang Aktibo nga Aktibo nga replikasyon gi-configure taliwala sa duha nga mga sistema sa pagtipig: ang kasayuran hapit dungan nga gisulat sa lokal ug hilit nga mga sistema sa pagtipig, RPO = 0. Kini nahimo nga ang orihinal nga datos gitipigan sa usa ka sistema sa pagtipig, ug ang replika niini gitipigan sa pikas. Ang datos gikopya sa lebel sa mga volume sa pagtipig, ug ang datos sa VM (mga disk niini, configuration file, swap file, ug uban pa) gitipigan niini.

Ang host sa ESXi nakakita sa nag-unang gidaghanon ug ang replika niini isip usa ka disk device (Storage Device). Adunay 24 ka mga agianan gikan sa ESXi host ngadto sa matag disk device:

Ang 12 nga mga agianan nagkonektar niini sa lokal nga sistema sa pagtipig (optimal nga mga agianan), ug ang nahabilin nga 12 sa hilit nga sistema sa pagtipig (non-optimal nga mga agianan). Sa usa ka normal nga sitwasyon, ang ESXi nag-access sa datos sa lokal nga sistema sa pagtipig gamit ang "optimal" nga mga agianan. Kung mapakyas kini nga sistema sa pagtipig, ang ESXi mawad-an sa labing maayo nga mga agianan ug mobalhin sa mga "dili maayo". Mao kini ang hitsura sa diagram.

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho
Scheme sa usa ka disaster-proof cluster.

Ang tanan nga mga network sa kliyente konektado sa duha nga mga site pinaagi sa usa ka sagad nga panapton sa network. Ang matag site nagpadagan sa usa ka Provider Edge (PE), diin ang mga network sa kliyente gitapos. Ang mga PE gihiusa ngadto sa usa ka komon nga cluster. Kung ang usa ka PE mapakyas sa usa ka site, ang tanan nga trapiko ma-redirect sa ikaduha nga site. Salamat niini, ang mga virtual machine gikan sa site nga nahabilin nga wala PE nagpabilin nga ma-access sa network sa kliyente.

Atong tan-awon kung unsa ang mahitabo sa mga virtual machine sa kliyente sa panahon sa lainlaing mga kapakyasan. Magsugod kita sa labing gaan nga mga kapilian ug matapos sa labing grabe - kapakyasan sa tibuuk nga site. Sa mga pananglitan, ang panguna nga plataporma mao ang OST, ug ang backup nga plataporma, nga adunay mga replika sa datos, mahimong NORD.

Unsa ang mahitabo sa kliyente nga virtual machine kung...

Napakyas ang Replication Link. Ang pagkopya tali sa mga sistema sa pagtipig sa duha ka mga site mihunong.
Ang ESXi magtrabaho lamang sa mga lokal nga disk device (pinaagi sa labing maayo nga mga agianan).
Ang mga virtual nga makina nagpadayon sa pagtrabaho.

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Ang ISL (Inter-Switch Link) naguba. Ang kaso dili posible. Gawas kung ang usa ka buang nga excavator magkalot sa daghang mga optical nga ruta sa usa ka higayon, nga nagdagan sa mga independente nga ruta ug gidala sa mga site pinaagi sa lainlaing mga input. Apan bisan pa man. Sa kini nga kaso, ang mga host sa ESXi mawad-an sa katunga sa mga agianan ug maka-access lamang sa ilang mga lokal nga sistema sa pagtipig. Ang mga replika gikolekta, apan ang mga host dili maka-access niini.

Ang mga virtual nga makina nagtrabaho sa normal.

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Ang switch sa SAN napakyas sa usa sa mga site. Ang mga host sa ESXi nawad-an sa pipila nga mga agianan padulong sa sistema sa pagtipig. Sa kini nga kaso, ang mga host sa site kung diin napakyas ang switch molihok lamang pinaagi sa usa sa ilang mga HBA.

Ang mga virtual machine nagpadayon sa pag-operate nga normal.

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Ang tanan nga SAN switch sa usa sa mga site napakyas. Ingnon ta nga ang ingon nga katalagman nahitabo sa site sa OST. Sa kini nga kaso, ang mga host sa ESXi sa kini nga site mawad-an sa tanan nga mga agianan sa ilang mga aparato sa disk. Ang standard nga mekanismo sa VMware vSphere HA moabut sa pagdula: kini i-restart ang tanan nga mga virtual nga makina sa OST site sa NORD sa labing taas nga 140 segundos.

Ang mga virtual nga makina nga nagdagan sa mga host sa site sa NORD normal nga naglihok.

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Ang host sa ESXi napakyas sa usa ka site. Dinhi ang mekanismo sa vSphere HA nagtrabaho pag-usab: ang mga virtual machine gikan sa napakyas nga host gi-restart sa ubang mga host - sa parehas o layo nga site. Ang oras sa pag-restart sa virtual machine hangtod sa 1 minuto.

Kung mapakyas ang tanan nga host sa ESXi sa site sa OST, wala’y kapilian: ang mga VM gi-restart sa lain. Ang oras sa pag-restart parehas.

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Ang sistema sa pagtipig napakyas sa usa ka site. Ingnon ta nga ang sistema sa pagtipig napakyas sa site sa OST. Dayon ang ESXi nga mga host sa OST site mibalhin sa pagtrabaho uban sa storage replicas sa NORD. Pagkahuman sa napakyas nga sistema sa pagtipig mobalik sa serbisyo, ang pinugos nga pagkopya mahitabo ug ang mga host sa ESXi OST magsugod na usab sa pag-access sa lokal nga sistema sa pagtipig.

Ang mga virtual nga makina kanunay nga nagtrabaho sa tanan niining panahona.

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Usa sa mga site napakyas. Sa kini nga kaso, ang tanan nga mga virtual nga makina i-restart sa backup nga site pinaagi sa vSphere HA nga mekanismo. Ang oras sa pagsugod sa VM 140 segundos. Sa kini nga kaso, ang tanan nga mga setting sa network sa virtual nga makina maluwas, ug kini nagpabilin nga ma-access sa kliyente sa network.

Aron masiguro nga ang pagsugod pag-usab sa mga makina sa backup nga site hapsay, ang matag site tunga ra nga puno. Ang ikaduha nga katunga usa ka reserba kung ang tanan nga mga virtual machine molihok gikan sa ikaduha, nadaot nga site.

Disaster Resilient Cloud: Giunsa Kini Pagtrabaho

Ang usa ka panganod nga makasugakod sa katalagman nga gibase sa duha ka sentro sa datos nanalipod batok sa maong mga kapakyasan.

Kini nga kalipayan dili barato, tungod kay, dugang sa mga nag-unang mga kahinguhaan, gikinahanglan ang usa ka reserba sa ikaduha nga site. Busa, ang mga serbisyo nga kritikal sa negosyo gibutang sa ingon nga panganod, ang dugay nga downtime nga hinungdan sa daghang mga pagkawala sa pinansyal ug reputasyon, o kung ang sistema sa kasayuran gipailalom sa mga kinahanglanon sa paglig-on sa katalagman gikan sa mga regulator o mga regulasyon sa internal nga kompanya.

Mga Tinubdan:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Source: www.habr.com

Idugang sa usa ka comment