Awan Tahan Bencana: Cara Kerjane

Hey Habr!

Sawise preian Taun Anyar, kita mbukak maneh awan tahan bencana adhedhasar rong situs. Dina iki kita bakal pitutur marang kowe cara kerjane lan nuduhake apa sing kedadeyan ing mesin virtual klien nalika unsur individu saka kluster gagal lan kabeh situs nabrak (spoiler - kabeh apik karo wong-wong mau).

Awan Tahan Bencana: Cara Kerjane
Sistem panyimpenan awan sing tahan bencana ing situs OST.

Apa sing ana ing njero

Ing hood, cluster wis server Cisco UCS karo hypervisor VMware ESXi, loro sistem panyimpenan INFINIDAT InfiniBox F2240, peralatan jaringan Cisco Nexus, uga ngalih Brocade SAN. Kluster kasebut dipΓ©rang dadi rong situs - OST lan NORD, yaiku saben pusat data duwe peralatan sing padha. Bener, iki sing nggawe tahan bencana.

Ing siji situs, unsur utama uga diduplikasi (host, switch SAN, jaringan).
Loro situs kasebut disambungake kanthi rute serat optik khusus, uga dilindhungi undhang-undhang.

Sawetara tembung babagan sistem panyimpenan. Kita mbangun versi pisanan awan tahan bencana ing NetApp. Ing kene kita milih INFINIDAT, mulane:

  • Pilihan replikasi Aktif-Aktif. Iki ngidini mesin virtual tetep operasional sanajan salah sawijining sistem panyimpenan gagal. Aku bakal pitutur marang kowe liyane babagan replikasi mengko.
  • Telung pengontrol disk kanggo nambah toleransi kesalahan sistem. Biasane ana loro.
  • Solusi siap. Kita nampa rak sing wis dirakit sing mung kudu disambungake menyang jaringan lan diatur.
  • Dhukungan teknis sing enten. Insinyur INFINIDAT terus-terusan nganalisa log lan acara sistem panyimpenan, nginstal versi perangkat kukuh anyar, lan mbantu konfigurasi.

Ing ngisor iki sawetara foto saka unpacking:

Awan Tahan Bencana: Cara Kerjane

Awan Tahan Bencana: Cara Kerjane

Cara kerjane

Awan kasebut wis tahan kesalahan ing awake dhewe. Iki nglindhungi klien saka kegagalan hardware lan piranti lunak siji. Tahan bencana bakal mbantu nglindhungi kegagalan gedhe ing siji situs: contone, kegagalan sistem panyimpenan (utawa kluster SDS, sing asring kedadeyan πŸ™‚), kesalahan gedhe ing jaringan panyimpenan, lsp. Inggih, lan sing paling penting: maya kuwi nyimpen nalika kabeh situs dadi ora bisa diakses amarga kobongan, pemadaman, pengambilalihan raider, utawa pendaratan asing.

Ing kabeh kasus kasebut, mesin virtual klien terus bisa digunakake, lan mulane.

Desain kluster dirancang supaya sembarang host ESXi karo mesin virtual klien bisa ngakses samubarang loro sistem panyimpenan. Yen sistem panyimpenan ing situs OST gagal, mesin virtual bakal terus bisa: host sing lagi mlaku bakal ngakses sistem panyimpenan ing NORD kanggo data.

Awan Tahan Bencana: Cara Kerjane
Iki minangka diagram sambungan ing kluster.

Iki bisa amarga kasunyatan sing Link Inter-Switch diatur antarane kain SAN saka rong situs: Kain A OST SAN ngalih disambungake menyang Kain A NORD SAN ngalih, lan uga kanggo Kain B SAN ngalih.

Dadi, supaya kabeh kerumitan pabrik SAN iki bisa dingerteni, replikasi Aktif-Aktif dikonfigurasi ing antarane rong sistem panyimpenan: informasi meh bebarengan ditulis menyang sistem panyimpenan lokal lan remot, RPO = 0. Pranyata data asli disimpen ing siji sistem panyimpenan, lan replika disimpen ing sisih liyane. Data ditiru ing tingkat volume panyimpenan, lan data VM (disk, file konfigurasi, file swap, lan sapiturute) disimpen ing kono.

Host ESXi ndeleng volume utami lan replika minangka piranti disk siji (Piranti Panyimpenan). Ana 24 jalur saka host ESXi menyang saben piranti disk:

12 path nyambung menyang sistem panyimpenan lokal (path optimal), lan 12 isih kanggo sistem panyimpenan remot (path non-optimal). Ing kahanan normal, ESXi ngakses data ing sistem panyimpenan lokal nggunakake dalan "optimal". Nalika sistem panyimpenan iki gagal, ilang ESXi dalan optimal lan ngalih menyang "non-optimal". Iki sing katon ing diagram.

Awan Tahan Bencana: Cara Kerjane
Skema cluster anti bencana.

Kabeh jaringan klien disambungake menyang loro situs liwat kain jaringan umum. Saben situs nganggo Provider Edge (PE), ing ngendi jaringan klien dihentikan. PE digabung dadi klompok umum. Yen PE gagal ing siji situs, kabeh lalu lintas dialihake menyang situs liya. Thanks kanggo iki, mesin virtual saka situs sing ditinggal tanpa PE tetep bisa diakses liwat jaringan menyang klien.

Ayo saiki ndeleng apa sing bakal kelakon ing mesin virtual klien sajrone macem-macem kegagalan. Ayo miwiti kanthi pilihan sing paling entheng lan pungkasane kanthi sing paling serius - kegagalan kabeh situs. Ing conto, platform utama bakal dadi OST, lan platform serep, kanthi replika data, bakal dadi NORD.

Apa sing kedadeyan ing mesin virtual klien yen ...

Link Replikasi gagal. Replikasi antarane sistem panyimpenan saka rong situs mandheg.
ESXi mung bisa digunakake karo piranti disk lokal (liwat jalur optimal).
Mesin virtual terus kerja.

Awan Tahan Bencana: Cara Kerjane

ISL (Inter-Switch Link) putus. Kasus iki ora mungkin. Kajaba sawetara excavator edan digs munggah sawetara rute optik bebarengan, kang mbukak ing rute independen lan digawa menyang situs liwat masukan beda. Nanging piye wae. Ing kasus iki, host ESXi ilang setengah saka dalan lan mung bisa ngakses sistem panyimpenan lokal. Replika diklumpukake, nanging host ora bisa ngakses.

Mesin virtual bisa digunakake kanthi normal.

Awan Tahan Bencana: Cara Kerjane

Ngalih SAN gagal ing salah sawijining situs. ESXi sarwa dumadi ilang sawetara saka dalan kanggo sistem panyimpenan. Ing kasus iki, host ing situs sing gagal switch bakal bisa digunakake mung liwat salah sawijining HBA.

Mesin virtual terus beroperasi kanthi normal.

Awan Tahan Bencana: Cara Kerjane

Kabeh ngalih SAN ing salah siji situs gagal. Ayo ngomong yen ana bencana ing situs OST. Ing kasus iki, host ESXi ing situs iki bakal kelangan kabeh dalan menyang piranti disk. Mekanisme VMware vSphere HA standar teka menyang muter: bakal miwiti maneh kabeh mesin virtual saka situs OST ing NORD ing maksimum 140 detik.

Mesin virtual sing mlaku ing host situs NORD beroperasi kanthi normal.

Awan Tahan Bencana: Cara Kerjane

Host ESXi gagal ing siji situs. Kene mekanisme vSphere HA bisa maneh: mesin virtual saka host gagal diwiwiti maneh ing host liyane - ing situs sing padha utawa adoh. Wektu miwiti maneh mesin virtual nganti 1 menit.

Yen kabeh host ESXi ing situs OST gagal, ora ana pilihan: VMs diwiwiti maneh ing liyane. Wektu miwiti maneh padha.

Awan Tahan Bencana: Cara Kerjane

Sistem panyimpenan gagal ing siji situs. Ayo dadi sistem panyimpenan gagal ing situs OST. Banjur sarwa dumadi ESXi saka situs OST ngalih kanggo karya karo replika panyimpenan ing NORD. Sawise sistem panyimpenan gagal bali menyang layanan, bakal replikasi dipeksa lan host ESXi OST bakal maneh miwiti ngakses sistem panyimpenan lokal.

Mesin virtual wis digunakake kanthi normal sajrone wektu iki.

Awan Tahan Bencana: Cara Kerjane

Salah sawijining situs gagal. Ing kasus iki, kabeh mesin virtual bakal diwiwiti maneh ing situs serep liwat mekanisme vSphere HA. Wektu miwiti maneh VM yaiku 140 detik. Ing kasus iki, kabeh setelan jaringan mesin virtual bakal disimpen, lan tetep bisa diakses klien liwat jaringan.

Kanggo mesthekake yen miwiti maneh mesin ing situs serep dadi lancar, saben situs mung setengah kebak. Setengah kapindho minangka cadangan yen kabeh mesin virtual pindhah saka situs sing rusak.

Awan Tahan Bencana: Cara Kerjane

A maya tahan bencana adhedhasar rong pusat data nglindhungi saka kegagalan kasebut.

Kesenengan iki ora murah, amarga, saliyane sumber daya utama, cadangan dibutuhake ing situs liya. Mulane, layanan bisnis-kritis diselehake ing maya kuwi, downtime long-term kang nimbulakΓ© mundhut financial lan reputasi gedhe, utawa yen sistem informasi tundhuk karo syarat-tahan bilai saka regulator utawa peraturan perusahaan internal.

Sumber:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Source: www.habr.com

Add a comment