Sawise preian Taun Anyar, kita mbukak maneh awan tahan bencana adhedhasar rong situs. Dina iki kita bakal pitutur marang kowe cara kerjane lan nuduhake apa sing kedadeyan ing mesin virtual klien nalika unsur individu saka kluster gagal lan kabeh situs nabrak (spoiler - kabeh apik karo wong-wong mau).
Sistem panyimpenan awan sing tahan bencana ing situs OST.
Ing siji situs, unsur utama uga diduplikasi (host, switch SAN, jaringan).
Loro situs kasebut disambungake kanthi rute serat optik khusus, uga dilindhungi undhang-undhang.
Sawetara tembung babagan sistem panyimpenan. Kita mbangun versi pisanan awan tahan bencana ing NetApp. Ing kene kita milih INFINIDAT, mulane:
Pilihan replikasi Aktif-Aktif. Iki ngidini mesin virtual tetep operasional sanajan salah sawijining sistem panyimpenan gagal. Aku bakal pitutur marang kowe liyane babagan replikasi mengko.
Telung pengontrol disk kanggo nambah toleransi kesalahan sistem. Biasane ana loro.
Solusi siap. Kita nampa rak sing wis dirakit sing mung kudu disambungake menyang jaringan lan diatur.
Dhukungan teknis sing enten. Insinyur INFINIDAT terus-terusan nganalisa log lan acara sistem panyimpenan, nginstal versi perangkat kukuh anyar, lan mbantu konfigurasi.
Ing ngisor iki sawetara foto saka unpacking:
Cara kerjane
Awan kasebut wis tahan kesalahan ing awake dhewe. Iki nglindhungi klien saka kegagalan hardware lan piranti lunak siji. Tahan bencana bakal mbantu nglindhungi kegagalan gedhe ing siji situs: contone, kegagalan sistem panyimpenan (utawa kluster SDS, sing asring kedadeyan π), kesalahan gedhe ing jaringan panyimpenan, lsp. Inggih, lan sing paling penting: maya kuwi nyimpen nalika kabeh situs dadi ora bisa diakses amarga kobongan, pemadaman, pengambilalihan raider, utawa pendaratan asing.
Ing kabeh kasus kasebut, mesin virtual klien terus bisa digunakake, lan mulane.
Desain kluster dirancang supaya sembarang host ESXi karo mesin virtual klien bisa ngakses samubarang loro sistem panyimpenan. Yen sistem panyimpenan ing situs OST gagal, mesin virtual bakal terus bisa: host sing lagi mlaku bakal ngakses sistem panyimpenan ing NORD kanggo data.
Iki minangka diagram sambungan ing kluster.
Iki bisa amarga kasunyatan sing Link Inter-Switch diatur antarane kain SAN saka rong situs: Kain A OST SAN ngalih disambungake menyang Kain A NORD SAN ngalih, lan uga kanggo Kain B SAN ngalih.
Dadi, supaya kabeh kerumitan pabrik SAN iki bisa dingerteni, replikasi Aktif-Aktif dikonfigurasi ing antarane rong sistem panyimpenan: informasi meh bebarengan ditulis menyang sistem panyimpenan lokal lan remot, RPO = 0. Pranyata data asli disimpen ing siji sistem panyimpenan, lan replika disimpen ing sisih liyane. Data ditiru ing tingkat volume panyimpenan, lan data VM (disk, file konfigurasi, file swap, lan sapiturute) disimpen ing kono.
Host ESXi ndeleng volume utami lan replika minangka piranti disk siji (Piranti Panyimpenan). Ana 24 jalur saka host ESXi menyang saben piranti disk:
12 path nyambung menyang sistem panyimpenan lokal (path optimal), lan 12 isih kanggo sistem panyimpenan remot (path non-optimal). Ing kahanan normal, ESXi ngakses data ing sistem panyimpenan lokal nggunakake dalan "optimal". Nalika sistem panyimpenan iki gagal, ilang ESXi dalan optimal lan ngalih menyang "non-optimal". Iki sing katon ing diagram.
Skema cluster anti bencana.
Kabeh jaringan klien disambungake menyang loro situs liwat kain jaringan umum. Saben situs nganggo Provider Edge (PE), ing ngendi jaringan klien dihentikan. PE digabung dadi klompok umum. Yen PE gagal ing siji situs, kabeh lalu lintas dialihake menyang situs liya. Thanks kanggo iki, mesin virtual saka situs sing ditinggal tanpa PE tetep bisa diakses liwat jaringan menyang klien.
Ayo saiki ndeleng apa sing bakal kelakon ing mesin virtual klien sajrone macem-macem kegagalan. Ayo miwiti kanthi pilihan sing paling entheng lan pungkasane kanthi sing paling serius - kegagalan kabeh situs. Ing conto, platform utama bakal dadi OST, lan platform serep, kanthi replika data, bakal dadi NORD.
Apa sing kedadeyan ing mesin virtual klien yen ...
Link Replikasi gagal. Replikasi antarane sistem panyimpenan saka rong situs mandheg.
ESXi mung bisa digunakake karo piranti disk lokal (liwat jalur optimal).
Mesin virtual terus kerja.
ISL (Inter-Switch Link) putus. Kasus iki ora mungkin. Kajaba sawetara excavator edan digs munggah sawetara rute optik bebarengan, kang mbukak ing rute independen lan digawa menyang situs liwat masukan beda. Nanging piye wae. Ing kasus iki, host ESXi ilang setengah saka dalan lan mung bisa ngakses sistem panyimpenan lokal. Replika diklumpukake, nanging host ora bisa ngakses.
Mesin virtual bisa digunakake kanthi normal.
Ngalih SAN gagal ing salah sawijining situs. ESXi sarwa dumadi ilang sawetara saka dalan kanggo sistem panyimpenan. Ing kasus iki, host ing situs sing gagal switch bakal bisa digunakake mung liwat salah sawijining HBA.
Mesin virtual terus beroperasi kanthi normal.
Kabeh ngalih SAN ing salah siji situs gagal. Ayo ngomong yen ana bencana ing situs OST. Ing kasus iki, host ESXi ing situs iki bakal kelangan kabeh dalan menyang piranti disk. Mekanisme VMware vSphere HA standar teka menyang muter: bakal miwiti maneh kabeh mesin virtual saka situs OST ing NORD ing maksimum 140 detik.
Mesin virtual sing mlaku ing host situs NORD beroperasi kanthi normal.
Host ESXi gagal ing siji situs. Kene mekanisme vSphere HA bisa maneh: mesin virtual saka host gagal diwiwiti maneh ing host liyane - ing situs sing padha utawa adoh. Wektu miwiti maneh mesin virtual nganti 1 menit.
Yen kabeh host ESXi ing situs OST gagal, ora ana pilihan: VMs diwiwiti maneh ing liyane. Wektu miwiti maneh padha.
Sistem panyimpenan gagal ing siji situs. Ayo dadi sistem panyimpenan gagal ing situs OST. Banjur sarwa dumadi ESXi saka situs OST ngalih kanggo karya karo replika panyimpenan ing NORD. Sawise sistem panyimpenan gagal bali menyang layanan, bakal replikasi dipeksa lan host ESXi OST bakal maneh miwiti ngakses sistem panyimpenan lokal.
Mesin virtual wis digunakake kanthi normal sajrone wektu iki.
Salah sawijining situs gagal. Ing kasus iki, kabeh mesin virtual bakal diwiwiti maneh ing situs serep liwat mekanisme vSphere HA. Wektu miwiti maneh VM yaiku 140 detik. Ing kasus iki, kabeh setelan jaringan mesin virtual bakal disimpen, lan tetep bisa diakses klien liwat jaringan.
Kanggo mesthekake yen miwiti maneh mesin ing situs serep dadi lancar, saben situs mung setengah kebak. Setengah kapindho minangka cadangan yen kabeh mesin virtual pindhah saka situs sing rusak.
A maya tahan bencana adhedhasar rong pusat data nglindhungi saka kegagalan kasebut.