Awan Tahan Bencana: Kumaha Gawéna

Héy Habr!

Saatos liburan Taun Anyar, urang ngaluncurkeun deui awan bukti bencana dumasar kana dua situs. Dinten ieu kami bakal ngabejaan ka maneh kumaha gawéna sarta nembongkeun naon kajadian ka mesin virtual klien nalika elemen individu klaster gagal sarta sakabéh situs ngadat (spoiler - sagalana geus rupa jeung aranjeunna).

Awan Tahan Bencana: Kumaha Gawéna
Sistem panyimpenan awan tahan bencana dina situs OST.

Naon anu aya di jero

Dina tiung, klaster boga server Cisco UCS kalawan hypervisor VMware ESXi, dua sistem gudang INFINIDAT InfiniBox F2240, alat jaringan Cisco Nexus, kitu ogé saklar Brocade San. Kluster dibagi jadi dua situs - OST sareng NORD, nyaéta unggal pusat data ngagaduhan set alat anu sami. Sabenerna, ieu anu ngajadikeun eta tahan bencana.

Dina hiji situs, elemen utama ogé duplikat (host, saklar SAN, jaringan).
Dua situs disambungkeun ku jalur serat optik dedicated, ogé ditangtayungan.

Sababaraha kecap ngeunaan sistem gudang. Kami ngawangun versi munggaran awan anu tahan bencana dina NetApp. Di dieu kami milih INFINIDAT, sareng ieu sababna:

  • Pilihan réplikasi aktip-aktip. Hal ieu ngamungkinkeun mesin virtual tetep operasional sanajan salah sahiji sistem gudang sagemblengna gagal. Kuring gé ngabejaan Anjeun langkung seueur ngeunaan réplikasi engké.
  • Tilu controller disk pikeun ngaronjatkeun kasabaran sesar sistem. Biasana aya dua.
  • Solusi siap. Kami nampi rak tos dirakit anu ngan ukur kedah dihubungkeun sareng jaringan sareng dikonpigurasi.
  • rojongan teknis attentive. Insinyur INFINIDAT terus-terusan nganalisis log sareng acara sistem panyimpenan, masang versi firmware énggal, sareng ngabantosan konfigurasi.

Ieu sababaraha poto tina ngabongkar bungkusan:

Awan Tahan Bencana: Kumaha Gawéna

Awan Tahan Bencana: Kumaha Gawéna

Kumaha gawéna

Awan geus toleran kasalahan dina dirina sorangan. Éta ngajaga klien tina gagalna hardware sareng software tunggal. Tahan bencana bakal ngabantosan ngajagaan tina kagagalan anu ageung dina hiji situs: contona, gagalna sistem panyimpen (atanapi klaster SDS, anu sering kajantenan 🙂), kasalahan anu ageung dina jaringan panyimpen, jsb. Nya, sareng anu paling penting: awan sapertos kitu ngahemat nalika sadaya situs janten teu tiasa diaksés kusabab kahuruan, pareum, panyandang raider, atanapi pendaratan alien.

Dina sadaya kasus ieu, mesin virtual klien terus jalan, sareng ieu sababna.

Desain klaster dirancang ku kituna sagala host ESXi kalawan mesin virtual klien bisa ngakses salah sahiji dua sistem gudang. Upami sistem panyimpen dina situs Ost gagal, mesin virtual bakal terus jalan: host anu dijalankeun bakal ngaksés sistem panyimpen dina NORD pikeun data.

Awan Tahan Bencana: Kumaha Gawéna
Ieu naon diagram sambungan dina klaster Sigana mah.

Ieu mungkin alatan kanyataan yén hiji Inter-Switch Patalina geus ngonpigurasi antara fabrics San dua situs: lawon A Ost San switch disambungkeun ka lawon A NORD SAN switch, sarta sarupa pikeun lawon B San switch.

Nya, supados sadaya intricacies pabrik SAN ieu masuk akal, réplikasi Aktif-Aktif dikonpigurasi antara dua sistem panyimpen: inpormasi ampir sakaligus ditulis kana sistem panyimpen lokal sareng jauh, RPO = 0. Tétéla yén data asli disimpen dina hiji sistem panyimpen, sareng réplikana disimpen dina anu sanés. Data direplikasi dina tingkat volume gudang, sareng data VM (disk na, file konfigurasi, file swap, jsb) disimpen dina éta.

ESXi host ningali volume primér sarta replica na salaku hiji alat disk (Panyimpenan Alat). Aya 24 jalur ti host ESXi ka unggal alat disk:

12 jalur nyambungkeun ka sistem gudang lokal (jalur optimal), sarta sésana 12 ka sistem gudang jauh (jalur non-optimal). Dina kaayaan normal, ESXi ngakses data dina sistem gudang lokal ngagunakeun "optimal" jalur. Nalika sistem gudang ieu gagal, leungit ESXi jalur optimal sarta pindah ka "non-optimal". Ieu naon kasampak kawas dina diagram.

Awan Tahan Bencana: Kumaha Gawéna
Skéma klaster tahan bencana.

Sadaya jaringan klien disambungkeun ka duanana situs ngaliwatan lawon jaringan umum. Unggal situs ngajalankeun Provider Edge (PE), dimana jaringan klien diputus. PEs dihijikeun kana klaster umum. Upami PE gagal dina hiji situs, sadaya lalu lintas dialihkeun ka situs kadua. Hatur nuhun kana ieu, mesin virtual tina situs ditinggalkeun tanpa PE tetep diaksés ngaliwatan jaringan ka klien nu.

Ayeuna hayu urang tingali naon anu bakal kajadian ka mesin virtual klien salami sababaraha gagal. Hayu urang mimitian ku pilihan anu paling hampang sareng ditungtungan ku anu paling serius - kagagalan sadaya situs. Dina conto, platform utama bakal OST, sarta platform cadangan, kalawan réplika data, bakal NORD.

Naon anu lumangsung ka mesin virtual klien upami ...

Replikasi Tumbu gagal. Réplikasi antara sistem neundeun dua situs eureun.
ESXi ngan bakal tiasa dianggo sareng alat disk lokal (via jalur optimal).
Mesin virtual terus jalan.

Awan Tahan Bencana: Kumaha Gawéna

ISL (Inter-Switch Link) ngarecah. Kajadian anu teu mungkin. Iwal sababaraha excavator gélo digs nepi sababaraha ruteu optik sakaligus, nu ngajalankeun on ruteu bebas sarta dibawa ka loka ngaliwatan inputs béda. Tapi atoh. Dina hal ieu, ESXi sarwa leungit satengah tina jalur sarta ngan bisa ngakses sistem gudang lokal maranéhanana. Réplika dikumpulkeun, tapi host moal tiasa ngaksésana.

Mesin virtual berpungsi normal.

Awan Tahan Bencana: Kumaha Gawéna

Saklar SAN gagal dina salah sahiji situs. ESXi sarwa leungit sababaraha jalur ka sistem gudang. Dina hal ieu, host dina situs dimana switch gagal bakal dianggo ukur ngaliwatan salah sahiji HBAs maranéhanana.

Mesin virtual terus beroperasi sacara normal.

Awan Tahan Bencana: Kumaha Gawéna

Sadaya saklar SAN dina salah sahiji situs gagal. Sebutkeun musibah sapertos kitu lumangsung dina situs OST. Dina hal ieu, host ESXi dina situs ieu bakal leungit sadaya jalur ka alat disk na. Mékanisme VMware vSphere HA baku asalna kana antrian: eta bakal balikan deui sadaya mesin virtual tina situs Ost di NORD dina maksimum 140 detik.

Mesin virtual anu dijalankeun dina host situs NORD beroperasi sacara normal.

Awan Tahan Bencana: Kumaha Gawéna

Host ESXi gagal dina hiji situs. Di dieu mékanisme vSphere HA jalan deui: mesin virtual ti host gagal restarted on host séjén - dina situs anu sarua atawa jauh. Waktu balikan deui mesin virtual dugi ka 1 menit.

Lamun sakabeh host ESXi dina situs Ost gagal, euweuh pilihan: VMs restarted on sejen. Balikan deui waktos sami.

Awan Tahan Bencana: Kumaha Gawéna

Sistem panyimpenan gagal dina hiji situs. Hayu urang nyebutkeun sistem gudang gagal dina situs OST. Lajeng sarwa ESXi loka Ost pindah ka gawé bareng réplika gudang di NORD. Saatos sistem gudang gagal balik deui ka layanan, bakal lumangsung réplikasi kapaksa sarta host ESXi Ost deui ngawitan ngakses sistem gudang lokal.

Mesin virtual parantos jalan normal salami ieu.

Awan Tahan Bencana: Kumaha Gawéna

Salah sahiji situs gagal. Dina hal ieu, sadaya mesin virtual bakal restarted dina situs cadangan ngaliwatan mékanisme vSphere HA. waktos balikan deui VM nyaéta 140 detik. Dina hal ieu, sadaya setelan jaringan tina mesin virtual bakal disimpen, sarta eta tetep diaksés ku klien ngaliwatan jaringan.

Pikeun mastikeun yén balikan deui mesin di situs cadangan lancar, unggal situs ngan ukur satengah pinuh. Satengah kadua mangrupa cagar bisi sakabeh mesin virtual pindah ti kadua, situs ruksak.

Awan Tahan Bencana: Kumaha Gawéna

A awan tahan bencana dumasar kana dua puseur data ngajaga ngalawan gagal misalna.

Kasenangan ieu henteu mirah, sabab, sajaba sumber daya utama, peryogi cagar dina situs kadua. Ku alatan éta, jasa bisnis-kritis disimpen dina awan sapertos, downtime jangka panjang nu ngabalukarkeun karugian finansial sarta reputasi badag, atawa lamun sistem informasi tunduk kana syarat bencana-resilience ti régulator atawa peraturan parusahaan internal.

sumber:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

sumber: www.habr.com

Tambahkeun komentar