Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

Hey Xabr!

Yangi yil bayramlaridan so'ng biz ikkita saytga asoslangan ofatlarga chidamli bulutni qayta ishga tushirdik. Bugun biz sizga uning qanday ishlashini aytib beramiz va klasterning alohida elementlari ishlamay qolganda va butun sayt ishdan chiqqanida mijoz virtual mashinalari bilan nima sodir bo'lishini ko'rsatamiz (spoiler - ular bilan hamma narsa yaxshi).

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi
OST saytida ofatga chidamli bulutli saqlash tizimi.

Ichkarida

Kaput ostida klasterda VMware ESXi gipervisoriga ega Cisco UCS serverlari, ikkita INFINIDAT InfiniBox F2240 saqlash tizimi, Cisco Nexus tarmoq uskunalari, shuningdek Brocade SAN kalitlari mavjud. Klaster ikkita saytga bo'lingan - OST va NORD, ya'ni har bir ma'lumot markazida bir xil uskunalar to'plami mavjud. Aslida, bu uni ofatga chidamli qiladi.

Bitta sayt ichida asosiy elementlar ham takrorlanadi (xostlar, SAN kalitlari, tarmoq).
Ikki sayt ajratilgan optik tolali yo'llar bilan bog'langan, shuningdek, ajratilgan.

Saqlash tizimlari haqida bir necha so'z. Biz NetApp-da ofatlarga chidamli bulutning birinchi versiyasini yaratdik. Bu erda biz INFINIDAT ni tanladik va nima uchun:

  • Faol-faol replikatsiya opsiyasi. Saqlash tizimlaridan biri to'liq ishdan chiqqan taqdirda ham virtual mashinaning ishlashini ta'minlaydi. Replikatsiya haqida keyinroq aytib beraman.
  • Tizim xatolariga chidamliligini oshirish uchun uchta disk boshqaruvchisi. Odatda ikkitasi bor.
  • Tayyor yechim. Biz oldindan yig'ilgan raftni oldik, uni faqat tarmoqqa ulash va sozlash kerak.
  • Diqqatli texnik yordam. INFINIDAT muhandislari doimiy ravishda saqlash tizimi jurnallari va hodisalarini tahlil qiladi, yangi proshivka versiyalarini o'rnatadi va konfiguratsiyada yordam beradi.

Mana, qadoqdan yechib olingan suratlar:

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

Qanday ishlaydi

Bulut allaqachon o'z ichida xatolarga chidamli. Bu mijozni bitta apparat va dasturiy ta'minotdagi nosozliklardan himoya qiladi. Tabiiy ofatlarga chidamlilik bitta saytdagi katta nosozliklardan himoya qilishga yordam beradi: masalan, saqlash tizimining ishlamay qolishi (yoki tez-tez sodir bo'ladigan SDS klasteri πŸ™‚), saqlash tarmog'idagi katta xatolar va boshqalar. Xo'sh, va eng muhimi: bunday bulut butun sayt yong'in, o'chirish, reydchilar tomonidan bosib olinishi yoki begona qo'nish tufayli kirish imkoni bo'lmaganda qutqaradi.

Ushbu holatlarning barchasida mijoz virtual mashinalari ishlashda davom etadi va buning sababi.

Klaster dizayni mijoz virtual mashinalari bo'lgan har qanday ESXi xostlari ikkita saqlash tizimidan istalganiga kirishi uchun mo'ljallangan. Agar OST saytidagi saqlash tizimi ishlamay qolsa, virtual mashinalar ishlashda davom etadi: ular ishlayotgan xostlar ma'lumotlar uchun NORDdagi saqlash tizimiga kirishadi.

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi
Klasterdagi ulanish sxemasi shunday ko'rinadi.

Bu ikki saytning SAN matolari o'rtasida Inter-Switch Link konfiguratsiya qilinganligi sababli mumkin: Fabric A OST SAN kaliti Fabric A NORD SAN kalitiga va xuddi shunday Fabric B SAN kalitlari uchun ulangan.

Xo'sh, SAN zavodlarining barcha nozikliklari mantiqiy bo'lishi uchun Active-Active replikatsiya ikkita saqlash tizimi o'rtasida sozlangan: ma'lumotlar deyarli bir vaqtning o'zida mahalliy va masofaviy saqlash tizimlariga yoziladi, RPO = 0. Ma'lum bo'lishicha, dastlabki ma'lumotlar bir saqlash tizimida, uning nusxasi esa boshqasida saqlanadi. Ma'lumotlar saqlash hajmlari darajasida takrorlanadi va VM ma'lumotlari (uning disklari, konfiguratsiya fayli, almashtirish fayli va boshqalar) ularda saqlanadi.

ESXi xosti asosiy hajmni va uning nusxasini bitta disk qurilmasi (Storage Device) sifatida ko'radi. ESXi xostidan har bir disk qurilmasiga 24 ta yo'l mavjud:

12 ta yoΚ»l uni mahalliy saqlash tizimiga (optimal yoΚ»llar), qolgan 12 tasi esa masofaviy saqlash tizimiga (optimal boΚ»lmagan yoΚ»llar) ulaydi. Oddiy holatda, ESXi "optimal" yo'llar yordamida mahalliy saqlash tizimidagi ma'lumotlarga kiradi. Ushbu saqlash tizimi ishlamay qolganda, ESXi optimal yo'llarni yo'qotadi va "optimal bo'lmagan"larga o'tadi. Diagrammada shunday ko'rinadi.

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi
Tabiiy ofatdan himoyalangan klaster sxemasi.

Barcha mijoz tarmoqlari ikkala saytga ham umumiy tarmoq to'qimasi orqali ulangan. Har bir sayt mijozning tarmoqlari tugatilgan Provider Edge (PE) ni ishga tushiradi. PE umumiy klasterga birlashtirilgan. Agar PE bitta saytda ishlamay qolsa, barcha trafik ikkinchi saytga yo'naltiriladi. Buning yordamida PEsiz qolgan saytdagi virtual mashinalar tarmoq orqali mijoz uchun ochiq bo'lib qoladi.

Keling, turli xil nosozliklar paytida mijozning virtual mashinalari bilan nima sodir bo'lishini ko'rib chiqaylik. Eng engil variantlardan boshlaylik va eng jiddiy - butun saytning ishdan chiqishi bilan yakunlaylik. Misollarda asosiy platforma OST bo'ladi va ma'lumotlar nusxalari bilan zaxira platformasi NORD bo'ladi.

Mijoz virtual mashinasiga nima bo'ladi, agar...

Replikatsiya havolasi muvaffaqiyatsiz tugadi. Ikki saytning saqlash tizimlari o'rtasida replikatsiya to'xtaydi.
ESXi faqat mahalliy disk qurilmalari bilan ishlaydi (optimal yo'llar orqali).
Virtual mashinalar ishlashda davom etmoqda.

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

ISL (Inter-Switch Link) uziladi. Vaziyat ehtimoldan yiroq emas. Agar qandaydir aqldan ozgan ekskavator bir vaqtning o'zida bir nechta optik marshrutlarni qazib olmasa, ular mustaqil marshrutlar bo'ylab ishlaydi va saytlarga turli kirishlar orqali keltiriladi. Lekin baribir. Bunday holda, ESXi xostlari yo'llarning yarmini yo'qotadi va faqat mahalliy saqlash tizimlariga kira oladi. Replikalar yig'iladi, lekin xostlar ularga kira olmaydi.

Virtual mashinalar normal ishlaydi.

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

Saytlardan birida SAN kaliti muvaffaqiyatsiz tugadi. ESXi xostlari saqlash tizimiga ba'zi yo'llarni yo'qotadi. Bunday holda, o'tish muvaffaqiyatsiz bo'lgan saytdagi xostlar faqat HBA'laridan biri orqali ishlaydi.

Virtual mashinalar normal ishlashda davom etmoqda.

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

Saytlardan biridagi barcha SAN kalitlari muvaffaqiyatsiz tugadi. Aytaylik, OST saytida shunday falokat yuz berdi. Bunday holda, ushbu saytdagi ESXi xostlari disk qurilmalariga boradigan barcha yo'llarni yo'qotadi. Standart VMware vSphere HA mexanizmi ishga tushadi: u NORDdagi OST saytining barcha virtual mashinalarini maksimal 140 soniyada qayta ishga tushiradi.

NORD sayt xostlarida ishlaydigan virtual mashinalar normal ishlamoqda.

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

ESXi xosti bitta saytda ishlamayapti. Bu erda vSphere HA mexanizmi yana ishlaydi: muvaffaqiyatsiz xostdan virtual mashinalar boshqa xostlarda - bir xil yoki uzoq saytda qayta ishga tushiriladi. Virtual mashinani qayta ishga tushirish vaqti 1 daqiqagacha.

Agar OST saytidagi barcha ESXi xostlari muvaffaqiyatsiz bo'lsa, hech qanday imkoniyat yo'q: VMlar boshqasida qayta ishga tushiriladi. Qayta boshlash vaqti bir xil.

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

Saqlash tizimi bir joyda ishlamay qoladi. Aytaylik, OST saytida saqlash tizimi muvaffaqiyatsiz tugadi. Keyin OST saytining ESXi xostlari NORDda saqlash nusxalari bilan ishlashga o'tadi. Muvaffaqiyatsiz saqlash tizimi xizmatga qaytgandan so'ng, majburiy replikatsiya sodir bo'ladi va ESXi OST xostlari yana mahalliy saqlash tizimiga kirishni boshlaydi.

Bu vaqt davomida virtual mashinalar normal ishladi.

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

Saytlardan biri muvaffaqiyatsiz tugadi. Bunday holda, vSphere HA mexanizmi orqali barcha virtual mashinalar zaxira saytida qayta ishga tushiriladi. VMni qayta ishga tushirish vaqti 140 soniya. Bunday holda, virtual mashinaning barcha tarmoq sozlamalari saqlanadi va u tarmoq orqali mijoz uchun ochiq bo'lib qoladi.

Zaxira saytida mashinalarni qayta ishga tushirish muammosiz o'tishini ta'minlash uchun har bir sayt faqat yarmi to'la. Ikkinchi yarmi, barcha virtual mashinalar ikkinchi, shikastlangan saytdan ko'chib o'tgan taqdirda zaxira hisoblanadi.

Tabiiy ofatlarga chidamli bulut: u qanday ishlaydi

Ikki ma'lumot markaziga asoslangan ofatlarga chidamli bulut bunday nosozliklardan himoya qiladi.

Bu zavq arzon emas, chunki asosiy resurslarga qo'shimcha ravishda ikkinchi saytda zaxira kerak. Shu sababli, biznes uchun muhim xizmatlar bunday bulutga joylashtiriladi, ularning uzoq muddatli to'xtab turishi katta moliyaviy va obro'-e'tibor yo'qotishlariga olib keladi yoki axborot tizimi tartibga soluvchi organlar yoki kompaniyaning ichki qoidalarining ofatlarga chidamliligi talablariga bo'ysunsa.

Manbalar:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Manba: www.habr.com

a Izoh qo'shish