Awan Tahan Bencana: Cara Ia Berfungsi

Hai Habr!

Selepas cuti Tahun Baru, kami melancarkan semula awan kalis bencana berdasarkan dua tapak. Hari ini kami akan memberitahu anda cara ia berfungsi dan menunjukkan perkara yang berlaku kepada mesin maya pelanggan apabila elemen individu kluster gagal dan keseluruhan tapak ranap (spoiler - semuanya baik-baik saja dengan mereka).

Awan Tahan Bencana: Cara Ia Berfungsi
Sistem storan awan tahan bencana di tapak OST.

Apa yang ada di dalamnya

Di bawah tudung, kluster ini mempunyai pelayan Cisco UCS dengan hipervisor VMware ESXi, dua sistem storan INFINIDAT InfiniBox F2240, peralatan rangkaian Cisco Nexus, serta suis SAN Brocade. Kelompok ini dibahagikan kepada dua tapak - OST dan NORD, iaitu setiap pusat data mempunyai set peralatan yang sama. Sebenarnya, inilah yang menjadikannya tahan bencana.

Dalam satu tapak, elemen utama juga diduplikasi (hos, suis SAN, rangkaian).
Kedua-dua tapak disambungkan melalui laluan gentian optik khusus, juga ditempah.

Sedikit perkataan mengenai sistem storan. Kami membina versi pertama awan kalis bencana di NetApp. Di sini kami memilih INFINIDAT, dan inilah sebabnya:

  • Pilihan replikasi Aktif-Aktif. Ia membolehkan mesin maya kekal beroperasi walaupun salah satu sistem storan gagal sepenuhnya. Saya akan memberitahu anda lebih lanjut mengenai replikasi kemudian.
  • Tiga pengawal cakera untuk meningkatkan toleransi kerosakan sistem. Selalunya ada dua.
  • Penyelesaian sedia. Kami menerima rak pra-pasang yang hanya perlu disambungkan ke rangkaian dan dikonfigurasikan.
  • Sokongan teknikal yang penuh perhatian. Jurutera INFINIDAT sentiasa menganalisis log dan peristiwa sistem storan, memasang versi perisian tegar baharu dan membantu dengan konfigurasi.

Berikut ialah beberapa foto semasa membongkar:

Awan Tahan Bencana: Cara Ia Berfungsi

Awan Tahan Bencana: Cara Ia Berfungsi

Bagaimana ia berfungsi

Awan sudah pun toleran terhadap kesalahan dalam dirinya sendiri. Ia melindungi pelanggan daripada kegagalan perkakasan dan perisian tunggal. Tahan bencana akan membantu melindungi daripada kegagalan besar dalam satu tapak: contohnya, kegagalan sistem storan (atau gugusan SDS, yang berlaku agak kerap πŸ™‚), ralat besar dalam rangkaian storan, dsb. Baiklah, dan yang paling penting: awan sedemikian menjimatkan apabila keseluruhan tapak menjadi tidak dapat diakses disebabkan oleh kebakaran, pemadaman, pengambilalihan penceroboh atau pendaratan asing.

Dalam semua kes ini, mesin maya pelanggan terus berfungsi, dan inilah sebabnya.

Reka bentuk kluster direka supaya mana-mana hos ESXi dengan mesin maya pelanggan boleh mengakses mana-mana dua sistem storan. Jika sistem storan pada tapak OST gagal, mesin maya akan terus berfungsi: hos yang mereka jalankan akan mengakses sistem storan pada NORD untuk data.

Awan Tahan Bencana: Cara Ia Berfungsi
Beginilah rupa gambarajah sambungan dalam kelompok.

Ini mungkin disebabkan oleh fakta bahawa Pautan Antara Suis dikonfigurasikan antara fabrik SAN kedua-dua tapak: suis Fabric A OST SAN disambungkan kepada suis Fabric A NORD SAN, dan begitu juga untuk suis Fabric B SAN.

Nah, supaya semua selok-belok kilang SAN ini masuk akal, replikasi Aktif-Aktif dikonfigurasikan antara dua sistem storan: maklumat ditulis hampir serentak ke sistem storan tempatan dan jauh, RPO = 0. Ternyata data asal disimpan pada satu sistem storan, dan replikanya disimpan pada yang lain. Data direplikasi pada tahap volum storan dan data VM (cakera, fail konfigurasi, fail swap, dll.) disimpan padanya.

Hos ESXi melihat volum utama dan replikanya sebagai satu peranti cakera (Peranti Storan). Terdapat 24 laluan dari hos ESXi ke setiap peranti cakera:

12 laluan menyambungkannya ke sistem storan tempatan (laluan optimum), dan baki 12 ke sistem storan jauh (laluan tidak optimum). Dalam situasi biasa, ESXi mengakses data pada sistem storan tempatan menggunakan laluan "optimum". Apabila sistem storan ini gagal, ESXi kehilangan laluan optimum dan bertukar kepada laluan "tidak optimum". Inilah yang kelihatan pada rajah.

Awan Tahan Bencana: Cara Ia Berfungsi
Skim kluster kalis bencana.

Semua rangkaian pelanggan disambungkan ke kedua-dua tapak melalui fabrik rangkaian biasa. Setiap tapak menjalankan Provider Edge (PE), yang mana rangkaian pelanggan ditamatkan. PE disatukan menjadi kelompok yang sama. Jika PE gagal di satu tapak, semua trafik dialihkan ke tapak kedua. Terima kasih kepada ini, mesin maya dari tapak yang ditinggalkan tanpa PE kekal boleh diakses melalui rangkaian kepada pelanggan.

Sekarang mari kita lihat apa yang akan berlaku kepada mesin maya pelanggan semasa pelbagai kegagalan. Mari kita mulakan dengan pilihan yang paling ringan dan berakhir dengan yang paling serius - kegagalan keseluruhan tapak. Dalam contoh, platform utama ialah OST, dan platform sandaran, dengan replika data, akan menjadi NORD.

Apa yang berlaku kepada mesin maya pelanggan jika...

Pautan Replikasi gagal. Replikasi antara sistem storan kedua-dua tapak terhenti.
ESXi hanya akan berfungsi dengan peranti cakera tempatan (melalui laluan optimum).
Mesin maya terus berfungsi.

Awan Tahan Bencana: Cara Ia Berfungsi

ISL (Inter-Switch Link) putus. Kes itu tidak mungkin. Melainkan beberapa penggali gila menggali beberapa laluan optik sekaligus, yang berjalan pada laluan bebas dan dibawa ke tapak melalui input yang berbeza. Tetapi bagaimanapun. Dalam kes ini, hos ESXi kehilangan separuh daripada laluan dan hanya boleh mengakses sistem storan tempatan mereka. Replika dikumpulkan, tetapi hos tidak akan dapat mengaksesnya.

Mesin maya berfungsi seperti biasa.

Awan Tahan Bencana: Cara Ia Berfungsi

Suis SAN gagal pada salah satu tapak. Hos ESXi kehilangan beberapa laluan ke sistem storan. Dalam kes ini, hos di tapak di mana suis gagal akan berfungsi hanya melalui salah satu HBA mereka.

Mesin maya terus beroperasi seperti biasa.

Awan Tahan Bencana: Cara Ia Berfungsi

Semua suis SAN pada salah satu tapak gagal. Katakan bencana seperti itu berlaku di tapak OST. Dalam kes ini, hos ESXi di tapak ini akan kehilangan semua laluan ke peranti cakera mereka. Mekanisme VMware vSphere HA standard mula dimainkan: ia akan memulakan semula semua mesin maya tapak OST di NORD dalam masa maksimum 140 saat.

Mesin maya yang berjalan pada hos tapak NORD beroperasi seperti biasa.

Awan Tahan Bencana: Cara Ia Berfungsi

Hos ESXi gagal di satu tapak. Di sini mekanisme vSphere HA berfungsi semula: mesin maya daripada hos yang gagal dimulakan semula pada hos lain - di tapak yang sama atau jauh. Masa mula semula mesin maya adalah sehingga 1 minit.

Jika semua hos ESXi di tapak OST gagal, tiada pilihan: VM dimulakan semula pada yang lain. Masa mula semula adalah sama.

Awan Tahan Bencana: Cara Ia Berfungsi

Sistem storan gagal di satu tapak. Katakan sistem storan gagal di tapak OST. Kemudian hos ESXi tapak OST bertukar kepada bekerja dengan replika storan di NORD. Selepas sistem storan yang gagal kembali ke perkhidmatan, replikasi paksa akan berlaku dan hos OST ESXi akan mula mengakses sistem storan tempatan sekali lagi.

Mesin maya telah berfungsi seperti biasa selama ini.

Awan Tahan Bencana: Cara Ia Berfungsi

Salah satu tapak gagal. Dalam kes ini, semua mesin maya akan dimulakan semula pada tapak sandaran melalui mekanisme vSphere HA. Masa mulakan semula VM ialah 140 saat. Dalam kes ini, semua tetapan rangkaian mesin maya akan disimpan, dan tetap boleh diakses oleh pelanggan melalui rangkaian.

Untuk memastikan permulaan semula mesin di tapak sandaran berjalan lancar, setiap tapak hanya separuh penuh. Separuh masa kedua adalah simpanan sekiranya semua mesin maya bergerak dari tapak kedua yang rosak.

Awan Tahan Bencana: Cara Ia Berfungsi

Awan tahan bencana berdasarkan dua pusat data melindungi daripada kegagalan tersebut.

Keseronokan ini tidak murah, kerana, sebagai tambahan kepada sumber utama, rizab diperlukan di tapak kedua. Oleh itu, perkhidmatan kritikal perniagaan diletakkan dalam awan sedemikian, masa henti jangka panjang yang menyebabkan kerugian kewangan dan reputasi yang besar, atau jika sistem maklumat tertakluk kepada keperluan daya tahan bencana daripada pengawal selia atau peraturan dalaman syarikat.

Sumber:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Sumber: www.habr.com

Tambah komen