Облак отпоран на катастрофе: како функционише

Хеј Хабр!

После новогодишњих празника, поново смо покренули облак отпоран на катастрофе заснован на две локације. Данас ћемо вам рећи како то функционише и показати шта се дешава са клијентским виртуелним машинама када поједини елементи кластера покваре и цео сајт се сруши (спојлер – са њима је све у реду).

Облак отпоран на катастрофе: како функционише
Систем за складиштење у облаку отпоран на катастрофе на ОСТ сајту.

Шта је унутра

Испод хаубе, кластер има Цисцо УЦС сервере са ВМваре ЕСКСи хипервизором, два ИНФИНИДАТ ИнфиниБок Ф2240 система за складиштење, Цисцо Некус мрежну опрему, као и Броцаде САН прекидаче. Кластер је подељен на две локације - ОСТ и НОРД, односно сваки центар података има идентичан сет опреме. У ствари, то је оно што га чини отпорним на катастрофе.

Унутар једне локације, главни елементи су такође дуплирани (хостови, САН прекидачи, умрежавање).
Две локације су повезане наменским оптичким путевима, такође резервисаним.

Неколико речи о системима за складиштење. На НетАпп-у смо направили прву верзију облака отпорног на катастрофе. Овде смо изабрали ИНФИНИДАТ, а ево и зашто:

  • Опција активно-активно репликације. Омогућава да виртуелна машина остане оперативна чак и ако један од система за складиштење потпуно поквари. Касније ћу вам рећи више о репликацији.
  • Три диск контролера за повећање толеранције система на грешке. Обично су два.
  • Готово решење. Добили смо унапред монтиран рацк који само треба да се повеже на мрежу и конфигурише.
  • Пажљива техничка подршка. ИНФИНИДАТ инжењери константно анализирају евиденције и догађаје система за складиштење података, инсталирају нове верзије фирмвера и помажу у конфигурацији.

Ево неколико фотографија са распакивања:

Облак отпоран на катастрофе: како функционише

Облак отпоран на катастрофе: како функционише

Како то ради

Облак је већ у себи толерантан на грешке. Штити клијента од појединачних кварова на хардверу и софтверу. Отпоран на катастрофе ће помоћи у заштити од великих кварова на једној локацији: на пример, квар система за складиштење (или СДС кластера, што се дешава прилично често 🙂), велике грешке у мрежи за складиштење итд. Па, и што је најважније: такав облак штеди када цела локација постане недоступна због пожара, замрачења, напада рајидера или слетања ванземаљаца.

У свим овим случајевима, клијентске виртуелне машине настављају да раде, а ево и зашто.

Дизајн кластера је дизајниран тако да сваки ЕСКСи хост са клијентским виртуелним машинама може да приступи било ком од два система складиштења. Ако систем складиштења на ОСТ сајту поквари, виртуелне машине ће наставити да раде: хостови на којима раде приступиће систему за складиштење података на НОРД-у.

Облак отпоран на катастрофе: како функционише
Овако изгледа дијаграм повезивања у кластеру.

Ово је могуће због чињенице да је интер-свитцх Линк конфигурисан између САН тканина две локације: Фабриц А ОСТ САН прекидач је повезан са Фабриц А НОРД САН прекидачем, и слично за Фабриц Б САН прекидаче.

Па, да би све ове замршености САН фабрика имале смисла, активно-активна репликација је конфигурисана између два система складиштења: информације се скоро истовремено уписују у локални и удаљени систем складиштења, РПО = 0. Испоставило се да се оригинални подаци чувају на једном систему за складиштење, а њихова реплика на другом. Подаци се реплицирају на нивоу запремине складишта, а подаци ВМ (њени дискови, конфигурациони фајл, свап датотека, итд.) се чувају на њима.

ЕСКСи хост види примарни волумен и његову реплику као један диск уређај (Стораге Девице). Постоје 24 путање од ЕСКСи хоста до сваког диск уређаја:

12 путања га повезује са локалним системом складиштења (оптималне путање), а преосталих 12 са удаљеним системом складиштења (неоптималне путање). У нормалној ситуацији, ЕСКСи приступа подацима на локалном систему складиштења користећи „оптималне“ путање. Када овај систем за складиштење поквари, ЕСКСи губи оптималне путање и прелази на оне „неоптималне“. Овако то изгледа на дијаграму.

Облак отпоран на катастрофе: како функционише
Шема кластера отпорног на катастрофе.

Све клијентске мреже су повезане са обе локације преко заједничке мреже. Свака локација покреће Провидер Едге (ПЕ), на којој се завршавају мреже клијента. ЈП су уједињене у заједнички кластер. Ако ПЕ не успе на једној локацији, сав саобраћај се преусмерава на другу локацију. Захваљујући томе, виртуелне машине са локације која је остала без ПЕ остају доступне преко мреже клијенту.

Хајде сада да видимо шта ће се десити са клијентским виртуелним машинама током разних кварова. Почнимо са најлакшим опцијама и завршимо са најозбиљнијим - неуспехом читавог сајта. У примерима, главна платформа ће бити ОСТ, а резервна платформа, са репликама података, биће НОРД.

Шта се дешава са клијентском виртуелном машином ако...

Веза за репликацију не успева. Репликација између система за складиштење две локације се зауставља.
ЕСКСи ће радити само са локалним диск уређајима (путем оптималних путања).
Виртуелне машине настављају да раде.

Облак отпоран на катастрофе: како функционише

ИСЛ (Интер-Свитцх Линк) се прекида. Случај је мало вероватан. Осим ако неки луди багер не ископа неколико оптичких рута одједном, које се одвијају на независним рутама и доводе се до локација кроз различите улазе. Али у сваком случају. У овом случају, ЕСКСи домаћини губе половину путања и могу приступити само својим локалним системима за складиштење. Реплике се прикупљају, али домаћини неће моћи да им приступе.

Виртуелне машине раде нормално.

Облак отпоран на катастрофе: како функционише

САН прекидач не ради на једној од локација. ЕСКСи домаћини губе неке од путева до система за складиштење. У овом случају, домаћини на локацији на којој је дошло до квара радиће само преко једног од својих ХБА.

Виртуелне машине настављају да раде нормално.

Облак отпоран на катастрофе: како функционише

Сви САН прекидачи на једној од локација не раде. Рецимо да се таква катастрофа догодила на сајту ОСТ-а. У овом случају, ЕСКСи домаћини на овој локацији ће изгубити све путање до својих диск уређаја. Стандардни ВМваре вСпхере ХА механизам ступа на снагу: он ће поново покренути све виртуелне машине ОСТ сајта у НОРД-у за највише 140 секунди.

Виртуелне машине које раде на хостовима НОРД сајтова раде нормално.

Облак отпоран на катастрофе: како функционише

ЕСКСи хост не ради на једној локацији. Овде вСпхере ХА механизам поново ради: виртуелне машине са неуспелог хоста се поново покрећу на другим хостовима - на истој или удаљеној локацији. Време поновног покретања виртуелне машине је до 1 минута.

Ако сви ЕСКСи хостови на ОСТ сајту не успеју, нема опција: ВМ се поново покреће на другом. Време поновног покретања је исто.

Облак отпоран на катастрофе: како функционише

Систем складиштења отказује на једном месту. Рецимо да систем за складиштење не успе на ОСТ локацији. Затим се ЕСКСи домаћини ОСТ сајта пребацују на рад са репликама складишта у НОРД-у. Након што се неуспели систем складиштења врати у рад, доћи ће до принудне репликације и ЕСКСи ОСТ хостови ће поново почети да приступају локалном систему складиштења.

Виртуелне машине су све ово време радиле нормално.

Облак отпоран на катастрофе: како функционише

Једна од локација не успева. У овом случају, све виртуелне машине ће бити поново покренуте на локацији резервне копије преко вСпхере ХА механизма. Време поновног покретања ВМ-а је 140 секунди. У овом случају, сва мрежна подешавања виртуелне машине ће бити сачувана и она остаје доступна клијенту преко мреже.

Да би се осигурало да поновно покретање машина на локацији резервне копије прође глатко, свака локација је пуна само до пола. Друга половина је резерва у случају да се све виртуелне машине померају са друге, оштећене локације.

Облак отпоран на катастрофе: како функционише

Облак отпоран на катастрофе заснован на два дата центра штити од таквих кварова.

Ово задовољство није јефтино, јер је, поред главних ресурса, потребна резерва на другом месту. Због тога су услуге критичне за пословање смештене у такав облак, чији дугорочни застоји изазивају велике финансијске и репутационе губитке, или ако информациони систем подлеже захтевима регулатора или интерних прописа компаније за отпорност на катастрофе.

Извори:

  1. ввв.инфинидат.цом/ситес/дефаулт/филес/ресоурце-пдфс/ДС-ИНФБОКС-190331-УС_0.пдф
  2. суппорт.инфинидат.цом/хц/ен-ус/артицлес/207057109-ИнфиниБок-бест-працтицес-гуидес

Извор: ввв.хабр.цом

Додај коментар