Апатқа төзімді бұлт: ол қалай жұмыс істейді

Эй Хабр!

Жаңа жылдық мерекелерден кейін біз екі сайтқа негізделген апатқа қарсы бұлтты қайта іске қостық. Бүгін біз оның қалай жұмыс істейтінін айтып береміз және кластердің жеке элементтері істен шыққанда және бүкіл сайт бұзылған кезде клиенттік виртуалды машиналармен не болатынын көрсетеміз (спойлер - оларда бәрі жақсы).

Апатқа төзімді бұлт: ол қалай жұмыс істейді
OST сайтындағы апатқа төзімді бұлтты сақтау жүйесі.

Whats inside

Кластерде VMware ESXi гипервизоры бар Cisco UCS серверлері, екі INFINIDAT InfiniBox F2240 сақтау жүйесі, Cisco Nexus желілік жабдықтары, сондай-ақ Brocade SAN коммутаторлары бар. Кластер екі сайтқа бөлінген - OST және NORD, яғни әрбір деректер орталығында бірдей жабдық жиынтығы бар. Шын мәнінде, бұл оны апатқа төзімді етеді.

Бір тораптың ішінде негізгі элементтер де қайталанады (хосттар, SAN коммутаторлары, желі).
Екі учаске арнайы талшықты-оптикалық бағыттар арқылы қосылған, сонымен қатар резервтелген.

Сақтау жүйелері туралы бірнеше сөз. Біз NetApp қолданбасында апатқа қарсы бұлттың бірінші нұсқасын жасадық. Міне, біз INFINIDAT таңдадық және неліктен:

  • Белсенді-белсенді репликация опциясы. Ол виртуалды машинаның сақтау жүйелерінің бірі толығымен істен шыққан жағдайда да жұмыс істеп тұруына мүмкіндік береді. Репликация туралы кейінірек айтып беремін.
  • Жүйе ақауларына төзімділікті арттыру үшін үш диск контроллері. Әдетте екеуі бар.
  • Дайын шешім. Біз алдын ала құрастырылған тіректі алдық, ол жай ғана желіге қосылып, конфигурациялануы керек.
  • Мұқият техникалық қолдау көрсету. INFINIDAT инженерлері сақтау жүйесінің журналдары мен оқиғаларын үнемі талдайды, микробағдарламаның жаңа нұсқаларын орнатады және конфигурациялауға көмектеседі.

Мұнда қаптаманы ашу кезіндегі кейбір фотосуреттер:

Апатқа төзімді бұлт: ол қалай жұмыс істейді

Апатқа төзімді бұлт: ол қалай жұмыс істейді

Бұл қалай жұмыс істейді

Бұлт өзінде ақауларға төзімді. Ол клиентті бір аппараттық және бағдарламалық құралдың ақауларынан қорғайды. Апатқа төзімділік бір сайттағы ауқымды ақаулардан қорғауға көмектеседі: мысалы, сақтау жүйесінің істен шығуы (немесе SDS кластері, бұл жиі орын алатын 🙂), сақтау желісіндегі үлкен қателіктер және т.б. Ең бастысы, мұндай бұлт өртке, жарықтың өшірілуіне, рейдерлік шабуылға немесе бөтен қонуға байланысты бүкіл сайтқа қол жетімсіз болған кезде үнемдейді.

Осы жағдайлардың барлығында клиенттің виртуалды машиналары жұмысын жалғастыруда және осының себебі.

Кластер дизайны клиенттік виртуалды машиналары бар кез келген ESXi хосты екі сақтау жүйесінің кез келгеніне қол жеткізе алатындай етіп жасалған. OST сайтындағы сақтау жүйесі сәтсіз болса, виртуалды машиналар жұмысын жалғастырады: олар іске қосылған хосттар деректер үшін NORD жүйесіндегі сақтау жүйесіне қол жеткізеді.

Апатқа төзімді бұлт: ол қалай жұмыс істейді
Кластердегі қосылым диаграммасы осылай көрінеді.

Бұл екі тораптың SAN маталары арасында Inter-Switch сілтемесінің конфигурациялануына байланысты мүмкін: Fabric A OST SAN қосқышы Fabric A NORD SAN қосқышына және сол сияқты Fabric B SAN қосқыштарына қосылған.

SAN зауыттарының барлық осы қыр-сырлары мағыналы болуы үшін Белсенді-белсенді репликация екі сақтау жүйесі арасында конфигурацияланады: ақпарат жергілікті және қашықтағы сақтау жүйелеріне бір уақытта дерлік жазылады, RPO = 0. Түпнұсқа деректер бір сақтау жүйесінде, ал оның көшірмесі екіншісінде сақталады екен. Мәліметтер сақтау көлемдерінің деңгейінде қайталанады, ал VM деректері (оның дискілері, конфигурация файлы, своп файлы және т.б.) оларда сақталады.

ESXi хосты негізгі томды және оның көшірмесін бір диск құрылғысы (сақтау құрылғысы) ретінде көреді. ESXi хостынан әрбір диск құрылғысына 24 жол бар:

12 жол оны жергілікті сақтау жүйесіне (оңтайлы жолдар), ал қалған 12 жолды қашықтағы сақтау жүйесіне (оңтайлы емес жолдар) қосады. Қалыпты жағдайда ESXi жергілікті сақтау жүйесіндегі деректерге «оңтайлы» жолдар арқылы қол жеткізеді. Бұл сақтау жүйесі сәтсіз болғанда, ESXi оңтайлы жолдарды жоғалтады және «оңтайлы емес» жолдарға ауысады. Диаграммада дәл осылай көрінеді.

Апатқа төзімді бұлт: ол қалай жұмыс істейді
Апатқа қарсы кластер схемасы.

Барлық клиенттік желілер екі сайтқа да ортақ желі құрылымы арқылы қосылған. Әрбір торапта клиенттің желілері тоқтатылатын Provider Edge (PE) жұмыс істейді. ЖЭ жалпы кластерге біріктірілген. Егер PE бір торапта сәтсіз болса, барлық трафик екінші торапқа қайта бағытталады. Осының арқасында PE жоқ сайттың виртуалды машиналары клиентке желі арқылы қол жетімді болып қалады.

Енді әртүрлі сәтсіздіктер кезінде клиенттік виртуалды машиналармен не болатынын көрейік. Ең жеңіл нұсқалардан бастайық және ең маңыздысы - бүкіл сайттың сәтсіздігімен аяқтаймыз. Мысалдарда негізгі платформа OST болады, ал деректер көшірмелері бар сақтық көшірме платформасы NORD болады.

Клиенттің виртуалды машинасымен не болады, егер...

Көшіру сілтемесі сәтсіз аяқталды. Екі сайттың сақтау жүйелері арасындағы репликация тоқтайды.
ESXi тек жергілікті диск құрылғыларымен жұмыс істейді (оңтайлы жолдар арқылы).
Виртуалды машиналар жұмысын жалғастыруда.

Апатқа төзімді бұлт: ол қалай жұмыс істейді

ISL (Inter-Switch Link) үзіледі. Болмайтын оқиға. Кейбір ессіз экскаватор бірден бірнеше оптикалық бағыттарды қазып алмаса, олар тәуелсіз бағыттар бойынша жұмыс істейді және әртүрлі кірістер арқылы учаскелерге жеткізіледі. Бірақ бәрібір. Бұл жағдайда ESXi хосттары жолдардың жартысын жоғалтады және тек жергілікті сақтау жүйелеріне қол жеткізе алады. Көшірмелер жиналады, бірақ хосттар оларға қол жеткізе алмайды.

Виртуалды машиналар қалыпты жұмыс істейді.

Апатқа төзімді бұлт: ол қалай жұмыс істейді

SAN ауыстырғышы сайттардың бірінде сәтсіз аяқталды. ESXi хосттары сақтау жүйесіне апаратын кейбір жолдарды жоғалтады. Бұл жағдайда қосқыш сәтсіз болған сайттағы хосттар тек HBA бір ғана арқылы жұмыс істейді.

Виртуалды машиналар қалыпты жұмысын жалғастыруда.

Апатқа төзімді бұлт: ол қалай жұмыс істейді

Сайттардың біріндегі барлық SAN қосқыштары сәтсіз. OST сайтында осындай апат болды делік. Бұл жағдайда осы сайттағы ESXi хосттары диск құрылғыларына баратын барлық жолдарды жоғалтады. Стандартты VMware vSphere HA механизмі іске қосылады: ол NORD ішіндегі OST сайтының барлық виртуалды машиналарын максимум 140 секундта қайта іске қосады.

NORD сайт хосттарында жұмыс істейтін виртуалды машиналар қалыпты жұмыс істейді.

Апатқа төзімді бұлт: ол қалай жұмыс істейді

ESXi хосты бір сайтта сәтсіздікке ұшырайды. Мұнда vSphere HA механизмі қайтадан жұмыс істейді: сәтсіз хосттың виртуалды машиналары басқа хосттарда - сол немесе қашықтағы сайтта қайта іске қосылады. Виртуалды машинаны қайта қосу уақыты 1 минутқа дейін.

OST сайтындағы барлық ESXi хосттары сәтсіз болса, опциялар болмайды: VM басқа біреуде қайта іске қосылады. Қайта бастау уақыты бірдей.

Апатқа төзімді бұлт: ол қалай жұмыс істейді

Сақтау жүйесі бір сайтта істен шығады. OST сайтында сақтау жүйесі істен шықты делік. Содан кейін OST сайтының ESXi хосттары NORD ішіндегі сақтау көшірмелерімен жұмыс істеуге ауысады. Сәтсіз сақтау жүйесі қызметке оралғаннан кейін мәжбүрлі репликация орын алады және ESXi OST хосттары қайтадан жергілікті сақтау жүйесіне қатынаса бастайды.

Виртуалды машиналар осы уақыт бойы қалыпты жұмыс істеді.

Апатқа төзімді бұлт: ол қалай жұмыс істейді

Сайттардың бірі сәтсіз аяқталды. Бұл жағдайда барлық виртуалды машиналар сақтық көшірме сайтында vSphere HA механизмі арқылы қайта іске қосылады. VM қайта қосу уақыты 140 секунд. Бұл жағдайда виртуалды машинаның барлық желі параметрлері сақталады және ол желі арқылы клиентке қолжетімді болып қалады.

Сақтық көшірме торабындағы машиналарды қайта іске қосу біркелкі өтуін қамтамасыз ету үшін әрбір торап тек жартысы толы. Екінші жартысы барлық виртуалды машиналар екінші, зақымдалған сайттан көшкен жағдайда резерв болып табылады.

Апатқа төзімді бұлт: ол қалай жұмыс істейді

Екі деректер орталығына негізделген апатқа төзімді бұлт мұндай сәтсіздіктерден қорғайды.

Бұл рахат арзан емес, өйткені негізгі ресурстардан басқа екінші учаскеде резерв қажет. Сондықтан, бизнес үшін маңызды қызметтер мұндай бұлтқа орналастырылады, олардың ұзақ мерзімді тоқтауы үлкен қаржылық және беделді жоғалтуларға әкеледі немесе ақпараттық жүйе реттеуші органдардың немесе компанияның ішкі ережелерінің апатқа төзімділік талаптарына бағынатын болса.

Көздер:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Ақпарат көзі: www.habr.com

пікір қалдыру