Hondamendi erresistentearen hodeia: nola funtzionatzen duen

Aupa Habr!

Urte Berriko oporren ostean, bi gunetan oinarritutako hondamendien aurkako hodeia berriro martxan jarri genuen. Gaur nola funtzionatzen duen kontatuko dizugu eta bezeroen makina birtualekin zer gertatzen den erakutsiko dugu klusterreko elementu indibidualak huts egiten duenean eta gune osoa huts egiten denean (spoiler - dena ondo dago haiekin).

Hondamendi erresistentearen hodeia: nola funtzionatzen duen
Hondamendiei aurre egiteko hodeiko biltegiratze sistema OST gunean.

Barruan dagoena

Kanpaiaren azpian, klusterrak Cisco UCS zerbitzariak ditu VMware ESXi hipervisor batekin, bi INFINIDAT InfiniBox F2240 biltegiratze sistema, Cisco Nexus sare-ekipoak eta Brocade SAN switch-ak. Klusterra bi gunetan banatzen da: OST eta NORD, hau da, datu-zentro bakoitzak ekipamendu multzo berdina du. Egia esan, hori da hondamendien aurkako erresistentzia egiten duena.

Gune baten barruan, elementu nagusiak ere bikoiztu egiten dira (ostalariak, SAN etengailuak, sareak).
Bi guneak zuntz optikoko bide dedikatuen bidez konektatzen dira, erreserbatuta ere.

Biltegiratze sistemei buruzko hitz batzuk. Hondamendiei aurre egiteko hodei baten lehen bertsioa sortu dugu NetApp-en. Hemen INFINIDAT aukeratu dugu, eta hona zergatik:

  • Erreplikazio aktibo-aktiboa aukera. Makina birtualak funtzionatzen jarraitzea ahalbidetzen du biltegiratze-sistemetako batek guztiz huts egiten badu ere. Geroago esango dizut errepikapenari buruz.
  • Hiru disko kontrolagailu sistemaren akatsen tolerantzia areagotzeko. Normalean bi izaten dira.
  • Prest irtenbidea. Aurrez muntatutako rack bat jaso genuen, sarera konektatu eta konfiguratu behar dena.
  • Laguntza tekniko arretatsua. INFINIDAT ingeniariek biltegiratze sistemaren erregistroak eta gertaerak etengabe aztertzen dituzte, firmware bertsio berriak instalatzen dituzte eta konfigurazioan laguntzen dute.

Hona hemen paketetik ateratako argazki batzuk:

Hondamendi erresistentearen hodeia: nola funtzionatzen duen

Hondamendi erresistentearen hodeia: nola funtzionatzen duen

Funtzionamendua

Hodeia dagoeneko akatsak tolerantea da bere baitan. Bezeroa hardware eta software hutsetatik babesten du. Hondamendiak erresistenteak gune bateko hutsegite handietatik babesten lagunduko du: adibidez, biltegiratze-sistema baten (edo SDS kluster baten hutsegitea, sarritan gertatzen dena πŸ™‚), biltegiratze-sare batean akats handiak, etab. Beno, eta garrantzitsuena: hodei horrek aurrezten du gune oso bat eskuraezin bihurtzen denean sute baten ondorioz, itzalaldi baten ondorioz, erasotzaileen kontrolpean edo alien lurreratzeagatik.

Kasu hauetan guztietan, bezeroen makina birtualek lanean jarraitzen dute, eta hona hemen zergatik.

Klusterren diseinua bezeroen makina birtualak dituen ESXi ostalariek bi biltegiratze sistemetako edozeinetara atzitu ahal izateko diseinatuta dago. OST guneko biltegiratze sistemak huts egiten badu, makina birtualek lanean jarraituko dute: exekutatzen ari diren ostalariek NORD-eko biltegiratze sistemara sartuko dira datuak lortzeko.

Hondamendi erresistentearen hodeia: nola funtzionatzen duen
Hau da kluster bateko konexio-diagramaren itxura.

Hau posible da bi guneetako SAN ehunen artean Inter-Switch Link bat konfiguratuta dagoelako: Fabric A OST SAN etengailua Fabric A NORD SAN switchera konektatuta dago, eta antzera Fabric B SAN kommutazioetarako.

Bada, SAN fabriken konplexutasun horiek guztiak zentzua izan dezaten, bi biltegiratze-sistemen artean konfiguratzen da Erreplika Aktibo-aktiboa: informazioa ia aldi berean idazten da tokiko eta urruneko biltegiratze sistemetan, RPO = 0. Ematen du jatorrizko datuak biltegiratze sistema batean gordetzen direla eta bere erreplika bestean. Datuak biltegiratze-bolumenen mailan erreplikatzen dira, eta VM-aren datuak (bere diskoak, konfigurazio-fitxategia, truke-fitxategia, etab.) horietan gordetzen dira.

ESXi ostalariak bolumen nagusia eta bere erreplika disko gailu gisa ikusten ditu (biltegiratze gailua). ESXi ostalaritik disko gailu bakoitzerako 24 bide daude:

12 bideek tokiko biltegiratze sistemarekin konektatzen dute (bide optimoak), eta gainerako 12ek urruneko biltegiratze sistemarekin (bide ez-opromoak). Egoera normal batean, ESXi-k tokiko biltegiratze-sistemako datuak atzitzen ditu bide "optimoak" erabiliz. Biltegiratze sistema honek huts egiten duenean, ESXi-k bide optimoak galtzen ditu eta "ez-opromo"etara aldatzen da. Honela ikusten da diagraman.

Hondamendi erresistentearen hodeia: nola funtzionatzen duen
Hondamendien aurkako kluster baten eskema.

Bezero-sare guztiak bi guneetara konektatuta daude sare-ehun komun baten bidez. Gune bakoitzak Provider Edge (PE) bat exekutatzen du, eta bertan bezeroaren sareak amaitzen dira. PEak kluster komun batean elkartuta daude. PE batek gune batean huts egiten badu, trafiko guztia bigarren gunera birbideratzen da. Horri esker, PErik gabe utzitako guneko makina birtualak sarean eskuragarri geratzen dira bezeroarentzat.

Ikus dezagun orain zer gertatuko den bezeroen makina birtualekin hainbat hutsegiteetan. Has gaitezen aukera arinenetatik eta amai gaitezen larriena - gune osoaren porrota. Adibideetan, plataforma nagusia OST izango da, eta backup plataforma, datuen erreplikekin, NORD.

Zer gertatzen zaio bezeroaren makina birtualari baldin...

Erreplika estekak huts egin du. Bi guneetako biltegiratze sistemen arteko errepikapena gelditzen da.
ESXi disko lokaleko gailuekin bakarrik funtzionatuko du (bide optimoen bidez).
Makina birtualek lanean jarraitzen dute.

Hondamendi erresistentearen hodeia: nola funtzionatzen duen

ISL (Inter-Switch Link) hautsi egiten da. Kasua nekez da. Hondeamakina zororen batek aldi berean hainbat bide optiko zulatzen ez baditu, ibilbide independenteetan ibiltzen direnak eta sarrera ezberdinen bitartez guneetara eramaten direnak. Baina hala ere. Kasu honetan, ESXi ostalariek bideen erdia galtzen dute eta tokiko biltegiratze-sistemetara bakarrik sar daitezke. Erreplikak biltzen dira, baina ostalariek ezin izango dituzte haietara sartu.

Makina birtualak normaltasunez funtzionatzen dute.

Hondamendi erresistentearen hodeia: nola funtzionatzen duen

SAN etengailuak huts egiten du guneetako batean. ESXi ostalariek biltegiratze sistemarako bide batzuk galtzen dituzte. Kasu honetan, etengailuak huts egin duen guneko ostalariek HBA baten bidez bakarrik funtzionatuko dute.

Makina birtualek normaltasunez funtzionatzen jarraitzen dute.

Hondamendi erresistentearen hodeia: nola funtzionatzen duen

Guneetako batean dauden SAN etengailu guztiek huts egiten dute. Demagun OST gunean halako hondamendia gertatu dela. Kasu honetan, gune honetako ESXi ostalariek disko-gailuetarako bide guztiak galduko dituzte. VMware vSphere HA mekanismo estandarra sartzen da jokoan: OST guneko makina birtual guztiak NORDen berrabiaraziko ditu gehienez 140 segundotan.

NORD guneko ostalarietan exekutatzen diren makina birtualak normaltasunez funtzionatzen ari dira.

Hondamendi erresistentearen hodeia: nola funtzionatzen duen

ESXi ostalariak huts egiten du gune batean. Hemen vSphere HA mekanismoak funtzionatzen du berriro: huts egin duen ostalariaren makina birtualak beste ostalari batzuetan berrabiaraziko dira, gune berean edo urruneko gune batean. Makina birtuala berrabiarazteko denbora minutu 1era artekoa da.

OST guneko ESXi ostalari guztiek huts egiten badute, ez dago aukerarik: VM-ak beste batean berrabiaraziko dira. Berrabiarazi ordua berdina da.

Hondamendi erresistentearen hodeia: nola funtzionatzen duen

Biltegiratze sistemak huts egiten du gune batean. Demagun biltegiratze sistemak huts egiten duela OST gunean. Ondoren, OST guneko ESXi ostalariak NORD-en biltegiratze-erreplikekin lan egitera aldatzen dira. Huts egin duen biltegiratze-sistema zerbitzura itzuli ondoren, behartutako erreplikazioa gertatuko da eta ESXi OST ostalariak berriro hasiko dira tokiko biltegiratze-sistemara sartzen.

Makina birtualak normaltasunez aritu dira denbora honetan guztian.

Hondamendi erresistentearen hodeia: nola funtzionatzen duen

Guneetako batek huts egiten du. Kasu honetan, makina birtual guztiak babeskopia gunean berrabiaraziko dira vSphere HA mekanismoaren bidez. VM berrabiarazteko denbora 140 segundokoa da. Kasu honetan, makina birtualaren sare-ezarpen guztiak gordeko dira, eta sarearen bidez bezeroarentzat eskuragarri izaten jarraitzen du.

Babeskopia-guneko makinak berrabiaraztea ondo doala ziurtatzeko, gune bakoitza erdi beteta dago. Bigarren zatia erreserba bat da, makina birtual guztiak kaltetutako bigarren gunetik mugitzen badira.

Hondamendi erresistentearen hodeia: nola funtzionatzen duen

Bi datu-zentrotan oinarritutako hondamendiei erresistentea den hodei batek babesten du horrelako hutsegiteetatik.

Plazer hori ez da merkea, baliabide nagusiez gain, bigarren gunean erreserba behar baita. Hori dela eta, hodei horretan kokatzen dira negozio-zerbitzu kritikoak, epe luzeko geldialdiak finantza- eta ospe-galera handiak eragiten baititu, edo informazio-sistema arautzaileek edo enpresen barne-araudiek hondamendiei aurre egiteko eskakizunen mende badago.

Iturriak:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Iturria: www.habr.com

Gehitu iruzkin berria