Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Helo, ddarllenwyr Habr! Yn yr erthygl ddiwethaf, buom yn siarad am ffordd syml o adfer mewn trychineb mewn systemau storio PEIRIANT AERODISK - atgynhyrchu. Yn yr erthygl hon, byddwn yn plymio i bwnc mwy cymhleth a diddorol - y metrocluster, hynny yw, ffordd o amddiffyn rhag trychineb awtomataidd ar gyfer dwy ganolfan ddata, gan ganiatáu i ganolfannau data weithredu yn y modd gweithredol-weithredol. Byddwn yn dweud wrthych, yn dangos i chi, yn ei dorri ac yn ei drwsio.

Yn ôl yr arfer, theori yn gyntaf

Mae metrocluster yn glwstwr wedi'i wasgaru ar draws sawl safle o fewn dinas neu ranbarth. Mae'r gair “clwstwr” yn awgrymu'n glir i ni fod y cyfadeilad yn awtomataidd, hynny yw, mae newid nodau clwstwr os bydd methiannau'n digwydd yn awtomatig.

Dyma lle mae'r prif wahaniaeth rhwng metrocluster ac atgynhyrchu rheolaidd. Awtomeiddio gweithrediadau. Hynny yw, os bydd rhai digwyddiadau (methiant canolfan ddata, sianeli wedi'u torri, ac ati), bydd y system storio yn cyflawni'r camau angenrheidiol yn annibynnol er mwyn cynnal argaeledd data. Wrth ddefnyddio copïau rheolaidd, mae'r gweinyddwr yn cyflawni'r gweithredoedd hyn yn gyfan gwbl neu'n rhannol â llaw.

Ar gyfer beth mae hyn?

Y prif nod y mae cwsmeriaid yn ei ddilyn wrth ddefnyddio rhai gweithrediadau metrocluster yw lleihau RTO (Amcan Amser Adfer). Hynny yw, lleihau amser adfer gwasanaethau TG ar ôl methiant. Os ydych chi'n defnyddio dyblygu rheolaidd, bydd yr amser adfer bob amser yn hirach na'r amser adfer gyda metrocluster. Pam? Syml iawn. Rhaid i'r gweinyddwr fod wrth ei ddesg a newid atgynhyrchu â llaw, ac mae'r metrocluster yn gwneud hyn yn awtomatig.

Os nad oes gennych weinyddwr penodedig ar ddyletswydd nad yw'n cysgu, nad yw'n bwyta, nad yw'n ysmygu nac yn mynd yn sâl, ac yn gwylio cyflwr y system storio 24 awr y dydd, yna nid oes unrhyw ffordd i warantu y bydd y gweinyddwr yn gwneud hynny. bod ar gael i'w newid â llaw yn ystod methiant.

Yn unol â hynny, bydd RTO yn absenoldeb metrocluster neu weinyddwr anfarwol o 99fed lefel y gwasanaeth dyletswydd gweinyddwr yn hafal i swm amser newid pob system a'r cyfnod amser hwyaf y mae'r gweinyddwr wedi'i warantu i ddechrau gweithio ar ôl hynny. gyda systemau storio a systemau cysylltiedig.

Felly, deuwn i’r casgliad amlwg y dylid defnyddio’r metrocluster os mai munudau, nid oriau neu ddyddiau yw’r gofyniad am RTO, hynny yw, pan fydd y ganolfan ddata’n methu gwaethaf, rhaid i’r adran TG roi amser i’r busnes. i adfer mynediad i wasanaethau TG o fewn munudau, neu hyd yn oed eiliadau.

Sut mae'n gweithio?

Ar y lefel is, mae'r metrocluster yn defnyddio mecanwaith ar gyfer dyblygu data cydamserol, a ddisgrifiwyd gennym yn yr erthygl flaenorol (gweler. cyswllt). Gan fod atgynhyrchu yn gydamserol, mae'r gofynion ar ei gyfer yn gyfatebol, neu'n hytrach:

  • ffibr optegol fel ffiseg, Ethernet 10 gigabit (neu uwch);
  • nid yw'r pellter rhwng canolfannau data yn fwy na 40 cilomedr;
  • oedi sianel optegol rhwng canolfannau data (rhwng systemau storio) yw hyd at 5 milieiliadau (optimaidd 2).

Mae’r holl ofynion hyn yn gynghorol eu natur, hynny yw, bydd y metrocluster yn gweithio hyd yn oed os na chaiff y gofynion hyn eu bodloni, ond rhaid inni ddeall bod canlyniadau peidio â chydymffurfio â’r gofynion hyn yn hafal i arafu yng ngweithrediad y ddwy system storio yn y metrocluster.

Felly, defnyddir replica cydamserol i drosglwyddo data rhwng systemau storio, a sut mae atgynyrchiadau'n newid yn awtomatig ac, yn bwysicaf oll, sut i osgoi hollt-ymennydd? I wneud hyn, ar lefel uwch, defnyddir endid ychwanegol - cymrodeddwr.

Sut mae cyflafareddwr yn gweithio a beth yw ei dasg?

Mae'r canolwr yn beiriant rhithwir bach neu'n glwstwr caledwedd y mae'n rhaid ei lansio ar drydydd safle (er enghraifft, mewn swyddfa) a darparu mynediad i'r system storio trwy ICMP a SSH. Ar ôl ei lansio, dylai'r canolwr osod yr IP, ac yna o'r ochr storio nodi ei gyfeiriad, ynghyd â chyfeiriadau rheolwyr anghysbell sy'n cymryd rhan yn y metrocluster. Ar ôl hyn, mae'r canolwr yn barod i weithio.

Mae'r cyflafareddwr yn monitro'r holl systemau storio yn y metrocluster yn gyson ac os nad oes system storio benodol ar gael, ar ôl cadarnhau nad yw aelod arall o'r clwstwr (un o'r systemau storio "byw") ar gael, mae'n penderfynu lansio'r weithdrefn ar gyfer newid rheolau dyblygu. a mapio.

Pwynt pwysig iawn. Rhaid lleoli'r cyflafareddwr bob amser ar safle sy'n wahanol i'r rhai y mae'r systemau storio wedi'u lleoli arnynt, hynny yw, nid yng nghanolfan ddata 1, lle mae system storio 1 wedi'i gosod, nac yng nghanolfan ddata 2, lle mae system storio 2 wedi'i gosod.

Pam? Oherwydd mai dyma'r unig ffordd y gall cyflafareddwr, gyda chymorth un o'r systemau storio sydd wedi goroesi, bennu cwymp unrhyw un o'r ddau safle lle gosodir y systemau storio yn ddiamwys ac yn gywir. Gall unrhyw ddulliau eraill o osod canolwr arwain at hollt-ymennydd.

Nawr gadewch i ni blymio i mewn i fanylion gwaith y cyflafareddwr.

Mae'r cyflafareddwr yn rhedeg sawl gwasanaeth sy'n pleidleisio'r holl reolwyr storio yn gyson. Os yw canlyniad y bleidlais yn wahanol i'r un blaenorol (ar gael/ddim ar gael), yna caiff ei gofnodi mewn cronfa ddata fach, sydd hefyd yn gweithio ar y canolwr.

Gadewch i ni edrych yn fanylach ar resymeg gwaith y cyflafareddwr.

Cam 1: Penderfynu nad yw ar gael. Digwyddiad methiant system storio yw absenoldeb ping gan ddau reolwr yr un system storio o fewn 5 eiliad.

Cam 2. Dechreuwch y weithdrefn newid. Ar ôl i'r canolwr sylweddoli nad yw un o'r systemau storio ar gael, mae'n anfon cais i'r system storio “byw” er mwyn sicrhau bod y system storio “marw” wedi marw mewn gwirionedd.

Ar ôl derbyn gorchymyn o'r fath gan y canolwr, mae'r ail system storio (byw) hefyd yn gwirio argaeledd y system storio gyntaf sydd wedi cwympo ac, os nad yw yno, yn anfon cadarnhad at y canolwr o'i ddyfaliad. Nid yw'r system storio ar gael yn wir.

Ar ôl derbyn cadarnhad o'r fath, mae'r cyflafareddwr yn lansio gweithdrefn bell ar gyfer newid dyblygu a chodi mapio ar y copïau hynny a oedd yn weithredol (sylfaenol) ar y system storio syrthiedig, ac yn anfon gorchymyn i'r ail system storio i newid y copïau hyn o uwchradd i gynradd a codi mapio. Wel, mae'r ail system storio, yn unol â hynny, yn cyflawni'r gweithdrefnau hyn, ac yna'n darparu mynediad i'r LUNs coll ohono'i hun.

Pam mae angen dilysu ychwanegol? Ar gyfer cworwm. Hynny yw, mae'n rhaid i fwyafrif o gyfanswm odrif (3) aelodau'r clwstwr gadarnhau cwymp un o nodau'r clwstwr. Dim ond wedyn y bydd y penderfyniad hwn yn bendant yn gywir. Mae hyn yn angenrheidiol er mwyn osgoi newid gwallus ac, yn unol â hynny, hollt-ymennydd.

Mae cam amser 2 yn cymryd tua 5 - 10 eiliad, felly, gan ystyried yr amser sydd ei angen i benderfynu nad yw ar gael (5 eiliad), o fewn 10 - 15 eiliad ar ôl y ddamwain, bydd LUNs o'r system storio cwympo ar gael yn awtomatig i weithio gyda'r byw system storio.

Mae'n amlwg, er mwyn osgoi colli cysylltiadau â gwesteiwyr, bod angen i chi hefyd gymryd gofal i ffurfweddu terfynau amser ar y gwesteiwyr yn gywir. Y terfyn amser a argymhellir yw o leiaf 30 eiliad. Bydd hyn yn atal y gwesteiwr rhag torri'r cysylltiad â'r system storio wrth newid llwyth os bydd trychineb a gall sicrhau nad oes unrhyw ymyrraeth I/O.

Arhoswch eiliad, mae'n troi allan, os yw popeth cystal â'r metrocluster, pam mae angen ailadrodd rheolaidd o gwbl?

Mewn gwirionedd, nid yw popeth mor syml.

Gadewch i ni ystyried manteision ac anfanteision y metrocluster

Felly, sylweddolasom mai manteision amlwg y metrocluster o'i gymharu â dyblygu confensiynol yw:

  • Awtomatiaeth lawn, gan sicrhau cyn lleied o amser adfer â phosibl os bydd trychineb;
  • Dyna i gyd :-).

Ac yn awr, sylw, yr anfanteision:

  • Cost datrysiad. Er nad oes angen trwyddedu ychwanegol ar y metrocluster mewn systemau Aerodisk (defnyddir yr un drwydded ag ar gyfer y replica), bydd cost yr ateb hyd yn oed yn uwch na defnyddio atgynhyrchu cydamserol. Bydd angen i chi weithredu'r holl ofynion ar gyfer atgynhyrchiad cydamserol, ynghyd â'r gofynion ar gyfer y metrocluster sy'n gysylltiedig â newid ychwanegol a safle ychwanegol (gweler cynllunio metrocluster);
  • Cymhlethdod yr ateb. Mae'r metrocluster yn llawer mwy cymhleth na replica rheolaidd, ac mae angen llawer mwy o sylw ac ymdrech ar gyfer cynllunio, ffurfweddu a dogfennu.

Yn y diwedd. Mae Metrocluster yn sicr yn ddatrysiad technolegol datblygedig iawn pan fydd gwir angen i chi ddarparu RTO mewn eiliadau neu funudau. Ond os nad oes tasg o'r fath, a bod RTO mewn oriau yn iawn ar gyfer busnes, yna nid oes unrhyw bwynt saethu adar y to o fagnel. Mae'r atgynhyrchu gweithiwr-gwerinwr arferol yn ddigon, gan y bydd clwstwr metro yn achosi costau ychwanegol a chymhlethdod y seilwaith TG.

Cynllunio Metrocluster

Nid yw’r adran hon yn honni ei bod yn ganllaw cynhwysfawr i ddylunio metrocluster, ond yn hytrach mae’n dangos y prif gyfarwyddiadau y dylid eu gweithio allan os penderfynwch adeiladu system o’r fath. Felly, wrth weithredu metrocluster mewn gwirionedd, gofalwch eich bod yn cynnwys gwneuthurwr y system storio (hynny yw, ni) a systemau cysylltiedig eraill ar gyfer ymgynghoriadau.

Safleoedd

Fel y nodwyd uchod, mae angen lleiafswm o dri safle ar fetrocluster. Dwy ganolfan ddata lle bydd systemau storio a systemau cysylltiedig yn gweithredu, yn ogystal â thrydydd safle lle bydd y cyflafareddwr yn gweithio.

Nid yw'r pellter a argymhellir rhwng canolfannau data yn fwy na 40 cilomedr. Mae pellter mwy yn debygol iawn o achosi oedi ychwanegol, sydd, yn achos metrocluster, yn hynod annymunol. Gadewch inni eich atgoffa y dylai oedi fod hyd at 5 milieiliad, er ei bod yn ddoeth eu cadw o fewn 2.

Argymhellir gwirio oedi hefyd yn ystod y broses gynllunio. Gall unrhyw ddarparwr mwy neu lai aeddfed sy'n darparu ffibr optegol rhwng canolfannau data drefnu gwiriad ansawdd yn eithaf cyflym.

O ran oedi cyn y cyflafareddwr (hynny yw, rhwng y trydydd safle a'r ddau gyntaf), y trothwy oedi a argymhellir yw hyd at 200 milieiliad, hynny yw, mae cysylltiad VPN corfforaethol rheolaidd dros y Rhyngrwyd yn addas.

Newid a Rhwydweithio

Yn wahanol i'r cynllun atgynhyrchu, lle mae'n ddigon i gysylltu systemau storio o wahanol safleoedd, mae'r cynllun metrocluster yn gofyn am gysylltu gwesteiwyr â'r ddwy system storio mewn gwahanol safleoedd. Er mwyn ei gwneud yn gliriach beth yw'r gwahaniaeth, dangosir y ddau gynllun isod.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Fel y gwelir o'r diagram, mae ein gwesteiwyr safle 1 yn edrych ar system storio 1 a system storio 2. Hefyd, i'r gwrthwyneb, mae gwesteiwyr safle 2 yn edrych ar system storio 2 a system storio 1. Hynny yw, mae pob gwesteiwr yn gweld y ddwy system storio. Mae hyn yn rhagofyniad ar gyfer gweithredu'r metrocluster.

Wrth gwrs, nid oes angen cysylltu pob gwesteiwr â llinyn optegol â chanolfan ddata arall; ni ​​fydd unrhyw borthladdoedd na chortynnau yn ddigon. Rhaid gwneud yr holl gysylltiadau hyn trwy switshis Ethernet 10G + neu FibreChannel 8G + (mae FC ar gyfer cysylltu gwesteiwyr a systemau storio ar gyfer IO yn unig, ar hyn o bryd dim ond trwy IP (Ethernet 10G +) y mae'r sianel atgynhyrchu ar gael.

Nawr ychydig eiriau am dopoleg y rhwydwaith. Pwynt pwysig yw ffurfweddiad cywir yr is-rwydweithiau. Mae angen diffinio sawl is-rwydwaith ar unwaith ar gyfer y mathau canlynol o draffig:

  • Yr is-rwydwaith atgynhyrchu y bydd data'n cael ei gydamseru drosto rhwng systemau storio. Efallai y bydd nifer ohonynt, yn yr achos hwn nid oes ots, mae'r cyfan yn dibynnu ar dopoleg y rhwydwaith cyfredol (sydd eisoes wedi'i weithredu). Os oes dau ohonynt, mae'n amlwg bod yn rhaid ffurfweddu'r llwybr rhyngddynt;
  • Is-rwydweithiau storio lle bydd gwesteiwyr yn cael mynediad at adnoddau storio (os yw'n iSCSI). Dylai fod un is-rwydwaith o'r fath ym mhob canolfan ddata;
  • Is-rwydweithiau rheoli, hynny yw, tri is-rwydi y gellir eu cylchdroi ar dri safle y rheolir systemau storio ohonynt, ac mae'r cyflafareddwr hefyd wedi'i leoli yno.

Nid ydym yn ystyried is-rwydweithiau ar gyfer cyrchu adnoddau gwesteiwr yma, gan eu bod yn ddibynnol iawn ar y tasgau.

Mae gwahanu traffig gwahanol i wahanol is-rwydweithiau yn hynod bwysig (mae'n arbennig o bwysig gwahanu'r atgynhyrchiad o'r I/O), oherwydd os ydych chi'n cymysgu'r holl draffig yn un isrwyd “trwchus”, yna bydd y traffig hwn yn amhosibl i'w reoli, ac i mewn amodau dwy ganolfan ddata gall hyn achosi gwahanol opsiynau gwrthdrawiadau rhwydwaith o hyd. Ni fyddwn yn ymchwilio'n ddwfn i'r mater hwn o fewn fframwaith yr erthygl hon, oherwydd gallwch ddarllen am gynllunio rhwydwaith wedi'i ymestyn rhwng canolfannau data ar adnoddau gweithgynhyrchwyr offer rhwydwaith, lle disgrifir hyn yn fanwl iawn.

Cyfluniad cyflafareddwr

Rhaid i'r canolwr ddarparu mynediad i holl ryngwynebau rheoli'r system storio trwy'r protocolau ICMP a SSH. Dylech hefyd feddwl am ddiogelwch methiant y canolwr. Mae naws yma.

Mae methiant cyflafareddwr yn ddymunol iawn, ond nid oes ei angen. Beth sy'n digwydd os bydd y dyfarnwr yn cael damwain ar yr amser anghywir?

  • Ni fydd gweithrediad y metrocluster yn y modd arferol yn newid, oherwydd Nid yw arbtir yn cael unrhyw effaith o gwbl ar weithrediad y metrocluster yn y modd arferol (ei dasg yw newid y llwyth rhwng canolfannau data mewn modd amserol)
  • Ar ben hynny, os bydd y canolwr am ryw reswm neu'i gilydd yn cwympo ac yn “cysgu trwy” ddamwain yn y ganolfan ddata, yna ni fydd unrhyw newid yn digwydd, oherwydd ni fydd unrhyw un i roi'r gorchmynion newid angenrheidiol a threfnu cworwm. Yn yr achos hwn, bydd y metrocluster yn troi'n gynllun rheolaidd gydag atgynhyrchu, y bydd yn rhaid ei newid â llaw yn ystod trychineb, a fydd yn effeithio ar y RTO.

Beth sy'n dilyn o hyn? Os oes gwir angen ichi sicrhau isafswm o RTO, mae angen i chi sicrhau bod y cyflafareddwr yn gallu goddef diffygion. Mae dau opsiwn ar gyfer hyn:

  • Lansio peiriant rhithwir gyda chyflafareddwr ar hypervisor sy'n goddef namau, yn ffodus mae pob goruchwylydd oedolion yn cefnogi goddefgarwch namau;
  • Os ydych chi'n rhy ddiog ar y trydydd safle (mewn swyddfa gonfensiynol) i osod clwstwr arferol ac nad oes clwstwr hypervozor yn bodoli eisoes, yna rydym wedi darparu fersiwn caledwedd o'r canolwr, a wneir mewn blwch 2U lle mae dau arferol. Mae gweinyddwyr x-86 yn gweithio ac sy'n gallu goroesi methiant lleol.

Rydym yn argymell yn gryf sicrhau goddefgarwch nam ar y canolwr, er gwaethaf y ffaith nad oes ei angen ar y metrocluster yn y modd arferol. Ond fel y dengys theori ac ymarfer, os ydych chi'n adeiladu seilwaith gwrth-drychineb gwirioneddol ddibynadwy, yna mae'n well ei chwarae'n ddiogel. Mae'n well amddiffyn eich hun a'ch busnes rhag “cyfraith gwallgofrwydd,” hynny yw, rhag methiant y cyflafareddwr ac un o'r safleoedd lle mae'r system storio wedi'i lleoli.

Pensaernïaeth datrysiad

O ystyried y gofynion uchod, rydym yn cael y bensaernïaeth datrysiad cyffredinol ganlynol.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Dylai LUNs gael eu dosbarthu'n gyfartal ar draws dau safle er mwyn osgoi gorlwytho difrifol. Ar yr un pryd, wrth sizing yn y ddwy ganolfan ddata, dylech gynnwys nid yn unig cyfaint dwbl (sy'n angenrheidiol i storio data ar yr un pryd ar ddwy system storio), ond hefyd perfformiad dwbl yn IOPS a MB/s er mwyn atal diraddio cais yn digwyddiad o fethiant un o'r canolfannau data.

Ar wahân, rydym yn nodi, gyda'r dull cywir o fesur maint (hynny yw, ar yr amod ein bod wedi darparu terfynau uchaf priodol IOPS a MB / s, yn ogystal â'r adnoddau CPU a RAM angenrheidiol), os yw un o'r systemau storio yn y clwstwr metro yn methu, ni fydd gostyngiad difrifol mewn perfformiad o dan amodau gwaith dros dro ar un system storio.

Eglurir hyn gan y ffaith, pan fydd dau safle yn gweithredu ar yr un pryd, bod atgynhyrchu cydamserol yn “bwyta” hanner y perfformiad ysgrifennu, gan fod yn rhaid ysgrifennu pob trafodiad i ddwy system storio (tebyg i RAID-1/10). Felly, os bydd un o'r systemau storio yn methu, mae dylanwad ail-greu dros dro (hyd nes y bydd y system storio aflwyddiannus yn adennill) yn diflannu, a byddwn yn cael cynnydd deublyg mewn perfformiad ysgrifennu. Ar ôl i LUNs y system storio a fethwyd gael eu hailgychwyn ar y system storio weithredol, mae'r cynnydd deublyg hwn yn diflannu oherwydd bod llwyth yn ymddangos o LUNs y system storio arall, ac rydym yn dychwelyd i'r un lefel o berfformiad ag a gawsom cyn y “syrthio”, ond dim ond o fewn fframwaith un safle.

Gyda chymorth maint cymwys, gallwch sicrhau amodau lle na fydd defnyddwyr yn teimlo methiant system storio gyfan o gwbl. Ond rydyn ni'n ailadrodd unwaith eto, mae hyn yn gofyn am faint gofalus iawn, y gallwch chi, gyda llaw, gysylltu â ni am ddim :-).

Sefydlu metrocluster

Mae sefydlu metrocluster yn debyg iawn i sefydlu atgynhyrchu rheolaidd, a ddisgrifiwyd gennym ni erthygl flaenorol. Felly, gadewch i ni ganolbwyntio ar y gwahaniaethau yn unig. Fe wnaethom sefydlu mainc yn y labordy yn seiliedig ar y bensaernïaeth uchod, dim ond mewn fersiwn fach iawn: dwy system storio wedi'u cysylltu trwy 10G Ethernet, dau switsh 10G ac un gwesteiwr sy'n edrych trwy'r switshis yn y ddwy system storio gyda phorthladdoedd 10G. Mae'r cyflafareddwr yn rhedeg ar beiriant rhithwir.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Wrth ffurfweddu IPs rhithwir (VIPs) ar gyfer replica, dylech ddewis y math VIP - ar gyfer metrocluster.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Fe wnaethom greu dwy ddolen atgynhyrchu ar gyfer dwy LUN a'u dosbarthu ar draws dwy system storio: LUN TEST Cynradd ar system storio 1 (cyswllt METRO), LUN TEST2 Cynradd ar gyfer system storio 2 (dolen METRO2).

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Ar eu cyfer, fe wnaethom ffurfweddu dau darged union yr un fath (iSCSI yn ein hachos ni, ond cefnogir FC hefyd, mae'r rhesymeg gosod yr un peth).

System storio 1:

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

System storio 2:

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Ar gyfer cysylltiadau atgynhyrchu, gwnaed mapiau ar bob system storio.

System storio 1:

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

System storio 2:

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Fe wnaethon ni sefydlu multipath a'i gyflwyno i'r gwesteiwr.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Sefydlu cyflafareddwr

Nid oes angen i chi wneud unrhyw beth arbennig gyda'r canolwr ei hun; does ond angen i chi ei alluogi ar y trydydd safle, rhoi IP iddo a ffurfweddu mynediad iddo trwy ICMP a SSH. Mae'r gosodiad ei hun yn cael ei berfformio o'r systemau storio eu hunain. Yn yr achos hwn, mae'n ddigon i ffurfweddu'r canolwr unwaith ar unrhyw un o'r rheolyddion storio yn y metrocluster; bydd y gosodiadau hyn yn cael eu dosbarthu i bob rheolydd yn awtomatig.

Yn yr adran Dyblygiad o bell >> Metrocluster (ar unrhyw reolwr) >> y botwm "Ffurfweddu".

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Rydyn ni'n mynd i mewn i IP y canolwr, yn ogystal â rhyngwynebau rheoli dau reolwr storio o bell.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Ar ôl hyn, mae angen i chi alluogi'r holl wasanaethau (y botwm "Ailgychwyn popeth"). Os cânt eu hailgyflunio yn y dyfodol, rhaid ailgychwyn gwasanaethau er mwyn i'r gosodiadau ddod i rym.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Rydym yn gwirio bod pob gwasanaeth yn rhedeg.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Mae hyn yn cwblhau'r gosodiad metrocluster.

Prawf damwain

Bydd y prawf damwain yn ein hachos ni yn eithaf syml a chyflym, gan fod y swyddogaeth atgynhyrchu (newid, cysondeb, ac ati) wedi'i drafod yn erthygl olaf. Felly, i brofi dibynadwyedd y metrocluster, mae'n ddigon inni wirio awtomeiddio canfod methiant, newid ac absenoldeb cofnodi colledion (arosfannau I/O).

I wneud hyn, rydym yn efelychu methiant llwyr un o'r systemau storio trwy ddiffodd y ddau reolwr yn gorfforol, ar ôl dechrau copïo ffeil fawr i'r LUN yn gyntaf, y mae'n rhaid ei actifadu ar y system storio arall.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Analluogi un system storio. Ar yr ail system storio rydym yn gweld rhybuddion a negeseuon yn y logiau bod y cysylltiad â'r system gyfagos wedi'i golli. Os yw hysbysiadau trwy fonitro SMTP neu SNMP wedi'u ffurfweddu, bydd y gweinyddwr yn derbyn hysbysiadau cyfatebol.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Yn union 10 eiliad yn ddiweddarach (yn weladwy yn y ddau sgrinlun), daeth y cysylltiad atgynhyrchu METRO (yr un a oedd yn Gynradd ar y system storio a fethwyd) yn Gynradd yn awtomatig ar y system storio weithredol. Gan ddefnyddio'r mapio presennol, roedd LUN TEST ar gael i'r gwesteiwr o hyd, gostyngodd y recordiad ychydig (o fewn y 10 y cant a addawyd), ond ni amharwyd arno.

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Peiriant AERODISK: Gwrthiant trychineb. Rhan 2. Metrocluster

Cwblhawyd y prawf yn llwyddiannus.

I grynhoi

Mae gweithrediad presennol y metrocluster yn systemau storio cyfres N-Series AERODISK yn llawn yn caniatáu datrys problemau lle mae angen dileu neu leihau amser segur ar gyfer gwasanaethau TG a sicrhau eu gweithrediad 24/7/365 gyda chostau llafur lleiaf posibl.

Gallwn ddweud, wrth gwrs, mai theori yw hyn i gyd, amodau labordy delfrydol, ac yn y blaen... OND mae gennym ni nifer o brosiectau ar waith lle rydym wedi gweithredu ymarferoldeb gwrthsefyll trychineb, ac mae'r systemau'n gweithio'n berffaith. Mae un o'n cwsmeriaid eithaf adnabyddus, sy'n defnyddio dim ond dwy system storio mewn cyfluniad atal trychineb, eisoes wedi cytuno i gyhoeddi gwybodaeth am y prosiect, felly yn y rhan nesaf byddwn yn siarad am y gweithredu ymladd.

Diolch, edrychwn ymlaen at drafodaeth gynhyrchiol.

Ffynhonnell: hab.com

Ychwanegu sylw