Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Hei Habr!

Ar ôl gwyliau'r Flwyddyn Newydd, fe wnaethom ail-lansio cwmwl atal trychineb yn seiliedig ar ddau safle. Heddiw, byddwn yn dweud wrthych sut mae'n gweithio ac yn dangos beth sy'n digwydd i beiriannau rhithwir cleientiaid pan fydd elfennau unigol o'r clwstwr yn methu a'r wefan gyfan yn chwalu (difethwr - mae popeth yn iawn gyda nhw).

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio
System storio cwmwl sy'n gwrthsefyll trychineb ar safle OST.

Beth sydd y tu mewn

O dan y cwfl, mae gan y clwstwr weinyddion Cisco UCS gyda hypervisor VMware ESXi, dwy system storio INFINIDAT InfiniBox F2240, offer rhwydwaith Cisco Nexus, yn ogystal â switshis Brocade SAN. Rhennir y clwstwr yn ddau safle - OST a NORD, h.y. mae gan bob canolfan ddata yr un set o offer. A dweud y gwir, dyma sy'n ei gwneud yn gallu gwrthsefyll trychineb.

O fewn un safle, mae'r prif elfennau hefyd yn cael eu dyblygu (gwestewyr, switshis SAN, rhwydweithio).
Mae'r ddau safle wedi'u cysylltu gan lwybrau ffibr optig pwrpasol, sydd hefyd wedi'u cadw.

Ychydig eiriau am systemau storio. Fe wnaethom adeiladu'r fersiwn gyntaf o gwmwl atal trychineb ar NetApp. Dyma ni wedi dewis INFINIDAT, a dyma pam:

  • Opsiwn atgynhyrchu Active-Active. Mae'n caniatáu i'r peiriant rhithwir aros yn weithredol hyd yn oed os yw un o'r systemau storio yn methu'n llwyr. Byddaf yn dweud mwy wrthych am atgynhyrchu yn nes ymlaen.
  • Tri rheolydd disg i gynyddu goddefgarwch bai system. Fel arfer mae dau.
  • Datrysiad parod. Cawsom rac wedi'i ymgynnull ymlaen llaw y mae angen ei gysylltu â'r rhwydwaith a'i ffurfweddu.
  • Cefnogaeth dechnegol sylwgar. Mae peirianwyr INFINIDAT yn dadansoddi logiau a digwyddiadau system storio yn gyson, yn gosod fersiynau firmware newydd, ac yn helpu gyda chyfluniad.

Dyma rai lluniau o ddadbacio:

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Sut mae'n gweithio

Mae'r cwmwl eisoes yn gallu goddef bai ynddo'i hun. Mae'n amddiffyn y cleient rhag methiannau caledwedd a meddalwedd unigol. Bydd gwrthsefyll trychineb yn helpu i amddiffyn rhag methiannau enfawr o fewn un safle: er enghraifft, methiant system storio (neu glwstwr SDS, sy'n digwydd yn eithaf aml 🙂), gwallau enfawr mewn rhwydwaith storio, ac ati. Wel, ac yn bwysicaf oll: mae cwmwl o'r fath yn arbed pan fydd safle cyfan yn dod yn anhygyrch oherwydd tân, blacowt, meddiannu ysbeilwyr, neu lanio estron.

Ym mhob un o'r achosion hyn, mae peiriannau rhithwir y cleient yn parhau i weithio, a dyma pam.

Mae'r dyluniad clwstwr wedi'i gynllunio fel y gall unrhyw westeiwr ESXi sydd â pheiriannau rhithwir cleient gael mynediad i unrhyw un o'r ddwy system storio. Os bydd y system storio ar safle OST yn methu, bydd y peiriannau rhithwir yn parhau i weithio: bydd y gwesteiwyr y maent yn rhedeg arnynt yn cyrchu'r system storio ar NORD ar gyfer data.

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio
Dyma sut olwg sydd ar y diagram cysylltiad mewn clwstwr.

Mae hyn yn bosibl oherwydd y ffaith bod Cyswllt Rhyng-Switsh wedi'i ffurfweddu rhwng ffabrigau SAN y ddau safle: mae'r switsh Ffabrig A OST SAN wedi'i gysylltu â switsh Ffabrig A NORD SAN, ac yn yr un modd ar gyfer switshis Ffabrig B SAN.

Wel, fel bod yr holl gymhlethdodau hyn o ffatrïoedd SAN yn gwneud synnwyr, mae atgynhyrchu Active-Active wedi'i ffurfweddu rhwng y ddwy system storio: mae gwybodaeth yn cael ei hysgrifennu bron ar yr un pryd i'r systemau storio lleol ac anghysbell, RPO = 0. Mae'n ymddangos bod y data gwreiddiol yn cael ei storio ar un system storio, ac mae ei replica yn cael ei storio ar y llall. Mae data'n cael ei ailadrodd ar lefel y cyfeintiau storio, ac mae'r data VM (ei ddisgiau, ffeil ffurfweddu, ffeil cyfnewid, ac ati) yn cael ei storio arnynt.

Mae gwesteiwr ESXi yn gweld y gyfrol gynradd a'i atgynhyrchiad fel un ddyfais ddisg (Dyfais Storio). Mae yna 24 llwybr o'r gwesteiwr ESXi i bob dyfais ddisg:

Mae 12 llwybr yn ei gysylltu â'r system storio leol (llwybrau optimaidd), a'r 12 sy'n weddill i'r system storio o bell (llwybrau nad ydynt yn optimaidd). Mewn sefyllfa arferol, mae ESXi yn cyrchu data ar y system storio leol gan ddefnyddio llwybrau “optimaidd”. Pan fydd y system storio hon yn methu, mae ESXi yn colli'r llwybrau gorau posibl ac yn newid i rai “nad ydynt yn optimaidd”. Dyma sut mae'n edrych ar y diagram.

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio
Cynllun clwstwr atal trychineb.

Mae pob rhwydwaith cleient wedi'i gysylltu â'r ddau safle trwy wead rhwydwaith cyffredin. Mae pob gwefan yn rhedeg Darparwr Ymyl (PE), lle mae rhwydweithiau'r cleient yn cael eu terfynu. Mae addysg gorfforol yn cael eu huno yn glwstwr cyffredin. Os bydd PE yn methu ar un safle, caiff yr holl draffig ei ailgyfeirio i'r ail safle. Diolch i hyn, mae peiriannau rhithwir o'r safle a adawyd heb AG yn parhau i fod yn hygyrch dros y rhwydwaith i'r cleient.

Gadewch i ni nawr weld beth fydd yn digwydd i beiriannau rhithwir cleientiaid yn ystod methiannau amrywiol. Gadewch i ni ddechrau gyda'r opsiynau ysgafnaf a gorffen gyda'r mwyaf difrifol - methiant y safle cyfan. Yn yr enghreifftiau, OST fydd y prif lwyfan, a bydd y llwyfan wrth gefn, gyda chopïau data, yn NORD.

Beth sy'n digwydd i beiriant rhithwir y cleient os...

Dolen atgynhyrchu yn methu. Ail-greu rhwng systemau storio'r ddau safle.
Dim ond gyda dyfeisiau disg lleol y bydd ESXi yn gweithio (trwy'r llwybrau gorau posibl).
Mae peiriannau rhithwir yn parhau i weithio.

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Mae'r ISL (Cysylltiad Rhyng-Switch) yn torri. Mae'r achos yn annhebygol. Oni bai bod cloddiwr gwallgof yn cloddio sawl llwybr optegol ar unwaith, sy'n rhedeg ar lwybrau annibynnol ac yn cael eu cludo i'r safleoedd trwy wahanol fewnbynnau. Ond beth bynnag. Yn yr achos hwn, mae gwesteiwyr ESXi yn colli hanner y llwybrau a dim ond eu systemau storio lleol y gallant gael mynediad iddynt. Cesglir copïau, ond ni fydd gwesteiwyr yn gallu cael mynediad atynt.

Mae peiriannau rhithwir yn gweithio fel arfer.

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Mae'r switsh SAN yn methu ar un o'r safleoedd. Mae gwesteiwyr ESXi yn colli rhai o'r llwybrau i'r system storio. Yn yr achos hwn, dim ond trwy un o'u HBAs y bydd y gwesteiwyr ar y safle lle methodd y switsh yn gweithio.

Mae'r peiriannau rhithwir yn parhau i weithredu fel arfer.

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Mae pob switsh SAN ar un o'r safleoedd yn methu. Gadewch i ni ddweud y digwyddodd trychineb o'r fath ar safle OST. Yn yr achos hwn, bydd gwesteiwyr ESXi ar y wefan hon yn colli pob llwybr i'w dyfeisiau disg. Mae mecanwaith safonol VMware vSphere HA yn dod i rym: bydd yn ailgychwyn holl beiriannau rhithwir y safle OST yn NORD mewn uchafswm o 140 eiliad.

Mae peiriannau rhithwir sy'n rhedeg ar westeion safle NORD yn gweithredu fel arfer.

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Mae gwesteiwr ESXi yn methu ar un safle. Yma mae'r mecanwaith HA vSphere yn gweithio eto: mae peiriannau rhithwir o'r gwesteiwr a fethwyd yn cael eu hailgychwyn ar westeion eraill - ar yr un safle neu safle anghysbell. Mae amser ailgychwyn y peiriant rhithwir hyd at 1 munud.

Os bydd pob gwesteiwr ESXi ar wefan OST yn methu, nid oes unrhyw opsiynau: mae'r VMs yn cael eu hailddechrau ar un arall. Mae amser ailgychwyn yr un peth.

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Mae'r system storio yn methu ar un safle. Gadewch i ni ddweud bod y system storio yn methu ar wefan OST. Yna mae gwesteiwyr ESXi safle OST yn newid i weithio gyda chopïau storio yn NORD. Ar ôl i'r system storio aflwyddiannus ddychwelyd i'r gwasanaeth, bydd dyblygu gorfodol yn digwydd a bydd gwesteiwyr ESXi OST yn dechrau cyrchu'r system storio leol eto.

Mae peiriannau rhithwir wedi bod yn gweithio fel arfer trwy'r amser hwn.

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Mae un o'r safleoedd yn methu. Yn yr achos hwn, bydd pob peiriant rhithwir yn cael ei ailgychwyn ar y safle wrth gefn trwy fecanwaith HA vSphere. Amser ailgychwyn VM yw 140 eiliad. Yn yr achos hwn, bydd holl osodiadau rhwydwaith y peiriant rhithwir yn cael eu cadw, ac mae'n parhau i fod yn hygyrch i'r cleient dros y rhwydwaith.

Er mwyn sicrhau bod ailgychwyn y peiriannau yn y safle wrth gefn yn mynd yn esmwyth, dim ond hanner llawn yw pob safle. Mae'r ail hanner yn gronfa wrth gefn rhag ofn i bob peiriant rhithwir symud o'r ail safle, sydd wedi'i ddifrodi.

Cwmwl sy'n Gwydn ar gyfer Trychinebau: Sut Mae'n Gweithio

Mae cwmwl sy'n gwrthsefyll trychineb yn seiliedig ar ddwy ganolfan ddata yn amddiffyn rhag methiannau o'r fath.

Nid yw'r pleser hwn yn rhad, oherwydd, yn ogystal â'r prif adnoddau, mae angen cronfa wrth gefn ar yr ail safle. Felly, mae gwasanaethau sy'n hanfodol i fusnes yn cael eu rhoi mewn cwmwl o'r fath, y mae ei amser segur hirdymor yn achosi colledion ariannol mawr ac enw da, neu os yw'r system wybodaeth yn destun gofynion gwrthsefyll trychineb gan reoleiddwyr neu reoliadau mewnol cwmni.

Ffynonellau:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

Ffynhonnell: hab.com

Ychwanegu sylw