Clwstwr o ddau nod - mae'r diafol yn y manylion

Hei Habr! Cyflwynaf i'ch sylw gyfieithiad yr erthygl "Dau Nod - Mae'r Diafol yn y Manylion" gan Andrew Beekhof.

Mae'n well gan lawer o bobl glystyrau dau nod oherwydd eu bod yn ymddangos yn symlach yn gysyniadol ac maent hefyd 33% yn rhatach na'u cymheiriaid tri nod. Er ei bod yn eithaf posibl llunio clwstwr da o ddau nod, yn y rhan fwyaf o achosion, oherwydd senarios anystyriol, bydd cyfluniad o'r fath yn creu llawer o broblemau anamlwg.

Y cam cyntaf i greu unrhyw system argaeledd uchel yw canfod a cheisio dileu pwyntiau unigol o fethiant, a dalfyrrir yn aml fel SPoF (un pwynt methiant).

Mae'n werth cofio ei bod yn amhosibl dileu'r holl risgiau posibl o amser segur mewn unrhyw system. Mae hyn yn deillio o'r ffaith mai amddiffyniad nodweddiadol yn erbyn risg yw cyflwyno rhywfaint o ddiswyddo, sy'n arwain at fwy o gymhlethdod yn y system ac ymddangosiad pwyntiau newydd o fethiant. Felly, rydym yn gwneud cyfaddawd i ddechrau ac yn canolbwyntio ar ddigwyddiadau sy'n gysylltiedig â phwyntiau unigol o fethiant, ac nid ar gadwyni o ddigwyddiadau cysylltiedig ac, felly, yn gynyddol llai tebygol.

O ystyried y cyfaddawdu, rydym nid yn unig yn edrych am SPoF, ond hefyd yn cydbwyso risgiau a chanlyniadau, ac o ganlyniad gall y casgliad o'r hyn sy'n hollbwysig a'r hyn nad yw'n hanfodol amrywio ar gyfer pob defnydd.

Nid yw pawb angen cyflenwyr trydan amgen gyda llinellau pŵer annibynnol. Er bod y paranoia wedi talu ar ei ganfed i o leiaf un cwsmer pan ganfuwyd trawsnewidydd diffygiol wrth fonitro. Gwnaeth y cwsmer alwadau ffôn yn ceisio rhybuddio'r cwmni pŵer nes i'r newidydd diffygiol ffrwydro.

Man cychwyn naturiol yw cael mwy nag un nod yn y system. Fodd bynnag, cyn y gall y system symud gwasanaethau i’r nod sydd wedi goroesi ar ôl methiant, yn gyffredinol mae angen iddi sicrhau nad yw’r gwasanaethau sy’n cael eu symud yn weithredol i rywle arall.

Nid oes unrhyw anfantais i glwstwr dau nod os bydd methiant yn arwain at y ddau nod yn gwasanaethu'r un wefan sefydlog. Fodd bynnag, mae pethau'n newid os mai'r canlyniad yw bod y ddau barti yn rheoli ciw swydd a rennir yn annibynnol neu'n darparu mynediad ysgrifennu heb ei gydlynu i gronfa ddata a rennir neu system ffeiliau a rennir.

Felly, er mwyn atal llygredd data o ganlyniad i fethiant un nod - rydym yn dibynnu ar rywbeth o'r enw "datgysylltiad" (ffensio).

Yr egwyddor o ddaduniad

Wrth wraidd egwyddor daduniad mae'r cwestiwn: a all nod cystadleuol achosi llygredd data? Rhag ofn bod llygredd data yn senario tebygol, ateb da fyddai ynysu'r nod rhag ceisiadau sy'n dod i mewn a storio parhaus. Y dull mwyaf cyffredin o ddatgysylltu yw datgysylltu'r nodau diffygiol.

Mae dau gategori o ddulliau daduniad, y byddaf yn eu galw syth и anuniongyrchol, ond gellir eu galw yn gyfartal gweithgar и goddefol. Mae dulliau uniongyrchol yn cynnwys gweithredoedd ar ran cyfoedion sydd wedi goroesi, megis rhyngweithio â dyfais IPMI (Rhyngwyneb Rheoli Platfform Deallus) neu ILO (mecanwaith ar gyfer rheoli gweinyddwyr yn absenoldeb mynediad corfforol iddynt), tra bod dulliau anuniongyrchol yn dibynnu ar y ddyfais a fethwyd. nod i gydnabod rhywsut ei fod mewn cyflwr afiach (neu o leiaf yn atal aelodau eraill rhag gwella) a signal corff gwarchod caledwedd am yr angen i ddatgysylltu'r nod a fethwyd.

Mae cworwm yn helpu wrth ddefnyddio dulliau uniongyrchol ac anuniongyrchol.

Daduniad uniongyrchol

Yn achos daduniad uniongyrchol, gallwn ddefnyddio cworwm i atal rasys daduniad os bydd rhwydwaith yn methu.

Gyda'r cysyniad o gworwm, mae digon o wybodaeth yn y system (hyd yn oed heb gysylltu â'i chymheiriaid) i nodau wybod yn awtomatig a ddylent gychwyn daduniad a/neu adferiad.

Heb gworwm, bydd dwy ochr rhaniad rhwydwaith yn cymryd yn ganiataol bod yr ochr arall wedi marw a bydd yn ceisio datgysylltu'r llall. Yn yr achos gwaethaf, mae'r ddwy ochr yn llwyddo i gau'r clwstwr cyfan. Senario amgen yw deathmatch, dolen ddiddiwedd o nodau yn silio, peidio â gweld eu cyfoedion, eu hailgychwyn, a chychwyn adferiad dim ond i ailgychwyn pan fydd eu cyfoedion yn dilyn yr un rhesymeg.

Y broblem gyda datgysylltiad yw nad yw'r dyfeisiau a ddefnyddir amlaf ar gael oherwydd yr un digwyddiadau methiant yr ydym am eu targedu ar gyfer adferiad. Mae'r rhan fwyaf o gardiau IPMI ac iLO yn cael eu gosod ar y gwesteiwyr y maent yn eu rheoli ac, yn ddiofyn, yn defnyddio'r un rhwydwaith, sy'n achosi i'r gwesteiwyr targed gredu bod gwesteiwyr eraill all-lein.

Yn anffodus, anaml y caiff nodweddion gweithredu dyfeisiau IPMI ac iLo eu hystyried ar adeg prynu offer.

Datgysylltiad anuniongyrchol

Mae cworwm hefyd yn bwysig ar gyfer rheoli datgysylltiad anuniongyrchol; os caiff ei wneud yn gywir, gall cworwm ganiatáu i oroeswyr gymryd yn ganiataol y bydd nodau coll yn trosglwyddo i gyflwr diogel ar ôl cyfnod penodol o amser.

Gyda'r cyfluniad hwn, mae amserydd y corff gwarchod caledwedd yn cael ei ailosod bob N eiliad os na chaiff cworwm ei golli. Os yw'r amserydd (fel arfer sawl lluosrif o N) yn dod i ben, yna mae'r ddyfais yn perfformio pŵer afreolus i lawr (nid diffodd).

Mae’r dull hwn yn effeithiol iawn, ond heb gworwm nid oes digon o wybodaeth o fewn y clwstwr i’w reoli. Nid yw'n hawdd dweud y gwahaniaeth rhwng toriad rhwydwaith a methiant nod cyfoedion. Y rheswm pam mae hyn yn bwysig yw eich bod yn cael eich gorfodi i ddewis yr un ymddygiad yn y ddau achos heb y gallu i wahaniaethu rhwng y ddau achos.

Y broblem gyda dewis un modd yw nad oes unrhyw ffordd o weithredu sy'n cynyddu argaeledd ac yn atal colli data.

  • Os dewiswch gymryd yn ganiataol bod nod cyfoed yn weithredol ond yn methu mewn gwirionedd, bydd y clwstwr yn atal gwasanaethau a fyddai'n rhedeg yn ddiangen i wneud iawn am golli gwasanaethau o'r nod cyfoedion a fethwyd.
  • Os penderfynwch gymryd yn ganiataol bod nod i lawr, ond dim ond methiant rhwydwaith ydoedd ac mewn gwirionedd mae'r nod anghysbell yn weithredol, yna ar y gorau rydych chi'n cofrestru ar gyfer rhywfaint o gysoniad â llaw o'r setiau data canlyniadol yn y dyfodol.

Waeth pa hewristig a ddefnyddiwch, mae'n ddibwys creu methiant a fydd naill ai'n achosi i'r ddwy ochr fethu neu'n achosi i'r clwstwr gau'r nodau sydd wedi goroesi. Mae peidio â defnyddio cworwm yn wir yn amddifadu'r clwstwr o un o'r arfau mwyaf pwerus yn ei arsenal.

Os nad oes dewis arall, y dull gorau yw aberthu argaeledd (yma mae'r awdur yn cyfeirio at theorem y PAC). Nid yw argaeledd uchel data llygredig yn helpu unrhyw un, ac nid yw cysoni setiau data gwahanol â llaw yn hwyl ychwaith.

Cworwm

Mae cworwm yn swnio'n wych, iawn?

Yr unig anfantais yw bod angen i chi gael cysylltiad rhwng N/2+1 o'ch nodau ar ôl er mwyn ei gael mewn clwstwr ag aelodau N. Nid yw hyn yn bosibl mewn clwstwr dau nod ar ôl i un nod fethu.

Sydd yn y pen draw yn dod â ni at y broblem sylfaenol gyda dau nod:
Nid yw cworwm yn gwneud synnwyr mewn dau glwstwr nodau, a hebddo mae'n amhosibl pennu'n ddibynadwy y camau gweithredu sy'n cynyddu argaeledd ac yn atal colli data
Hyd yn oed mewn system o ddau nod wedi'u cysylltu gan gebl croesi, mae'n amhosibl gwahaniaethu'n bendant rhwng toriad rhwydwaith a methiant y nod arall. Bydd analluogi un pen (y mae ei debygolrwydd, wrth gwrs, yn gymesur â'r pellter rhwng y nodau) yn ddigon i annilysu unrhyw ragdybiaeth bod iechyd y cyswllt yn hafal i iechyd y nod partner.

Gwneud i glwstwr dau nod weithio

Weithiau ni all neu nid yw'r cleient eisiau prynu trydydd nod, ac rydym yn cael ein gorfodi i chwilio am ddewis arall.

Opsiwn 1 - Dull daduniad dyblyg

Mae dyfais ILO neu IPMI nod yn cynrychioli pwynt o fethiant oherwydd, os bydd yn methu, ni all goroeswyr ei ddefnyddio i ddod â'r nod i gyflwr diogel. Mewn clwstwr o 3 nod neu fwy, gallwn liniaru hyn trwy gyfrifo cworwm a defnyddio corff gwarchod caledwedd (mecanwaith datgysylltiad anuniongyrchol, fel y trafodwyd yn gynharach). Yn achos dau nod, rhaid inni ddefnyddio unedau dosbarthu pŵer rhwydwaith (PDUs) yn lle hynny.

Ar ôl methiant, mae'r goroeswr yn ceisio cysylltu â'r ddyfais datgysylltiad sylfaenol (ILO neu IPMI) yn gyntaf. Os bydd hyn yn llwyddiannus, bydd adferiad yn parhau fel arfer. Dim ond os bydd y ddyfais iLO/IPMI yn methu y ceir mynediad i'r PDU; os yw'r mynediad yn llwyddiannus, gall adferiad barhau.

Gwnewch yn siŵr eich bod chi'n gosod y PDU ar rwydwaith gwahanol i'r traffig clwstwr, fel arall bydd methiant rhwydwaith unigol yn rhwystro mynediad i'r dyfeisiau dadgysylltu ac yn rhwystro adfer gwasanaethau.

Yma efallai y byddwch yn gofyn - a yw'r PDU yn bwynt unigol o fethiant? I ba un yw'r ateb, wrth gwrs y mae.

Os yw'r risg hon yn arwyddocaol i chi, nid ydych chi ar eich pen eich hun: cysylltwch y ddau nod â dau PDU a dywedwch wrth y feddalwedd clystyru i ddefnyddio'r ddau wrth bweru'r nodau ymlaen ac i ffwrdd. Mae'r clwstwr bellach yn parhau i fod yn weithredol os bydd un PDU yn marw, a bydd angen ail fethiant y PDU arall neu'r ddyfais IPMI i rwystro adferiad.

Opsiwn 2 - Ychwanegu Cyflafareddwr

Mewn rhai sefyllfaoedd, er bod y dull datgysylltiad dyblyg yn dechnegol bosibl, mae'n anodd yn wleidyddol. Mae llawer o gwmnïau'n hoffi cael rhywfaint o wahaniad rhwng gweinyddwyr a pherchnogion cymwysiadau, ac nid yw gweinyddwyr rhwydwaith sy'n ymwybodol o ddiogelwch bob amser yn frwdfrydig ynghylch rhannu gosodiadau mynediad PDU ag unrhyw un.

Yn yr achos hwn, y dewis arall a argymhellir yw creu trydydd parti niwtral a all ychwanegu at y cyfrifiad cworwm.

Mewn achos o fethiant, rhaid i nod allu gweld tonnau awyr ei gyfoed neu gymrodeddwr er mwyn adfer gwasanaethau. Mae'r cyflafareddwr hefyd yn cynnwys swyddogaeth datgysylltu os yw'r ddau nod yn gallu gweld y canolwr ond yn methu â gweld ei gilydd.

Rhaid defnyddio'r opsiwn hwn ar y cyd â dull dadgysylltu anuniongyrchol, megis amserydd corff gwarchod caledwedd, sydd wedi'i ffurfweddu i ladd peiriant os yw'n colli cysylltiad â'i nod cyfoed a chyflafareddwr. Felly, gall goroeswr gymryd yn ganiataol yn rhesymol y bydd ei nod cyfoedion mewn cyflwr diogel ar ôl i amserydd y corff gwarchod caledwedd ddod i ben.

Y gwahaniaeth ymarferol rhwng canolwr a thrydydd nod yw bod angen llawer llai o adnoddau ar gyflafareddwr i weithredu ac y gall wasanaethu mwy nag un clwstwr o bosibl.

Opsiwn 3 - Ffactor dynol

Y dull olaf yw i oroeswyr barhau i redeg pa bynnag wasanaethau yr oeddent eisoes yn eu rhedeg, ond peidio â dechrau rhai newydd nes bod y broblem wedi'i datrys ei hun (adfer rhwydwaith, ailgychwyn nodau) neu fod person yn cymryd cyfrifoldeb am gadarnhau â llaw bod yr ochr arall wedi marw.

Opsiwn bonws

Wnes i sôn y gallwch chi ychwanegu trydydd nod?

Dau rac

Er mwyn dadl, gadewch i ni esgus fy mod wedi eich argyhoeddi o rinweddau'r trydydd nod, yn awr rhaid inni ystyried trefniant ffisegol y nodau. Os cânt eu cartrefu (a'u pweru) yn yr un rac, mae hyn hefyd yn gyfystyr â SPoF, ac un na ellir ei ddatrys trwy ychwanegu ail rac.

Os yw hyn yn syndod, ystyriwch beth fyddai'n digwydd pe bai rhesel gyda dau nod yn methu, a sut y byddai'r nod sydd wedi goroesi yn gwahaniaethu rhwng hynny a methiant rhwydwaith.

Yr ateb byr yw nad yw hyn yn bosibl, ac yr ydym unwaith eto yn ymdrin â’r holl broblemau yn achos dau nod. Neu oroeswr:

  • yn anwybyddu cworwm ac yn ceisio'n anghywir i gychwyn gwaith adfer yn ystod toriadau rhwydwaith (mae'r gallu i gwblhau daduniad yn stori wahanol ac yn dibynnu a yw'r PDU yn gysylltiedig ac a ydynt yn rhannu pŵer ag unrhyw rai o'r raciau), neu
  • yn parchu cworwm ac yn datgysylltu ei hun yn gynamserol pan fydd ei nod cyfoedion yn methu

Beth bynnag, nid yw dau rac yn well nag un, a rhaid i'r nodau naill ai dderbyn cyflenwadau pŵer annibynnol neu gael eu dosbarthu ar draws tair rac (neu fwy, yn dibynnu ar faint o nodau sydd gennych).

Dwy ganolfan ddata

Ar y pwynt hwn, efallai y bydd darllenwyr nad ydynt bellach yn amharod i gymryd risg am ystyried adfer ar ôl trychineb. Beth sy'n digwydd pan fydd asteroid yn taro'r un ganolfan ddata gyda'n tri nod wedi'u gwasgaru ar draws tri rac gwahanol? Yn amlwg Pethau Drwg, ond yn dibynnu ar eich anghenion, efallai na fydd ychwanegu ail ganolfan ddata yn ddigon.

Os caiff ei wneud yn gywir, mae'r ail ganolfan ddata yn rhoi copi cyfoes a chyson o'ch gwasanaethau a'u data i chi (ac yn rhesymol felly). Fodd bynnag, fel mewn senarios dau nôd, dau rac, nid oes digon o wybodaeth yn y system i sicrhau argaeledd mwyaf ac atal llygredd (neu anghysondebau set ddata). Hyd yn oed gyda thri nod (neu rac), mae eu dosbarthu ar draws dwy ganolfan ddata yn unig yn golygu na all y system wneud y penderfyniad cywir yn ddibynadwy pe bai digwyddiad (yn llawer mwy tebygol bellach) na all y ddau barti ei gyfathrebu.

Nid yw hyn yn golygu nad yw datrysiad canolfan ddata ddeuol byth yn addas. Yn aml mae cwmnïau eisiau i berson fod yn ymwybodol cyn cymryd y cam rhyfeddol o symud i ganolfan ddata wrth gefn. Cofiwch, os ydych chi am awtomeiddio'r toriad, bydd angen trydydd canolfan ddata arnoch chi ar gyfer cworwm i wneud synnwyr (naill ai'n uniongyrchol neu drwy ganolwr), neu fe welwch ffordd i gau'r data cyfan yn ddibynadwy. canol.

Ffynhonnell: hab.com

Ychwanegu sylw