A ddylai'r gweinydd gael ei “ddiffodd” pe bai prawf mwg y ganolfan ddata wedi “tanio”?

Sut fyddech chi'n teimlo pe bai'r ganolfan ddata gyda'ch offer yn edrych fel hyn ar ddiwrnod braf o haf?

A ddylai'r gweinydd gael ei “ddiffodd” pe bai prawf mwg y ganolfan ddata wedi “tanio”?

Helo pawb! Fy enw i yw Dmitry Samsonov, rwy'n gweithio fel gweinyddwr system blaenllaw yn "Cyd-ddisgyblion" Mae'r llun yn dangos un o'r pedair canolfan ddata lle mae'r offer sy'n gwasanaethu ein prosiect wedi'i osod. Y tu ôl i'r waliau hyn mae tua 4 mil o ddarnau o offer: gweinyddwyr, systemau storio data, offer rhwydwaith, ac ati. - bron ⅓ o'n holl offer.
Mae'r rhan fwyaf o weinyddion yn Linux. Mae yna hefyd sawl dwsin o weinyddion ar Windows (MS SQL) - ein treftadaeth, yr ydym wedi bod yn rhoi'r gorau iddi yn systematig ers blynyddoedd lawer.
Felly, ar 5 Mehefin, 2019 am 14:35, adroddodd peirianwyr yn un o'n canolfannau data larwm tân.

Negodi

14:45. Mae mân ddigwyddiadau mwg mewn canolfannau data yn fwy cyffredin nag y credwch. Roedd y dangosyddion y tu mewn i'r neuaddau yn normal, felly roedd ein hymateb cyntaf yn gymharol dawel: fe wnaethant gyflwyno gwaharddiad ar weithio gyda chynhyrchu, hynny yw, ar unrhyw newidiadau cyfluniad, ar gyflwyno fersiynau newydd, ac ati, ac eithrio gwaith yn ymwneud â gosod rhywbeth.

Dicter

A ydych erioed wedi ceisio cael gwybod gan ddiffoddwyr tân yn union ble y digwyddodd y tân ar y to, neu i fynd ar do oedd yn llosgi eich hun i asesu'r sefyllfa? Beth fydd graddau'r ymddiriedaeth mewn gwybodaeth a dderbynnir gan bump o bobl?

14: 50. Mae gwybodaeth wedi dod i law bod y tân yn agosáu at y system oeri. Ond a ddaw? Mae gweinyddwr y system sydd ar ddyletswydd yn tynnu traffig allanol o flaen y ganolfan ddata hon.

Ar hyn o bryd, mae blaenau ein holl wasanaethau yn cael eu dyblygu mewn tair canolfan ddata, defnyddir cydbwyso ar lefel DNS, sy'n caniatáu inni dynnu cyfeiriadau un ganolfan ddata o'r DNS, a thrwy hynny amddiffyn defnyddwyr rhag problemau posibl gyda mynediad at wasanaethau . Os oes problemau eisoes wedi digwydd yn y ganolfan ddata, mae'n gadael y cylchdro yn awtomatig. Gallwch ddarllen mwy yma: Cydbwyso llwyth a goddefgarwch bai yn Odnoklassniki.

Nid yw'r tân wedi effeithio arnom mewn unrhyw ffordd eto - nid yw defnyddwyr nac offer wedi'u difrodi. Ai damwain yw hon? Mae adran gyntaf y ddogfen “Cynllun Gweithredu Damweiniau” yn diffinio’r cysyniad o “Damwain”, ac mae’r adran yn gorffen fel hyn:
«Os oes unrhyw amheuaeth a oes damwain ai peidio, yna damwain ydyw!»

14:53. Penodir cydlynydd brys.

Y cydlynydd yw'r person sy'n rheoli cyfathrebu rhwng yr holl gyfranogwyr, yn asesu maint y ddamwain, yn defnyddio'r Cynllun Gweithredu Argyfwng, yn denu'r personél angenrheidiol, yn monitro cwblhau atgyweiriadau, ac yn bwysicaf oll, yn dirprwyo unrhyw dasgau. Mewn geiriau eraill, dyma'r person sy'n rheoli'r broses ymateb brys gyfan.

Bargeinio

15:01. Rydym yn dechrau analluogi gweinyddwyr nad ydynt yn gysylltiedig â chynhyrchu.
15:03. Rydym yn gywir yn diffodd yr holl wasanaethau a gadwyd yn ôl.
Mae hyn yn cynnwys nid yn unig ffryntiau (nad yw defnyddwyr bellach yn eu cyrchu) a'u gwasanaethau ategol (rhesymeg busnes, caches, ac ati), ond hefyd amrywiol gronfeydd data gyda ffactor dyblygu 2 neu fwy (Cassandra, storio data deuaidd, storfa oer, NewSQL ac ati).
15: 06. Mae gwybodaeth wedi dod i law bod tân yn bygwth un o neuaddau'r ganolfan ddata. Nid oes gennym offer yn yr ystafell hon, ond mae’r ffaith bod y tân yn gallu lledu o’r to i’r neuaddau yn newid y darlun o’r hyn sy’n digwydd yn fawr.
(Yn ddiweddarach daeth i'r amlwg nad oedd unrhyw fygythiad corfforol i'r neuadd, gan ei fod wedi'i selio'n hermetig o'r to. Dim ond i system oeri'r neuadd hon oedd y bygythiad.)
15:07. Rydym yn caniatáu gweithredu gorchymyn ar weinyddion yn y modd cyflymach heb wiriadau ychwanegol (heb ein hoff gyfrifiannell).
15:08. Mae'r tymheredd yn y neuaddau o fewn terfynau arferol.
15: 12. Cofnodwyd cynnydd mewn tymheredd yn y neuaddau.
15:13. Mae mwy na hanner y gweinyddion yn y ganolfan ddata wedi'u diffodd. Gadewch i ni barhau.
15:16. Penderfynwyd diffodd yr holl offer.
15:21. Rydym yn dechrau diffodd pŵer i weinyddion di-wladwriaeth heb gau'r cymhwysiad a'r system weithredu yn gywir.
15:23. Neilltuir grŵp o bobl sy'n gyfrifol am MS SQL (nid oes llawer ohonynt, nid yw dibyniaeth gwasanaethau arnynt yn fawr, ond mae'r weithdrefn ar gyfer adfer ymarferoldeb yn cymryd mwy o amser ac yn fwy cymhleth na, er enghraifft, Cassandra).

Iselder

15: 25. Derbyniwyd gwybodaeth am bŵer yn cael ei ddiffodd mewn pedair neuadd allan o 16 (Rhif 6, 7, 8, 9). Mae ein hoffer wedi ei leoli yn neuaddau 7 ac 8. Nid oes unrhyw wybodaeth am ein dwy neuadd (Rhif 1 a 3).
Fel arfer, yn ystod tanau, mae'r cyflenwad pŵer yn cael ei ddiffodd ar unwaith, ond yn yr achos hwn, diolch i waith cydgysylltiedig diffoddwyr tân a phersonél technegol y ganolfan ddata, ni chafodd ei ddiffodd ym mhobman ac nid ar unwaith, ond yn ôl yr angen.
(Darganfuwyd yn ddiweddarach nad oedd y pŵer wedi'i ddiffodd yn neuaddau 8 a 9.)
15:28. Rydym yn dechrau defnyddio cronfeydd data MS SQL o gopïau wrth gefn mewn canolfannau data eraill.
Pa mor hir y bydd yn ei gymryd? A oes digon o gapasiti rhwydwaith ar gyfer y llwybr cyfan?
15: 37. Cofnodwyd cau rhai rhannau o'r rhwydwaith.
Mae rheolwyr a'r rhwydwaith cynhyrchu wedi'u hynysu'n gorfforol oddi wrth ei gilydd. Os yw'r rhwydwaith cynhyrchu ar gael, yna gallwch chi fynd i'r gweinydd, atal y cais a diffodd yr OS. Os nad yw ar gael, yna gallwch fewngofnodi trwy IPMI, atal y cais a diffodd yr OS. Os nad oes unrhyw un o'r rhwydweithiau, yna ni allwch wneud unrhyw beth. “Diolch, Cap!”, Byddwch chi'n meddwl.
“Ac yn gyffredinol, mae yna lawer o helbul,” efallai y byddwch chi'n meddwl hefyd.
Y peth yw bod gweinyddwyr, hyd yn oed heb dân, yn cynhyrchu llawer iawn o wres. Yn fwy manwl gywir, pan fydd oeri, maent yn cynhyrchu gwres, a phan nad oes oeri, maent yn creu inferno uffernol, a fydd, ar y gorau, yn toddi rhan o'r offer ac yn diffodd rhan arall, ac ar y gwaethaf ... achosi a tân y tu mewn i'r neuadd, sydd bron yn sicr o ddinistrio popeth.

A ddylai'r gweinydd gael ei “ddiffodd” pe bai prawf mwg y ganolfan ddata wedi “tanio”?

15:39. Rydym yn trwsio problemau gyda'r gronfa ddata conf.

Y gronfa ddata conf yw'r ôl-wyneb ar gyfer y gwasanaeth o'r un enw, a ddefnyddir gan bob rhaglen gynhyrchu i newid gosodiadau yn gyflym. Heb y sylfaen hon, ni allwn reoli gweithrediad y porth, ond gall y porth ei hun weithio.

15:41. Mae synwyryddion tymheredd ar offer rhwydwaith craidd yn cofnodi darlleniadau yn agos at yr uchafswm a ganiateir. Mae hwn yn flwch sy'n meddiannu rac cyfan ac yn sicrhau gweithrediad yr holl rwydweithiau y tu mewn i'r ganolfan ddata.

A ddylai'r gweinydd gael ei “ddiffodd” pe bai prawf mwg y ganolfan ddata wedi “tanio”?

15:42. Nid yw'r traciwr cyhoeddi a'r wiki ar gael, newidiwch i'r modd segur.
Nid cynhyrchiad yw hwn, ond os bydd damwain, gall argaeledd unrhyw sylfaen wybodaeth fod yn hollbwysig.
15:50. Mae un o'r systemau monitro wedi diffodd.
Mae yna nifer ohonyn nhw, ac maen nhw'n gyfrifol am wahanol agweddau o'r gwasanaethau. Mae rhai ohonynt wedi'u ffurfweddu i weithredu'n annibynnol o fewn pob canolfan ddata (hynny yw, dim ond eu canolfan ddata eu hunain y maent yn eu monitro), mae eraill yn cynnwys cydrannau dosbarthedig sy'n goroesi colli unrhyw ganolfan ddata yn dryloyw.
Yn yr achos hwn mae'n rhoi'r gorau i weithio system canfod anghysondeb dangosyddion rhesymeg busnes, sy'n gweithredu yn y modd meistr-wrth gefn. Wedi newid i wrth gefn.

Mabwysiadu

15:51. Cafodd pob gweinydd ac eithrio MS SQL eu diffodd trwy IPMI heb gau i lawr yn gywir.
Ydych chi'n barod ar gyfer rheolaeth gweinydd enfawr trwy IPMI os oes angen?

Yr union foment pan fydd achub offer yn y ganolfan ddata wedi'i gwblhau ar hyn o bryd. Mae popeth y gellid ei wneud wedi'i wneud. Gall rhai cydweithwyr orffwys.
16: 13. Mae gwybodaeth wedi dod i law bod pibellau freon o gyflyrwyr aer yn byrstio ar y to - bydd hyn yn gohirio lansiad y ganolfan ddata ar ôl i'r tân gael ei ddileu.
16:19. Yn ôl data a dderbyniwyd gan staff technegol y ganolfan ddata, mae'r cynnydd yn y tymheredd yn y neuaddau wedi dod i ben.
17:10. Mae'r gronfa ddata conf wedi'i hadfer. Nawr gallwn newid gosodiadau cais.
Pam fod hyn mor bwysig os yw popeth yn oddefgar o ddiffygion ac yn gweithio hyd yn oed heb un ganolfan ddata?
Yn gyntaf, nid yw popeth yn gallu goddef diffygion. Mae yna wasanaethau eilaidd amrywiol nad ydynt eto wedi goroesi methiant canolfan ddata yn ddigon da, ac mae cronfeydd data yn y modd meistr wrth law. Mae'r gallu i reoli gosodiadau yn caniatáu ichi wneud popeth sy'n angenrheidiol i leihau effaith canlyniadau damwain ar ddefnyddwyr hyd yn oed mewn amodau anodd.
Yn ail, daeth yn amlwg na fyddai gweithrediad y ganolfan ddata yn cael ei adfer yn llawn yn yr oriau nesaf, felly roedd angen cymryd mesurau i sicrhau nad oedd diffyg argaeledd atgynyrchiadau yn y tymor hir yn arwain at drafferthion ychwanegol megis disgiau llawn yn y canolfannau data sy'n weddill.
17:29. Amser pizza! Rydym yn cyflogi pobl, nid robotiaid.

A ddylai'r gweinydd gael ei “ddiffodd” pe bai prawf mwg y ganolfan ddata wedi “tanio”?

Adsefydlu

18:02. Yn neuaddau Rhif 8 (ein un ni), 9, 10 ac 11 mae'r tymheredd wedi sefydlogi. Mae un o'r rhai sy'n aros all-lein (Rhif 7) yn gartref i'n hoffer, ac mae'r tymheredd yno yn parhau i godi.
18:31. Rhoesant ganiatâd i gychwyn yr offer yn neuaddau Rhif 1 a 3 - ni chafodd y neuaddau hyn eu heffeithio gan y tân.

Ar hyn o bryd, mae gweinyddwyr yn cael eu lansio yn neuaddau Rhif 1, 3, 8, gan ddechrau gyda'r rhai mwyaf hanfodol. Mae gweithrediad cywir yr holl wasanaethau rhedeg yn cael ei wirio. Mae problemau o hyd gyda neuadd Rhif 7.

18:44. Darganfu staff technegol y ganolfan ddata nad yw llawer o weinyddion yn ystafell Rhif 7 (lle mae ein hoffer yn unig wedi'i leoli) wedi'u diffodd. Yn ôl ein data, mae 26 o weinyddion yn aros ar-lein yno. Ar ôl ail wiriad, rydym yn dod o hyd i 58 o weinyddion.
20:18. Mae technegwyr canolfan ddata yn chwythu aer trwy ystafell heb aerdymheru trwy bibellau symudol sy'n rhedeg trwy'r cynteddau.
23:08. Anfonwyd y gweinyddwr cyntaf adref. Mae angen i rywun gysgu yn y nos er mwyn parhau i weithio yfory. Nesaf, byddwn yn rhyddhau mwy o weinyddwyr a datblygwyr.
02:56. Fe wnaethom lansio popeth y gellid ei lansio. Rydym yn gwneud llawer o wirio pob gwasanaeth gan ddefnyddio profion awtomatig.

A ddylai'r gweinydd gael ei “ddiffodd” pe bai prawf mwg y ganolfan ddata wedi “tanio”?

03:02. Mae aerdymheru yn y neuadd olaf, 7fed wedi'i hadfer.
03:36. Daethom â'r blaenau yn y ganolfan ddata i gylchdroi yn DNS. O'r eiliad hon mae traffig defnyddwyr yn dechrau cyrraedd.
Rydym yn anfon y rhan fwyaf o'r tîm gweinyddol adref. Ond rydyn ni'n gadael ychydig o bobl ar ôl.

Cwestiynau Cyffredin Bach:
C: Beth ddigwyddodd rhwng 18:31 a 02:56?
A: Yn dilyn y “Cynllun Gweithredu Trychineb”, rydym yn lansio pob gwasanaeth, gan ddechrau gyda'r rhai pwysicaf. Yn yr achos hwn, mae'r cydlynydd yn y sgwrs yn rhoi'r gwasanaeth i weinyddwr rhad ac am ddim, sy'n gwirio a yw'r OS a'r cais wedi cychwyn, a oes unrhyw wallau, ac a yw'r dangosyddion yn normal. Ar ôl i'r lansiad gael ei gwblhau, mae'n adrodd i'r sgwrs ei fod yn rhad ac am ddim ac yn derbyn gwasanaeth newydd gan y cydlynydd.
Mae'r broses yn cael ei arafu ymhellach gan galedwedd wedi methu. Hyd yn oed pe bai atal yr OS a chau'r gweinyddwyr yn mynd yn gywir, nid yw rhai gweinyddwyr yn dychwelyd oherwydd methiant sydyn disgiau, cof a siasi. Pan gollir pŵer, mae'r gyfradd fethiant yn cynyddu.
C: Pam na allwch chi redeg popeth ar unwaith, ac yna trwsio'r hyn sy'n codi wrth fonitro?
A: Rhaid gwneud popeth yn raddol, oherwydd mae yna ddibyniaethau rhwng gwasanaethau. A dylech wirio popeth ar unwaith, heb aros am fonitro - oherwydd mae'n well delio â phroblemau ar unwaith, heb aros iddynt waethygu.

7:40. Aeth y gweinyddwr diwethaf (cydlynydd) i'r gwely. Mae'r diwrnod cyntaf o waith wedi'i gwblhau.
8:09. Dechreuodd y datblygwyr cyntaf, peirianwyr canolfannau data a gweinyddwyr (gan gynnwys y cydlynydd newydd) waith adfer.
09:37. Dechreuon ni godi neuadd Rhif 7 (yr un olaf).
Ar yr un pryd, rydym yn parhau i adfer yr hyn nad oedd yn sefydlog mewn ystafelloedd eraill: ailosod disgiau / cof / gweinyddion, trwsio popeth sy'n “llosgi” wrth fonitro, newid rolau yn ôl mewn cynlluniau meistr wrth law a phethau bach eraill, y mae serch hynny cryn dipyn.
17:08. Rydym yn caniatáu pob gwaith rheolaidd gyda chynhyrchu.
21:45. Mae gwaith yr ail ddiwrnod wedi'i gwblhau.
09:45. Heddiw yw dydd Gwener. Mae yna ychydig o broblemau bach o hyd o ran monitro. Mae'r penwythnos o'n blaenau, mae pawb eisiau ymlacio. Rydym yn parhau i atgyweirio popeth a allwn yn aruthrol. Cafodd tasgau gweinyddol rheolaidd y gellid bod wedi eu gohirio eu gohirio. Mae'r cydlynydd yn newydd.
15:40. Yn sydyn, ailddechreuodd hanner y pentwr offer rhwydwaith Craidd yng nghanolfan ddata ARALL. Cafodd blaenau eu tynnu allan o gylchdro i leihau risgiau. Nid oes unrhyw effaith i ddefnyddwyr. Trodd allan yn ddiweddarach ei fod yn siasi diffygiol. Mae'r cydlynydd yn gweithio ar atgyweirio dwy ddamwain ar unwaith.
17:17. Mae gweithrediad rhwydwaith mewn canolfan ddata arall wedi'i adfer, mae popeth wedi'i wirio. Rhoddir y ganolfan ddata mewn cylchdro.
18:29. Gwaith y trydydd diwrnod ac, yn gyffredinol, y gwaith adfer ar ôl y ddamwain wedi'i gwblhau.

Afterword

04.04.2013/XNUMX/XNUMX, ar ddydd y gwall 404, "Cyd-ddisgyblion" wedi goroesi y ddamwain fwyaf —am dri diwrnod nid oedd y porth ar gael yn gyfan gwbl neu'n rhannol. Trwy gydol yr amser hwn, atgyweiriodd mwy na 100 o bobl o wahanol ddinasoedd, o wahanol gwmnïau (diolch yn fawr eto!), O bell ac yn uniongyrchol mewn canolfannau data, â llaw ac yn awtomatig, filoedd o weinyddion.
Rydym wedi dod i gasgliadau. Er mwyn atal hyn rhag digwydd eto, rydym wedi gwneud ac yn parhau i wneud gwaith helaeth hyd heddiw.

Beth yw'r prif wahaniaethau rhwng y ddamwain bresennol a 404?

  • Mae gennym “Gynllun Gweithredu Damweiniau”. Unwaith y chwarter, rydym yn cynnal ymarferion - rydym yn chwarae rôl mewn sefyllfa o argyfwng, y mae'n rhaid i grŵp o weinyddwyr (i gyd yn eu tro) ddileu trwy ddefnyddio'r “Cynllun Gweithredu Argyfwng”. Mae gweinyddwyr systemau blaenllaw yn cymryd eu tro i chwarae rôl cydlynydd.
  • Yn chwarterol, yn y modd prawf, rydym yn ynysu canolfannau data (i gyd yn eu tro) trwy rwydweithiau LAN a WAN, sy'n ein galluogi i nodi tagfeydd yn brydlon.
  • Llai o ddisgiau wedi torri, oherwydd ein bod wedi tynhau'r safonau: llai o oriau gweithredu, trothwyon llymach ar gyfer SMART,
  • Fe wnaethon ni roi'r gorau i BerkeleyDB yn llwyr, cronfa ddata hen ac ansefydlog a oedd yn gofyn am lawer o amser i adfer ar ôl ailgychwyn gweinydd.
  • Fe wnaethom leihau nifer y gweinyddion ag MS SQL a lleihau dibyniaeth ar y rhai sy'n weddill.
  • Mae gennym ni ein hunain cwmwl - un-cwmwl, lle’r ydym wedi bod wrthi’n mudo pob gwasanaeth ers dwy flynedd bellach. Mae'r cwmwl yn symleiddio'r cylch cyfan o weithio gyda'r cais yn fawr, ac os bydd damwain mae'n darparu offer unigryw fel:
    • stop cywir o bob cais mewn un clic;
    • mudo hawdd o gymwysiadau o weinyddion a fethwyd;
    • lansio canolfan ddata gyfan yn awtomatig (yn nhrefn blaenoriaeth gwasanaethau).

Y ddamwain a ddisgrifir yn yr erthygl hon oedd y fwyaf ers y 404fed diwrnod. Wrth gwrs, nid aeth popeth yn esmwyth. Er enghraifft, pan nad oedd canolfan ddata wedi'i difrodi gan dân ar gael mewn canolfan ddata arall, methodd disg ar un o'r gweinyddwyr, hynny yw, dim ond un o'r tri atgynhyrchiad yng nghlwstwr Cassandra a oedd yn parhau i fod yn hygyrch, a dyna pam roedd 4,2% o ffonau symudol ni allai defnyddwyr y rhaglen fewngofnodi . Ar yr un pryd, parhaodd defnyddwyr sydd eisoes wedi'u cysylltu i weithio. Yn gyfan gwbl, o ganlyniad i'r ddamwain, nodwyd mwy na 30 o broblemau - o fygiau banal i ddiffygion ym mhensaernïaeth y gwasanaeth.

Ond y gwahaniaeth pwysicaf rhwng y ddamwain bresennol a'r 404th yw, er ein bod yn dileu canlyniadau'r tân, roedd defnyddwyr yn dal i anfon negeseuon testun a gwneud galwadau fideo i Tamtam, chwarae gemau, gwrando ar gerddoriaeth, rhoddodd ei gilydd anrhegion, gwylio fideos, cyfresi teledu a sianeli teledu yn OK, a hefyd yn ffrydio i mewn Iawn Byw.

Sut mae eich damweiniau yn mynd?

Ffynhonnell: hab.com

Ychwanegu sylw