Á að slökkva á netþjónum ef kviknaði í reykprófi gagnaversins?

Hvernig myndi þér líða ef einn góðan sumardag liti gagnaverið með búnaðinum þínum svona út?

Á að slökkva á netþjónum ef kviknaði í reykprófi gagnaversins?

Hæ allir! Ég heiti Dmitry Samsonov, ég vinn sem leiðandi kerfisstjóri hjá "Bekkjarfélagar" Myndin sýnir eitt af fjórum gagnaverum þar sem búnaðurinn sem þjónar verkefninu okkar er settur upp. Á bak við þessa veggi eru um 4 þúsund tæki: netþjónar, gagnageymslukerfi, netbúnaður o.fl. - næstum ⅓ af öllum búnaði okkar.
Flestir netþjónar eru Linux. Það eru líka nokkrir tugir netþjóna á Windows (MS SQL) - arfleifð okkar, sem við höfum kerfisbundið yfirgefið í mörg ár.
Þannig að 5. júní 2019 klukkan 14:35 tilkynntu verkfræðingar í einu af gagnaverunum okkar um brunaviðvörun.

Neikvæði

14:45. Minniháttar reykslys í gagnaverum eru algengari en þú heldur. Vísarnir inni í salnum voru eðlilegir, svo fyrstu viðbrögð okkar voru tiltölulega róleg: þeir settu bann við vinnu við framleiðslu, það er að segja allar stillingarbreytingar, við að rúlla út nýjar útgáfur o.s.frv., nema fyrir vinnu sem tengist lagfæringu á einhverju.

Anger

Hefur þú einhvern tíma reynt að komast að því hjá slökkviliðsmönnum nákvæmlega hvar eldurinn kom upp á þakinu, eða að komast sjálfur upp á brennandi þak til að meta ástandið? Hversu mikið traust verður á upplýsingum sem berast frá fimm mönnum?

14: 50. Upplýsingar hafa borist um að eldurinn sé að nálgast kælikerfið. En kemur það? Kerfisstjórinn á vakt fjarlægir utanaðkomandi umferð af framhliðum þessa gagnaver.

Í augnablikinu eru framhlið allrar þjónustu okkar afrituð í þremur gagnaverum, jafnvægi er notað á DNS-stigi, sem gerir okkur kleift að fjarlægja heimilisföng eins gagnavers úr DNS og vernda þannig notendur fyrir hugsanlegum vandamálum með aðgang að þjónustu. . Ef vandamál hafa þegar komið upp í gagnaverinu fer það sjálfkrafa úr snúningnum. Þú getur lesið meira hér: Álagsjafnvægi og bilanaþol í Odnoklassniki.

Eldurinn hefur ekki haft nein áhrif á okkur ennþá - hvorki notendur né tæki hafa skemmst. Er þetta slys? Fyrsti hluti skjalsins „Aðgerðaráætlun vegna slysa“ skilgreinir hugtakið „slys“ og kaflinn endar svona:
«Ef það er einhver vafi á því hvort það sé slys eða ekki, þá er það slys!»

14:53. Neyðarstjóri er skipaður.

Umsjónarmaður er sá sem stjórnar samskiptum allra þátttakenda, metur umfang slyssins, notar neyðaraðgerðaáætlun, laðar til sín nauðsynlega starfsmenn, fylgist með því að viðgerðum sé lokið og síðast en ekki síst, felur öllum verkefnum. Með öðrum orðum, þetta er sá sem stjórnar öllu neyðarviðbragðsferlinu.

Samkomulag

15:01. Við byrjum að slökkva á netþjónum sem eru ekki tengdir framleiðslu.
15:03. Við slökkum rétt á allri frátekinni þjónustu.
Þetta felur ekki aðeins í sér að framan (sem notendur hafa ekki lengur aðgang að) og viðbótarþjónustu þeirra (viðskiptarökfræði, skyndiminni osfrv.), heldur einnig ýmsa gagnagrunna með afritunarstuðli 2 eða meira (Cassandra, tvöfaldur gagnageymslu, köld geymsla, NewSQL o.s.frv.).
15: 06. Upplýsingar hafa borist um að eldur ógnaði einum af sölum gagnaveranna. Við erum ekki með búnað í þessu herbergi, en sú staðreynd að eldurinn getur borist frá þaki upp í sal breytir mjög myndinni af því sem er að gerast.
(Síðar kom í ljós að engin líkamleg ógn stafaði af salnum, þar sem hann var loftþéttur frá þaki. Ógnin var aðeins við kælikerfi þessa salar.)
15:07. Við leyfum framkvæmd skipana á netþjónum í flýtiham án frekari athugana (án uppáhalds reiknivélarinnar okkar).
15:08. Hiti í salnum er innan eðlilegra marka.
15: 12. Hækkun á hitastigi í salnum var skráð.
15:13. Slökkt er á meira en helmingi netþjóna í gagnaverinu. Höldum áfram.
15:16. Ákveðið var að slökkva á öllum búnaði.
15:21. Við byrjum að slökkva á rafmagni á ríkislausa netþjóna án þess að slökkva á forritinu og stýrikerfinu á réttan hátt.
15:23. Hópi fólks sem ber ábyrgð á MS SQL er úthlutað (þeir eru fáir, þjónustu háð þeim er ekki mikil, en ferlið við að endurheimta virkni tekur lengri tíma og er flóknara en t.d. Cassandra).

Þunglyndi

15: 25. Upplýsingar fengust um rafmagnsslökkva í fjórum sölum af 16 (nr. 6, 7, 8, 9). Búnaðurinn okkar er staðsettur í sal 7 og 8. Engar upplýsingar liggja fyrir um salina okkar tvo (nr. 1 og 3).
Venjulega, meðan á eldi stendur, er strax slökkt á aflgjafanum, en í þessu tilfelli, þökk sé samræmdri vinnu slökkviliðsmanna og tæknimanna gagnaversins, var ekki slökkt á henni alls staðar og ekki strax, heldur eftir þörfum.
(Síðar kom í ljós að ekki var slökkt á rafmagni í sal 8 og 9.)
15:28. Við erum að byrja að dreifa MS SQL gagnagrunnum úr afritum í öðrum gagnaverum.
Hversu langan tíma mun það taka? Er næg netgeta fyrir alla leiðina?
15: 37. Lokun sumra hluta netkerfisins var skráð.
Stjórnun og framleiðslunet eru líkamlega einangruð frá hvort öðru. Ef framleiðslunetið er tiltækt geturðu farið á netþjóninn, stöðvað forritið og slökkt á stýrikerfinu. Ef það er ekki tiltækt geturðu skráð þig inn í gegnum IPMI, stöðvað forritið og slökkt á stýrikerfinu. Ef það er ekkert af netunum geturðu ekki gert neitt. "Takk, Cap!", munt þú hugsa.
„Og almennt er það mikið umrót,“ gætirðu líka hugsað.
Málið er að netþjónar, jafnvel án elds, mynda gífurlegan hita. Nánar tiltekið, þegar það er kæling, mynda þeir hita, og þegar það er engin kæling, búa þeir til helvítis helvítis, sem í besta falli mun bræða hluta af búnaðinum og slökkva á öðrum hluta, og í versta falli ... valda a eldur inni í salnum, sem er nánast tryggt að eyðileggja allt.

Á að slökkva á netþjónum ef kviknaði í reykprófi gagnaversins?

15:39. Við lagum vandamál með conf gagnagrunninn.

Conf gagnagrunnurinn er stuðningur fyrir samnefnda þjónustu, sem er notuð af öllum framleiðsluforritum til að breyta stillingum fljótt. Án þessa grunns getum við ekki stjórnað rekstri gáttarinnar, en gáttin sjálf getur virkað.

15:41. Hitaskynjarar á kjarnanetbúnaði skrá lestur nálægt leyfilegu hámarki. Þetta er kassi sem tekur heilt rekki og tryggir rekstur allra neta inni í gagnaverinu.

Á að slökkva á netþjónum ef kviknaði í reykprófi gagnaversins?

15:42. Málskráning og wiki eru ekki tiltæk, skiptu í biðstöðu.
Þetta er ekki framleiðsla, en ef slys ber að höndum getur aðgengi að hvaða þekkingargrunni sem er verið mikilvægt.
15:50. Slökkt hefur verið á einu eftirlitskerfisins.
Þeir eru nokkrir og þeir bera ábyrgð á mismunandi þáttum þjónustunnar. Sumir þeirra eru stilltir til að starfa sjálfstætt innan hvers gagnavera (þ.e. fylgjast aðeins með eigin gagnaveri), aðrir samanstanda af dreifðum íhlutum sem á gagnsæjan hátt lifa af tap hvers kyns gagnavera.
Í þessu tilfelli hætti það að virka viðskiptarökvísar fráviksgreiningarkerfi, sem virkar í master-biðham. Skipt í biðstöðu.

Ættleiðing

15:51. Slökkt var á öllum netþjónum nema MS SQL í gegnum IPMI án þess að slökkva rétt.
Ertu tilbúinn fyrir stórfellda netþjónastjórnun í gegnum IPMI ef þörf krefur?

Augnablikið þegar björgun búnaðar í gagnaverinu er lokið á þessu stigi. Allt sem hægt var að gera hefur verið gert. Sumir samstarfsmenn geta hvílt sig.
16: 13. Upplýsingar hafa borist um að freonrör frá loftræstitækjum hafi sprungið á þaki - það mun seinka gangsetningu gagnaversins eftir að eldurinn er útrýmt.
16:19. Samkvæmt gögnum sem bárust frá tæknimönnum gagnaversins er hætt að hækka hitastig í sölum.
17:10. Conf gagnagrunnurinn hefur verið endurheimtur. Nú getum við breytt forritastillingum.
Af hverju er þetta svona mikilvægt ef allt er bilunarþolið og virkar jafnvel án einni gagnaveri?
Í fyrsta lagi er ekki allt gallaþolið. Það eru ýmsar aukaþjónustur sem hafa ekki enn lifað nógu vel af bilun í gagnaveri og það eru gagnagrunnar í master-biðham. Hæfni til að stjórna stillingum gerir þér kleift að gera allt sem þarf til að lágmarka áhrif afleiðinga slyss á notendur jafnvel við erfiðar aðstæður.
Í öðru lagi varð ljóst að rekstur gagnaversins yrði ekki að fullu endurreistur á næstu klukkustundum og því var nauðsynlegt að grípa til ráðstafana til að tryggja að langvarandi skort á eftirlíkingum leiddi ekki til frekari vandræða eins og fulla diska í gagnaver sem eftir eru.
17:29. Pizzatími! Við ráðum fólk, ekki vélmenni.

Á að slökkva á netþjónum ef kviknaði í reykprófi gagnaversins?

Endurhæfing

18:02. Í sölum nr 8 (okkar), 9, 10 og 11 hefur hitinn náð jafnvægi. Einn af þeim sem er ótengdur (nr. 7) hýsir búnaðinn okkar og hitastigið þar heldur áfram að hækka.
18:31. Þeir gáfu leyfi til að gangsetja tækin í sal 1 og 3 - þessir salir urðu ekki fyrir áhrifum af eldinum.

Eins og er er verið að opna netþjóna í sölum nr. 1, 3, 8 og byrja á þeim mikilvægustu. Rétt virkni allra starfandi þjónustu er athugað. Enn eru vandamál með sal nr. 7.

18:44. Tæknimenn gagnaversins komust að því að í stofu nr. 7 (þar sem aðeins búnaður okkar er staðsettur) er ekki slökkt á mörgum netþjónum. Samkvæmt gögnum okkar eru 26 netþjónar áfram á netinu þar. Eftir aðra athugun finnum við 58 netþjóna.
20:18. Tæknimenn gagnavera blása lofti í gegnum loftkælt herbergi í gegnum farsímarásir sem liggja í gegnum gangina.
23:08. Fyrsti stjórnandinn var sendur heim. Einhver þarf að sofa á nóttunni til að geta haldið áfram vinnu á morgun. Næst munum við gefa út fleiri stjórnendur og forritara.
02:56. Við ræstum allt sem hægt var að hleypa af stokkunum. Við gerum mikið af athugun á allri þjónustu með sjálfvirkum prófum.

Á að slökkva á netþjónum ef kviknaði í reykprófi gagnaversins?

03:02. Loftkæling í síðasta, 7. salnum hefur verið endurreist.
03:36. Við færðum framhliðin í gagnaverinu í snúning í DNS. Frá þessu augnabliki byrjar notendaumferð að berast.
Við erum að senda megnið af stjórnunarteyminu heim. En við skiljum eftir nokkra menn.

Lítil algengar spurningar:
Sp.: Hvað gerðist frá 18:31 til 02:56?
A: Í kjölfar „aðgerðaáætlunar um hörmungar“ ræsum við alla þjónustu, og byrjar á þeirri mikilvægustu. Í þessu tilviki gefur umsjónarmaður spjallsins út þjónustuna til ókeypis stjórnanda, sem athugar hvort stýrikerfið og forritið hafi byrjað, hvort það séu einhverjar villur og hvort vísarnir séu eðlilegir. Eftir að ræsingu er lokið tilkynnir hann spjallinu að hann sé laus og fær nýja þjónustu frá umsjónarmanni.
Ferlið hægist enn frekar á biluðum vélbúnaði. Jafnvel þótt að stöðva stýrikerfið og slökkva á netþjónunum hafi gengið rétt, þá koma sumir netþjónar ekki aftur vegna skyndilegrar bilunar á diskum, minni og undirvagni. Þegar rafmagn tapast eykst bilanatíðni.
Sp.: Af hverju geturðu ekki bara keyrt allt í einu og lagað síðan það sem kemur upp í eftirliti?
A: Allt verður að gera smám saman, því það eru ósjálfstæði milli þjónustu. Og þú ættir að athuga allt strax, án þess að bíða eftir eftirliti - því það er betra að takast á við vandamál strax, án þess að bíða eftir að þau versni.

7:40. Síðasti stjórnandinn (samhæfingarstjórinn) fór að sofa. Vinnu fyrsta dags er lokið.
8:09. Fyrstu verktaki, verkfræðingar gagnavera og stjórnendur (þar á meðal nýi umsjónarmaðurinn) hófu endurreisnarvinnu.
09:37. Við byrjuðum að hækka sal nr. 7 (síðasta).
Á sama tíma höldum við áfram að endurheimta það sem ekki var lagað í öðrum herbergjum: að skipta um diska/minni/þjóna, laga allt sem „brennir“ í eftirliti, skipta aftur um hlutverk í master-biðstöðukerfum og annað smálegt, sem það eru til. samt frekar mikið.
17:08. Við leyfum alla reglubundna vinnu við framleiðslu.
21:45. Vinnu seinni dags er lokið.
09:45. Í dag er föstudagur. Enn eru þónokkuð lítil vandamál í eftirliti. Helgin er framundan, allir vilja slaka á. Við höldum áfram að gera stórfellda viðgerðir á öllu sem við getum. Reglulegum stjórnunarverkefnum sem hefði mátt fresta var frestað. Umsjónarmaður er nýr.
15:40. Skyndilega endurræstist helmingur kjarnanetbúnaðarstafla í ÖNNRI gagnaveri. Framhliðar voru teknar úr snúningi til að lágmarka áhættu. Það hefur engin áhrif fyrir notendur. Síðar kom í ljós að um bilaðan undirvagn var að ræða. Umsjónarmaður vinnur að viðgerð á tveimur slysum í einu.
17:17. Netrekstur í öðru gagnaveri hefur verið endurheimtur, allt hefur verið athugað. Gagnaverið er sett í snúning.
18:29. Þriðjudagsvinnu og almennt viðgerð eftir slys er lokið.

Eftirsögn

04.04.2013 á degi 404 villunnar, "Bekkjarfélagar" lifðu af stærsta slysið — í þrjá daga var gáttin að öllu leyti eða að hluta til ófáanleg. Allan þennan tíma gerðu meira en 100 manns frá mismunandi borgum, frá mismunandi fyrirtækjum (þakka þér enn og aftur!), fjarstýrt og beint í gagnaver, handvirkt og sjálfvirkt, þúsundir netþjóna.
Við höfum dregið ályktanir. Til að koma í veg fyrir að þetta endurtaki sig höfum við framkvæmt og höldum áfram að vinna umfangsmikið starf enn þann dag í dag.

Hver er helsti munurinn á núverandi slysi og 404?

  • Við erum með „aðgerðaáætlun vegna slysa“. Einu sinni á ársfjórðungi höldum við æfingar - við spilum neyðarástand sem hópur stjórnenda (allir aftur á móti) verður að útrýma með því að nota „neyðaraðgerðaáætlunina“. Leiðandi kerfisstjórar skiptast á að gegna hlutverki umsjónarmanns.
  • Ársfjórðungslega, í prófunarham, einangrum við gagnaver (allt í röð) í gegnum staðarnet og WAN net, sem gerir okkur kleift að bera kennsl á flöskuhálsa.
  • Færri bilaðir diskar, vegna þess að við höfum hert staðla: færri vinnustundir, strangari þröskuldar fyrir SMART,
  • Við yfirgáfum BerkeleyDB algjörlega, gamlan og óstöðugan gagnagrunn sem þurfti mikinn tíma til að jafna sig eftir endurræsingu netþjónsins.
  • Við fækkuðum fjölda netþjóna með MS SQL og minnkuðum ósjálfstæði á þeim sem eftir voru.
  • Við eigum okkar eigin ský - eitt ský, þar sem við höfum verið virkir að flytja alla þjónustu í tvö ár núna. Skýið einfaldar til muna alla vinnuferilinn við forritið og ef slys ber að höndum býður það upp á einstök verkfæri eins og:
    • rétt stöðvun allra forrita með einum smelli;
    • auðveld flutningur á forritum frá misheppnuðum netþjónum;
    • sjálfvirk röð (í forgangsröð þjónustu) opnun á heilu gagnaveri.

Slysið sem lýst er í þessari frétt var það stærsta síðan á 404. degi. Auðvitað gekk ekki allt snurðulaust fyrir sig. Til dæmis, á meðan brunaskemmd gagnaver var ekki tiltæk í annarri gagnaver, bilaði diskur á einum af netþjónunum, það er að segja að aðeins ein af þremur eftirlíkingum í Cassandra þyrpingunni var áfram aðgengileg, sem er ástæðan fyrir því að 4,2% farsíma notendur forrita gátu ekki skráð sig inn. Á sama tíma héldu þegar tengdir notendur áfram að vinna. Alls, vegna slyssins, greindust meira en 30 vandamál - allt frá banal galla til galla í þjónustuarkitektúrnum.

En mikilvægasti munurinn á núverandi slysi og því 404. er að á meðan við vorum að útrýma afleiðingum eldsins voru notendur enn að senda skilaboð og hringja myndsímtöl til Nákvæmlega, spilað leiki, hlustað á tónlist, gefið hvort öðru gjafir, horft á myndbönd, sjónvarpsþætti og sjónvarpsstöðvar í OK, og streymdi líka inn OK í beinni.

Hvernig fara slysin þín?

Heimild: www.habr.com

Bæta við athugasemd