Je, seva inapaswa "kuzimwa" ikiwa mtihani wa moshi wa kituo cha data "umewaka"?

Ungejisikiaje ikiwa, siku moja nzuri ya kiangazi, kituo cha data kilicho na vifaa vyako kingeonekana hivi?

Je, seva inapaswa "kuzimwa" ikiwa mtihani wa moshi wa kituo cha data "umewaka"?

Salaam wote! Jina langu ni Dmitry Samsonov, ninafanya kazi kama msimamizi mkuu wa mfumo katika "Wanafunzi wa darasa". Picha inaonyesha mojawapo ya vituo vinne vya data ambapo vifaa vinavyohudumia mradi wetu vimesakinishwa. Nyuma ya kuta hizi kuna vipande elfu 4 vya vifaa: seva, mfumo wa kuhifadhi data, vifaa vya mtandao, nk. - karibu β…“ ya vifaa vyetu vyote.
Seva nyingi ni Linux. Pia kuna seva kadhaa kwenye Windows (MS SQL) - urithi wetu, ambao tumekuwa tukiuacha kimfumo kwa miaka mingi.
Kwa hivyo, tarehe 5 Juni 2019 saa 14:35 usiku, wahandisi katika mojawapo ya vituo vyetu vya data waliripoti kengele ya moto.

Mazungumzo

14:45. Matukio madogo ya moshi katika vituo vya data hutokea mara nyingi zaidi kuliko unavyofikiri. Viashiria ndani ya kumbi vilikuwa vya kawaida, hivyo majibu yetu ya kwanza yalikuwa ya utulivu: waliweka marufuku ya kufanya kazi na uzalishaji, yaani, juu ya mabadiliko yoyote ya usanidi, juu ya kutoa matoleo mapya, nk, isipokuwa kwa kazi inayohusiana na kurekebisha kitu.

Hasira

Umewahi kujaribu kujua kutoka kwa wapiganaji wa moto hasa mahali ambapo moto ulizuka juu ya paa, au kuingia kwenye paa inayowaka mwenyewe ili kutathmini hali hiyo? Je! ni kiwango gani cha imani katika habari inayopokelewa na watu watano?

14: 50. Taarifa zimepokelewa kuwa moto huo unakaribia mfumo wa kupoeza. Lakini itakuja? Msimamizi wa mfumo wa wajibu huonyesha trafiki ya nje kutoka mipaka ya kituo hiki cha data.

Kwa sasa, sehemu za huduma zetu zote zinarudiwa katika vituo vitatu vya data, kusawazisha katika kiwango cha DNS hutumiwa, ambayo hukuruhusu kuondoa anwani za kituo kimoja cha data kutoka kwa DNS, na hivyo kuwalinda watumiaji kutokana na shida zinazowezekana na ufikiaji wa huduma. . Katika tukio ambalo matatizo tayari yametokea katika kituo cha data, hutoka kwa mzunguko moja kwa moja. Unaweza kusoma zaidi hapa: Kusawazisha mzigo na uvumilivu wa makosa katika Odnoklassniki.

Moto huo bado haujatuathiri kwa njia yoyote - watumiaji wala vifaa vimeathirika. Je, ni ajali? Sehemu ya kwanza ya hati "Mpango wa Utekelezaji wa Ajali" inafafanua dhana ya "Ajali", na sehemu hiyo inaisha kama ifuatavyo:
Β«Ikiwa kuna shaka yoyote, ajali au la, basi hii ni ajali!Β»

14:53. Mratibu wa ajali anateuliwa.

Mratibu ni mtu anayedhibiti mawasiliano kati ya washiriki wote, kutathmini ukubwa wa ajali, kutumia "Mpango wa Ajali", huvutia wafanyakazi muhimu, kudhibiti kukamilika kwa ukarabati, na muhimu zaidi, kuwasilisha kazi yoyote. Kwa maneno mengine, huyu ndiye mtu anayesimamia mchakato mzima wa kuondoa ajali.

Majadiliano

15:01. Tunaanza kuzima seva ambazo hazifungamani na toleo la umma.
15:03. Zima huduma zote zilizohifadhiwa kwa usahihi.
Hii inajumuisha sio tu mipaka (ambayo watumiaji hawapati tena kufikia wakati huu) na huduma zao za usaidizi (mantiki ya biashara, kache, n.k.), lakini pia hifadhidata mbalimbali zilizo na sababu ya kurudia ya 2 au zaidi (Cassandra, duka la data la binary, kuhifadhi baridi, habariql na kadhalika.).
15: 06. Taarifa zilipokelewa kuwa moto ulitishia moja ya kumbi za kituo cha data. Hatuna vifaa katika ukumbi huu, lakini ukweli kwamba moto unaweza kuenea kutoka paa hadi kwenye ukumbi hubadilisha sana picha ya kile kinachotokea.
(Baadaye ilibainika kwamba ukumbi haukuwa na tishio lolote la kimwili, kwa kuwa lilikuwa limefungwa kutoka kwenye paa. Tishio hilo lilikuwa tu kwa mfumo wa kupoeza wa jumba hili.)
15:07. Tunaruhusu utekelezaji wa amri kwenye seva katika hali ya kasi bila ukaguzi wa ziada (bila calculator yetu tuipendayo).
15:08. Joto katika vyumba ni ndani ya anuwai ya kawaida.
15: 12. Ongezeko la joto katika kumbi lilirekodiwa.
15:13. Zaidi ya nusu ya seva katika kituo cha data zimezimwa. Tunaendelea.
15:16. Uamuzi ulifanywa kuzima vifaa vyote.
15:21. Tunaanza kuzima nguvu kwenye seva zisizo na uraia bila kuzima vizuri programu na mfumo wa uendeshaji.
15:23. Kundi la watu wanaohusika na MS SQL huchaguliwa (kuna wachache wao, utegemezi wa huduma kwao sio mkubwa, lakini utaratibu wa kurejesha unachukua muda zaidi na ni ngumu zaidi kuliko, kwa mfano, Cassandra).

ДСпрСссия

15: 25. Taarifa zilipokelewa kuhusu kukatika kwa umeme katika kumbi nne kati ya 16 (Na. 6, 7, 8, 9). Vifaa vyetu viko katika ukumbi wa 7 na 8. Hakuna taarifa kuhusu kumbi zetu mbili (No. 1 na 3).
Kawaida, wakati wa moto, umeme huzimwa mara moja, lakini katika kesi hii, kutokana na kazi iliyoratibiwa ya wapiganaji wa moto na wafanyakazi wa kiufundi wa kituo cha data, ilizimwa si kila mahali na si mara moja, lakini kwa lazima.
(ПозТС Π²Ρ‹ΡΡΠ½ΠΈΠ»ΠΎΡΡŒ, Ρ‡Ρ‚ΠΎ ΠΏΠΈΡ‚Π°Π½ΠΈΠ΅ Π² Π·Π°Π»Π°Ρ… 8 ΠΈ 9 Π½Π΅ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π°Π»ΠΎΡΡŒ.)
15:28. Tunaanza kupeleka hifadhidata za MS SQL kutoka kwa hifadhi rudufu katika vituo vingine vya data.
Itachukua muda gani? Je, kuna kipimo data cha mtandao cha kutosha kwa njia nzima?
15: 37. Muunganisho usiobadilika wa baadhi ya sehemu za mtandao.
Mtandao wa usimamizi na uzalishaji umetengwa kimwili kutoka kwa kila mmoja. Ikiwa mtandao wa uzalishaji unapatikana, basi unaweza kwenda kwa seva, kuacha programu na kuzima OS. Ikiwa haipatikani, basi unaweza kupitia IPMI, kuacha programu na kuzima OS. Ikiwa hakuna mitandao, basi huwezi kufanya chochote. "Asante, kofia!", Unafikiri.
"Ndio, na kwa ujumla, kuna machafuko kwa namna fulani," unaweza pia kufikiri.
Jambo ni kwamba seva, hata bila moto, hutoa kiasi kikubwa cha joto. Kwa usahihi zaidi, wakati kuna baridi, hutoa joto, na wakati hakuna, huunda inferno ya kuzimu, ambayo itayeyusha sehemu ya vifaa na kuzima sehemu nyingine, na mbaya zaidi ... kusababisha moto ndani ya moto. ukumbi, ambayo ni karibu kuhakikishiwa kuharibu kila kitu.

Je, seva inapaswa "kuzimwa" ikiwa mtihani wa moshi wa kituo cha data "umewaka"?

15:39. Tunarekebisha shida na msingi wa conf.

Msingi wa conf ni sehemu ya nyuma ya huduma ya jina moja, ambayo hutumiwa na programu zote za uzalishaji ili kubadilisha mipangilio haraka. Bila msingi huu, hatuwezi kusimamia uendeshaji wa portal, lakini portal yenyewe inaweza kufanya kazi kwa wakati mmoja.

15:41. Vitambuzi vya halijoto kwenye vifaa vya mtandao vya Core vinarekodi usomaji karibu na kiwango cha juu kinachoruhusiwa. Hili ni sanduku ambalo linachukua rack nzima na kuhakikisha uendeshaji wa mitandao yote ndani ya kituo cha data.

Je, seva inapaswa "kuzimwa" ikiwa mtihani wa moshi wa kituo cha data "umewaka"?

15:42. Kifuatilia tatizo na wiki hazipatikani, badilisha hadi hali ya kusubiri.
Huu sio uzalishaji, lakini katika kesi ya ajali, upatikanaji wa msingi wowote wa maarifa unaweza kuwa muhimu.
15:50. Moja ya mifumo ya ufuatiliaji imezimwa.
Kuna kadhaa yao, na wanajibika kwa vipengele tofauti vya huduma. Baadhi yao wamesanidiwa kufanya kazi kivyao ndani ya kila kituo cha data (yaani, wao hufuatilia kituo chao cha data pekee), vingine vinajumuisha vipengee vilivyosambazwa ambavyo hudumu kwa uwazi kupotea kwa kituo chochote cha data.
Katika kesi hii, iliacha kufanya kazi. mfumo wa kugundua makosa ya mantiki ya biashara, ambayo inafanya kazi katika hali ya kusubiri ya bwana. Imebadilishwa kuwa hali ya kusubiri.

Kukubalika

15:51. Kupitia IPMI, seva zote zilizimwa bila kuzima kwa usahihi, isipokuwa kwa MS SQL.
Je, uko tayari kudhibiti seva nyingi kupitia IPMI ikihitajika?

Wakati huo huo wakati uokoaji wa vifaa kwenye kituo cha data umekamilika katika hatua hii. Kila kitu ambacho kingeweza kufanywa kimefanywa. Wenzake wengine wanaweza kuchukua mapumziko.
16: 13. Kulikuwa na habari kwamba mabomba ya freon kutoka kwa viyoyozi yalikuwa yamepasuka juu ya paa - hii ingechelewesha uzinduzi wa kituo cha data baada ya moto kuzimwa.
16:19. Kwa mujibu wa data iliyopokelewa kutoka kwa wafanyakazi wa kiufundi wa kituo cha data, ongezeko la joto katika kumbi limesimama.
17:10. Imerejesha kazi ya hifadhidata ya conf. Sasa tunaweza kubadilisha mipangilio ya programu.
Kwa nini ni muhimu sana ikiwa kila kitu kinastahimili makosa na hufanya kazi hata bila kituo kimoja cha data?
Kwanza, sio kila kitu kinachovumilia makosa. Kuna huduma mbalimbali za sekondari ambazo bado hazijaweza kustahimili kushindwa kwa kituo cha data, na kuna besi katika hali ya kusubiri ya bwana. Uwezo wa kudhibiti mipangilio hukuruhusu kufanya kila kitu muhimu ili kupunguza athari za matokeo ya ajali kwa watumiaji hata katika hali ngumu.
Pili, ilionekana wazi kuwa kazi ya kituo cha data haitarejeshwa kikamilifu katika masaa machache ijayo, kwa hivyo ilikuwa ni lazima kuchukua hatua ili kutopatikana kwa nakala za muda mrefu kusilete shida za ziada kama vile kufurika kwa diski. vituo vya data vilivyobaki.
17:29. Wakati wa pizza! Tunaajiri watu, sio roboti.

Je, seva inapaswa "kuzimwa" ikiwa mtihani wa moshi wa kituo cha data "umewaka"?

Ukarabati

18:02. Katika kumbi namba 8 (yetu), 9, 10 na 11, hali ya joto imetulia. Mojawapo ya zile ambazo zimesalia nje ya mtandao (#7) zina vifaa vyetu, na halijoto huko inaendelea kupanda.
18:31. Walitoa idhini ya kuanzisha vifaa katika kumbi namba 1 na 3 - kumbi hizi hazikuathiriwa na moto.

Kwa sasa, seva zinazinduliwa katika kumbi Nambari 1, 3, 8, kuanzia na zile muhimu zaidi. Uendeshaji sahihi wa huduma zote zinazoendesha huangaliwa. Bado kuna shida na nambari ya ukumbi 7.

18:44. Wafanyakazi wa kiufundi wa kituo cha data waligundua kuwa katika chumba namba 7 (ambapo tu vifaa vyetu viko), seva nyingi hazikuzimwa. Kulingana na data yetu, seva 26 zinabaki hapo. Baada ya kuangalia tena, tunapata seva 58.
20:18. Wafanyikazi wa kiufundi wa kituo cha data hupiga hewa ndani ya chumba bila kiyoyozi kupitia mifereji ya hewa ya rununu iliyowekwa kupitia korido.
23:08. Acha msimamizi wa kwanza aende nyumbani. Mtu anapaswa kulala usiku ili kuendelea na kazi kesho. Kisha, tunatoa sehemu nyingine ya wasimamizi na wasanidi programu.
02:56. Tulizindua kila kitu ambacho kinaweza kuzinduliwa. Tunafanya ukaguzi mkubwa wa huduma zote na majaribio ya kiotomatiki.

Je, seva inapaswa "kuzimwa" ikiwa mtihani wa moshi wa kituo cha data "umewaka"?

03:02. Kiyoyozi katika ukumbi wa mwisho, wa 7 umerejeshwa.
03:36. Tulileta mipaka katika kituo cha data katika mzunguko katika DNS. Kuanzia wakati huu, trafiki ya watumiaji huanza kuja.
Tunatuma timu nyingi za wasimamizi nyumbani. Lakini tunawaacha watu wachache.

Maswali Madogo Yanayoulizwa Mara kwa Mara:
S: Nini kilitokea kutoka 18:31 hadi 02:56?
Jibu: Kufuatia Mpango wa Kukabiliana na Maafa, tunazindua huduma zote, tukianza na zile muhimu zaidi. Wakati huo huo, mratibu katika mazungumzo hutoa huduma kwa msimamizi wa bure, ambaye huangalia ikiwa OS na programu imeanza, ikiwa kuna makosa yoyote, ikiwa viashiria ni vya kawaida. Baada ya uzinduzi kukamilika, anaripoti kwenye gumzo kwamba yuko huru, na anapokea huduma mpya kutoka kwa mratibu.
Mchakato huo pia umezuiwa na chuma kilichoshindwa. Hata ikiwa kuzima kwa OS na kuzima kwa seva kulikwenda vizuri, seva zingine hazirudi kwa sababu ya diski zilizoshindwa ghafla, kumbukumbu, chasi. Wakati nguvu inapotea, asilimia ya kushindwa huongezeka.
Swali: Kwa nini huwezi tu kuendesha kila kitu mara moja, na kisha kurekebisha kile kinachotoka katika ufuatiliaji?
J: Kila kitu kinapaswa kufanywa hatua kwa hatua, kwa sababu kuna utegemezi kati ya huduma. Na kila kitu kinapaswa kuchunguzwa mara moja, bila kusubiri ufuatiliaji - kwa sababu ni bora kukabiliana na matatizo mara moja, si kusubiri kuwa mbaya zaidi.

7:40. Msimamizi wa mwisho (mratibu) alienda kulala. Kazi ya siku ya kwanza imekamilika.
8:09. Wasanidi wa kwanza, wahandisi wa kituo cha data, na wasimamizi (ikiwa ni pamoja na mratibu mpya) wameanza kazi ya kurejesha.
09:37. Tulianza kuinua ukumbi namba 7 (wa mwisho).
Wakati huo huo, tunaendelea kurejesha kile ambacho hakijakamilishwa katika vyumba vingine: kuchukua nafasi ya diski / kumbukumbu / seva, kurekebisha kila kitu ambacho "huchoma" katika ufuatiliaji, kubadili kubadili kwa jukumu katika miradi ya kusubiri na vitu vingine vidogo, ambavyo hata hivyo ni vya kutosha. mengi.
17:08. Tunaruhusu kazi zote za kawaida na uzalishaji.
21:45. Kazi ya siku ya pili imekamilika.
09:45. Leo ni Ijumaa. Bado kuna matatizo madogo madogo katika ufuatiliaji. Wikiendi imefika na kila mtu anataka kupumzika. Tunaendelea kukarabati kwa kiasi kikubwa kila kitu tunachoweza. Kazi za wasimamizi wa kawaida ambazo zingeweza kuahirishwa zimeahirishwa. Mratibu mpya.
15:40. Ghafla, nusu ya rundo la Msingi la vifaa vya mtandao katika kituo KINGINE cha data kiliwashwa upya. Mipaka iliondolewa kwa mzunguko ili kupunguza hatari. Hakuna athari kwa watumiaji. Baadaye ikawa kwamba ilikuwa chassis mbaya. Mratibu anafanya kazi ya kurekebisha ajali mbili mara moja.
17:17. Uendeshaji wa mtandao katika kituo kingine cha data umerejeshwa, kila kitu kimeangaliwa. Kituo cha data kiko katika mzunguko.
18:29. Kazi ya siku ya tatu na kwa ujumla ahueni baada ya ajali kukamilika.

Baada ya

04.04.2013 siku ya makosa 404, "Wanadarasa" alinusurika kwenye ajali kubwa zaidi -kwa siku tatu, lango lilikuwa halipatikani kabisa au kwa kiasi. Wakati huu wote, zaidi ya watu 100 kutoka miji tofauti, kutoka kwa makampuni mbalimbali (asante tena!), Kwa mbali na moja kwa moja katika vituo vya data, kwa manually na kwa moja kwa moja walitengeneza maelfu ya seva.
Tumetoa hitimisho. Ili kuzuia hili kutokea tena, tumetekeleza na tunaendelea kufanya kazi kubwa hadi leo.

Je! ni tofauti gani kuu kati ya ajali ya sasa na 404?

  • Tuna Mpango wa Utekelezaji wa Ajali. Mara moja kwa robo, tunafanya zoezi - tunacheza dharura ambayo kikundi cha wasimamizi (kila mmoja kwa wakati wake) lazima watatue kwa kutumia "Mpango wa Kukabiliana na Maafa". Wasimamizi wakuu wa mfumo huchukua zamu kutimiza jukumu la mratibu.
  • Kila robo mwaka, katika hali ya majaribio, tunatenga vituo vya data (zote kwa zamu) kwenye mitandao ya LAN na WAN, ambayo huturuhusu kutambua vikwazo kwa wakati ufaao.
  • Uendeshaji mbaya mdogo kwa sababu tumeimarisha kanuni zetu: saa chache za uendeshaji, vizingiti vikali vya SMART,
  • Tuliachana kabisa na BerkeleyDB, hifadhidata ya zamani na isiyo thabiti ambayo ilihitaji muda mwingi kurejesha baada ya kuwasha tena seva.
  • Tulipunguza idadi ya seva na MS SQL na kupunguza utegemezi kwa zilizobaki.
  • Tuna yetu wenyewe wingu - moja-wingu, ambapo tumekuwa tukihamisha huduma zote kikamilifu kwa miaka miwili iliyopita. Wingu hurahisisha sana mzunguko mzima wa kufanya kazi na programu, na ikiwa kuna ajali hutoa zana za kipekee kama vile:
    • kuacha sahihi kwa programu zote kwa kubofya mara moja;
    • uhamiaji rahisi wa programu kutoka kwa seva zilizoshindwa;
    • nafasi ya kiotomatiki (kwa mpangilio wa kipaumbele cha huduma) uzinduzi wa kituo kizima cha data.

Ajali iliyoelezewa katika nakala hii ilikuwa kubwa zaidi tangu siku ya 404. Bila shaka, si kila kitu kilikwenda sawa. Kwa mfano, wakati wa kukosekana kwa kituo cha data kilichoharibiwa na moto katika kituo kingine cha data, diski ilianguka kwenye seva moja, ambayo ni, moja tu ya nakala tatu kwenye nguzo ya Cassandra ilibaki inapatikana, kwa sababu ambayo 4,2% ya simu ya rununu. watumiaji wa programu hawakuweza kuingia. Wakati huo huo, watumiaji waliounganishwa tayari waliendelea kufanya kazi. Kwa jumla, matatizo zaidi ya 30 yalitambuliwa kutokana na ajali - kutoka kwa mende ya banal hadi mapungufu katika usanifu wa huduma.

Lakini tofauti muhimu zaidi kati ya ajali ya sasa na ya 404 ni kwamba wakati tunaondoa matokeo ya moto, watumiaji walikuwa bado wanatuma ujumbe mfupi na kupiga simu za video. Hasa, kucheza michezo, kusikiliza muziki, kupeana zawadi, kutazama video, mfululizo na vituo vya televisheni OK, na pia kutiririshwa ndani Sawa Live.

Ajali zako zinaendeleaje?

Chanzo: mapenzi.com

Kuongeza maoni