Vai ir jādzÄ“Å” serveri, ja aizdegās datu centra dÅ«mu tests?

Kā jūs justos, ja kādā jaukā vasaras dienā datu centrs ar jūsu aprīkojumu izskatītos Ŕādi?

Vai ir jādzÄ“Å” serveri, ja aizdegās datu centra dÅ«mu tests?

Sveiki visiem! Mani sauc Dmitrijs Samsonovs, es strādāju par vadoÅ”o sistēmas administratoru uzņēmumā "Klasesbiedri" Fotoattēlā redzams viens no četriem datu centriem, kurā ir uzstādÄ«ts mÅ«su projektu apkalpojoÅ”ais aprÄ«kojums. Aiz Ŕīm sienām atrodas aptuveni 4 tÅ«kstoÅ”i iekārtu: serveri, datu uzglabāŔanas sistēmas, tÄ«kla iekārtas utt. - gandrÄ«z treÅ”daļa no visa mÅ«su aprÄ«kojuma.
Lielākā daļa serveru ir Linux. Operētājsistēmā Windows (MS SQL) ir arÄ« vairāki desmiti serveru - mÅ«su mantojums, no kura mēs daudzus gadus esam sistemātiski atmetuÅ”i.
Tāpēc 5. gada 2019. jÅ«nijā plkst. 14:35 inženieri vienā no mÅ«su datu centriem ziņoja par ugunsgrēka trauksmi.

Noliegums

14:45. Nelieli dÅ«mu gadÄ«jumi datu centros ir biežāk sastopami, nekā jÅ«s domājat. RādÄ«tāji iekÅ”telpās hallēs bija normāli, tāpēc mÅ«su pirmā reakcija bija samērā mierÄ«ga: ieviesa aizliegumu strādāt ar ražoÅ”anu, tas ir, jebkādām konfigurācijas izmaiņām, jaunu versiju izlaiÅ”anu utt., izņemot darbus, kas saistÄ«ti ar kaut kā laboÅ”anu.

Dusmas

Vai esat kādreiz mēģinājis no ugunsdzēsējiem noskaidrot, kur tieÅ”i uz jumta izcēlies ugunsgrēks, vai pats uzkāpt uz degoÅ”a jumta, lai novērtētu situāciju? Kāda bÅ«s uzticÄ“Å”anās pakāpe informācijai, kas saņemta caur pieciem cilvēkiem?

14: 50. Saņemta informācija, ka ugunsgrēks tuvojas dzesÄ“Å”anas sistēmai. Bet vai tas nāks? DežūrējoÅ”ais sistēmas administrators noņem ārējo trafiku no Ŕī datu centra priekŔējām daļām.

Å obrÄ«d visu mÅ«su pakalpojumu frontes ir dublētas trÄ«s datu centros, tiek izmantota balansÄ“Å”ana DNS lÄ«menÄ«, kas ļauj noņemt viena datu centra adreses no DNS, tādējādi pasargājot lietotājus no iespējamām problēmām ar piekļuvi pakalpojumiem. . Ja datu centrā jau ir raduŔās problēmas, tas automātiski pamet rotāciju. Vairāk varat lasÄ«t Å”eit: Slodzes lÄ«dzsvaroÅ”ana un kļūdu tolerance Odnoklassniki.

Pagaidām ugunsgrēks mÅ«s nekādi nav skāris ā€“ ne lietotāji, ne tehnika nav cietuÅ”i. Vai tas ir nelaimes gadÄ«jums? Dokumenta pirmajā sadaļā ā€œNelaimes gadÄ«jumu rÄ«cÄ«bas plānsā€ ir definēts jēdziens ā€œAvārijaā€, un sadaļa beidzas Ŕādi:
Ā«Ja rodas Å”aubas, vai nelaime ir vai nav, tad tā ir nelaime!Ā»

14:53. Tiek iecelts ārkārtas situāciju koordinators.

Koordinators ir persona, kas kontrolē komunikāciju starp visiem dalÄ«bniekiem, novērtē negadÄ«juma mērogu, izmanto ārkārtas rÄ«cÄ«bas plānu, piesaista nepiecieÅ”amo personālu, uzrauga remontdarbu pabeigÅ”anu un, pats galvenais, deleģē jebkurus uzdevumus. Citiem vārdiem sakot, Ŕī ir persona, kas pārvalda visu ārkārtas reaģēŔanas procesu.

Tirdzniecība

15:01. Mēs sākam atspējot serverus, kas nav saistÄ«ti ar ražoÅ”anu.
15:03. Mēs pareizi izslēdzam visus rezervētos pakalpojumus.
Tas ietver ne tikai frontes (kurām Å”ajā brÄ«dÄ« lietotāji vairs nepiekļūst) un to palÄ«gpakalpojumus (biznesa loÄ£iku, keÅ”atmiņas utt.), bet arÄ« dažādas datu bāzes ar replikācijas koeficientu 2 vai vairāk (Cassandra, bināro datu glabāŔana, aukstā noliktava, NewSQL utt.).
15: 06. Saņemta informācija, ka ugunsgrēks draud vienā no datu centra zālēm. Mums nav aprÄ«kojuma Å”ajā telpā, bet fakts, ka uguns var izplatÄ«ties no jumta uz hallēm, ļoti maina priekÅ”statu par notiekoÅ”o.
(Vēlāk izrādÄ«jās, ka zālei fizisku apdraudējumu nebija, jo tā bija hermētiski noslēgta no jumta. Draudi bija tikai Ŕīs zāles dzesÄ“Å”anas sistēmai.)
15:07. Mēs pieļaujam komandu izpildi serveros paātrinātā režīmā bez papildu pārbaudēm (bez mūsu iecienītākā kalkulatora).
15:08. Temperatūra zālēs ir normas robežās.
15: 12. Tika fiksēta temperatÅ«ras paaugstināŔanās zālēs.
15:13. Vairāk nekā puse datu centra serveru ir izslēgti. Turpināsim.
15:16. Tika pieņemts lēmums izslēgt visu aprīkojumu.
15:21. Mēs sākam izslēgt bezvalsts serveru baroÅ”anu, pareizi neizslēdzot lietojumprogrammu un operētājsistēmu.
15:23. Tiek izdalÄ«ta par MS SQL atbildÄ«go cilvēku grupa (to ir maz, pakalpojumu atkarÄ«ba no tiem nav liela, taču funkcionalitātes atjaunoÅ”anas procedÅ«ra aizņem ilgāku laiku un ir sarežģītāka nekā, piemēram, Cassandra).

Š”ŠµŠæрŠµŃŃŠøя

15: 25. Saņemta informācija par elektrÄ«bas atslēgÅ”anu četrās zālēs no 16 (Nr.6, 7, 8, 9). MÅ«su tehnika atrodas 7. un 8. hallē. Par mÅ«su divām hallēm (Nr. 1 un 3) informācijas nav.
Parasti ugunsgrēku laikā strāvas padeve tiek atslēgta uzreiz, taču Å”ajā gadÄ«jumā, pateicoties saskaņotam ugunsdzēsēju un datu centra tehniskā personāla darbam, tā netika atslēgta visur un ne uzreiz, bet pēc vajadzÄ«bas.
(Vēlāk atklājās, ka 8. un 9. hallē strāva nebija atslēgta.)
15:28. Mēs sākam izvietot MS SQL datu bāzes no dublējumiem citos datu centros.
Cik ilgu laiku tas aizņems? Vai ir pietiekami daudz tÄ«kla jaudas visam marÅ”rutam?
15: 37. Tika reÄ£istrēta dažu tÄ«kla daļu izslēgÅ”ana.
VadÄ«ba un ražoÅ”anas tÄ«kls ir fiziski izolēti viens no otra. Ja ir pieejams ražoÅ”anas tÄ«kls, varat doties uz serveri, apturēt lietojumprogrammu un izslēgt OS. Ja tas nav pieejams, varat pieteikties, izmantojot IPMI, apturēt lietojumprogrammu un izslēgt OS. Ja nav neviena no tÄ«kliem, tad neko nevar darÄ«t. "Paldies, Cap!", jÅ«s domājat.
"Un vispār ir daudz satricinājumu," jūs varētu arī domāt.
Lieta tāda, ka serveri pat bez ugunsgrēka rada milzÄ«gu siltuma daudzumu. PrecÄ«zāk sakot, kad ir dzesÄ“Å”ana, tie rada siltumu, un, kad nav dzesÄ“Å”anas, tie rada elliŔķīgu pērli, kas labākajā gadÄ«jumā izkausēs daļu aprÄ«kojuma un izslēgs citu daļu, bet sliktākajā... izraisÄ«s ugunsgrēks zālē, kas gandrÄ«z garantēti visu iznÄ«cinās.

Vai ir jādzÄ“Å” serveri, ja aizdegās datu centra dÅ«mu tests?

15:39. Mēs novērÅ”am problēmas ar conf datu bāzi.

Conf datu bāze ir tāda paÅ”a nosaukuma pakalpojuma aizmugursistēma, ko izmanto visas ražoÅ”anas lietojumprogrammas, lai ātri mainÄ«tu iestatÄ«jumus. Bez Ŕīs bāzes mēs nevaram kontrolēt portāla darbÄ«bu, bet pats portāls var darboties.

15:41. TemperatÅ«ras sensori pamattÄ«kla iekārtās reÄ£istrē rādÄ«jumus tuvu maksimālajam pieļaujamajam. Å Ä« ir kaste, kas aizņem visu plauktu un nodroÅ”ina visu tÄ«klu darbÄ«bu datu centrā.

Vai ir jādzÄ“Å” serveri, ja aizdegās datu centra dÅ«mu tests?

15:42. Problēmu izsekotājs un wiki nav pieejami. Pārslēdzieties uz gaidÄ«Å”anas režīmu.
Tā nav ražoŔana, taču negadījuma gadījumā jebkuras zināŔanu bāzes pieejamība var būt kritiska.
15:50. Viena no uzraudzības sistēmām ir izslēgta.
Tās ir vairākas, un tās ir atbildÄ«gas par dažādiem pakalpojumu aspektiem. Daži no tiem ir konfigurēti, lai darbotos autonomi katrā datu centrā (tas ir, tie uzrauga tikai savu datu centru), citi sastāv no sadalÄ«tiem komponentiem, kas pārredzami pārdzÄ«vo jebkura datu centra zaudÄ“Å”anu.
Å ajā gadÄ«jumā tas pārstāja darboties biznesa loÄ£ikas indikatoru anomāliju noteikÅ”anas sistēma, kas darbojas galvenā gaidÄ«Å”anas režīmā. Pārslēgts gaidÄ«Å”anas režīmā.

PieņemÅ”ana

15:51. Visi serveri, izņemot MS SQL, tika izslēgti, izmantojot IPMI, neizslēdzoties pareizi.
Vai esat gatavs masveida serveru pārvaldībai, izmantojot IPMI, ja nepiecieŔams?

Pats brÄ«dis, kad Å”ajā posmā tiek pabeigta iekārtu glābÅ”ana datu centrā. Viss, ko varēja izdarÄ«t, ir izdarÄ«ts. Daži kolēģi var atpÅ«sties.
16: 13. Saņemta informācija, ka uz jumta plÄ«suÅ”as freona caurules no kondicionieriem - tas aizkavēs datu centra palaiÅ”anu pēc ugunsgrēka likvidÄ“Å”anas.
16:19. Saskaņā ar datiem, kas saņemti no datu centra tehniskajiem darbiniekiem, temperatÅ«ras paaugstināŔanās zālēs ir apstājusies.
17:10. Conf datu bāze ir atjaunota. Tagad mēs varam mainīt lietojumprogrammas iestatījumus.
Kāpēc tas ir tik svarīgi, ja viss ir izturīgs pret defektiem un darbojas pat bez viena datu centra?
Pirmkārt, ne viss ir izturÄ«gs pret kļūmēm. Ir dažādi sekundārie pakalpojumi, kas vēl nav pietiekami labi pārdzÄ«vojuÅ”i datu centra atteici, un ir datu bāzes galvenā gaidÄ«Å”anas režīmā. Iespēja pārvaldÄ«t iestatÄ«jumus ļauj darÄ«t visu nepiecieÅ”amo, lai samazinātu negadÄ«juma seku ietekmi uz lietotājiem pat sarežģītos apstākļos.
Otrkārt, kļuva skaidrs, ka tuvāko stundu laikā datu centra darbÄ«ba pilnÄ«bā netiks atjaunota, tāpēc bija nepiecieÅ”ams veikt pasākumus, lai ilgstoÅ”a repliku nepieejamÄ«ba neradÄ«tu papildu problēmas, piemēram, pilnus diskus. atlikuÅ”ie datu centri.
17:29. Picas laiks! Mēs nodarbinām cilvēkus, nevis robotus.

Vai ir jādzÄ“Å” serveri, ja aizdegās datu centra dÅ«mu tests?

AtjaunoŔana

18:02. Hallē Nr.8 (mūsējā), 9, 10 un 11 temperatūra ir nostabilizējusies. Vienā no tiem, kas paliek bezsaistē (Nr. 7), atrodas mūsu aprīkojums, un temperatūra tur turpina celties.
18:31. Viņi deva atļauju iedarbināt iekārtas 1. un 3. hallē ā€“ Ŕīs zāles ugunsgrēks neskāra.

Å obrÄ«d serveru palaiÅ”ana notiek hallēs Nr.1, 3, 8, sākot ar kritiskākajām. Tiek pārbaudÄ«ta visu darbojoÅ”os pakalpojumu pareiza darbÄ«ba. Joprojām ir problēmas ar halli Nr.7.

18:44. Datu centra tehniskie darbinieki atklāja, ka telpā Nr.7 (kur atrodas tikai mÅ«su tehnika) daudzi serveri nav izslēgti. Saskaņā ar mÅ«su datiem tur tieÅ”saistē paliek 26 serveri. Pēc otrās pārbaudes mēs atrodam 58 serverus.
20:18. Datu centra tehniÄ·i pÅ«Å” gaisu cauri telpai bez gaisa kondicionÄ“Å”anas, izmantojot mobilos kanālus, kas iet cauri gaiteņiem.
23:08. Pirmais admins tika nosūtīts mājās. Kādam ir jāguļ naktī, lai rīt varētu turpināt darbu. Tālāk mēs izlaidīsim vēl dažus administratorus un izstrādātājus.
02:56. Mēs palaidām visu, ko varēja palaist. Mēs daudz pārbaudām visus pakalpojumus, izmantojot automātiskos testus.

Vai ir jādzÄ“Å” serveri, ja aizdegās datu centra dÅ«mu tests?

03:02. Pēdējā, 7.zālē ir atjaunota gaisa kondicionÄ“Å”ana.
03:36. Mēs ieviesām datu centra frontes DNS rotācijā. No Ŕī brīža sāk ienākt lietotāju trafiks.
Lielāko daļu administratīvās komandas sūtām mājās. Bet mēs atstājam dažus cilvēkus.

Mazi FAQ:
J: Kas notika no 18:31 līdz 02:56?
A: Pēc ā€œKatastrofu rÄ«cÄ«bas plānaā€ mēs uzsākam visus pakalpojumus, sākot ar svarÄ«gākajiem. Å ajā gadÄ«jumā koordinators čatā pakalpojumu izsniedz bezmaksas administratoram, kurÅ” pārbauda, ā€‹ā€‹vai OS un lietojumprogramma ir sākusies, vai nav kļūdu un vai rādÄ«tāji ir normāli. Kad palaiÅ”ana ir pabeigta, viņŔ ziņo tērzÄ“Å”anai, ka ir brÄ«vs, un saņem jaunu pakalpojumu no koordinatora.
Procesu vēl vairāk palēnina aparatÅ«ras kļūme. Pat ja OS apturÄ“Å”ana un serveru izslēgÅ”ana noritēja pareizi, daži serveri neatgriežas pēkŔņas disku, atmiņas un Å”asijas kļūmes dēļ. Kad jauda tiek zaudēta, atteices lÄ«menis palielinās.
J: Kāpēc jūs nevarat palaist visu uzreiz un pēc tam labot to, kas parādās uzraudzībā?
A: Viss ir jādara pakāpeniski, jo starp pakalpojumiem pastāv atkarības. Un viss ir jāpārbauda uzreiz, negaidot uzraudzību - jo labāk ar problēmām tikt galā uzreiz, negaidot, kad tās saasināsies.

7:40. Pēdējais admins (koordinators) aizgāja gulēt. Pirmās dienas darbi ir paveikti.
8:09. Pirmie izstrādātāji, datu centru inženieri un administratori (ieskaitot jauno koordinatoru) sāka restaurācijas darbus.
09:37. Sākām celt zāli Nr.7 (pēdējo).
Vienlaikus turpinām atjaunot citās telpās neizlaboto: disku/atmiņas/serveru nomaiņu, visu, kas ā€œdegā€ uzraudzÄ«bā, pārslēgt lomas atpakaļ galvenās gaidstāves shēmās un citus sÄ«kumus, kas ir tomēr diezgan daudz.
17:08. Atļaujam visu parasto darbu ar ražoŔanu.
21:45. Otrās dienas darbs ir pabeigts.
09:45. Å odien ir piektdiena. UzraudzÄ«bā joprojām ir diezgan daudz nelielu problēmu. Nedēļas nogale ir priekŔā, visi vēlas atpÅ«sties. Mēs turpinām masveidā remontēt visu, ko varam. Regulāri admin uzdevumi, kurus varēja atlikt, tika atlikti. Koordinators ir jauns.
15:40. PēkŔņi CITĀ datu centrā tika restartēta puse no Core tÄ«kla aprÄ«kojuma steka. Frontes tika izņemtas no rotācijas, lai samazinātu riskus. Lietotājiem nav nekādas ietekmes. Vēlāk izrādÄ«jās, ka tā bija bojāta Å”asija. Koordinators strādā pie divu avāriju novērÅ”anas uzreiz.
17:17. Tīkla darbība citā datu centrā ir atjaunota, viss ir pārbaudīts. Datu centrs tiek nodots rotācijai.
18:29. TreŔās dienas darbi un vispār restaurācija pēc avārijas ir pabeigta.

Pēcvārds

04.04.2013. gads 404 kļūdas dienā, "Klasesbiedriem" izdzÄ«voja lielākajā avārijā ā€” trÄ«s dienas portāls pilnÄ«bā vai daļēji nebija pieejams. Visā Å”ajā laikā vairāk nekā 100 cilvēku no dažādām pilsētām, no dažādiem uzņēmumiem (vēlreiz liels paldies!), attālināti un tieÅ”i datu centros, manuāli un automātiski, remontēja tÅ«kstoÅ”iem serveru.
Mēs esam izdarÄ«juÅ”i secinājumus. Lai tas neatkārtotos, esam veikuÅ”i un turpinām veikt apjomÄ«gus darbus lÄ«dz pat Å”ai dienai.

Kādas ir galvenās atŔķirÄ«bas starp paÅ”reizējo negadÄ«jumu un 404?

  • Mums ir ā€œNelaimes gadÄ«jumu rÄ«cÄ«bas plānsā€. Reizi ceturksnÄ« rÄ«kojam mācÄ«bas - izspēlējam ārkārtas situāciju, kas administratoru grupai (visiem pēc kārtas) jānovērÅ”, izmantojot ā€œÄ€rkārtas rÄ«cÄ«bas plānuā€. VadoÅ”ie sistēmu administratori pārmaiņus pilda koordinatora lomu.
  • Reizi ceturksnÄ« testa režīmā mēs izolējam datu centrus (visus pēc kārtas), izmantojot LAN un WAN tÄ«klus, kas ļauj mums operatÄ«vi noteikt vājās vietas.
  • Mazāk salauztu disku, jo esam pastiprinājuÅ”i standartus: mazāk darba stundu, stingrāki SMART sliekŔņi,
  • Mēs pilnÄ«bā atteicāmies no BerkeleyDB ā€” vecas un nestabilas datu bāzes, kuras atjaunoÅ”anai pēc servera restartÄ“Å”anas bija nepiecieÅ”ams daudz laika.
  • Mēs samazinājām serveru skaitu ar MS SQL un samazinājām atkarÄ«bu no atlikuÅ”ajiem.
  • Mums ir savs mākonis - viens mākonis, kur jau divus gadus aktÄ«vi migrējam visus pakalpojumus. Mākonis ievērojami vienkārÅ”o visu darba ciklu ar lietojumprogrammu, un negadÄ«juma gadÄ«jumā tas nodroÅ”ina tādus unikālus rÄ«kus kā:
    • pareiza visu lietojumprogrammu apturÄ“Å”ana ar vienu klikŔķi;
    • vienkārÅ”a lietojumprogrammu migrācija no neveiksmÄ«giem serveriem;
    • automātiska ranžēta (pakalpojumu prioritātes secÄ«bā) visa datu centra palaiÅ”ana.

Å ajā rakstā aprakstÄ«tais negadÄ«jums bija lielākais kopÅ” 404. dienas. Protams, ne viss gāja gludi. Piemēram, ugunsgrēka bojāta datu centra nepieejamÄ«bas laikā citā datu centrā vienā no serveriem sabojājās disks, tas ir, tikai viena no trim Cassandra klastera replikām palika pieejama, tāpēc 4,2% mobilo sakaru lietojumprogrammas lietotāji nevarēja pieteikties. Tajā paŔā laikā jau pieslēgtie lietotāji turpināja strādāt. Kopumā negadÄ«juma rezultātā tika konstatētas vairāk nekā 30 problēmas - no banālām kļūdām lÄ«dz nepilnÄ«bām pakalpojumu arhitektÅ«rā.

Taču vissvarÄ«gākā atŔķirÄ«ba starp paÅ”reizējo negadÄ«jumu un 404. negadÄ«jumu ir tā, ka, kamēr mēs likvidējām ugunsgrēka sekas, lietotāji joprojām sÅ«tÄ«ja Ä«sziņas un veica videozvanus uz Tamtam, spēlēja spēles, klausÄ«jās mÅ«ziku, dāvināja viens otram dāvanas, skatÄ«jās video, seriālus un televÄ«zijas kanālus ŠžŠš, un arÄ« straumēts Labi tieÅ”raidē.

Kā notiek jūsu nelaimes gadījumi?

Avots: www.habr.com

Pievieno komentāru