Èske serveurs yo ta dwe etenn si tès lafimen sant done a pran dife?

Ki jan ou ta santi si yon bon jou ete sant done ak ekipman ou a te sanble ak sa a?

Èske serveurs yo ta dwe etenn si tès lafimen sant done a pran dife?

Bonjou tout moun! Non mwen se Dmitry Samsonov, mwen travay kòm yon administratè sistèm dirijan nan "Kamarad klas" Foto a montre youn nan kat sant done kote ekipman k ap sèvi pwojè nou an enstale. Dèyè mi sa yo gen anviwon 4 mil ekipman: serveurs, sistèm depo done, ekipman rezo, elatriye. - prèske ⅓ nan tout ekipman nou yo.
Pifò serveurs yo se Linux. Genyen tou plizyè douzèn serveurs sou Windows (MS SQL) - eritaj nou an, ke nou te sistematik abandone pou anpil ane.
Se konsa, nan dat 5 jen 2019 a 14:35, enjenyè nan youn nan sant done nou yo te rapòte yon alam dife.

Negasyon

14:45. Ensidan lafimen minè nan sant done yo pi komen pase ou panse. Endikatè yo andedan koulwa yo te nòmal, kidonk premye reyaksyon nou an te relativman kalm: yo te entwodwi yon entèdiksyon sou travay ak pwodiksyon, se sa ki, sou nenpòt chanjman konfigirasyon, sou woule soti nouvo vèsyon, elatriye, eksepte pou travay ki gen rapò ak repare yon bagay.

Kòlè

Èske w te janm eseye chèche konnen nan men ponpye egzakteman ki kote dife a te fèt sou do kay la, oswa pou w ale sou yon do kay ki boule tèt ou pou evalye sitiyasyon an? Ki sa ki pral degre nan konfyans nan enfòmasyon resevwa nan senk moun?

14: 50. Yo te resevwa enfòmasyon ke dife a ap apwoche sistèm refwadisman an. Men èske l ap vini? Administratè sistèm nan devwa retire trafik ekstèn nan devan sant done sa a.

Nan moman sa a, devan tout sèvis nou yo double nan twa sant done, balanse yo itilize nan nivo DNS, ki pèmèt nou retire adrès yon sèl done nan DNS, kidonk pwoteje itilizatè yo kont pwoblèm potansyèl ak aksè nan sèvis yo. . Si pwoblèm yo te deja rive nan sant done a, li kite wotasyon an otomatikman. Ou ka li plis isit la: Balanse chaj ak tolerans fay nan Odnoklassniki.

Dife a poko afekte nou nan okenn fason - ni itilizatè ni ekipman yo pa te domaje. Èske sa se yon aksidan? Premye seksyon dokiman "Plan Aksyon Aksidan" defini konsèp "Aksidan", epi seksyon an fini konsa:
«Si gen nenpòt dout si gen yon aksidan oswa ou pa, Lè sa a, li se yon aksidan!»

14:53. Yo nonmen yon koòdonatè ijans.

Kowòdonatè a se moun ki kontwole kominikasyon ant tout patisipan yo, ki evalye echèl aksidan an, ki sèvi ak Plan Aksyon Ijans lan, ki atire pèsonèl ki nesesè yo, ki kontwole fin fè reparasyon yo, epi ki pi enpòtan, ki delege nenpòt travay. Nan lòt mo, sa a se moun ki jere tout pwosesis repons pou ijans la.

Piyay

15:01. Nou kòmanse enfim serveurs ki pa gen rapò ak pwodiksyon an.
15:03. Nou kòrèkteman fèmen tout sèvis rezève yo.
Sa a gen ladan non sèlman fwon (ki nan pwen sa a itilizatè yo pa gen aksè ankò) ak sèvis oksilyè yo (lojik biznis, kachèt, elatriye), men tou, divès baz done ak faktè replikasyon 2 oswa plis (Cassandra, depo done binè, depo frèt, NewSQL elatriye).
15: 06. Yo te resevwa enfòmasyon ke yon dife ap menase youn nan sal sant done yo. Nou pa gen ekipman nan chanm sa a, men lefèt ke dife a ka gaye soti nan do kay la nan koulwa yo anpil chanje imaj la nan sa k ap pase.
(Li te vin tounen soti ke pa te gen okenn menas fizik nan sal la, depi li te hermetically sele soti nan do kay la. Menas la te sèlman nan sistèm refwadisman nan sal sa a.)
15:07. Nou pèmèt ekzekisyon lòd sou sèvè nan mòd akselere san chèk adisyonèl (san kalkilatris pi renmen nou an).
15:08. Tanperati a nan koulwa yo nan limit nòmal yo.
15: 12. Yo te anrejistre yon ogmantasyon nan tanperati nan koulwa yo.
15:13. Plis pase mwatye nan serveurs yo nan sant done yo etenn. Ann kontinye.
15:16. Yo te pran yon desizyon pou fèmen tout ekipman yo.
15:21. Nou kòmanse fèmen kouran pou sèvè apatrid san yo pa fèmen aplikasyon an ak sistèm opere kòrèkteman.
15:23. Yon gwoup moun ki responsab pou MS SQL resevwa lajan (gen kèk nan yo, depandans sèvis yo sou yo pa gwo, men pwosedi a pou restorasyon fonksyonalite pran plis tan epi li pi konplike pase, pou egzanp, Cassandra).

Depresyon

15: 25. Yo te resevwa enfòmasyon sou koupe kouran nan kat koulwa sou 16 (No. 6, 7, 8, 9). Ekipman nou yo sitiye nan koulwa 7 ak 8. Pa gen okenn enfòmasyon sou de sal nou yo (No. 1 ak 3).
Anjeneral, pandan dife, ekipman pou pouvwa a imedyatman etenn, men nan ka sa a, gras a travay kowòdone nan ponpye ak pèsonèl teknik nan sant done a, li pa te etenn tout kote epi yo pa imedyatman, men jan sa nesesè.
(Li te dekouvri pita ke pouvwa a pa te etenn nan koulwa 8 ak 9.)
15:28. Nou ap kòmanse deplwaye baz done MS SQL soti nan sovgad nan lòt sant done.
Konbyen tan li pral pran? Èske gen ase kapasite rezo pou tout wout la?
15: 37. Yon fèmen nan kèk pati nan rezo a te anrejistre.
Jesyon ak rezo pwodiksyon yo se fizikman izole youn ak lòt. Si rezo pwodiksyon an disponib, Lè sa a, ou ka ale nan sèvè a, sispann aplikasyon an epi fèmen OS la. Si li pa disponib, Lè sa a, ou ka konekte via IPMI, sispann aplikasyon an epi fèmen OS la. Si pa gen okenn nan rezo yo, Lè sa a, ou pa ka fè anyen. "Mèsi, Cap!", ou pral panse.
"Epi an jeneral, gen yon anpil nan toumant," ou ta ka panse tou.
Bagay la se ke serveurs, menm san yo pa yon dife, jenere yon gwo kantite chalè. Plis jisteman, lè gen refwadisman, yo jenere chalè, epi lè pa gen refwadisman, yo kreye yon lanfè infernal, ki nan pi bon pral fonn yon pati nan ekipman an epi fèmen yon lòt pati, ak nan pi move ... lakòz yon dife andedan. sal la, ki se prèske garanti detwi tout bagay.

Èske serveurs yo ta dwe etenn si tès lafimen sant done a pran dife?

15:39. Nou ranje pwoblèm ak baz done konf la.

Baz done konf la se backend pou sèvis la ki gen menm non, ki itilize tout aplikasyon pwodiksyon pou chanje anviwònman yo byen vit. San baz sa a, nou pa ka kontwole operasyon an nan pòtal la, men pòtal la tèt li ka travay.

15:41. Detèktè tanperati sou ekipman rezo Nwayo anrejistre lekti tou pre maksimòm akseptab. Sa a se yon bwat ki okipe yon etajè antye epi asire operasyon an nan tout rezo andedan sant done a.

Èske serveurs yo ta dwe etenn si tès lafimen sant done a pran dife?

15:42. Tracker pwoblèm ak wiki pa disponib, chanje an sibstiti.
Sa a se pa pwodiksyon, men nan evènman an nan yon aksidan, disponiblite a nan nenpòt baz konesans ka kritik.
15:50. Youn nan sistèm siveyans yo etenn.
Gen plizyè nan yo, epi yo responsab pou diferan aspè nan sèvis yo. Gen kèk nan yo ki configuré pou opere otonòm nan chak sant done (ki se, yo kontwole sèlman pwòp sant done yo), lòt moun konpoze de eleman distribiye ki transparan siviv pèt nenpòt sant done.
Nan ka sa a li sispann travay endikatè lojik biznis sistèm deteksyon anomali, ki opere nan mòd mèt-sibstiti. Chanje nan sibstiti.

Adopsyon

15:51. Tout sèvè eksepte MS SQL yo te etenn atravè IPMI san yo pa fèmen kòrèkteman.
Èske w pare pou jesyon sèvè masiv atravè IPMI si sa nesesè?

Moman sa a menm lè sekou a nan ekipman nan sant done a fini nan etap sa a. Tout sa ki te kapab fè te fèt. Gen kèk kòlèg ka repoze.
16: 13. Yo te resevwa enfòmasyon ke tiyo freon ki soti nan èkondisyone pete sou do kay la - sa a pral retade lansman sant done a apre dife a elimine.
16:19. Dapre done yo te resevwa nan men anplwaye teknik nan sant done a, ogmantasyon nan tanperati nan koulwa yo sispann.
17:10. Baz done konf la retabli. Koulye a, nou ka chanje anviwònman aplikasyon an.
Poukisa sa a tèlman enpòtan si tout bagay toleran fay epi li travay menm san yon sant done?
Premyèman, se pa tout bagay ki toleran fay. Gen divès kalite sèvis segondè ki poko siviv yon echèk sant done ase byen, e gen baz done nan mòd mèt-sibstiti. Kapasite nan jere anviwònman pèmèt ou fè tout sa ki nesesè pou misyon pou minimize enpak la nan konsekans yo nan yon aksidan sou itilizatè yo menm nan kondisyon difisil.
Dezyèmman, li te vin klè ke operasyon an nan sant done a pa ta dwe konplètman retabli nan èdtan k ap vini yo, kidonk li te nesesè yo pran mezi asire ke indisponibilite alontèm nan kopi pa t 'kouvri pwoblèm adisyonèl tankou disk plen nan. rès sant done yo.
17:29. Tan pitza! Nou anplwaye moun, pa robo.

Èske serveurs yo ta dwe etenn si tès lafimen sant done a pran dife?

Reyabilitasyon

18:02. Nan koulwa No 8 (nou an), 9, 10 ak 11 tanperati a estabilize. Youn nan sa yo ki rete offline (No 7) kay ekipman nou yo, ak tanperati a la kontinye ap monte.
18:31. Yo te bay ale pou yo kòmanse ekipman yo nan koulwa No 1 ak 3 - sal sa yo pa te afekte pa dife a.

Kounye a, serveurs yo te lanse nan koulwa No 1, 3, 8, kòmanse ak sa yo ki pi kritik. Yo tcheke operasyon kòrèk tout sèvis k ap kouri. Gen pwoblèm toujou ak sal No 7.

18:44. Anplwaye teknik nan sant done a te dekouvri ke nan chanm No 7 (kote sèlman ekipman nou an sitiye) anpil sèvè yo pa etenn. Dapre done nou yo, 26 serveurs rete sou entènèt la. Apre yon dezyèm chèk, nou jwenn 58 serveurs.
20:18. Teknisyen sant done yo soufle lè nan yon chanm san èkondisyone atravè kanal mobil k ap pase nan koulwa yo.
23:08. Premye admin te voye lakay li. Yon moun bezwen dòmi nan mitan lannwit pou kontinye travay demen. Apre sa, nou pral lage kèk lòt admin ak devlopè.
02:56. Nou te lanse tout sa ki ta ka lanse. Nou fè anpil tcheke tout sèvis yo lè l sèvi avèk tès otomatik yo.

Èske serveurs yo ta dwe etenn si tès lafimen sant done a pran dife?

03:02. Èkondisyone nan dènye, 7yèm sal la te retabli.
03:36. Nou te pote devan yo nan sant done a nan wotasyon nan DNS. Apati moman sa a trafik itilizatè yo kòmanse rive.
Nou ap voye pi fò nan ekip administratif la lakay ou. Men, nou kite kèk moun dèyè.

Ti FAQ:
K: Kisa ki pase soti 18:31 rive 02:56?
A: Apre "Plan Aksyon pou Katastwòf", nou lanse tout sèvis, kòmanse ak sa ki pi enpòtan yo. Nan ka sa a, kowòdonatè a nan chat la bay sèvis la bay yon administratè gratis, ki moun ki tcheke si OS ak aplikasyon an te kòmanse, si gen nenpòt erè, ak si endikatè yo nòmal. Apre lansman an fini, li rapòte nan chat la ke li gratis epi li resevwa yon nouvo sèvis nan men kowòdonatè a.
Pwosesis la plis ralanti pa pyès ki nan konpitè echwe. Menm si sispann OS la ak fèmen serveurs yo te ale kòrèkteman, kèk serveurs pa retounen akòz echèk toudenkou nan disk, memwa, ak chasi. Lè pouvwa a pèdi, pousantaj echèk la ogmante.
K: Poukisa ou pa ka jis kouri tout bagay nan yon fwa, ak Lè sa a, ranje sa ki vini nan siveyans?
A: Tout bagay dwe fèt piti piti, paske gen depandans ant sèvis yo. Ak tout bagay ta dwe tcheke touswit, san yo pa tann pou siveyans - paske li se pi bon fè fas ak pwoblèm touswit, san yo pa tann pou yo vin pi mal.

7:40. Dènye admin (kowòdonatè) te ale nan kabann. Travay premye jou a te fini.
8:09. Premye devlopè yo, enjenyè sant done yo ak administratè yo (ki gen ladan nouvo koòdonatè a) te kòmanse travay restorasyon.
09:37. Nou te kòmanse monte sal nimewo 7 (dènye a).
An menm tan an, nou kontinye retabli sa ki pa te fikse nan lòt chanm yo: ranplase disk/memwa/sèvè, repare tout bagay ki "boule" nan siveyans, chanje wòl tounen nan plan mèt-standby ak lòt ti bagay, ki genyen. poutan byen anpil.
17:08. Nou pèmèt tout travay regilye ak pwodiksyon.
21:45. Travay dezyèm jou a fini.
09:45. Jodi a se vandredi. Genyen toujou byen kèk ti pwoblèm nan siveyans. Fen semèn nan ap vini, tout moun vle detann. Nou kontinye repare masiv tout sa nou kapab. Travay admin regilye ki ta ka ranvwaye yo te ranvwaye. Koòdonatè a nouvo.
15:40. Menm lè mwatye nan pil ekipman rezo Nwayo a nan yon LÒT sant done rekòmanse. Fwon yo te retire nan wotasyon pou minimize risk yo. Pa gen okenn efè pou itilizatè yo. Li pita te tounen soti ke li te yon chasi defo. Kowòdonatè a ap travay pou repare de aksidan alafwa.
17:17. Operasyon rezo nan yon lòt sant done yo te retabli, tout bagay te tcheke. Yo mete sant done a an wotasyon.
18:29. Travay la nan twazyèm jou a ak, an jeneral, restorasyon an apre aksidan an te fini.

Apreword

04.04.2013 nan jou erè 404 la, "Kamarad klas yo" siviv pi gwo aksidan an —pou twa jou pòtal la te konplètman oswa pasyèlman disponib. Pandan tout tan sa a, plis pase 100 moun ki soti nan diferan vil, ki soti nan diferan konpayi (anpil mèsi ankò!), adistans ak dirèkteman nan sant done, manyèlman ak otomatikman, repare dè milye de sèvè.
Nou te tire konklizyon. Pou anpeche sa rive ankò, nou te fè e nou kontinye fè anpil travay jouk jounen jodi a.

Ki diferans prensipal ki genyen ant aksidan aktyèl la ak 404?

  • Nou gen yon "Plan Aksyon Aksidan". Yon fwa pa trimès, nou fè egzèsis - nou jwe wòl yon sitiyasyon ijans, ke yon gwoup administratè (tout nan vire) dwe elimine lè l sèvi avèk "Plan Aksyon Ijans". Dirijan administratè sistèm yo jwe tou wòl koòdonatè.
  • Chak trimès, nan mòd tès, nou izole sant done yo (tout nan vire) atravè rezo LAN ak WAN, ki pèmèt nou idantifye san pèdi tan kou boutèy.
  • Mwens disk domaje, paske nou sere estanda yo: mwens èdtan opere, valè papòt pi sevè pou S.M.A.R.T.,
  • Nou konplètman abandone BerkeleyDB, yon baz done fin vye granmoun ak enstab ki te mande anpil tan refè apre yon rekòmanse sèvè.
  • Nou redwi kantite serveurs ak MS SQL ak redwi depandans sou sa ki rete yo.
  • Nou gen pwòp pa nou nwaj - yon sèl-nwaj, kote nou te aktivman imigre tout sèvis pou de ane kounye a. Nwaj la senplifye anpil sik nan travay ak aplikasyon an, epi nan ka yon aksidan li bay zouti inik tankou:
    • kòrèk sispann tout aplikasyon yo nan yon sèl klike sou;
    • migrasyon fasil nan aplikasyon ki soti nan serveurs echwe;
    • otomatik klase (nan lòd priyorite nan sèvis) lansman de yon sant done antye.

Aksidan an te dekri nan atik sa a te pi gwo depi 404yèm jou a. Natirèlman, se pa tout bagay ale byen. Pou egzanp, pandan indisponibilite yon sant done dife ki domaje nan yon lòt sant done, yon disk sou youn nan sèvè yo echwe, se sa ki, se sèlman youn nan twa kopi yo nan gwoup Cassandra a rete aksesib, ki se poukisa 4,2% nan mobil. itilizatè aplikasyon yo pa t 'kapab konekte. An menm tan an, itilizatè ki deja konekte yo te kontinye travay. An total, kòm yon rezilta nan aksidan an, plis pase 30 pwoblèm yo te idantifye - soti nan pinèz ordinèr nan enpèfeksyon nan achitekti sèvis la.

Men, diferans ki pi enpòtan ant aksidan aktyèl la ak 404th la se ke pandan ke nou t ap elimine konsekans dife a, itilizatè yo te toujou voye tèks mesaj ak fè apèl videyo yo. Egzakteman, te jwe jwèt, koute mizik, youn bay lòt kado, gade videyo, seri televizyon ak chanèl televizyon nan OK, epi tou difize nan OK Live.

Ki jan aksidan ou yo ale?

Sous: www.habr.com

Add nouvo kòmantè