Zerbitzariak itzali behar al dira datu-zentroko ke probak su hartzen badu?

Nola sentituko zinateke udako egun eder batean zure ekipoa duen datu-zentroak horrelako itxura izango balu?

Zerbitzariak itzali behar al dira datu-zentroko ke probak su hartzen badu?

Kaixo guztioi! Nire izena Dmitry Samsonov da, sistema-administratzaile nagusi gisa lan egiten dut "Odnoklassniki" Argazkian, gure proiektua zerbitzatzen duten ekipoak instalatuta dauden lau datu-zentroetako bat ageri da. Horma horien atzean 4 mila ekipamendu inguru daude: zerbitzariak, datuak biltegiratzeko sistemak, sareko ekipoak, etab. - Gure ekipo guztien ia ⅓.
Zerbitzari gehienak Linux dira. Windows-en (MS SQL) dozena bat zerbitzari ere badaude - gure ondarea, urte askoan sistematikoki abandonatu duguna.
Beraz, 5ko ekainaren 2019ean, 14:35ean, gure datu-zentroetako ingeniariek sute-alarma baten berri eman zuten.

ukapen

14:45. Uste baino ohikoagoak dira datu-zentroetan kearen gertakari txikiak. Areto barruko adierazleak normalak ziren, beraz, gure lehen erreakzioa nahiko lasaia izan zen: produkzioarekin lan egiteko debekua ezarri zuten, hau da, konfigurazio aldaketak, bertsio berriak zabaltzea, etab., zerbait konpontzearekin lotutako lanak izan ezik.

Haserrea

Saiatu al zara inoiz suhiltzaileen eskutik jakiten zehazki non gertatu den sua teilatuan, edo erretzen ari den teilatu batera sartzen zeure burua egoera ebaluatzeko? Zein izango da bost pertsonen bitartez jasotako informazioan konfiantza maila?

14: 50. Sua hozte sistemara hurbiltzen ari dela dioen informazioa jaso da. Baina etorriko al da? Zerbitzuan dagoen sistema-administratzaileak kanpoko trafikoa kentzen du datu-zentro honen aurrealdeetatik.

Momentuz, gure zerbitzu guztien fronteak hiru datu-zentrotan bikoiztuta daude, balantzea DNS mailan erabiltzen da, eta horri esker, datu-zentro baten helbideak DNStik ken ditzakegu, eta, horrela, erabiltzaileak zerbitzuetarako sarbidea izan dezaketen arazoetatik babesten du. . Datu-zentroan dagoeneko arazoak gertatu badira, errotazioa automatikoki uzten du. Hemen irakur dezakezu gehiago: Karga orekatzea eta akatsen tolerantzia Odnoklassniki-n.

Suak ez gaitu oraindik inola ere eragin, ez erabiltzaileak ez ekipoak kaltetu. Hau istripua al da? "Istripuen Ekintza Plana" dokumentuaren lehen atalean "Istripua" kontzeptua definitzen da, eta atala honela amaitzen da:
«Istripua den ala ez dudarik badago, istripua da!»

14:53. Larrialdietako koordinatzaile bat izendatzen da.

Koordinatzailea parte hartzaile guztien arteko komunikazioa kontrolatzen duen pertsona da, istripuaren tamaina ebaluatzen du, Larrialdietarako Ekintza Plana erabiltzen du, behar den langileak erakartzen ditu, konponketak amaitzen diren kontrolatzen du eta, batez ere, edozein zeregin eskuordetzen du. Hau da, larrialdiei erantzuteko prozesu osoa kudeatzen duen pertsona da.

Bargain

15:01. Produkzioarekin zerikusia ez duten zerbitzariak desgaitzen hasten gara.
15:03. Erreserbatutako zerbitzu guztiak behar bezala desaktibatu ditugu.
Honek fronteak (oraingoz erabiltzaileek jada sartzen ez dituztenak) eta haien zerbitzu osagarriak (negozio-logika, cacheak, etab.) barne hartzen ditu, baita 2 edo gehiagoko erreplikazio-faktorea duten hainbat datu-base ere (Cassandra, datu bitar biltegiratzea, hotza biltegiratzea, NewSQL etab.).
15: 06. Datu zentroetako aretoetako bat sute bat mehatxatzen ari dela dioen informazioa jaso da. Gela honetan ez dugu ekipamendurik, baina sua teilatutik aretoetara hedatu ahal izateak asko aldatzen du gertatzen ari denaren irudia.
(Geroago geratu zen aretoarentzat mehatxu fisikorik ez zegoela, teilatutik hermetikoki itxita zegoelako. Mehatxua areto honen hozte-sistemarako bakarrik zen.)
15:07. Komandoak modu azeleratuan zerbitzarietan exekutatzeko aukera ematen dugu egiaztapen gehigarririk gabe (gure gogoko kalkulagailua gabe).
15:08. Aretoetako tenperatura ohiko mugaren barruan dago.
15: 12. Aretoetan tenperatura igoera izan da.
15:13. Datu zentroko zerbitzarien erdia baino gehiago itzalita daude. Jarrai dezagun.
15:16. Ekipo guztiak itzaltzeko erabakia hartu zen.
15:21. Estaturik gabeko zerbitzariak itzaltzen hasten gara aplikazioa eta sistema eragilea behar bezala itzali gabe.
15:23. MS SQL-ren arduradun talde bat esleitzen da (gutxi daude, zerbitzuen menpekotasuna ez da handia, baina funtzionalitatea berreskuratzeko prozedurak luzeagoa eta konplikatuagoa da, adibidez, Cassandra baino).

depresioa

15: 25. 16tik lau aretotan (6, 7, 8, 9 zk.) argindarra itzaltzeari buruzko informazioa jaso zen. Gure ekipamendua 7 eta 8 pabiloietan dago. Ez dago gure bi aretoei buruzko informaziorik (1. eta 3. zenbakia).
Normalean, suteetan, elikadura hornidura berehala itzaltzen da, baina kasu honetan, datu-zentroko suhiltzaileen eta langile teknikoen lan koordinatuari esker, ez zen nonahi itzaltzen eta ez berehala, behar bezala baizik.
(Geroago aurkitu zen 8. eta 9. pabiloietan elektrizitatea ez zela itzali).
15:28. Beste datu-zentro batzuetako babeskopietatik MS SQL datu-baseak zabaltzen hasiak gara.
Zenbat denbora beharko du? Sare-gaitasun nahikoa al dago ibilbide osorako?
15: 37. Sareko zati batzuen itxiera grabatu zen.
Zuzendaritza eta ekoizpen sarea fisikoki isolatuta daude elkarrengandik. Ekoizpen-sarea erabilgarri badago, zerbitzarira joan, aplikazioa gelditu eta sistema eragilea itzal dezakezu. Eskuragarri ez badago, IPMI bidez saioa hasi dezakezu, aplikazioa gelditu eta OS itzali. Sarerik ez badago, ezin duzu ezer egin. "Eskerrik asko, Cap!", pentsatuko duzu.
«Eta, oro har, zalaparta handia dago», pentsa liteke ere.
Gauza da zerbitzariek, surik gabe ere, bero kopuru handia sortzen dutela. Zehatzago esanda, hozten denean, beroa sortzen dute, eta hozterik ez dagoenean, infernuko infernu bat sortzen dute, eta, onenean, ekipoaren zati bat urtu eta beste zati bat itzaliko du, eta txarrenean... barnean sua eragingo du. aretoa, ia dena suntsituko duela ziurtatuta.

Zerbitzariak itzali behar al dira datu-zentroko ke probak su hartzen badu?

15:39. Arazoak konpontzen ditugu konf datu-basearekin.

Conf datu-basea izen bereko zerbitzuaren backend-a da, ekoizpen-aplikazio guztiek ezarpenak azkar aldatzeko erabiltzen dutena. Oinarri hori gabe ezin dugu atariaren funtzionamendua kontrolatu, baina atariak berak funtziona dezake.

15:41. Nukleoko sareko ekipoetako tenperatura sentsoreek baimendutako gehienekotik hurbil dauden irakurketak erregistratzen dituzte. Hau rack oso bat hartzen duen kutxa bat da eta datu-zentroaren barruko sare guztien funtzionamendua bermatzen du.

Zerbitzariak itzali behar al dira datu-zentroko ke probak su hartzen badu?

15:42. Arazoen jarraipena eta wikia ez daude erabilgarri, aldatu erreserba moduan.
Hau ez da produkzioa, baina istripu bat gertatuz gero, edozein ezagutza-baseren erabilgarritasuna kritikoa izan daiteke.
15:50. Jarraipen-sistemetako bat itzali da.
Hainbat dira, eta zerbitzuen alderdi ezberdinez arduratzen dira. Horietako batzuk datu-zentro bakoitzaren barruan modu autonomoan funtzionatzeko konfiguratuta daude (hau da, beren datu-zentroa bakarrik kontrolatzen dute), beste batzuk edozein datu-zentroren galerari gardenki bizirik irauten duten osagai banatuz osatuta daude.
Kasu honetan funtzionatzeari utzi zion negozio-logika-adierazleak anomaliak detektatzeko sistema, master-standby moduan funtzionatzen duena. Erreserba moduan aldatu da.

Adopzioa

15:51. MS SQL izan ezik zerbitzari guztiak IPMI bidez itzali ziren behar bezala itxi gabe.
Prest al zaude IPMI bidez zerbitzariaren kudeaketa masiborako, beharrezkoa bada?

Datu zentroko ekipoen erreskatea fase honetan amaitzen den unea bera. Egin zitekeen guztia egin da. Lankide batzuek atseden hartu dezakete.
16: 13. Informazioa jaso da aire girotzaileen freon-hodiak teilatuan lehertu direla; horrek datu-zentroa abian jartzea atzeratuko du sua itzali ondoren.
16:19. Datu zentroko langile teknikoetatik jasotako datuen arabera, aretoetako tenperaturaren igoera gelditu egin da.
17:10. Conf datu-basea leheneratu da. Orain aplikazioaren ezarpenak alda ditzakegu.
Zergatik da hain garrantzitsua dena akats-tolerantzia bada eta datu-zentrorik gabe ere funtzionatzen badu?
Lehenik eta behin, dena ez da akatsekiko tolerantzia. Datu-zentroko hutsegite bati oraindik ondo bizirik atera ez diren bigarren mailako hainbat zerbitzu daude, eta datu-baseak daude maisu-egonkortasun moduan. Ezarpenak kudeatzeko gaitasunari esker, beharrezkoa den guztia egin dezakezu istripu baten ondorioak erabiltzaileengan baldintza zailetan ere eragin dezakeen eragina minimizatzeko.
Bigarrenik, argi geratu zen datu-zentroaren funtzionamendua ez zela guztiz berrezartuko datozen orduetan, beraz, beharrezkoa zen neurriak hartzea errepliken epe luzerako erabilgarritasunik ez izateak arazo gehigarririk ekarriko ez zezan, esate baterako, disko beteak. gainerako datu-zentroak.
17:29. Pizza ordua! Pertsonak enplegatzen ditugu, ez robotak.

Zerbitzariak itzali behar al dira datu-zentroko ke probak su hartzen badu?

Errehabilitazio

18:02. 8. zenbakiko (gurea), 9., 10. eta 11. aretoetan tenperatura egonkortu da. Lineaz kanpo geratzen den horietako batean (7. zk.) gure ekipoak daude, eta han tenperaturak gora egiten jarraitzen du.
18:31. 1. eta 3. pabiloetako ekipamendua martxan jartzeko baimena eman zuten -areto horiei ez zitzaien eraginik izan suteak-.

Gaur egun, zerbitzariak abiarazten ari dira 1, 3, 8 zenbakietako aretoetan, kritikoenetatik hasita. Abian dauden zerbitzu guztien funtzionamendu zuzena egiaztatzen da. 7. aretoan arazoak daude oraindik.

18:44. Datu-zentroko langile teknikoek 7. zenbakiko gelan (gure ekipamendua bakarrik dagoen tokian) zerbitzari asko ez daudela itzali aurkitu zuten. Gure datuen arabera, 26 zerbitzariek sarean jarraitzen dute bertan. Bigarren egiaztapen baten ondoren, 58 zerbitzari aurkituko ditugu.
20:18. Datu-zentroko teknikariek aire girotua ez duten gela batetik airea botatzen dute korridoreetatik igarotzen diren hodi mugikorren bidez.
23:08. Lehenengo administratzailea etxera bidali zuten. Norbaitek gauez lo egin behar du bihar lanean jarraitzeko. Ondoren, administratzaile eta garatzaile gehiago kaleratuko ditugu.
02:56. Abian jarri zitekeen guztia jarri dugu martxan. Zerbitzu guztien egiaztapen asko egiten ditugu proba automatikoak erabiliz.

Zerbitzariak itzali behar al dira datu-zentroko ke probak su hartzen badu?

03:02. Azkeneko 7. aretoan aire girotua zaharberritu da.
03:36. Datu-zentroko fronteak DNSn biratzera eraman ditugu. Une horretatik aurrera erabiltzaileen trafikoa iristen hasten da.
Administrazio-talde gehiena etxera bidaltzen ari gara. Baina jende gutxi atzean uzten dugu.

Ohiko galdera txikiak:
G: Zer gertatu da 18:31tik 02:56ra?
E: “Hondamendien Ekintza Plana” jarraituz, zerbitzu guztiak martxan jartzen ditugu, garrantzitsuenetatik hasita. Kasu honetan, txatean koordinatzaileak doako administratzaile bati ematen dio zerbitzua, eta honek sistema eragilea eta aplikazioa hasi diren ala ez, akatsik dagoen eta adierazleak normalak diren egiaztatzen du. Abian jarri ondoren, txatean jakinaraziko du aske dagoela eta koordinatzailearengandik zerbitzu berri bat jasotzen duela.
Prozesua are gehiago moteltzen da huts egindako hardwareak. Nahiz eta sistema eragilea gelditu eta zerbitzariak itzali behar bezala joan, zerbitzari batzuk ez dira itzultzen diskoen, memoriaren eta txasisaren bat-bateko hutsegiteagatik. Energia galtzen denean, hutsegite-tasa handitzen da.
G: Zergatik ezin duzu dena aldi berean exekutatu eta gero monitorizazioan sortzen dena konpondu?
A: Dena pixkanaka egin behar da, zerbitzuen artean menpekotasunak daudelako. Eta dena berehala egiaztatu behar da, monitorizazioari itxaron gabe, hobe delako arazoei berehala aurre egitea, okerrera egingo duten itxaron gabe.

7:40. Azken administratzailea (koordinatzailea) ohera joan zen. Lehen eguneko lanak amaitu dira.
8:09. Lehenengo garatzaileek, datu-zentroko ingeniariek eta administratzaileek (koordinatzaile berria barne) zaharberritze lanak hasi zituzten.
09:37. 7. zenbakiko aretoa (azkena) altxatzen hasi ginen.
Aldi berean, beste geletan konpondu ez zena leheneratzen jarraitzen dugu: diskoak/memoria/zerbitzariak ordezkatu, monitorizazioan “erretzen” den guztia konpontzen, master-standby eskemetan rolak aldatzea eta beste gauza txiki batzuk, horietako batzuk. hala ere asko.
17:08. Produkzioarekin ohiko lan guztiak onartzen ditugu.
21:45. Bigarren eguneko lanak amaitu dira.
09:45. Gaur ostirala da. Jarraipenean arazo txiki dezente daude oraindik. Asteburua heldu da, denek atseden hartu nahi dute. Ahal dugun guztia masiboki konpontzen jarraitzen dugu. Atzeratu zitezkeen ohiko administrazio-zereginak atzeratu egin ziren. Koordinatzailea berria da.
15:40. Bat-batean BESTE datu-zentro bateko Core sareko ekipoen pilaren erdia berrabiarazi zen. Fronteak errotaziotik atera ziren arriskuak gutxitzeko. Ez dago eraginik erabiltzaileentzat. Geroago txasis akastun bat zela ikusi zen. Koordinatzailea bi istripu aldi berean konpontzen ari da.
17:17. Beste datu-zentro bateko sarearen funtzionamendua leheneratu da, dena egiaztatu da. Datu-zentroa errotazioan jartzen da.
18:29. Hereneguneko lanak eta, oro har, istripua amaitu ondoren zaharberritzea.

afterword

04.04.2013 404 akatsaren egunean, "Gelakideak" istripu handienetik bizirik atera zen —hiru egunez ataria guztiz edo partzialki erabilgarri egon zen. Denbora honetan zehar, hiri ezberdinetako 100 pertsona baino gehiagok, enpresa ezberdinetakoak (mila esker berriro!), urrunetik eta zuzenean datu zentroetan, eskuz eta automatikoki, milaka zerbitzari konpondu zituzten.
Ondorioak atera ditugu. Hori berriro gerta ez dadin, lan handia egin dugu eta egiten jarraitzen dugu gaur arte.

Zeintzuk dira egungo istripuaren eta 404ren arteko desberdintasun nagusiak?

  • “Istripuen Ekintza Plana” dugu. Hiruhilabetean behin ariketak egiten ditugu: larrialdi egoera bat antzezten dugu, eta administratzaile talde batek (denak txandaka) ezabatu behar du "Larrialdietarako Ekintza Plana" erabiliz. Sistema-administratzaile nagusiek txandaka hartzen dute koordinatzaile papera.
  • Hiruhilero, proba moduan, datu-zentroak (denak txandaka) isolatzen ditugu LAN eta WAN sareen bidez, eta horrek botila-lepoak berehala identifikatzea ahalbidetzen digu.
  • Hautsitako disko gutxiago, estandarrak zorroztu ditugulako: funtzionamendu-ordu gutxiago, SMARTen atalase zorrotzagoak,
  • BerkeleyDB erabat abandonatu genuen, zerbitzari bat berrabiarazi ondoren berreskuratzeko denbora asko behar zuen datu-base zahar eta ezegonkorra.
  • MS SQL duten zerbitzarien kopurua murriztu dugu eta gainerakoekiko menpekotasuna murriztu dugu.
  • Gurea dugu hodei - hodei bakarra, non zerbitzu guztiak aktiboki migratzen ari gara duela bi urte. Hodeiak asko errazten du aplikazioarekin lan egiteko ziklo osoa, eta istripu bat gertatuz gero tresna paregabeak eskaintzen ditu:
    • Aplikazio guztien geldialdi zuzena klik bakarrean;
    • huts egindako zerbitzarietatik aplikazioen migrazio erraza;
    • datu-zentro oso baten abiarazte automatikoa (zerbitzuen lehentasunaren arabera).

Artikulu honetan deskribatutako istripua 404. egunetik handiena izan zen. Noski, dena ez zen ondo joan. Esaterako, beste datu-zentro batean suteak kaltetutako datu-zentro bat erabilgarri egon ez zenean, zerbitzarietako batean disko batek huts egin zuen, hau da, Cassandra klusterreko hiru errepliketatik bakarra geratu zen eskuragarri, eta horregatik mugikorren %4,2k. aplikazioaren erabiltzaileek ezin izan dute saioa hasi . Aldi berean, dagoeneko konektatutako erabiltzaileek lanean jarraitu zuten. Guztira, istripuaren ondorioz, 30 arazo baino gehiago identifikatu ziren - akats hutsaletatik zerbitzu-arkitekturaren gabezietara.

Baina egungo istripuaren eta 404.aren arteko alderik garrantzitsuena da sutearen ondorioak kentzen ari ginen bitartean erabiltzaileek mezuak bidaltzen eta bideo-deiak egiten ari zirela. Zehazki, jolasak egin, musika entzun, elkarri opariak eman, bideoak, telesailak eta telebista kateak ikusi zituzten. OK, eta streaming bidez ere Ados Zuzenean.

Nola doaz zure istripuak?

Iturria: www.habr.com

Gehitu iruzkin berria