Kinahanglan ba nga mapalong ang mga server kung nasunog ang pagsulay sa aso sa data center?

Unsa ang imong bation kung usa ka maayong adlaw sa ting-init ang data center uban sa imong kagamitan ingon niini?

Kinahanglan ba nga mapalong ang mga server kung nasunog ang pagsulay sa aso sa data center?

Kumusta tanan! Ang akong ngalan mao si Dmitry Samsonov, nagtrabaho ko isip usa ka nanguna nga tigdumala sa sistema sa "Mga kauban sa klase" Ang litrato nagpakita sa usa sa upat ka mga sentro sa datos diin ang kagamitan nga nagsilbi sa among proyekto gi-install. Sa luyo niini nga mga dingding adunay mga 4 ka libo nga mga kagamitan: mga server, mga sistema sa pagtipig sa datos, kagamitan sa network, ug uban pa. - hapit ⅓ sa tanan namong kagamitan.
Kadaghanan sa mga server kay Linux. Adunay usab daghang dosena nga mga server sa Windows (MS SQL) - ang among kabilin, nga sistematikong gisalikway namon sa daghang mga tuig.
Mao nga, kaniadtong Hunyo 5, 2019 sa 14:35, ang mga inhenyero sa usa sa among mga sentro sa datos nagreport sa usa ka alarma sa sunog.

Paglimod

14:45. Ang gagmay nga mga insidente sa aso sa mga sentro sa datos mas komon kaysa imong gihunahuna. Ang mga timailhan sa sulod sa mga hawanan normal, mao nga ang among una nga reaksyon medyo kalmado: gipaila nila ang pagdili sa pagtrabaho uban ang produksiyon, nga mao, sa bisan unsang mga pagbag-o sa pag-configure, sa paglansad sa mga bag-ong bersyon, ug uban pa, gawas sa trabaho nga may kalabotan sa pag-ayo sa usa ka butang.

Kasuko

Nakasulay ka na ba nga mahibal-an gikan sa mga bombero kung diin gyud nahitabo ang sunog sa atop, o aron makaadto sa nagdilaab nga atop sa imong kaugalingon aron mahibal-an ang kahimtang? Unsa man ang lebel sa pagsalig sa kasayuran nga nadawat pinaagi sa lima ka tawo?

14: 50. Nakadawat na og impormasyon nga nagsingabot na sa cooling system ang sunog. Apan moabot ba kini? Ang sistema nga tigdumala sa katungdanan nagtangtang sa gawas nga trapiko gikan sa atubangan niini nga data center.

Sa pagkakaron, ang mga atubangan sa tanan namong mga serbisyo gidoble sa tulo ka mga sentro sa datos, ang pagbalanse gigamit sa lebel sa DNS, nga nagtugot kanamo sa pagtangtang sa mga adres sa usa ka data center gikan sa DNS, sa ingon nanalipod sa mga tiggamit gikan sa mga potensyal nga mga problema sa pag-access sa mga serbisyo. . Kung ang mga problema nahitabo na sa sentro sa datos, awtomatiko nga gibiyaan ang rotation. Mahimo nimong basahon ang dugang dinhi: Pagbalanse sa load ug pagtugot sa sayup sa Odnoklassniki.

Ang sunog wala pa nakaapekto kanamo sa bisan unsang paagi - wala’y mga tiggamit o kagamitan nga nadaot. Aksidente ba kini? Ang unang seksyon sa dokumento nga "Accident Action Plan" naghubit sa konsepto sa "Aksidente", ug ang seksyon natapos sama niini:
«Kung adunay bisan unsang pagduhaduha kung adunay usa ka aksidente o wala, nan kini usa ka aksidente!»

14:53. Usa ka emergency coordinator ang gitudlo.

Ang coordinator mao ang tawo nga nagkontrol sa komunikasyon tali sa tanan nga mga partisipante, nag-assess sa gidak-on sa aksidente, naggamit sa Emergency Action Plan, nagdani sa gikinahanglan nga mga personahe, nagmonitor sa pagkompleto sa pag-ayo, ug labaw sa tanan, nagdelegar sa bisan unsang buluhaton. Sa laing pagkasulti, kini ang tawo nga nagdumala sa tibuuk nga proseso sa pagtubag sa emerhensya.

Bargain

15:01. Nagsugod kami sa pag-disable sa mga server nga wala’y kalabotan sa produksiyon.
15:03. Sakto natong gipalong ang tanang gireserba nga mga serbisyo.
Naglakip kini dili lamang sa mga nataran (nga niining puntoha ang mga tiggamit dili na maka-access) ug ang ilang mga serbisyo sa auxiliary (lohika sa negosyo, mga cache, ug uban pa), apan usab lainlaing mga database nga adunay replikasyon nga hinungdan 2 o daghan pa (Cassandra, binary nga pagtipig sa datos, bugnaw nga pagtipig, NewSQL ug uban pa).
15: 06. Ang impormasyon nadawat nga adunay sunog nga naghulga sa usa sa mga hawanan sa data center. Wala kami'y kagamitan niini nga lawak, apan ang kamatuoran nga ang kalayo mahimong mokaylap gikan sa atop ngadto sa mga hawanan dako kaayog kausaban sa hulagway sa nahitabo.
(Kini sa ulahi nahimo nga walay pisikal nga hulga sa hawanan, tungod kay kini gitak-opan gikan sa atop. Ang hulga mao lamang ang makapabugnaw nga sistema niini nga hawanan.)
15:07. Gitugotan namon ang pagpatuman sa mando sa mga server sa gipadali nga mode nga wala’y dugang nga pagsusi (nga wala ang among paboritong calculator).
15:08. Ang temperatura sa mga lawak anaa sa sulod sa normal nga mga limitasyon.
15: 12. Ang pagtaas sa temperatura sa mga hawanan natala.
15:13. Labaw sa katunga sa mga server sa data center gipalong. Padayon ta.
15:16. Usa ka desisyon ang gihimo aron i-off ang tanan nga kagamitan.
15:21. Nagsugod kami sa pagpalong sa gahum sa mga stateless server nga wala’y husto nga pagsira sa aplikasyon ug operating system.
15:23. Usa ka grupo sa mga tawo nga responsable sa MS SQL ang gigahin (adunay pipila kanila, ang pagsalig sa mga serbisyo sa kanila dili maayo, apan ang pamaagi alang sa pagpasig-uli sa pagpaandar mas dugay ug mas komplikado kaysa, pananglitan, Cassandra).

Depresyon

15: 25. Nadawat ang impormasyon bahin sa pagpalong sa kuryente sa upat ka hawanan gikan sa 16 (No. 6, 7, 8, 9). Ang among kagamitan nahimutang sa hawanan 7 ug 8. Walay impormasyon bahin sa among duha ka hawanan (No. 1 ug 3).
Kasagaran, sa panahon sa mga sunog, ang suplay sa kuryente gipalong dayon, apan sa kini nga kaso, salamat sa koordinado nga trabaho sa mga bombero ug teknikal nga kawani sa data center, wala kini gipalong bisan diin ug dili dayon, apan kung kinahanglan.
(Sa ulahi nadiskobrehan nga ang kuryente wala gipalong sa mga hawanan 8 ug 9.)
15:28. Nagsugod kami sa pag-deploy sa mga database sa MS SQL gikan sa mga backup sa ubang mga sentro sa datos.
Unsa ka dugay kini? Aduna bay igong kapasidad sa network alang sa tibuok rota?
15: 37. Ang pagsira sa pipila ka bahin sa network natala.
Ang pagdumala ug ang network sa produksiyon pisikal nga nahimulag sa usag usa. Kung magamit ang network sa produksiyon, mahimo ka nga moadto sa server, hunongon ang aplikasyon ug i-off ang OS. Kung dili kini magamit, mahimo ka maka-log in pinaagi sa IPMI, hunong ang aplikasyon ug i-off ang OS. Kung walay bisan usa sa mga network, nan wala ka'y ​​mahimo. “Salamat, Kap!”, imong hunahunaon.
"Ug sa kinatibuk-an, adunay daghang kagubot," mahimo usab nimo hunahunaon.
Ang butang mao nga ang mga server, bisan kung wala’y kalayo, makamugna og daghang kainit. Sa mas tukma, kung adunay makapabugnaw, sila makamugna og kainit, ug kung walay makapabugnaw, sila makahimo og usa ka impyerno nga inferno, nga, sa labing maayo, matunaw ang bahin sa mga ekipo ug mopalong sa laing bahin, ug sa pinakagrabe... hinungdan sa usa ka kalayo sulod sa hawanan, nga halos garantisado nga makaguba sa tanan.

Kinahanglan ba nga mapalong ang mga server kung nasunog ang pagsulay sa aso sa data center?

15:39. Giayo namo ang mga problema sa conf database.

Ang conf database mao ang backend alang sa serbisyo sa parehas nga ngalan, nga gigamit sa tanan nga mga aplikasyon sa produksiyon aron dali nga mabag-o ang mga setting. Kung wala kini nga base, dili namon makontrol ang operasyon sa portal, apan ang portal mismo mahimong molihok.

15:41. Ang mga sensor sa temperatura sa Core network equipment nagrekord sa mga pagbasa nga duol sa maximum nga gitugot. Kini usa ka kahon nga nag-okupar sa tibuok rack ug nagsiguro sa operasyon sa tanang network sulod sa data center.

Kinahanglan ba nga mapalong ang mga server kung nasunog ang pagsulay sa aso sa data center?

15:42. Ang tracker sa isyu ug wiki dili magamit, ibalhin sa standby.
Dili kini produksiyon, apan kung adunay usa ka aksidente, ang pagkaanaa sa bisan unsang base sa kahibalo mahimong kritikal.
15:50. Usa sa mga sistema sa pagmonitor gipalong.
Adunay ubay-ubay niini, ug sila ang responsable sa lainlaing aspeto sa mga serbisyo. Ang uban niini gi-configure aron mag-operate nga awtonomiya sa sulod sa matag data center (nga mao, ilang gimonitor lamang ang ilang kaugalingon nga data center), ang uban naglangkob sa mga gipang-apod-apod nga mga sangkap nga klaro nga mabuhi sa pagkawala sa bisan unsang data center.
Sa kini nga kaso kini mihunong sa pagtrabaho mga timailhan sa lohika sa negosyo nga sistema sa pagtuki sa anomaliya, nga naglihok sa master-standby mode. Gibalhin sa standby.

Pagsagop

15:51. Ang tanan nga mga server gawas sa MS SQL gipalong pinaagi sa IPMI nga wala nagsira sa husto.
Andam ka na ba alang sa dako nga pagdumala sa server pinaagi sa IPMI kung gikinahanglan?

Ang mismong higayon nga ang pagluwas sa mga ekipo sa data center nahuman sa kini nga yugto. Nahimo na ang tanan nga mahimo. Ang ubang mga kauban makapahulay.
16: 13. Nadawat ang impormasyon nga ang mga tubo sa freon gikan sa mga air conditioner mibuto sa atop - kini maglangan sa paglusad sa data center human mawagtang ang sunog.
16:19. Sumala sa datos nga nadawat gikan sa teknikal nga kawani sa data center, ang pagtaas sa temperatura sa mga hawanan mihunong.
17:10. Ang conf database gipahiuli. Karon mahimo na naton usbon ang mga setting sa aplikasyon.
Ngano nga kini hinungdanon kaayo kung ang tanan matugoton sa sayup ug molihok bisan kung wala’y usa ka sentro sa datos?
Una sa tanan, dili tanan nga mga sayup-tolerant. Adunay lainlaing mga serbisyo sa sekondarya nga wala pa nakalahutay sa usa ka pagkapakyas sa data center nga igo, ug adunay mga database sa master-standby mode. Ang abilidad sa pagdumala sa mga setting nagtugot kanimo sa pagbuhat sa tanan nga gikinahanglan aron maminusan ang epekto sa mga sangputanan sa usa ka aksidente sa mga tiggamit bisan sa lisud nga mga kahimtang.
Ikaduha, nahimo nga tin-aw nga ang operasyon sa data center dili hingpit nga mapasig-uli sa umaabot nga mga oras, mao nga kinahanglan nga maghimo mga lakang aron masiguro nga ang dugay nga pagkawalay magamit sa mga replika wala magdala sa dugang nga mga kasamok sama sa bug-os nga mga disk sa ang nahabilin nga mga sentro sa datos.
17:29. Panahon sa pizza! Gipatrabaho namo ang mga tawo, dili mga robot.

Kinahanglan ba nga mapalong ang mga server kung nasunog ang pagsulay sa aso sa data center?

Rehabilitasyon

18:02. Sa mga hawanan No. 8 (amon), 9, 10 ug 11 ang temperatura mi-stabilize. Ang usa sa nagpabilin nga offline (No. 7) nagbutang sa among kagamitan, ug ang temperatura didto nagpadayon sa pagtaas.
18:31. Ilang gihatag ang go-ahead sa pagsugod sa mga ekipo sa mga hawanan No. 1 ug 3 - kini nga mga hawanan wala maapektuhan sa sunog.

Sa pagkakaron, ang mga server gilusad sa mga hall No. 1, 3, 8, sugod sa mga labing kritikal. Ang husto nga operasyon sa tanan nga nagdagan nga mga serbisyo gisusi. Adunay mga problema sa hall No. 7.

18:44. Nadiskobrehan sa teknikal nga kawani sa data center nga sa lawak No. 7 (diin nahimutang lamang ang atong mga ekipo) daghang mga server ang wala mapalong. Sumala sa among datos, 26 ka server ang nagpabiling online didto. Pagkahuman sa ikaduhang pagsusi, nakit-an namon ang 58 nga mga server.
20:18. Ang mga technician sa data center mohuyop og hangin pinaagi sa dili air-conditioned nga lawak pinaagi sa mga mobile duct nga nagdagan sa mga pasilyo.
23:08. Gipapauli ang unang admin. Adunay kinahanglan nga matulog sa gabii aron makapadayon sa trabaho ugma. Sunod, magpagawas kami pipila pa nga mga admin ug developer.
02:56. Gilunsad namo ang tanan nga mahimong ilunsad. Naghimo kami daghang pagsusi sa tanan nga mga serbisyo gamit ang mga awtomatikong pagsulay.

Kinahanglan ba nga mapalong ang mga server kung nasunog ang pagsulay sa aso sa data center?

03:02. Ang air conditioning sa katapusan, ika-7 nga hawanan gipahiuli.
03:36. Gidala namo ang mga atubangan sa data center ngadto sa rotation sa DNS. Gikan niining higayona nagsugod ang pag-abot sa trapiko sa tiggamit.
Gipapauli namo ang kadaghanan sa administratibong grupo. Apan gibiyaan namo ang pipila ka mga tawo.

Gamay nga FAQ:
P: Unsa ang nahitabo gikan sa 18:31 hangtod 02:56?
A: Pagsunod sa "Plano sa Aksyon sa Kalamidad", gilusad namo ang tanang serbisyo, sugod sa pinakaimportante. Sa kini nga kaso, ang coordinator sa chat nag-isyu sa serbisyo sa usa ka libre nga tagdumala, nga nagsusi kung nagsugod na ang OS ug aplikasyon, kung adunay mga sayup, ug kung normal ba ang mga timailhan. Pagkahuman sa paglansad, gi-report niya sa chat nga libre siya ug nakadawat usa ka bag-ong serbisyo gikan sa coordinator.
Ang proseso gipahinay pa sa napakyas nga hardware. Bisan kung ang pagpahunong sa OS ug pag-shut down sa mga server sa hustong paagi, ang pipila ka mga server dili mobalik tungod sa kalit nga pagkapakyas sa mga disk, memorya, ug mga chassis. Kung mawala ang kuryente, motaas ang rate sa kapakyasan.
P: Ngano nga dili nimo mahimo nga padaganon ang tanan sa usa ka higayon, ug dayon ayohon kung unsa ang moabut sa pag-monitor?
A: Ang tanan kinahanglan nga buhaton sa hinay-hinay, tungod kay adunay mga dependency tali sa mga serbisyo. Ug ang tanan kinahanglan nga susihon dayon, nga wala maghulat alang sa pag-monitor - tungod kay mas maayo nga atubangon dayon ang mga problema, nga dili maghulat nga mograbe kini.

7:40. Ang katapusan nga admin (coordinator) natulog. Ang unang adlaw sa trabaho nahuman na.
8:09. Ang unang mga developers, data center engineers ug mga administrador (lakip ang bag-ong coordinator) nagsugod sa pagpahiuli sa trabaho.
09:37. Nagsugod kami sa pagpataas sa hall No. 7 (ang katapusan).
Sa samang higayon, nagpadayon kami sa pagpasig-uli sa wala naayo sa ubang mga lawak: pag-ilis sa mga disk / memory / server, pag-ayo sa tanan nga "nasunog" sa pag-monitor, pagbalhin sa mga tahas balik sa master-standby nga mga laraw ug uban pang gagmay nga mga butang, diin adunay bisan pa niana daghan kaayo.
17:08. Gitugotan namon ang tanan nga regular nga trabaho nga adunay produksiyon.
21:45. Ang trabaho sa ikaduhang adlaw nahuman.
09:45. Biyernes karon. Naa pa gyuy gamay nga problema sa pagmonitor. Ang katapusan sa semana sa unahan, ang tanan gusto nga mag-relax. Nagpadayon kami sa pag-ayo sa tanan nga among mahimo. Ang mga regular nga buluhaton sa admin nga mahimo unta nga ma-postpone gi-postpone. Bag-o ang coordinator.
15:40. Sa kalit ang katunga sa Core network ekipo stack sa LAING sentro sa data gi-restart. Ang mga atubangan gikuha gikan sa rotation aron mamenosan ang mga risgo. Walay epekto alang sa mga tiggamit. Kini sa ulahi nahimo nga kini usa ka sayup nga chassis. Ang coordinator nagtrabaho sa pag-ayo sa duha ka aksidente sa usa ka higayon.
17:17. Ang operasyon sa network sa laing data center gipahiuli, ang tanan gisusi. Ang data center gibutang sa rotation.
18:29. Ang trabaho sa ikatulo nga adlaw ug, sa kinatibuk-an, ang pagpasig-uli human sa aksidente nahuman.

Pagkahuman

04.04.2013 sa adlaw sa 404 error, "Mga klasmeyt" naluwas sa pinakadako nga aksidente —sa sulod sa tulo ka adlaw ang portal hingpit o partially dili magamit. Sa tibuok niini nga panahon, labaw pa sa 100 ka mga tawo gikan sa lain-laing mga siyudad, gikan sa lain-laing mga kompanya (daghang salamat pag-usab!), layo ug direkta sa data centers, sa kamut ug sa awtomatik, nag-ayo sa liboan ka mga server.
Naghimo kami mga konklusyon. Aron dili na kini mahitabo pag-usab, among gipatuman ug padayon ang paghimo sa halapad nga buluhaton hangtod karon.

Unsa ang mga nag-unang kalainan tali sa karon nga aksidente ug 404?

  • Kita adunay "Accident Action Plan". Kas-a sa usa ka quarter, nagpahigayon kami og mga ehersisyo - nag-role-play kami sa usa ka sitwasyon sa emerhensya, diin ang usa ka grupo sa mga administrador (tanan sa baylo) kinahanglan nga wagtangon gamit ang "Emergency Action Plan". Ang nanguna nga mga tigdumala sa sistema magpuli-puli sa pagdula sa papel sa coordinator.
  • Kada quarter, sa mode sa pagsulay, gilain namon ang mga sentro sa datos (tanan sa baylo) pinaagi sa mga network sa LAN ug WAN, nga nagtugot kanamo nga mahibal-an dayon ang mga bottleneck.
  • Diyutay nga guba nga mga disk, tungod kay gihigpitan namo ang mga sumbanan: mas gamay nga oras sa pag-operate, mas estrikto nga mga limitasyon alang sa SMART,
  • Hingpit namong gibiyaan ang BerkeleyDB, usa ka karaan ug dili lig-on nga database nga nanginahanglan daghang oras aron mabawi pagkahuman sa pag-restart sa server.
  • Among gipakunhod ang gidaghanon sa mga server nga adunay MS SQL ug gipakunhod ang pagsalig sa nahibilin.
  • Naa tay kaugalingon panganod - usa ka panganod, diin kami aktibong migrate sa tanang serbisyo sulod na sa duha ka tuig. Gipasimple kaayo sa panganod ang tibuuk nga siklo sa pagtrabaho kauban ang aplikasyon, ug kung adunay aksidente naghatag kini nga talagsaon nga mga himan sama sa:
    • husto nga paghunong sa tanan nga mga aplikasyon sa usa ka pag-klik;
    • sayon ​​nga paglalin sa mga aplikasyon gikan sa napakyas nga mga server;
    • awtomatik nga ranggo (sa han-ay sa prayoridad sa mga serbisyo) paglusad sa tibuok data center.

Ang aksidente nga gihulagway niini nga artikulo mao ang pinakadako sukad sa ika-404 nga adlaw. Siyempre, dili maayo ang tanan. Pananglitan, sa panahon nga wala magamit ang usa ka sentro sa datos nga nadaot sa sunog sa laing sentro sa datos, ang usa ka disk sa usa sa mga server napakyas, nga mao, usa ra sa tulo nga mga replika sa kumpol sa Cassandra ang nagpabilin nga ma-access, mao nga 4,2% sa mobile. Ang mga tiggamit sa aplikasyon dili maka-log in. Sa parehas nga oras, ang mga konektado nga tiggamit nagpadayon sa pagtrabaho. Sa kinatibuk-an, ingon usa ka sangputanan sa aksidente, labaw pa sa 30 nga mga problema ang nahibal-an - gikan sa mga banal nga bug hangtod sa mga kakulangan sa arkitektura sa serbisyo.

Apan ang labing hinungdanon nga kalainan tali sa karon nga aksidente ug sa ika-404 mao nga samtang among giwagtang ang mga sangputanan sa sunog, ang mga tiggamit nag-text ug nag-video call pa. Tamtam, nagdula, naminaw og musika, nanghatag og regalo sa usag usa, nagtan-aw og mga video, mga serye sa TV ug mga channel sa TV OK, ug midagayday usab OK Mabuhi.

Giunsa ang imong mga aksidente?

Source: www.habr.com

Idugang sa usa ka comment