TÄma par lielÄm avÄrijÄm mÅ«sdienu datu centros rada jautÄjumus, uz kuriem netika atbildÄts pirmajÄ rakstÄ - mÄs nolÄmÄm to izstrÄdÄt.
SaskaÅÄ ar Uptime Institute statistiku, lielÄkÄ daļa incidentu datu centros ir saistÄ«ti ar elektroapgÄdes sistÄmas kļūmÄm ā tie veido 39% incidentu. Tiem seko cilvÄciskais faktors, kas veido vÄl 24% negadÄ«jumu. TreÅ”ais svarÄ«gÄkais iemesls (15%) bija gaisa kondicionÄÅ”anas sistÄmas kļūme, bet ceturtajÄ vietÄ (12%) - dabas katastrofas. KopÄjais citu nepatikÅ”anu Ä«patsvars ir tikai 10%. NeapÅ”aubot cienÄ«jamas organizÄcijas datus, izcelsim kaut ko kopÄ«gu dažÄdos negadÄ«jumos un mÄÄ£inÄsim saprast, vai no tiem varÄja izvairÄ«ties. Spoileris: vairumÄ gadÄ«jumu tas ir iespÄjams.
Kontaktu zinÄtne
VienkÄrÅ”i sakot, ar baroÅ”anu ir tikai divas problÄmas: vai nu nav kontakta tur, kur tam vajadzÄtu bÅ«t, vai arÄ« ir kontakts, kur kontaktam nevajadzÄtu bÅ«t. JÅ«s varat ilgi runÄt par mÅ«sdienu nepÄrtrauktÄs baroÅ”anas sistÄmu uzticamÄ«bu, taÄu tÄs ne vienmÄr glÄbj. Å emiet vÄrÄ plaÅ”i pazÄ«stamo datu centru, ko izmanto British Airways, kas pieder mÄtesuzÅÄmumam International Airlines Group. NetÄlu no HÄ«trovas lidostas atrodas divi Å”Ädi Ä«paÅ”umi - Boadicea House un Comet House. PirmajÄ no tiem 27. gada 2017. maijÄ notika nejauÅ”s strÄvas padeves pÄrtraukums, kas izraisÄ«ja UPS sistÄmas pÄrslodzi un atteici. TÄ rezultÄtÄ daļa IT iekÄrtu tika fiziski bojÄta, un pÄdÄjÄs katastrofas novÄrÅ”ana prasÄ«ja trÄ«s dienas.
AviokompÄnijai nÄcies atcelt vai pÄrcelt vairÄk nekÄ tÅ«kstoti lidojumu, aptuveni 75 tÅ«kstoÅ”i pasažieru nespÄja izlidot laikÄ ā kompensÄciju izmaksai iztÄrÄti 128 miljoni dolÄru, neskaitot izmaksas, kas nepiecieÅ”amas datu centru funkcionalitÄtes atjaunoÅ”anai. AptumÅ”oÅ”anÄs iemeslu vÄsture nav skaidra. Ja ticÄt iekÅ”ÄjÄs izmeklÄÅ”anas rezultÄtiem, ko paziÅoja International Airlines Group izpilddirektors Villijs VolÅ”s, tas noticis inženieru kļūdas dÄļ. TomÄr nepÄrtrauktÄs baroÅ”anas sistÄmai bija jÄiztur Å”Äda izslÄgÅ”ana - tÄpÄc tÄ tika uzstÄdÄ«ta. Datu centru pÄrvaldÄ«ja Ärpakalpojumu kompÄnijas CBRE Managed Services speciÄlisti, tÄpÄc British Airways ar Londonas tiesas starpniecÄ«bu centÄs atgÅ«t zaudÄjumu summu.
StrÄvas padeves pÄrtraukumi notiek lÄ«dzÄ«gos scenÄrijos: vispirms notiek strÄvas padeves pÄrtraukums elektroenerÄ£ijas piegÄdÄtÄja vainas dÄļ, dažreiz sliktu laikapstÄkļu vai iekÅ”Äjo problÄmu dÄļ (arÄ« cilvÄku kļūdas), un pÄc tam nepÄrtrauktÄs baroÅ”anas sistÄma nespÄj tikt galÄ ar slodzi vai Ä«ssavienojumu. - sinusoidÄlÄ viļÅa Ä«slaicÄ«gs pÄrtraukums izraisa daudzu pakalpojumu atteices, kuru atjaunoÅ”ana prasa daudz laika un naudas. Vai ir iespÄjams izvairÄ«ties no Å”Ädiem negadÄ«jumiem? NeapÅ”aubÄmi. Ja sistÄmu projektÄjat pareizi, pat lielu datu centru veidotÄji nav pasargÄti no kļūdÄm.
CilvÄka faktors
Ja tieÅ”ais incidenta cÄlonis ir datu centra personÄla nepareiza rÄ«cÄ«ba, problÄmas visbiežÄk (bet ne vienmÄr) skar IT infrastruktÅ«ras programmatÅ«ras daļu. Å Ädi negadÄ«jumi notiek pat lielÄs korporÄcijÄs. 2017. gada februÄrÄ« viena datu centra tehniskÄs darbÄ«bas grupas nepareizi savervÄta komandas locekļa dÄļ tika atspÄjota daļa Amazon Web Services serveru. Atkļūdojot Amazon Simple Storage Service (S3) mÄkoÅkrÄtuves klientu norÄÄ·inu procesu, radÄs kļūda. Darbinieks mÄÄ£inÄja dzÄst vairÄkus virtuÄlos serverus, ko izmantoja norÄÄ·inu sistÄma, taÄu trÄpÄ«ja lielÄkam klasterim.
Inženiera kļūdas rezultÄtÄ tika izdzÄsti serveri, kuros darbojas svarÄ«gi Amazon mÄkoÅu krÄtuves programmatÅ«ras moduļi. Vispirms tika ietekmÄta indeksÄÅ”anas apakÅ”sistÄma, kas satur informÄciju par metadatiem un visu S3 objektu atraÅ”anÄs vietu ASV-EAST-1 Amerikas reÄ£ionÄ. Incidents skÄra arÄ« apakÅ”sistÄmu, kas tika izmantota datu mitinÄÅ”anai un glabÄÅ”anai pieejamÄs vietas pÄrvaldÄ«bai. PÄc virtuÄlo maŔīnu dzÄÅ”anas Ŕīm divÄm apakÅ”sistÄmÄm bija nepiecieÅ”ama pilnÄ«ga restartÄÅ”ana, un tad Amazon inženierus gaidÄ«ja pÄrsteigums ā ilgu laiku publiskÄ mÄkoÅkrÄtuve nespÄja apkalpot klientu pieprasÄ«jumus.
Ietekme bija plaÅ”i izplatÄ«ta, jo daudzi lieli resursi izmanto Amazon S3. PÄrtraukumi skÄra Trello, Coursera, IFTTT un, visnepatÄ«kamÄk, lielÄko Amazon partneru pakalpojumus no S&P 500 saraksta. ZaudÄjumus Å”Ädos gadÄ«jumos ir grÅ«ti aprÄÄ·inÄt, taÄu tie bija simtiem miljonu ASV dolÄru apmÄrÄ. KÄ redzat, pietiek ar vienu nepareizu komandu, lai atspÄjotu lielÄkÄs mÄkoÅu platformas pakalpojumu. Å is nav atseviŔķs gadÄ«jums, 16. gada 2019. maijÄ apkopes darbu laikÄ Yandex.Cloud serviss
SaldÄta dzesÄÅ”ana
2017. gada janvÄrÄ« uzÅÄmuma Megafon datu centrÄ Dmitrovas notika liela avÄrija. PÄc tam Maskavas reÄ£ionÄ temperatÅ«ra pazeminÄjÄs lÄ«dz ā35 Ā°C, kas izraisÄ«ja objekta dzesÄÅ”anas sistÄmas atteici. Operatora preses dienests Ä«paÅ”i nerunÄja par incidenta iemesliem - Krievijas uzÅÄmumi ļoti nelabprÄt runÄ par negadÄ«jumiem viÅiem piederoÅ”ajos objektos, publicitÄtes ziÅÄ mÄs stipri atpaliekam no Rietumiem. SociÄlajos tÄ«klos izskanÄja versija par dzesÄÅ”anas Ŕķidruma aizsalÅ”anu pa ielu izvilktajÄs caurulÄs un etilÄnglikola noplÅ«di. PÄc viÅas teiktÄ, ekspluatÄcijas dienests garo brÄ«vdienu dÄļ nav spÄjis Ätri iegÅ«t 30 tonnas dzesÄÅ”anas Ŕķidruma un izkļuvis ar improvizÄtiem lÄ«dzekļiem, organizÄjot improvizÄtu brÄ«vdzesÄÅ”anu, pÄrkÄpjot sistÄmas darbÄ«bas noteikumus. SpÄcÄ«gs aukstums problÄmu saasinÄja ā janvÄrÄ« Krieviju pÄkÅ”Åi piemeklÄja ziema, lai gan neviens to nebija gaidÄ«jis. RezultÄtÄ darbiniekiem nÄcÄs atslÄgt strÄvu daļai serveru plauktu, tÄpÄc daži operatoru pakalpojumi nebija pieejami divas dienas.
IespÄjams, te var runÄt par laikapstÄkļu anomÄliju, taÄu galvaspilsÄtas reÄ£ionam Å”Ädas salnas nav nekas neparasts. TemperatÅ«ra ziemÄ Maskavas reÄ£ionÄ var pazeminÄties lÄ«dz zemÄkam lÄ«menim, tÄpÄc datu centri tiek bÅ«vÄti, cerot uz stabilu darbÄ«bu pie ā42Ā°C. VisbiežÄk dzesÄÅ”anas sistÄmas sabojÄjas aukstÄ laikÄ, jo dzesÄÅ”anas Ŕķidruma ŔķīdumÄ nav pietiekami augsta glikolu koncentrÄcija un liekÄ Å«dens. ProblÄmas ir arÄ« ar cauruļu uzstÄdÄ«Å”anu vai nepareiziem aprÄÄ·iniem sistÄmas projektÄÅ”anÄ un testÄÅ”anÄ, kas galvenokÄrt saistÄ«tas ar vÄlmi ietaupÄ«t. RezultÄtÄ negaidÄ«ti notiek smaga avÄrija, kuru varÄja novÄrst.
Dabas katastrofas
VisbiežÄk pÄrkona negaiss un/vai viesuļvÄtras izjauc datu centra inženiertehnisko infrastruktÅ«ru, izraisot pakalpojuma pÄrtraukumus un/vai fiziskus aprÄ«kojuma bojÄjumus. NegadÄ«jumi, ko izraisa slikti laikapstÄkļi, notiek diezgan bieži. 2012. gadÄ viesuļvÄtra Sendija ar spÄcÄ«gÄm lietusgÄzÄm plosÄ«jÄs pÄri ASV rietumu krastam. Atrodas augstceltnÄ Lejas ManhetenÄ, datu centrÄ Peer 1
ArÄ« degvielas sÅ«knis sabojÄjÄs, tÄpÄc darbinieki vairÄkas dienas pavadÄ«ja, ar roku velkot dÄ«zeļdegvielu pie Ä£eneratoriem. Komandas varonÄ«ba izglÄba datu centru no nopietnas avÄrijas, bet vai tas tieÅ”Äm bija vajadzÄ«gs? MÄs dzÄ«vojam uz planÄtas ar slÄpekļa-skÄbekļa atmosfÄru un daudz Å«dens. PÄrkona negaiss un viesuļvÄtras Å”eit ir izplatÄ«tas (Ä«paÅ”i piekrastes zonÄs). Dizaineriem, iespÄjams, bÅ«tu labi apsvÄrt saistÄ«tos riskus un izveidot atbilstoÅ”u nepÄrtrauktÄs baroÅ”anas sistÄmu. Vai vismaz izvÄlieties datu centram piemÄrotÄku vietu nekÄ augstceltni uz salas.
Viss pÄrÄjais
Uptime Institute Å”ajÄ kategorijÄ identificÄ dažÄdus incidentus, starp kuriem ir grÅ«ti izvÄlÄties tipisku. Vara kabeļu zÄdzÄ«bas, automaŔīnu ietriekÅ”anÄs datu centros, elektrolÄ«niju balstos un transformatoru apakÅ”stacijÄs, ugunsgrÄki, ekskavatoru operatori, kas sabojÄ optiku, grauzÄji (žurkas, truÅ”i un pat vombati, kas patiesÄ«bÄ ir marsupials), kÄ arÄ« tie, kam patÄ«k vingrinÄties Å”auÅ”anÄ vadi - izvÄlne ir plaÅ”a. StrÄvas padeves traucÄjumi var pat izraisÄ«t
Avots: www.habr.com