Datu-zentro modernoetako istripu handien gaiak lehen artikuluan erantzun ez ziren galderak sortzen ditu - garatzea erabaki genuen.
Uptime Institute-ko estatistiken arabera, datu-zentroetako gorabehera gehienak elikatze-sistemaren akatsekin lotuta daude —intzidentziaren % 39 dira—. Haien atzetik datoz giza faktorea, istripuen beste %24a baita. Hirugarren arrazoi garrantzitsuena (%15) aire girotuaren sistemaren porrota izan zen, eta laugarren tokian (%12) hondamendi naturalak. Beste arazoen zati osoa % 10 baino ez da. Erakunde errespetatu baten datuak zalantzan jarri gabe, istripu ezberdinetan ohikoa den zerbait nabarmenduko dugu eta saihestu ote ziren ulertzen saiatuko gara. Spoiler: posible da kasu gehienetan.
Kontaktuen Zientzia
Erraz esateko, bi arazo baino ez daude elikadura hornidurarekin: edo ez dago kontakturik egon behar den lekuan, edo kontakturik egon behar ez den lekuan. Denbora luzez hitz egin dezakezu etenik gabeko sistema modernoen fidagarritasunaz, baina ez zaituzte beti salbatzen. Hartu British Airways-ek erabiltzen duen datu-zentroaren goi mailako kasua, International Airlines Group konpainia nagusiaren jabetzakoa dena. Heathrow aireportutik gertu daude horrelako bi jabetza: Boadicea House eta Comet House. Horietako lehenengoan, 27ko maiatzaren 2017an, ustekabeko argindar eten bat gertatu zen, eta horrek UPS sistemaren gainkarga eta hutsegitea ekarri zuen. Ondorioz, ekipo informatiko batzuk fisikoki hondatu ziren, eta azken hondamendia hiru egun behar izan zituen konpontzeko.
Aire konpainiak mila hegaldi baino gehiago bertan behera utzi edo berrantolatu behar izan zituen, 75 mila bidaiari inguruk ezin izan zuten garaiz hegan egin - 128 milioi dolar gastatu ziren kalte-ordainak ordaintzeko, datu-zentroen funtzionaltasuna berreskuratzeko beharrezkoak diren kostuak zenbatu gabe. Itzaltzearen arrazoien historia ez dago argi. Willie Walsh International Airlines Taldeko zuzendari nagusiak iragarritako barne ikerketaren emaitzak uste badituzu, ingeniarien akats baten ondorioz izan da. Hala ere, etenik gabeko elikatze-sistemak halako itzalaldi bati eutsi behar zion - horregatik instalatu zen. Datu-zentroa CBRE Managed Services outsourcing enpresako espezialistek kudeatzen zuten, eta, beraz, British Airways Londresko epaitegi baten bidez kalte kopurua berreskuratzen saiatu zen.
Elektrizitatearen etenaldiak antzeko eszenatokietan gertatzen dira: lehenik eta behin itzalaldi bat gertatzen da elektrizitate hornitzailearen erruagatik, batzuetan eguraldi txarragatik edo barne arazoengatik (giza akatsak barne), eta, ondoren, etenik gabeko elikadura sistemak ezin du kargari edo laburpen bati aurre egin. -Uhin sinusoidalaren eperako eteteak zerbitzu askoren akatsak eragiten ditu, eta horien berreskurapena denbora eta diru asko eskatzen du. Posible al da horrelako istripuak saihestea? Zalantzarik gabe. Sistema behar bezala diseinatzen baduzu, datu-zentro handien sortzaileak ere ez dira akatsetatik salbu.
Giza faktorea
Gertakari baten berehalako kausa datu-zentroko langileen ekintza okerrak direnean, arazoek gehienetan (baina ez beti) IT azpiegituraren software-atarian eragiten dute. Horrelako istripuak korporazio handietan ere gertatzen dira. 2017ko otsailean, datu-zentroetako operazio teknikoko taldeko taldekide bat gaizki kontratatu zela eta, Amazon Web Services zerbitzarien zati bat desgaitu zen. Errore bat gertatu da Amazon Simple Storage Service (S3) hodeiko biltegiratze bezeroen fakturazio-prozesua arazketan. Langile bat fakturazio sistemak erabiltzen dituen zerbitzari birtual batzuk ezabatzen saiatu zen, baina kluster handiago bat jo zuen.
Ingeniariaren errore baten ondorioz, Amazon hodeian biltegiratzeko software modulu garrantzitsuak exekutatzen zituzten zerbitzariak ezabatu egin ziren. Kaltetutako lehenengoa indexatzeko azpisistema izan zen, US-EAST-3 Amerikako eskualdeko S1 objektu guztien metadatuei eta kokapenari buruzko informazioa biltzen duena. Gertaerak datuak hartzeko eta biltegiratzeko dagoen espazioa kudeatzeko erabiltzen den azpisistemari ere eragin zion. Makina birtualak ezabatu ondoren, bi azpisistema hauek erabat berrabiarazi behar izan zuten, eta orduan Amazoneko ingeniariek ezustekoa izan zuten: denbora luzez, hodeiko biltegiratze publikoak ezin izan zituen bezeroen eskaerei erantzun.
Eragina oso zabaldua izan zen, baliabide handi askok Amazon S3 erabiltzen baitute. Etenaldiak Trello, Coursera, IFTTT eta, desatsegina dena, S&P 500 zerrendako Amazon bazkide nagusien zerbitzuei eragin zien. Horrelako kasuetan kalteak kalkulatzen zailak dira, baina ehunka milioi dolarren ingurukoa izan zen. Ikus dezakezunez, komando oker bat nahikoa da hodeiko plataforma handienaren zerbitzua desgaitzeko. Hau ez da kasu isolatua; 16ko maiatzaren 2019an, mantentze lanetan, Yandex.Cloud zerbitzua.
Hozte izoztua
2017ko urtarrilean, istripu handi bat gertatu zen Megafon konpainiako Dmitrov datu-zentroan. Orduan, Mosku eskualdean tenperatura -35 °C-ra jaitsi zen, eta horrek instalazioaren hozte sistemaren porrota eragin zuen. Operadorearen prentsa-zerbitzuak ez du bereziki hitz egin gertakariaren arrazoiei buruz - Errusiako enpresek oso uko egiten diote euren instalazioetan istripuei buruz hitz egiteko; publizitateari dagokionez, Mendebaldeko oso atzetik gaude. Sare sozialetan kalean jarritako hodietan hozgarria izozteari eta etilenglikolaren isuriari buruzko bertsio bat zegoen. Haren arabera, operazio-zerbitzuak ezin izan zuen 30 tona hozgarri azkar lortu oporraldi luzeen ondorioz eta bide inprobisatuak erabiliz atera zen, sistema funtzionatzeko arauak urratuz doako hozte inprobisatua antolatuz. Hotz gogorrak arazoa areagotu zuen: urtarrilean, neguak bat-batean jo zuen Errusia, inork espero ez zuen arren. Ondorioz, langileek zerbitzariaren bastidoreen zati bat itzali behar izan zuten, eta horregatik operadorearen zerbitzu batzuk bi egunez egon ziren erabilgarri.
Seguruenik, eguraldiaren anomalia bati buruz hitz egin dezakegu hemen, baina izozteak ez dira ohikoak hiriburuko eskualderako. Neguan Mosku eskualdeko tenperaturak maila baxuagoetara jaitsi daitezke, beraz, datu-zentroak -42 °C-tan funtzionamendu egonkorra espero dute. Gehienetan, hozte-sistemek huts egiten dute eguraldi hotzean, glikol-kontzentrazio nahiko altua eta hozte-soluzioan gehiegizko uraren ondorioz. Hodien instalazioarekin edo sistemaren diseinuan eta probetan kalkulu okerrak ere badira, batez ere dirua aurrezteko nahiarekin lotuta. Ondorioz, istripu larri bat gertatzen da, saihestu zitekeena.
Hondamendi naturalak
Gehienetan, trumoiek eta/edo urakanek datu-zentro baten ingeniaritza-azpiegitura eten egiten dute, zerbitzu-etenaldiak eta/edo ekipoetan kalte fisikoak eraginez. Eguraldi txarrak eragindako gorabeherak sarritan gertatzen dira. 2012an, Sandy urakanak Estatu Batuetako mendebaldeko kostaldea zeharkatu zuen eurite ugarirekin. Lower Manhattan-eko altuera handiko eraikin batean dago, Peer 1 datu-zentroa
Erregai-ponpak ere huts egin zuen, beraz, langileek hainbat egun eman zituzten gasolioa sorgailuetara eskuz eramaten. Taldearen heroismoak datu-zentroa istripu larri batetik salbatu zuen, baina benetan beharrezkoa al zen? Nitrogeno-oxigeno atmosfera eta ur asko dituen planeta batean bizi gara. Trumoi-ekaitzak eta urakanak ohikoak dira hemen (batez ere kostaldeko eremuetan). Diseinatzaileek ziurrenik ondo egingo lukete dakartzan arriskuak kontuan hartzea eta etenik gabeko elikatze-sistema egokia eraikitzea. Edo, gutxienez, aukeratu datu-zentrorako kokapen egokiagoa uharte bateko eraikin bat baino.
Beste guztia
Uptime Institutuak hainbat gertakari identifikatzen ditu kategoria honetan, eta horien artean zaila da ohiko bat aukeratzea. Kobrezko kableen lapurreta, kotxeak datu-zentroen aurka talka egitea, linea elektrikoen euskarri eta transformazio-azpiestazioetan, suteak, optika kaltetzen duten hondeamakinen operadoreak, karraskariak (arratoiak, untxiak eta baita ubelak ere, benetan martsupialak direnak), baita tiroa praktikatzea gustatzen zaienak ere. hariak - menua zabala da . Elektrizitate-hutsegiteak ere eragin ditzake
Iturria: www.habr.com