Datu zentroetan istripuen kausa nagusia ordenagailuaren eta aulkiaren arteko junta da

Datu-zentro modernoetako istripu handien gaiak lehen artikuluan erantzun ez ziren galderak sortzen ditu - garatzea erabaki genuen.

Datu zentroetan istripuen kausa nagusia ordenagailuaren eta aulkiaren arteko junta da

Uptime Institute-ko estatistiken arabera, datu-zentroetako gorabehera gehienak elikatze-sistemaren akatsekin lotuta daude —intzidentziaren % 39 dira—. Haien atzetik datoz giza faktorea, istripuen beste %24a baita. Hirugarren arrazoi garrantzitsuena (%15) aire girotuaren sistemaren porrota izan zen, eta laugarren tokian (%12) hondamendi naturalak. Beste arazoen zati osoa % 10 baino ez da. Erakunde errespetatu baten datuak zalantzan jarri gabe, istripu ezberdinetan ohikoa den zerbait nabarmenduko dugu eta saihestu ote ziren ulertzen saiatuko gara. Spoiler: posible da kasu gehienetan.

Kontaktuen Zientzia

Erraz esateko, bi arazo baino ez daude elikadura hornidurarekin: edo ez dago kontakturik egon behar den lekuan, edo kontakturik egon behar ez den lekuan. Denbora luzez hitz egin dezakezu etenik gabeko sistema modernoen fidagarritasunaz, baina ez zaituzte beti salbatzen. Hartu British Airways-ek erabiltzen duen datu-zentroaren goi mailako kasua, International Airlines Group konpainia nagusiaren jabetzakoa dena. Heathrow aireportutik gertu daude horrelako bi jabetza: Boadicea House eta Comet House. Horietako lehenengoan, 27ko maiatzaren 2017an, ustekabeko argindar eten bat gertatu zen, eta horrek UPS sistemaren gainkarga eta hutsegitea ekarri zuen. Ondorioz, ekipo informatiko batzuk fisikoki hondatu ziren, eta azken hondamendia hiru egun behar izan zituen konpontzeko.

Aire konpainiak mila hegaldi baino gehiago bertan behera utzi edo berrantolatu behar izan zituen, 75 mila bidaiari inguruk ezin izan zuten garaiz hegan egin - 128 milioi dolar gastatu ziren kalte-ordainak ordaintzeko, datu-zentroen funtzionaltasuna berreskuratzeko beharrezkoak diren kostuak zenbatu gabe. Itzaltzearen arrazoien historia ez dago argi. Willie Walsh International Airlines Taldeko zuzendari nagusiak iragarritako barne ikerketaren emaitzak uste badituzu, ingeniarien akats baten ondorioz izan da. Hala ere, etenik gabeko elikatze-sistemak halako itzalaldi bati eutsi behar zion - horregatik instalatu zen. Datu-zentroa CBRE Managed Services outsourcing enpresako espezialistek kudeatzen zuten, eta, beraz, British Airways Londresko epaitegi baten bidez kalte kopurua berreskuratzen saiatu zen.

Datu zentroetan istripuen kausa nagusia ordenagailuaren eta aulkiaren arteko junta da

Elektrizitatearen etenaldiak antzeko eszenatokietan gertatzen dira: lehenik eta behin itzalaldi bat gertatzen da elektrizitate hornitzailearen erruagatik, batzuetan eguraldi txarragatik edo barne arazoengatik (giza akatsak barne), eta, ondoren, etenik gabeko elikadura sistemak ezin du kargari edo laburpen bati aurre egin. -Uhin sinusoidalaren eperako eteteak zerbitzu askoren akatsak eragiten ditu, eta horien berreskurapena denbora eta diru asko eskatzen du. Posible al da horrelako istripuak saihestea? Zalantzarik gabe. Sistema behar bezala diseinatzen baduzu, datu-zentro handien sortzaileak ere ez dira akatsetatik salbu.

Giza faktorea

Gertakari baten berehalako kausa datu-zentroko langileen ekintza okerrak direnean, arazoek gehienetan (baina ez beti) IT azpiegituraren software-atarian eragiten dute. Horrelako istripuak korporazio handietan ere gertatzen dira. 2017ko otsailean, datu-zentroetako operazio teknikoko taldeko taldekide bat gaizki kontratatu zela eta, Amazon Web Services zerbitzarien zati bat desgaitu zen. Errore bat gertatu da Amazon Simple Storage Service (S3) hodeiko biltegiratze bezeroen fakturazio-prozesua arazketan. Langile bat fakturazio sistemak erabiltzen dituen zerbitzari birtual batzuk ezabatzen saiatu zen, baina kluster handiago bat jo zuen.

Datu zentroetan istripuen kausa nagusia ordenagailuaren eta aulkiaren arteko junta da

Ingeniariaren errore baten ondorioz, Amazon hodeian biltegiratzeko software modulu garrantzitsuak exekutatzen zituzten zerbitzariak ezabatu egin ziren. Kaltetutako lehenengoa indexatzeko azpisistema izan zen, US-EAST-3 Amerikako eskualdeko S1 objektu guztien metadatuei eta kokapenari buruzko informazioa biltzen duena. Gertaerak datuak hartzeko eta biltegiratzeko dagoen espazioa kudeatzeko erabiltzen den azpisistemari ere eragin zion. Makina birtualak ezabatu ondoren, bi azpisistema hauek erabat berrabiarazi behar izan zuten, eta orduan Amazoneko ingeniariek ezustekoa izan zuten: denbora luzez, hodeiko biltegiratze publikoak ezin izan zituen bezeroen eskaerei erantzun.

Eragina oso zabaldua izan zen, baliabide handi askok Amazon S3 erabiltzen baitute. Etenaldiak Trello, Coursera, IFTTT eta, desatsegina dena, S&P 500 zerrendako Amazon bazkide nagusien zerbitzuei eragin zien. Horrelako kasuetan kalteak kalkulatzen zailak dira, baina ehunka milioi dolarren ingurukoa izan zen. Ikus dezakezunez, komando oker bat nahikoa da hodeiko plataforma handienaren zerbitzua desgaitzeko. Hau ez da kasu isolatua; 16ko maiatzaren 2019an, mantentze lanetan, Yandex.Cloud zerbitzua. ezabatu da ru-central1-c eremuko erabiltzaileen makina birtualak, gutxienez behin SUSPENDED egoeran zeuden. Bezeroen datuak dagoeneko hondatuta daude hemen, eta horietako batzuk ezinezkoan galdu ziren. Jakina, pertsonak inperfektuak dira, baina informazio-segurtasun sistema modernoak aspalditik erabiltzaile pribilegiatuen ekintzak kontrolatu ahal izan dituzte, sartutako komandoak exekutatu aurretik. Irtenbide horiek Yandex edo Amazon-en ezartzen badira, horrelako gertakariak saihestu daitezke.

Datu zentroetan istripuen kausa nagusia ordenagailuaren eta aulkiaren arteko junta da

Hozte izoztua

2017ko urtarrilean, istripu handi bat gertatu zen Megafon konpainiako Dmitrov datu-zentroan. Orduan, Mosku eskualdean tenperatura -35 °C-ra jaitsi zen, eta horrek instalazioaren hozte sistemaren porrota eragin zuen. Operadorearen prentsa-zerbitzuak ez du bereziki hitz egin gertakariaren arrazoiei buruz - Errusiako enpresek oso uko egiten diote euren instalazioetan istripuei buruz hitz egiteko; publizitateari dagokionez, Mendebaldeko oso atzetik gaude. Sare sozialetan kalean jarritako hodietan hozgarria izozteari eta etilenglikolaren isuriari buruzko bertsio bat zegoen. Haren arabera, operazio-zerbitzuak ezin izan zuen 30 tona hozgarri azkar lortu oporraldi luzeen ondorioz eta bide inprobisatuak erabiliz atera zen, sistema funtzionatzeko arauak urratuz doako hozte inprobisatua antolatuz. Hotz gogorrak arazoa areagotu zuen: urtarrilean, neguak bat-batean jo zuen Errusia, inork espero ez zuen arren. Ondorioz, langileek zerbitzariaren bastidoreen zati bat itzali behar izan zuten, eta horregatik operadorearen zerbitzu batzuk bi egunez egon ziren erabilgarri.

Datu zentroetan istripuen kausa nagusia ordenagailuaren eta aulkiaren arteko junta da

Seguruenik, eguraldiaren anomalia bati buruz hitz egin dezakegu hemen, baina izozteak ez dira ohikoak hiriburuko eskualderako. Neguan Mosku eskualdeko tenperaturak maila baxuagoetara jaitsi daitezke, beraz, datu-zentroak -42 °C-tan funtzionamendu egonkorra espero dute. Gehienetan, hozte-sistemek huts egiten dute eguraldi hotzean, glikol-kontzentrazio nahiko altua eta hozte-soluzioan gehiegizko uraren ondorioz. Hodien instalazioarekin edo sistemaren diseinuan eta probetan kalkulu okerrak ere badira, batez ere dirua aurrezteko nahiarekin lotuta. Ondorioz, istripu larri bat gertatzen da, saihestu zitekeena.

Hondamendi naturalak

Gehienetan, trumoiek eta/edo urakanek datu-zentro baten ingeniaritza-azpiegitura eten egiten dute, zerbitzu-etenaldiak eta/edo ekipoetan kalte fisikoak eraginez. Eguraldi txarrak eragindako gorabeherak sarritan gertatzen dira. 2012an, Sandy urakanak Estatu Batuetako mendebaldeko kostaldea zeharkatu zuen eurite ugarirekin. Lower Manhattan-eko altuera handiko eraikin batean dago, Peer 1 datu-zentroa kanpoko elikadura hornidura galdu, itsasoko ur gaziak sotoak gainezka egin ostean. Instalazioko larrialdi-sorgailuak 18. solairuan zeuden, eta haien erregai-hornidura mugatua zen —Irailaren 9ko atentatuen ondoren New Yorken ezarri ziren arauek erregai kantitate handiak goiko solairuetan gordetzea debekatzen dute—.

Erregai-ponpak ere huts egin zuen, beraz, langileek hainbat egun eman zituzten gasolioa sorgailuetara eskuz eramaten. Taldearen heroismoak datu-zentroa istripu larri batetik salbatu zuen, baina benetan beharrezkoa al zen? Nitrogeno-oxigeno atmosfera eta ur asko dituen planeta batean bizi gara. Trumoi-ekaitzak eta urakanak ohikoak dira hemen (batez ere kostaldeko eremuetan). Diseinatzaileek ziurrenik ondo egingo lukete dakartzan arriskuak kontuan hartzea eta etenik gabeko elikatze-sistema egokia eraikitzea. Edo, gutxienez, aukeratu datu-zentrorako kokapen egokiagoa uharte bateko eraikin bat baino.

Beste guztia

Uptime Institutuak hainbat gertakari identifikatzen ditu kategoria honetan, eta horien artean zaila da ohiko bat aukeratzea. Kobrezko kableen lapurreta, kotxeak datu-zentroen aurka talka egitea, linea elektrikoen euskarri eta transformazio-azpiestazioetan, suteak, optika kaltetzen duten hondeamakinen operadoreak, karraskariak (arratoiak, untxiak eta baita ubelak ere, benetan martsupialak direnak), baita tiroa praktikatzea gustatzen zaienak ere. hariak - menua zabala da . Elektrizitate-hutsegiteak ere eragin ditzake lapurtzen elektrizitatea legez kanpoko marihuana landaketa. Kasu gehienetan, pertsona zehatzak gertakariaren errudun bihurtzen dira, hau da, berriro ere giza faktoreaz ari gara, arazoak izen-abizenak dituenean. Nahiz eta lehen begiratuan istripua disfuntzio tekniko batekin edo hondamendi natural batekin lotu, saihestu daiteke, baldin eta instalazioak behar bezala diseinatu eta behar bezala funtzionatzen badira. Salbuespen bakarrak datu-zentroko azpiegituran kalte larriak edo hondamendi natural baten ondorioz eraikin eta egiturak suntsitzea dira. Hauek benetan ezinbesteko egoerak dira, eta beste arazo guztiak ordenagailuaren eta aulkiaren arteko junturak eragiten ditu - agian hau da sistema konplexuen zatirik fidagarriena.

Iturria: www.habr.com

Gehitu iruzkin berria