Glavni vzrok nesreč v podatkovnih centrih je tesnilo med računalnikom in stolom

Tema velikih nesreč v sodobnih podatkovnih centrih odpira vprašanja, na katera v prvem članku nismo dobili odgovora – odločili smo se, da ga razvijemo.

Glavni vzrok nesreč v podatkovnih centrih je tesnilo med računalnikom in stolom

Po statističnih podatkih Uptime Institute je večina incidentov v podatkovnih centrih povezana z okvarami napajalnega sistema - predstavljajo 39% incidentov. Sledi človeški dejavnik, ki predstavlja še 24 % nesreč. Tretji najpomembnejši razlog (15 %) je bila okvara klimatske naprave, na četrtem mestu (12 %) pa naravne nesreče. Skupni delež drugih težav je le 10 %. Ne da bi dvomili v podatke ugledne organizacije, bomo izpostavili nekaj skupnega v različnih nesrečah in poskušali razumeti, ali bi se jim lahko izognili. Spojler: v večini primerov je to mogoče.

Znanost o stikih

Poenostavljeno povedano, pri napajanju sta samo dve težavi: ali ni kontakta tam, kjer bi moral biti, ali pa je kontakt tam, kjer ga ne bi smelo biti. Dolgo lahko govorite o zanesljivosti sodobnih sistemov neprekinjenega napajanja, vendar vas ne rešijo vedno. Vzemimo odmeven primer podatkovnega centra, ki ga uporablja British Airways, ki je v lasti matične družbe International Airlines Group. V bližini letališča Heathrow sta dve takšni nepremičnini - Boadicea House in Comet House. V prvem od teh, 27. maja 2017, je prišlo do nenamernega izpada električne energije, kar je povzročilo preobremenitev in odpoved UPS sistema. Zaradi tega je bilo nekaj IT opreme fizično poškodovano, zadnja katastrofa pa je odpravljala tri dni.

Letalska družba je morala odpovedati ali prestaviti več kot tisoč letov, približno 75 tisoč potnikov ni moglo leteti pravočasno - 128 milijonov dolarjev je bilo porabljenih za plačilo odškodnin, ne da bi upoštevali stroške, potrebne za ponovno vzpostavitev funkcionalnosti podatkovnih centrov. Zgodovina razlogov za izpad električne energije ni jasna. Če verjamete rezultatom notranje preiskave, ki jih je objavil izvršni direktor International Airlines Group Willie Walsh, je bila to posledica napake inženirjev. Vendar pa je sistem neprekinjenega napajanja moral prestati takšno zaustavitev - zato je bil nameščen. Podatkovni center so upravljali strokovnjaki zunanjega podjetja CBRE Managed Services, zato je British Airways poskušal višino škode izterjati prek londonskega sodišča.

Glavni vzrok nesreč v podatkovnih centrih je tesnilo med računalnikom in stolom

Do izpadov električne energije pride po podobnih scenarijih: najprej pride do izpada po krivdi dobavitelja električne energije, včasih zaradi slabega vremena ali notranjih težav (tudi človeških napak), nato pa sistem neprekinjenega napajanja ne zdrži obremenitve ali kratkega stika. -trajna prekinitev sinusnega vala povzroči okvare številnih storitev, kar povzroči, da obnovitev le-teh zahteva veliko časa in denarja. Ali se je takim nesrečam mogoče izogniti? Nedvomno. Če sistem pravilno načrtujete, pred napakami niso imuni niti ustvarjalci velikih podatkovnih centrov.

Človeški dejavnik

Kadar je neposredni vzrok za incident nepravilno ravnanje osebja podatkovnega centra, težave najpogosteje (vendar ne vedno) zadevajo programski del IT infrastrukture. Takšne nesreče se dogajajo celo v velikih korporacijah. Februarja 2017 je bil zaradi nepravilno izbranega člana skupine za tehnično delovanje enega od podatkovnih centrov onemogočen del strežnikov Amazon Web Services. Prišlo je do napake med odpravljanjem napak v postopku zaračunavanja za stranke Amazon Simple Storage Service (S3) za shranjevanje v oblaku. Zaposleni je poskušal izbrisati več virtualnih strežnikov, ki jih uporablja sistem zaračunavanja, vendar je zadel večjo gručo.

Glavni vzrok nesreč v podatkovnih centrih je tesnilo med računalnikom in stolom

Zaradi napake inženirja so bili izbrisani strežniki, na katerih se izvajajo pomembni moduli programske opreme za shranjevanje v oblaku Amazon. Prvi je bil prizadet podsistem za indeksiranje, ki vsebuje informacije o metapodatkih in lokaciji vseh objektov S3 v ameriški regiji US-EAST-1. Incident je vplival tudi na podsistem, ki se uporablja za gostovanje podatkov in upravljanje prostora, ki je na voljo za shranjevanje. Po izbrisu virtualnih strojev sta ta dva podsistema zahtevala popoln ponovni zagon, nato pa je Amazonove inženirje čakalo presenečenje - javna shramba v oblaku dolgo časa ni mogla servisirati zahtev strank.

Vpliv je bil zelo razširjen, saj veliko velikih virov uporablja Amazon S3. Izpadi so prizadeli Trello, Coursera, IFTTT in, kar je najbolj neprijetno, storitve večjih Amazonovih partnerjev s seznama S&P 500. Škodo v takih primerih je težko izračunati, vendar se je gibala v stotinah milijonov ameriških dolarjev. Kot lahko vidite, je en napačen ukaz dovolj, da onemogočite storitev največje oblačne platforme. To ni osamljen primer, 16. maja 2019 je med vzdrževalnimi deli storitev Yandex.Cloud izbrisano virtualni stroji uporabnikov v coni ru-central1-c, ki so bili vsaj enkrat v statusu ZAUSTAVLJENO. Tu so že bili poškodovani podatki strank, nekateri so bili nepovratno izgubljeni. Seveda smo ljudje nepopolni, vendar sodobni sistemi informacijske varnosti že dolgo lahko spremljajo dejanja privilegiranih uporabnikov, preden izvedejo ukaze, ki jih vnesejo. Če so takšne rešitve implementirane v Yandex ali Amazon, se je takšnim incidentom mogoče izogniti.

Glavni vzrok nesreč v podatkovnih centrih je tesnilo med računalnikom in stolom

Zamrznjeno hlajenje

Januarja 2017 se je v podatkovnem centru Dmitrov družbe Megafon zgodila velika nesreča. Nato je temperatura v moskovski regiji padla na –35 °C, kar je povzročilo okvaro hladilnega sistema objekta. Tiskovna služba operaterja ni posebej govorila o razlogih za incident - ruska podjetja zelo nerada govorijo o nesrečah na objektih, ki jih imajo v lasti, kar zadeva publiciteto, močno zaostajamo za Zahodom. Po družbenih omrežjih je krožila različica o zmrzovanju hladilne tekočine v ceveh, položenih ob ulici, in puščanju etilen glikola. Po njenih besedah ​​obratovalna služba zaradi dolgih počitnic ni mogla hitro pridobiti 30 ton hladilne tekočine in se je rešila z improviziranimi sredstvi, pri čemer je organizirala improvizirano prosto hlajenje v nasprotju s pravili delovanja sistema. Hud mraz je težavo še poslabšal - januarja je Rusijo nenadoma zajela zima, čeprav je nihče ni pričakoval. Zaradi tega je moralo osebje izklopiti del strežniških omaric, zato so bile nekatere storitve operaterja dva dni nedosegljive.

Glavni vzrok nesreč v podatkovnih centrih je tesnilo med računalnikom in stolom

Verjetno lahko tukaj govorimo o vremenski anomaliji, a takšne zmrzali niso nekaj neobičajnega za prestolnico. Temperature pozimi v moskovski regiji lahko padejo na nižje ravni, zato so podatkovni centri zgrajeni s pričakovanjem stabilnega delovanja pri –42 °C. Najpogosteje hladilni sistemi odpovedo v hladnem vremenu zaradi nezadostne visoke koncentracije glikolov in odvečne vode v raztopini hladilne tekočine. Obstajajo tudi težave pri namestitvi cevi ali napačnih izračunih pri načrtovanju in testiranju sistema, ki so povezani predvsem z željo po prihranku denarja. Posledično se kar naenkrat zgodi huda nesreča, ki bi jo lahko preprečili.

Naravne nesreče

Najpogosteje nevihte in/ali orkani zmotijo ​​inženirsko infrastrukturo podatkovnega centra, kar povzroči prekinitve storitev in/ali fizične poškodbe opreme. Nezgode, ki jih povzroči slabo vreme, so precej pogoste. Leta 2012 je orkan Sandy z obilnimi padavinami zajel zahodno obalo ZDA. Podatkovni center Peer 1 se nahaja v visoki stavbi v spodnjem Manhattnu izgubljeno zunanje napajanje, potem ko je slana morska voda zalivala kleti. Zasilni generatorji objekta so bili v 18. nadstropju in njihova zaloga goriva je bila omejena – pravila, uvedena v New Yorku po terorističnih napadih 9. septembra, prepovedujejo shranjevanje velikih količin goriva v zgornjih nadstropjih.

Odpovedala je tudi črpalka za gorivo, zato je osebje nekaj dni ročno tovorilo dizel do generatorjev. Junaštvo ekipe je rešilo podatkovni center pred hudo nesrečo, a je bilo res potrebno? Živimo na planetu z dušikovo-kisikovo atmosfero in veliko vode. Nevihte in orkani so tukaj pogosti (zlasti v obalnih območjih). Načrtovalci bi verjetno naredili dobro, če bi upoštevali vsa tveganja in zgradili ustrezen sistem neprekinjenega napajanja. Ali pa vsaj izberite primernejšo lokacijo za podatkovni center kot pa stolpnico na otoku.

Vse ostalo

Uptime Institute v tej kategoriji prepoznava vrsto incidentov, med katerimi je težko izbrati tipičnega. Kraje bakrenih kablov, zaletavanja avtomobilov v podatkovne centre, nosilce daljnovodov in transformatorske postaje, požari, bageristi, ki poškodujejo optiko, glodalci (podgane, zajci in celo vombati, ki so pravzaprav vrečarji), pa tudi tisti, ki radi vadijo streljanje na žice - meni je obsežen. Izpad električne energije lahko celo povzroči krasti elektrika nezakonita plantaža marihuane. V večini primerov krivci za incident postanejo točno določeni ljudje, torej spet imamo opravka s človeškim faktorjem, ko ima problem ime in priimek. Tudi če je nesreča na prvi pogled povezana s tehnično okvaro ali naravnimi nesrečami, se ji lahko izognemo, če je objekt ustrezno projektiran in pravilno upravljan. Edina izjema so primeri kritične škode na infrastrukturi podatkovnega centra ali uničenja zgradb in objektov zaradi naravne nesreče. To so resnično okoliščine višje sile, vse druge težave pa povzroča tesnilo med računalnikom in stolom - morda je to najbolj nezanesljiv del vsakega kompleksnega sistema.

Vir: www.habr.com

Dodaj komentar