Helsta orsök slysa í gagnaverum er þéttingin á milli tölvunnar og stólsins

Efnið um stórslys í nútíma gagnaverum vekur spurningar sem ekki var svarað í fyrstu greininni - við ákváðum að þróa það.

Helsta orsök slysa í gagnaverum er þéttingin á milli tölvunnar og stólsins

Samkvæmt tölfræði frá Uptime Institute tengist meirihluti atvika í gagnaverum bilun í rafveitukerfi - þau eru 39% atvika. Á eftir þeim kemur mannlegi þátturinn, sem stendur fyrir öðrum 24% slysa. Þriðja mikilvægasta ástæðan (15%) var bilun í loftræstikerfinu og í fjórða sæti (12%) voru náttúruhamfarir. Heildarhluti annarra vandræða er aðeins 10%. Án þess að efast um gögn virtrar stofnunar munum við draga fram eitthvað sem er algengt í mismunandi slysum og reyna að skilja hvort hægt hefði verið að forðast þau. Spoiler: það er mögulegt í flestum tilfellum.

Vísindi tengiliða

Til að setja það einfaldlega, það eru aðeins tvö vandamál með aflgjafa: annað hvort er engin snerting þar sem það ætti að vera, eða það er snerting þar sem það ætti ekki að vera snerting. Þú getur talað í langan tíma um áreiðanleika nútíma órofa aflgjafakerfa, en þau bjarga þér ekki alltaf. Tökum áberandi dæmið um gagnaverið sem British Airways notar, sem er í eigu móðurfélagsins International Airlines Group. Það eru tvær slíkar eignir staðsettar nálægt Heathrow flugvelli - Boadicea House og Comet House. Í þeim fyrsta, 27. maí 2017, varð rafmagnsleysi fyrir slysni sem leiddi til ofhleðslu og bilunar í UPS kerfinu. Fyrir vikið skemmdist hluti upplýsingatæknibúnaðarins líkamlega og það tók þrjá daga að leysa síðustu hörmungarnar.

Flugfélagið þurfti að aflýsa eða breyta áætlun um meira en þúsund flug, um 75 þúsund farþegar gátu ekki flogið á réttum tíma - 128 milljónum dollara var eytt í að greiða skaðabætur, að ótöldum kostnaði sem þarf til að endurheimta virkni gagnavera. Saga ástæðna fyrir rafmagnsleysinu er óljós. Ef þú trúir niðurstöðum innri rannsóknarinnar sem Willie Walsh forstjóri International Airlines Group tilkynnti, var það vegna villu verkfræðinga. Hins vegar þurfti órofa aflgjafakerfið að standast slíka lokun - þess vegna var það sett upp. Gagnaverinu var stýrt af sérfræðingum frá útvistunarfyrirtækinu CBRE Managed Services, svo British Airways reyndi að endurheimta tjónið fyrir dómstólum í London.

Helsta orsök slysa í gagnaverum er þéttingin á milli tölvunnar og stólsins

Rafmagnstruflanir eiga sér stað við svipaðar aðstæður: fyrst verður rafmagnsleysi vegna galla rafveitunnar, stundum vegna slæms veðurs eða innri vandamála (þar á meðal mannlegra mistaka), og síðan þolir órofa rafmagnskerfið ekki álagið eða skammstöfun. -Tímabundin truflun á sinusbylgjunni veldur bilun í mörgum þjónustum, sem veldur endurreisn sem tekur mikinn tíma og peninga. Er hægt að forðast slík slys? Án efa. Ef þú hannar kerfið rétt eru jafnvel höfundar stórra gagnavera ekki ónæmar fyrir mistökum.

Mannlegur þáttur

Þegar tafarlaus orsök atviks er rangar aðgerðir starfsmanna gagnavera hafa vandamálin oftast (en ekki alltaf) áhrif á hugbúnaðarhluta upplýsingatækniinnviða. Slík slys eiga sér stað jafnvel í stórum fyrirtækjum. Í febrúar 2017, vegna rangt ráðinn liðsmanns í tæknilegum rekstrarhópi eins gagnaveranna, var hluti af netþjónum Amazon Web Services óvirkur. Villa kom upp við villuleit í innheimtuferlinu fyrir Amazon Simple Storage Service (S3) skýgeymsluviðskiptavini. Starfsmaður reyndi að eyða nokkrum sýndarþjónum sem innheimtukerfið notar, en lenti í stærri klasa.

Helsta orsök slysa í gagnaverum er þéttingin á milli tölvunnar og stólsins

Vegna villu í verkfræðingi var netþjónum sem keyra mikilvægar Amazon skýgeymsluhugbúnaðareiningar eytt. Það fyrsta sem varð fyrir áhrifum var flokkunarundirkerfið, sem inniheldur upplýsingar um lýsigögn og staðsetningu allra S3-hluta á US-EAST-1 Ameríkusvæðinu. Atvikið hafði einnig áhrif á undirkerfið sem notað var til að hýsa gögn og stjórna því plássi sem er tiltækt fyrir geymslu. Eftir að sýndarvélunum var eytt þurftu þessi tvö undirkerfi algjörrar endurræsingar og þá komu verkfræðingar Amazon á óvart - í langan tíma gat opinbera skýgeymslan ekki sinnt beiðnum viðskiptavina.

Áhrifin voru víðtæk þar sem margar stórar auðlindir nota Amazon S3. Truflunin höfðu áhrif á Trello, Coursera, IFTTT og, hvað er óþægilegast, þjónustu helstu samstarfsaðila Amazon af S&P 500 listanum. Erfitt er að reikna út tjónið í slíkum tilfellum, en það var á bilinu hundruð milljóna Bandaríkjadala. Eins og þú sérð er ein röng skipun nóg til að slökkva á þjónustu stærsta skýjapallsins. Þetta er ekki einangrað tilvik; þann 16. maí 2019, meðan á viðhaldsvinnu stendur, var Yandex.Cloud þjónustan eytt sýndarvélar notenda á ru-central1-c svæðinu sem voru í SUSPENDED stöðunni að minnsta kosti einu sinni. Viðskiptavinagögn hafa þegar verið skemmd hér, sum þeirra týndust óafturkallanlega. Auðvitað er fólk ófullkomið, en nútíma upplýsingaöryggiskerfi hafa lengi getað fylgst með aðgerðum forréttindanotenda áður en þeir framkvæma skipanir sem þeir slógu inn. Ef slíkar lausnir eru innleiddar í Yandex eða Amazon er hægt að forðast slík atvik.

Helsta orsök slysa í gagnaverum er þéttingin á milli tölvunnar og stólsins

Frosinn kæling

Í janúar 2017 varð stórslys í Dmitrov gagnaveri Megafon fyrirtækisins. Þá fór hitastigið í Moskvu svæðinu niður í -35 °C, sem leiddi til bilunar í kælikerfi stöðvarinnar. Fréttaþjónusta símafyrirtækisins talaði ekki sérstaklega um ástæður atviksins - rússnesk fyrirtæki eru afar treg til að tala um slys í aðstöðu sem þau eiga; hvað varðar kynningu erum við langt á eftir Vesturlöndum. Það var útgáfa í umferð á samfélagsmiðlum um frystingu kælivökva í pípum sem lagðar voru meðfram götunni og leka á etýlen glýkóli. Að hennar sögn gat rekstrarþjónustan ekki fengið 30 tonn af kælivökva á skjótan hátt vegna langra fría og komst út með leyndum aðferðum og skipulagði fríkælingu í bága við reglur um rekstur kerfisins. Mikill kuldi jók vandann - í janúar skall vetur skyndilega yfir Rússlandi, þó enginn hafi búist við því. Þar af leiðandi þurfti starfsfólkið að slökkva á rafmagni á hluta af netþjónarekkjunum, sem er ástæðan fyrir því að sum símaþjónustan var ekki tiltæk í tvo daga.

Helsta orsök slysa í gagnaverum er þéttingin á milli tölvunnar og stólsins

Sennilega má tala um veðurfrávik hér, en slík frost er ekkert óeðlilegt á höfuðborgarsvæðinu. Hitastig á veturna í Moskvu svæðinu getur lækkað niður í lægra stig, svo gagnaver eru byggð með von um stöðugan rekstur við -42°C. Oftast bilar kælikerfi í köldu veðri vegna ófullnægjandi styrks glýkóla og umframvatns í kælivökvalausninni. Einnig eru vandamál með lagningu lagna eða misreikninga í hönnun og prófunum á kerfinu, aðallega tengd löngun til að spara peninga. Í kjölfarið verður alvarlegt slys upp úr þurru sem hefði verið hægt að koma í veg fyrir.

Náttúruhamfarir

Oftast truflar þrumuveður og/eða fellibylir verkfræðilega innviði gagnavera, sem leiðir til truflana á þjónustu og/eða líkamlegra skemmda á búnaði. Atvik af völdum slæms veðurs koma nokkuð oft fyrir. Árið 2012 gekk fellibylurinn Sandy yfir vesturströnd Bandaríkjanna með mikilli úrkomu. Staðsett í háhýsi á Lower Manhattan, Peer 1 gagnaverið glataður ytri aflgjafi, eftir að saltur sjór flæddi yfir kjallara. Neyðarrafallar stöðvarinnar voru staðsettir á 18. hæð og eldsneytisframboð þeirra var takmarkað - reglur sem settar voru í New York eftir hryðjuverkaárásirnar 9. september banna að geyma mikið magn af eldsneyti á efri hæðum.

Eldsneytisdælan bilaði líka svo starfsfólkið eyddi nokkrum dögum í að flytja dísilolíu í rafala með handafli. Hetjuskapur liðsins bjargaði gagnaverinu frá alvarlegu slysi, en var það virkilega nauðsynlegt? Við búum á plánetu með köfnunarefnis-súrefnislofthjúpi og miklu vatni. Þrumuveður og fellibylir eru algengir hér (sérstaklega í strandsvæðum). Hönnuðir myndu líklega gera vel í því að íhuga áhættuna sem fylgir því og byggja upp viðeigandi órjúfanlegt aflgjafakerfi. Eða að minnsta kosti velja hentugri staðsetningu fyrir gagnaver en háhýsi á eyju.

Allt annað

Uptime Institute greinir margvísleg atvik í þessum flokki, þar á meðal er erfitt að velja dæmigerð. Þjófnaður á koparsnúrum, bílar sem rekast á gagnaver, raflínustuðningur og spennivirki, eldsvoðar, gröfur sem skemma ljósfræði, nagdýr (rottur, kanínur og jafnvel vömb, sem eru í raun pokadýr), auk þeirra sem hafa gaman af því að æfa sig í að skjóta á vír - matseðillinn er umfangsmikill. Rafmagnsbilanir geta jafnvel valdið stela rafmagns ólögleg marijúana planta. Í flestum tilfellum verða tilteknir einstaklingar sökudólgur atviksins, þ.e.a.s. við erum aftur að fást við mannlega þáttinn, þegar vandamálið hefur nafn og eftirnafn. Jafnvel þótt við fyrstu sýn tengi slysið tæknibilun eða náttúruhamförum er hægt að forðast það að því tilskildu að aðstaðan sé rétt hönnuð og rekin á réttan hátt. Einu undantekningarnar eru tilvik um alvarlegar skemmdir á innviðum gagnaversins eða eyðileggingu bygginga og mannvirkja vegna náttúruhamfara. Þetta eru sannarlega force majeure-aðstæður og öll önnur vandamál stafa af þéttingunni á milli tölvunnar og stólsins - kannski er þetta óáreiðanlegasti hluti hvers flókins kerfis.

Heimild: www.habr.com

Bæta við athugasemd