Efnið um stórslys í nútíma gagnaverum vekur spurningar sem ekki var svarað í fyrstu greininni - við ákváðum að þróa það.
Samkvæmt tölfræði frá Uptime Institute tengist meirihluti atvika í gagnaverum bilun í rafveitukerfi - þau eru 39% atvika. Á eftir þeim kemur mannlegi þátturinn, sem stendur fyrir öðrum 24% slysa. Þriðja mikilvægasta ástæðan (15%) var bilun í loftræstikerfinu og í fjórða sæti (12%) voru náttúruhamfarir. Heildarhluti annarra vandræða er aðeins 10%. Án þess að efast um gögn virtrar stofnunar munum við draga fram eitthvað sem er algengt í mismunandi slysum og reyna að skilja hvort hægt hefði verið að forðast þau. Spoiler: það er mögulegt í flestum tilfellum.
Vísindi tengiliða
Til að setja það einfaldlega, það eru aðeins tvö vandamál með aflgjafa: annað hvort er engin snerting þar sem það ætti að vera, eða það er snerting þar sem það ætti ekki að vera snerting. Þú getur talað í langan tíma um áreiðanleika nútíma órofa aflgjafakerfa, en þau bjarga þér ekki alltaf. Tökum áberandi dæmið um gagnaverið sem British Airways notar, sem er í eigu móðurfélagsins International Airlines Group. Það eru tvær slíkar eignir staðsettar nálægt Heathrow flugvelli - Boadicea House og Comet House. Í þeim fyrsta, 27. maí 2017, varð rafmagnsleysi fyrir slysni sem leiddi til ofhleðslu og bilunar í UPS kerfinu. Fyrir vikið skemmdist hluti upplýsingatæknibúnaðarins líkamlega og það tók þrjá daga að leysa síðustu hörmungarnar.
Flugfélagið þurfti að aflýsa eða breyta áætlun um meira en þúsund flug, um 75 þúsund farþegar gátu ekki flogið á réttum tíma - 128 milljónum dollara var eytt í að greiða skaðabætur, að ótöldum kostnaði sem þarf til að endurheimta virkni gagnavera. Saga ástæðna fyrir rafmagnsleysinu er óljós. Ef þú trúir niðurstöðum innri rannsóknarinnar sem Willie Walsh forstjóri International Airlines Group tilkynnti, var það vegna villu verkfræðinga. Hins vegar þurfti órofa aflgjafakerfið að standast slíka lokun - þess vegna var það sett upp. Gagnaverinu var stýrt af sérfræðingum frá útvistunarfyrirtækinu CBRE Managed Services, svo British Airways reyndi að endurheimta tjónið fyrir dómstólum í London.
Rafmagnstruflanir eiga sér stað við svipaðar aðstæður: fyrst verður rafmagnsleysi vegna galla rafveitunnar, stundum vegna slæms veðurs eða innri vandamála (þar á meðal mannlegra mistaka), og síðan þolir órofa rafmagnskerfið ekki álagið eða skammstöfun. -Tímabundin truflun á sinusbylgjunni veldur bilun í mörgum þjónustum, sem veldur endurreisn sem tekur mikinn tíma og peninga. Er hægt að forðast slík slys? Án efa. Ef þú hannar kerfið rétt eru jafnvel höfundar stórra gagnavera ekki ónæmar fyrir mistökum.
Mannlegur þáttur
Þegar tafarlaus orsök atviks er rangar aðgerðir starfsmanna gagnavera hafa vandamálin oftast (en ekki alltaf) áhrif á hugbúnaðarhluta upplýsingatækniinnviða. Slík slys eiga sér stað jafnvel í stórum fyrirtækjum. Í febrúar 2017, vegna rangt ráðinn liðsmanns í tæknilegum rekstrarhópi eins gagnaveranna, var hluti af netþjónum Amazon Web Services óvirkur. Villa kom upp við villuleit í innheimtuferlinu fyrir Amazon Simple Storage Service (S3) skýgeymsluviðskiptavini. Starfsmaður reyndi að eyða nokkrum sýndarþjónum sem innheimtukerfið notar, en lenti í stærri klasa.
Vegna villu í verkfræðingi var netþjónum sem keyra mikilvægar Amazon skýgeymsluhugbúnaðareiningar eytt. Það fyrsta sem varð fyrir áhrifum var flokkunarundirkerfið, sem inniheldur upplýsingar um lýsigögn og staðsetningu allra S3-hluta á US-EAST-1 Ameríkusvæðinu. Atvikið hafði einnig áhrif á undirkerfið sem notað var til að hýsa gögn og stjórna því plássi sem er tiltækt fyrir geymslu. Eftir að sýndarvélunum var eytt þurftu þessi tvö undirkerfi algjörrar endurræsingar og þá komu verkfræðingar Amazon á óvart - í langan tíma gat opinbera skýgeymslan ekki sinnt beiðnum viðskiptavina.
Áhrifin voru víðtæk þar sem margar stórar auðlindir nota Amazon S3. Truflunin höfðu áhrif á Trello, Coursera, IFTTT og, hvað er óþægilegast, þjónustu helstu samstarfsaðila Amazon af S&P 500 listanum. Erfitt er að reikna út tjónið í slíkum tilfellum, en það var á bilinu hundruð milljóna Bandaríkjadala. Eins og þú sérð er ein röng skipun nóg til að slökkva á þjónustu stærsta skýjapallsins. Þetta er ekki einangrað tilvik; þann 16. maí 2019, meðan á viðhaldsvinnu stendur, var Yandex.Cloud þjónustan
Frosinn kæling
Í janúar 2017 varð stórslys í Dmitrov gagnaveri Megafon fyrirtækisins. Þá fór hitastigið í Moskvu svæðinu niður í -35 °C, sem leiddi til bilunar í kælikerfi stöðvarinnar. Fréttaþjónusta símafyrirtækisins talaði ekki sérstaklega um ástæður atviksins - rússnesk fyrirtæki eru afar treg til að tala um slys í aðstöðu sem þau eiga; hvað varðar kynningu erum við langt á eftir Vesturlöndum. Það var útgáfa í umferð á samfélagsmiðlum um frystingu kælivökva í pípum sem lagðar voru meðfram götunni og leka á etýlen glýkóli. Að hennar sögn gat rekstrarþjónustan ekki fengið 30 tonn af kælivökva á skjótan hátt vegna langra fría og komst út með leyndum aðferðum og skipulagði fríkælingu í bága við reglur um rekstur kerfisins. Mikill kuldi jók vandann - í janúar skall vetur skyndilega yfir Rússlandi, þó enginn hafi búist við því. Þar af leiðandi þurfti starfsfólkið að slökkva á rafmagni á hluta af netþjónarekkjunum, sem er ástæðan fyrir því að sum símaþjónustan var ekki tiltæk í tvo daga.
Sennilega má tala um veðurfrávik hér, en slík frost er ekkert óeðlilegt á höfuðborgarsvæðinu. Hitastig á veturna í Moskvu svæðinu getur lækkað niður í lægra stig, svo gagnaver eru byggð með von um stöðugan rekstur við -42°C. Oftast bilar kælikerfi í köldu veðri vegna ófullnægjandi styrks glýkóla og umframvatns í kælivökvalausninni. Einnig eru vandamál með lagningu lagna eða misreikninga í hönnun og prófunum á kerfinu, aðallega tengd löngun til að spara peninga. Í kjölfarið verður alvarlegt slys upp úr þurru sem hefði verið hægt að koma í veg fyrir.
Náttúruhamfarir
Oftast truflar þrumuveður og/eða fellibylir verkfræðilega innviði gagnavera, sem leiðir til truflana á þjónustu og/eða líkamlegra skemmda á búnaði. Atvik af völdum slæms veðurs koma nokkuð oft fyrir. Árið 2012 gekk fellibylurinn Sandy yfir vesturströnd Bandaríkjanna með mikilli úrkomu. Staðsett í háhýsi á Lower Manhattan, Peer 1 gagnaverið
Eldsneytisdælan bilaði líka svo starfsfólkið eyddi nokkrum dögum í að flytja dísilolíu í rafala með handafli. Hetjuskapur liðsins bjargaði gagnaverinu frá alvarlegu slysi, en var það virkilega nauðsynlegt? Við búum á plánetu með köfnunarefnis-súrefnislofthjúpi og miklu vatni. Þrumuveður og fellibylir eru algengir hér (sérstaklega í strandsvæðum). Hönnuðir myndu líklega gera vel í því að íhuga áhættuna sem fylgir því og byggja upp viðeigandi órjúfanlegt aflgjafakerfi. Eða að minnsta kosti velja hentugri staðsetningu fyrir gagnaver en háhýsi á eyju.
Allt annað
Uptime Institute greinir margvísleg atvik í þessum flokki, þar á meðal er erfitt að velja dæmigerð. Þjófnaður á koparsnúrum, bílar sem rekast á gagnaver, raflínustuðningur og spennivirki, eldsvoðar, gröfur sem skemma ljósfræði, nagdýr (rottur, kanínur og jafnvel vömb, sem eru í raun pokadýr), auk þeirra sem hafa gaman af því að æfa sig í að skjóta á vír - matseðillinn er umfangsmikill. Rafmagnsbilanir geta jafnvel valdið
Heimild: www.habr.com