Pagrindinė nelaimingų atsitikimų duomenų centruose priežastis – tarp kompiuterio ir kėdės esanti tarpinė

Didžiųjų avarijų šiuolaikiniuose duomenų centruose tema kelia klausimų, į kuriuos neatsakyta pirmame straipsnyje – nusprendėme jį plėtoti.

Pagrindinė nelaimingų atsitikimų duomenų centruose priežastis – tarp kompiuterio ir kėdės esanti tarpinė

Remiantis „Uptime Institute“ statistika, dauguma incidentų duomenų centruose yra susiję su maitinimo sistemos gedimais – jie sudaro 39 % incidentų. Po jų seka žmogiškasis faktorius, dėl kurio įvyksta dar 24 proc. Trečia pagal svarbą priežastis (15 proc.) buvo oro kondicionavimo sistemos gedimas, ketvirtoje vietoje (12 proc.) – stichinės nelaimės. Bendra kitų bėdų dalis – tik 10 proc. Neabejodami gerbiamos organizacijos duomenimis, išryškinsime kai ką bendro įvairiose avarijose ir pabandysime suprasti, ar buvo galima jų išvengti. Spoileris: tai įmanoma daugeliu atvejų.

Kontaktų mokslas

Paprasčiau tariant, yra tik dvi maitinimo problemos: arba nėra kontakto ten, kur jis turėtų būti, arba yra ten, kur kontakto neturėtų būti. Apie šiuolaikinių nepertraukiamo maitinimo sistemų patikimumą galima kalbėti ilgai, tačiau jos ne visada gelbsti. Paimkime aukšto lygio duomenų centro, kurį naudoja British Airways, kuris priklauso patronuojančiai bendrovei International Airlines Group, atvejį. Netoli Heathrow oro uosto yra dvi tokios nuosavybės – Boadicea House ir Comet House. Pirmajame iš jų, 27 m. gegužės 2017 d., įvyko atsitiktinis elektros energijos tiekimas, dėl kurio UPS sistema buvo perkrauta ir sugedusi. Dėl to dalis IT įrangos buvo fiziškai pažeista, o paskutinei nelaimei išspręsti prireikė trijų dienų.

Oro linijų bendrovei teko atšaukti ar perplanuoti daugiau nei tūkstantį skrydžių, apie 75 tūkstančiai keleivių negalėjo nuskristi laiku – kompensacijoms išmokėti išleista 128 mln. Elektros energijos tiekimo nutraukimo priežasčių istorija neaiški. Jei tikite „International Airlines Group“ generalinio direktoriaus Willie Walsho paskelbtais vidinio tyrimo rezultatais, tai įvyko dėl inžinierių klaidos. Tačiau nepertraukiamo maitinimo sistema turėjo atlaikyti tokį išjungimą - todėl ji buvo įdiegta. Duomenų centrą valdė užsakomųjų paslaugų bendrovės „CBRE Managed Services“ specialistai, todėl „British Airways“ žalos sumą bandė išieškoti per Londono teismą.

Pagrindinė nelaimingų atsitikimų duomenų centruose priežastis – tarp kompiuterio ir kėdės esanti tarpinė

Elektra nutrūksta panašiais scenarijais: pirmiausia nutrūksta elektros energijos tiekimas dėl elektros tiekėjo kaltės, kartais dėl blogo oro ar vidinių problemų (taip pat ir žmogiškųjų klaidų), o vėliau nepertraukiamo maitinimo sistema negali susidoroti su apkrova ar trumpuoju gedimu. -terminis sinusinės bangos nutrūkimas sukelia daugelio paslaugų gedimus, dėl kurių atstatymas užima daug laiko ir pinigų. Ar įmanoma tokių nelaimių išvengti? Neabejotinai. Teisingai suprojektavus sistemą, net didelių duomenų centrų kūrėjai nėra apsaugoti nuo klaidų.

Žmogaus faktorius

Kai tiesioginė incidento priežastis yra neteisingi duomenų centro darbuotojų veiksmai, problemos dažniausiai (bet ne visada) paliečia programinę IT infrastruktūros dalį. Tokių nelaimingų atsitikimų pasitaiko net didelėse korporacijose. 2017 m. vasario mėn. dėl neteisingai įdarbinto vieno iš duomenų centrų techninės eksploatacijos grupės komandos nario dalis „Amazon Web Services“ serverių buvo išjungta. Derinant „Amazon Simple Storage Service“ (S3) debesies saugyklos klientų atsiskaitymo procesą įvyko klaida. Darbuotojas bandė ištrinti daugybę atsiskaitymo sistemos naudojamų virtualių serverių, tačiau pateko į didesnį klasterį.

Pagrindinė nelaimingų atsitikimų duomenų centruose priežastis – tarp kompiuterio ir kėdės esanti tarpinė

Dėl inžinieriaus klaidos serveriai, kuriuose veikia svarbūs Amazon debesų saugyklos programinės įrangos moduliai, buvo ištrinti. Pirmiausia nukentėjo indeksavimo posistemė, kurioje yra informacija apie metaduomenis ir visų S3 objektų vietą US-EAST-1 Amerikos regione. Incidentas taip pat paveikė posistemį, naudojamą duomenims talpinti ir saugoti vietai valdyti. Ištrynus virtualias mašinas, šias dvi posistemes reikėjo visiškai paleisti iš naujo, o tada „Amazon“ inžinierių laukė staigmena – ilgą laiką viešoji debesų saugykla negalėjo patenkinti klientų užklausų.

Poveikis buvo plačiai paplitęs, nes daugelis didelių išteklių naudoja „Amazon S3“. Nutrūkimai palietė „Trello“, „Coursera“, IFTTT ir, kas nemaloniausia, didžiųjų „Amazon“ partnerių paslaugas iš S&P 500 sąrašo. Žala tokiais atvejais sunkiai suskaičiuojama, tačiau ji siekė šimtus milijonų JAV dolerių. Kaip matote, norint išjungti didžiausios debesų platformos paslaugą, pakanka vienos neteisingos komandos. Tai nėra pavienis atvejis, 16 m. gegužės 2019 d., atliekant priežiūros darbus, Yandex.Cloud paslauga ištrintas virtualios mašinos ru-central1-c zonoje esančių vartotojų, kurios bent kartą buvo SUSTABDYTA. Čia jau buvo sugadinti klientų duomenys, dalis jų buvo negrįžtamai prarasta. Žinoma, žmonės yra netobuli, tačiau šiuolaikinės informacijos saugumo sistemos jau seniai gali stebėti privilegijuotų vartotojų veiksmus prieš vykdydamos jų įvestas komandas. Jei tokie sprendimai bus įdiegti „Yandex“ ar „Amazon“, tokių incidentų galima išvengti.

Pagrindinė nelaimingų atsitikimų duomenų centruose priežastis – tarp kompiuterio ir kėdės esanti tarpinė

Užšalęs aušinimas

2017 metų sausį įmonės „Megafon“ Dmitrovo duomenų centre įvyko didelė avarija. Tada temperatūra Maskvos srityje nukrito iki –35 °C, todėl sugedo objekto aušinimo sistema. Operatoriaus spaudos tarnyba apie incidento priežastis ypač nekalbėjo – Rusijos įmonės itin nenoriai kalba apie avarijas joms priklausančiuose objektuose, viešumo prasme labai atsiliekame nuo Vakarų. Socialiniuose tinkluose sklandė versija apie aušinimo skysčio užšalimą palei gatvę nutiestuose vamzdžiuose ir etilenglikolio nutekėjimą. Pasak jos, eksploatavimo tarnybai dėl ilgų atostogų nepavyko greitai gauti 30 tonų aušinimo skysčio ir išlipo improvizuotomis priemonėmis, pažeidžiant sistemos eksploatavimo taisykles organizavo improvizuotą laisvąjį aušinimą. Stiprūs šalčiai problemą paaštrino – sausį Rusiją netikėtai užklupo žiema, nors niekas to nesitikėjo. Dėl to darbuotojai turėjo išjungti maitinimą daliai serverių stelažų, todėl kai kurios operatoriaus paslaugos buvo nepasiekiamos dvi dienas.

Pagrindinė nelaimingų atsitikimų duomenų centruose priežastis – tarp kompiuterio ir kėdės esanti tarpinė

Ko gero, čia galima kalbėti apie orų anomaliją, tačiau tokios šalnos sostinės regionui nėra kažkas neįprasto. Temperatūra žiemą Maskvos regione gali nukristi iki žemesnio lygio, todėl duomenų centrai statomi tikintis stabilaus veikimo –42°C temperatūroje. Dažniausiai aušinimo sistemos sugenda šaltu oru dėl nepakankamai didelės glikolių koncentracijos ir vandens pertekliaus aušinimo skysčio tirpale. Taip pat kyla problemų dėl vamzdžių montavimo arba klaidingų skaičiavimų projektuojant ir testuojant sistemą, daugiausia susijusių su noru sutaupyti. Dėl to netikėtai įvyksta rimta avarija, kurios buvo galima išvengti.

Stichinės nelaimės

Dažniausiai perkūnija ir (arba) uraganai sutrikdo duomenų centro inžinerinę infrastruktūrą, dėl ko nutrūksta aptarnavimas ir (arba) fiziškai sugenda įranga. Nelaimingų atsitikimų dėl blogo oro nutinka gana dažnai. 2012 m. uraganas Sandy nuvilnijo per JAV vakarinę pakrantę su gausiomis liūtimis. Įsikūręs aukštybiniame pastate Žemutiniame Manhetene, duomenų centre „Peer 1“. prarado išorinį maitinimo šaltinį, sūriam jūros vandeniui užliejus rūsius. Objekto avariniai generatoriai buvo įrengti 18 aukšte, o jų kuro tiekimas buvo ribotas – Niujorke po rugsėjo 9-osios teroro išpuolių įvestos taisyklės draudžia viršutiniuose aukštuose laikyti didelius kuro kiekius.

Sugedo ir kuro siurblys, todėl darbuotojai kelias dienas traukė dyzeliną prie generatorių rankomis. Komandos herojiškumas išgelbėjo duomenų centrą nuo rimtos avarijos, bet ar tikrai to reikėjo? Mes gyvename planetoje, kurioje yra azoto-deguonies atmosfera ir daug vandens. Perkūnija ir uraganai čia dažni (ypač pakrančių zonose). Tikriausiai dizaineriams būtų gerai apsvarstyti su tuo susijusią riziką ir sukurti tinkamą nepertraukiamo maitinimo sistemą. Arba bent jau pasirinkti duomenų centrui tinkamesnę vietą nei daugiaaukštis saloje.

Visa kita

Uptime Institute nustato įvairius šios kategorijos incidentus, tarp kurių sunku pasirinkti tipišką. Varinių kabelių vagystės, automobilių atsitrenkimai į duomenų centrus, elektros linijų atramas ir transformatorių pastotes, gaisrai, optiką gadinantys ekskavatorių operatoriai, graužikai (žiurkės, triušiai ir net vombatai, kurie iš tikrųjų yra marsupialiai), taip pat mėgstantys šaudyti laidai - meniu yra platus. Gali atsirasti net elektros energijos tiekimo sutrikimų vagystės elektros nelegali marihuanos plantacija. Dažniausiai įvykio kaltininkais tampa konkretūs žmonės, t.y. vėl susiduriame su žmogiškuoju faktoriumi, kai problema turi vardą ir pavardę. Net jei iš pirmo žvilgsnio nelaimė yra susijusi su techniniu gedimu ar stichinėmis nelaimėmis, jos galima išvengti, jei objektas yra tinkamai suprojektuotas ir tinkamai eksploatuojamas. Vienintelės išimtys yra kritinės žalos duomenų centro infrastruktūrai atvejai arba pastatų ir konstrukcijų sunaikinimas dėl stichinės nelaimės. Tai tikrai force majeure aplinkybės, o visas kitas problemas sukelia tarpinė tarp kompiuterio ir kėdės – galbūt tai nepatikimiausia bet kokios sudėtingos sistemos dalis.

Šaltinis: www.habr.com

Добавить комментарий