Didelės avarijos duomenų centruose: priežastys ir pasekmės

Šiuolaikiniai duomenų centrai yra patikimi, tačiau bet kokia įranga karts nuo karto sugenda. Šiame trumpame straipsnyje surinkome reikšmingiausius 2018 m. incidentus.

Didelės avarijos duomenų centruose: priežastys ir pasekmės

Didėja skaitmeninių technologijų įtaka ekonomikai, didėja apdorojamos informacijos apimtys, statomi nauji objektai, ir tai gerai, kol viskas veikia. Deja, ekonominis duomenų centrų gedimų poveikis taip pat didėja, nes žmonės pradėjo talpinti verslui svarbią IT infrastruktūrą kaip neišvengiamą skaitmenizavimo pasekmę. Skelbiame nedidelį žymiausių praėjusių metų nelaimingų atsitikimų, įvykusių įvairiose šalyse, pasirinkimą.

JAV

Ši šalis yra pripažinta lyderė duomenų centrų statybos srityje. Jungtinėse Valstijose yra daugiausiai didelių komercinių ir įmonių duomenų centrų, aptarnaujančių pasaulines paslaugas, todėl incidentų pasekmės ten yra didžiausios. Kovo pradžioje keturiuose „Equinix“ įrenginiuose dėl galingo ciklono nutrūko elektros tiekimas. Erdvė buvo panaudota „Amazon Web Services“ (AWS) įrangai; dėl nelaimingo atsitikimo tapo neprieinamos daugelis populiarių paslaugų: „GitHub“, „MongoDB“, „NewVoiceMedia“, „Slack“, „Zillow“, „Atlassian“, „Twilio“ ir „mCapital One“, taip pat „Amazon Alexa“ virtualus asistentas, buvo paveikti.

Rugsėjo mėnesį orų anomalijos užklupo Teksase įsikūrusius Microsoft duomenų centrus, tuomet dėl ​​perkūnijos sutriko viso regiono elektros tiekimo sistema, o duomenų centre, kuris perėjo į maitinimą iš dyzelinio generatoriaus agregato, nežinia kodėl. aušinimas išjungtas. Avarijos padariniams likviduoti prireikė kelių dienų ir nors apkrovos balansavimo dėka šis gedimas netapo kritiniu, nežymų Microsoft debesijos paslaugų veikimo sulėtėjimą pastebėjo vartotojai visame pasaulyje.

Rusija

Rimčiausia avarija įvyko rugpjūčio 20 d., viename iš Rostelecom duomenų centrų. Dėl to 66 valandoms sustojo Vieningo valstybinio nekilnojamojo turto registro serveriai, todėl juos teko perkelti į atsarginę svetainę. Visais kanalais gautų paraiškų tvarkymą „Rosreestr“ pavyko atkurti tik rugsėjo 3 dieną – vyriausybinė organizacija bando iš „Rostelecom“ susigrąžinti didelę sumą už paslaugų lygio sutarties pažeidimą.

Vasario 16 d., kilus problemų „Lenenergo“ tinkluose, Xelnet (Sankt Peterburgas) duomenų centre buvo įjungta atsarginio maitinimo sistema. Trumpalaikis sinusinės bangos nutrūkimas sukėlė daugelio paslaugų veikimo sutrikimus: visų pirma nukentėjo didelis debesų tiekėjas 1cloud, tačiau labiausiai pastebima Rusijos interneto auditorijos problema buvo negalėjimas pasiekti socialinio tinklo „VKontakte“ . Įdomiausia tai, kad visiškai pašalinti trumpalaikio elektros gedimo pasekmes prireikė apie 12 valandų.

Europos Sąjunga

2018 m. ES užregistruoti keli rimti incidentai. Kovo mėnesį aviakompanijos KLM duomenų centre įvyko gedimas: 10 minučių nutrūko elektros tiekimas, o dyzelinių generatorių agregatų galios neužteko įrangai eksploatuoti. Kai kurie serveriai sugedo, o aviakompanijai teko atšaukti arba perplanuoti kelias dešimtis skrydžių.

Tai ne vienintelis incidentas, susijęs su kelionėmis lėktuvu – jau balandį įvyko gedimas Eurokontrolės duomenų centro maitinimo sistemoje. Organizacija kontroliuoja orlaivių judėjimą Europos Sąjungoje, o kol specialistai avarijos pasekmes likvidavo 5 valandas, keleiviams vėl teko kęsti vėlavimus ir perskirstytus skrydžius.

Labai rimtų problemų kyla dėl nelaimingų atsitikimų finansų sektorių aptarnaujančiuose duomenų centruose. Sandorių trikdžių kaina čia paprastai yra didelė, o įrenginių patikimumo lygis yra tinkamas, tačiau tai neapsaugo nuo incidentų. Balandžio 18 d., Šiaurės šalių NASDAQ biržoje (Helsinkis, Suomija) per dieną nepavyko prekiauti visoje Šiaurės Europoje, nes komerciniame duomenų centre „DigiPlex“ buvo neteisėtai suaktyvinta gaisro gesinimo dujomis sistema, kuri staiga buvo atjungta.

Birželio 7 dieną dėl duomenų centrų gedimų Londono vertybinių popierių birža (LSE) prekybos pradžią atidėjo valanda. Be to, birželį Europoje dėl gedimo duomenų centre visai dienai buvo išjungtos tarptautinės mokėjimo sistemos VISA paslaugos, o įvykio detalės taip ir nebuvo atskleistos.

Japonija

2018 metų vasarą Tokijo priemiestyje statomo „Amazon“ duomenų centro požeminiuose lygiuose kilo gaisras, žuvo 5 darbuotojai ir buvo sužeista mažiausiai 50. Gaisras apgadino apie 5000 m2 objekto. Atlikus tyrimą paaiškėjo, kad gaisro priežastis – žmogiškoji klaida: dėl neatsargaus elgesio su acetileno degikliais užsiliepsnojo izoliacija.

Nesėkmių priežastys

Aukščiau pateiktas incidentų sąrašas toli gražu nėra baigtas, dėl nelaimingų atsitikimų duomenų centruose nukenčia bankų ir telekomunikacijų operatorių klientai, atsijungia debesų tiekėjų paslaugos, sutrinka net pagalbos tarnybų darbas. Nedidelis paslaugos nutraukimas gali sukelti didelių nuostolių, o didžioji dalis gedimų (39 proc.) yra susiję su elektros sistema, teigia „Uptime Institute“. Antroje vietoje (24 proc.) – žmogiškasis faktorius, trečioje (15 proc.) – oro kondicionavimo sistema. Tik 12% nelaimingų atsitikimų duomenų centruose gali būti siejami su gamtos reiškiniais, ir tik 10% jų įvyksta dėl kitų nei išvardytų priežasčių.

Nepaisant griežtų patikimumo ir saugos standartų, nė vienas įrenginys nėra apsaugotas nuo incidentų. Dauguma jų įvyksta dėl elektros energijos tiekimo sutrikimų arba dėl žmogiškųjų klaidų. Duomenų centrų ir serverių patalpų savininkai pirmiausia turėtų atkreipti dėmesį į šiuos du veiksnius, o klientai turėtų suprasti: net rinkos lyderiai negali garantuoti absoliutaus patikimumo. Jei įranga ar debesies paslauga aptarnauja verslui svarbius procesus, turėtumėte pagalvoti apie atsarginę svetainę.

Nuotraukų šaltinis: telecombloger.ru

Šaltinis: www.habr.com

Добавить комментарий