Буйныя аварыі ў дата-цэнтрах: прычыны і следствы

Сучасныя ЦАД надзейныя, аднак любое абсталяванне час ад часу ламаецца. У невялікай нататцы мы сабралі найбольш значныя інцыдэнты 2018 года.

Буйныя аварыі ў дата-цэнтрах: прычыны і следствы

Уплыў лічбавых тэхналогій на эканоміку расце, павялічваюцца аб'ёмы апрацоўванай інфармацыі, будуюцца новыя аб'екты, і гэта добра, пакуль усё працуе. Нажаль, уплыў збояў у дата-цэнтрах на эканоміку таксама павялічваецца з тых часоў, як людзі пачалі размяшчаць у іх крытычную для бізнэсу ІТ-інфраструктуру – такое непазбежнае следства цыфравізацыі. Мы публікуем невялікую падборку найбольш прыкметных аварый, якія адбыліся ў розных краінах у мінулым годзе.

ЗША

Гэта краіна з'яўляецца прызнаным лідэрам у сферы ЦАД'абудавання. У ЗША больш за ўсё буйных камерцыйных і карпаратыўных цэнтраў апрацоўкі дадзеных, якія абслугоўваюць глабальныя сэрвісы, таму наступствы інцыдэнтаў у іх найболей значныя. У пачатку сакавіка з-за магутнага цыклону чатыры аб'екты аператара Equinix сутыкнуліся са збоямі ў сістэме электразабеспячэння. Плошчы выкарыстоўваліся для абсталявання Amazon Web Services (AWS), аварыя прывяла да недаступнасці мноства папулярных сэрвісаў: пацярпелі GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio і мCapital One, а таксама віртуальны памочнік Amazon Alexa.

У верасні пагодныя анамаліі ўдарылі па размешчаных у штаце Тэхас дата-цэнтрам Microsoft, тады з-за навальніцы была парушана праца сістэмы электразабеспячэння цэлага рэгіёна, а ў дата-цэнтры, які перайшоў на харчаванне ад ДДУ, невядома чаму адключылася астуджэнне. На ўхіленне наступстваў аварыі сышло некалькі дзён, і хоць дзякуючы балансаванню нагрузкі гэты збой не стаў крытычным, некаторае запаволенне працы хмарных сэрвісаў Microsoft заўважылі карыстачы па ўсім міры.

Расія

Найбольш сур'ёзная аварыя адбылася 20 жніўня ў адным з дата-цэнтраў Растэлекама. З-за яе серверы Адзінага дзяржаўнага рэестра нерухомасці спыніліся на 66 гадзін, у сувязі з чым іх прыйшлося пераносіць на рэзервовую пляцоўку. Апрацоўку паступаючых па ўсіх каналах заяў Росреестр змог аднавіць толькі 3 верасня - дзяржаўная арганізацыя спрабуе спагнаць з Растэлекама буйную суму за парушэнне пагаднення аб узроўні абслугоўвання.

16 лютага з-за праблем у сетках Ленэнерга ўключылася сістэма рэзервовага электразабеспячэння ў ЦАД кампаніі Xelnet (Санкт-Пецярбург). Кароткачасовае перапыненне сінусоіды прывяло да парушэнняў у працы мноства сэрвісаў: пацярпеў, у прыватнасці, буйны хмарны правайдэр 1cloud, але найбольш прыкметнай для расійскай інтэрнэт-аўдыторыі праблемай стала немагчымасць зайсці на сайт сацыяльнай сеткі "УКантакце". Самае цікавае, што на поўнае ўхіленне наступстваў кароткачасовага збою электрасілкавання сышло каля 12 гадзін.

Еўрасаюз

У ЕС у 2018 годзе было зафіксавана некалькі сур'ёзных інцыдэнтаў. У сакавіку адбыўся збой у дата-цэнтры авіяперавозчыка KLM: падача электраэнергіі адключылася на 10 хвілін, а магутнасць дызель-генератарных установак аказалася недастатковай для працы абсталявання. Частка сервераў адключыліся, і авіякампаніі прыйшлося адмяніць ці перанесці некалькі дзясяткаў рэйсаў.

Гэта не адзінае здарэнне, звязанае з авіяперавозкамі, - ужо ў красавіку збой адбыўся ў сістэме электразабеспячэння ЦАД Eurocontrol. Арганізацыя кіруе рухам самалётаў у Еўрасаюзе, і пакуль спецыялісты 5 гадзін устаранялі наступствы аварыі, пасажырам зноў прыйшлося трываць затрымкі і пераносы рэйсаў.

Вельмі сур'ёзныя праблемы ўзнікаюць з-за аварый у дата-цэнтрах, якія абслугоўваюць фінансавы сектар. Кошт перабояў у правядзенні транзакцый тут звычайна высокі, і ўзровень надзейнасці аб'ектаў адпаведны, але ад інцыдэнтаў гэта не ратуе. 18 красавіка фондавая біржа Nordic NASDAQ (Хельсінкі, Фінляндыя) не магла весці таргі па ўсёй Паўночнай Еўропе на працягу дня з-за несанкцыянаванага запуску газавай сістэмы пажаратушэння ў камерцыйным дата-цэнтры DigiPlex, які быў аварыйна абясточаны.

7 чэрвеня перабоі ў працы ЦАД прымусілі лонданскую фондавую біржу (London Stock Exchange, LSE) на гадзіну адкласці пачатак таргоў. Акрамя таго, у чэрвені на тэрыторыі Еўропы з-за збою ў дата-цэнтры на цэлы дзень адключыліся сэрвісы міжнароднай плацежнай сістэмы VISA, прычым дэталі інцыдэнту так і не былі выдадзены.

Японія

Улетку 2018 гады на падземных узроўнях які будуецца ў прыгарадзе Токіо дата-цэнтра Amazon адбыўся пажар, у якім загінула 5 працоўных і пацярпела не меней 50. Агонь пашкодзіў каля 5000 м2 памяшканняў аб'екта. Расследаванне паказала, што прычынай пажару стаў чалавечы фактар: з-за неасцярожнага абыходжання з ацэтыленавымі гарэлкамі ўзгарэлася ізаляцыя.

Прычыны збояў

Прыведзены спіс інцыдэнтаў далёка не поўны, з-за аварый у дата-цэнтрах пакутуюць кліенты банкаў і тэлекам-аператараў, сыходзяць у афлайн сэрвісы хмарных правайдэраў і нават парушаецца праца экстраных службаў. Невялікі перабой у абслугоўванні можа прывесці да сур'ёзных страт, пры гэтым, па дадзеных Uptime Institute, асноўная маса адмоў (39%) звязана з сістэмай электразабеспячэння. На другім месцы (24%) чалавечы фактар, а на трэцім (15%) - сістэма кандыцыянавання. На долю прыродных з'яў можна аднесці толькі 12% аварый у ЦАД'ах, і толькі 10% з іх адбываюцца па адрозных ад пералічаных чыннікаў.

Нягледзячы на ​​строгія стандарты надзейнасці і бяспекі, ад інцыдэнтаў не застрахаваны ніводны аб'ект. Вялікая іх частка адбываецца з-за збояў электрасілкавання ці памылак персанала. На гэтыя два фактары варта ў першую чаргу звярнуць увагу уладальнікам ЦАД і серверных пакояў, а замоўцы павінны разумець: нават лідэры рынка не могуць гарантаваць абсалютнай надзейнасці. Калі абсталяванне ці хмарны сэрвіс абслугоўвае крытычныя для бізнэсу працэсы, варта падумаць аб рэзервовай пляцоўцы.

Крыніца фота: telecombloger.ru

Крыніца: habr.com

Дадаць каментар