Галоўная прычына аварый у дата-цэнтрах - пракладка паміж кампутарам і крэслам

Тэма буйных аварый у сучасных ЦАД выклікае пытанні, на якія ў першым артыкуле не было адказаў - мы вырашылі яе развіць.

Галоўная прычына аварый у дата-цэнтрах - пракладка паміж кампутарам і крэслам

Калі верыць статыстыцы Uptime Institute, большая частка інцыдэнтаў у дата-цэнтрах звязана з адмовамі сістэмы электразабеспячэння – на іх долю прыпадае 39% здарэнняў. За імі варта чалавечы фактар ​​- гэта яшчэ 24% аварый. Трэцяй па значнасці (15%) прычынай сталі адмовы сістэмы кандыцыянавання, а на чацвёртым месцы (12%) аказаліся прыродныя катаклізмы. Сумарная доля іншых непрыемнасцяў складае толькі 10%. Не ставячы пад сумнеў дадзеныя паважанай арганізацыі, вылучым у розных аварыях нешта агульнае і паспрабуем зразумець, ці можна было іх пазбегнуць. Спойлер: можна ў большасці выпадкаў.

Навука аб кантактах

Кажучы спрошчана, з электрасілкаваннем бывае ўсяго дзве праблемы: альбо кантакту няма там, дзе ён павінен быць, альбо ён ёсць там, дзе кантакту быць не павінна. Можна доўга разважаць аб надзейнасці сучасных сістэм бесперабойнага электразабеспячэння, але ратуюць яны далёка не заўсёды. Узяць хоць бы нашумелы выпадак з выкарыстоўваным British Airways цэнтрам апрацоўкі дадзеных, прыналежным матчынай кампаніі International Airlines Group. Непадалёк ад аэрапорта Хітроў размешчаны два такіх аб'екта - Boadicea House і Comet House. У першым з іх 27 траўня 2017 года адбылося выпадковае адключэнне электрасілкавання, якое прывяло да перагрузкі і адмовы сістэмы КБС. У выніку частка ІТ-абсталявання была пашкоджана фізічна, а на ўстараненне апошняй аварыі пайшло тры дні.

Авіякампаніі прыйшлося адмяніць або перанесці больш за тысячу рэйсаў, каля 75 тысяч пасажыраў не змаглі вылецець своечасова - на выплату кампенсацый пайшло $ 128 млн, не лічачы спатрэбіліся на аднаўленне працаздольнасці дата-цэнтраў выдаткаў. Гісторыя з прычынамі блэкаўта незразумелая. Калі верыць агучаным генеральным дырэктарам International Airlines Group Вілі Уолшам вынікам унутранага расследавання, адбылося яно з-за памылкі інжынераў. Тым не менш, сістэма бесперабойнага электразабеспячэння павінна была вытрымаць такое адключэнне - для таго яна і змантаваная. ЦАД кіравалі спецыялісты аўтсорсінгавай кампаніі CBRE Managed Services, таму British Airways паспрабавала спагнаць суму шкоды праз суд Лондана.

Галоўная прычына аварый у дата-цэнтрах - пракладка паміж кампутарам і крэслам

Аварыі з электрасілкаваннем адбываюцца па падобных сцэнарах: спачатку ідзе адключэнне па віне пастаўшчыка электраэнергіі, часам з-за дрэннага надвор'я або ўнутраных праблем (уключаючы памылкі персаналу), а затым сістэма бесперабойнага электразабеспячэння не спраўляецца з нагрузкай або кароткачасовае перапыненне сінусоіды выклікае адмовы мноства аднаўленне працаздольнасці якіх сыходзіць прорва часу і грошай. Ці можна пазбегнуць падобных аварый? Безумоўна. Калі праектаваць сістэму правільна, аднак ад памылак не застрахаваны нават стваральнікі буйных ЦАД.

Чалавечы фактар

Калі непасрэдным чыннікам інцыдэнту становяцца няправільныя дзеянні персанала дата-цэнтра, праблемы часцей за ўсё (але не заўсёды) закранаюць праграмную частку ІТ-інфраструктуры. Такія аварыі адбываюцца нават у буйных карпарацыях. У лютым 2017 года з-за няправільна набранай чальцом групы тэхнічнай эксплуатацыі аднаго з ЦАД каманды была адключаная частка сервераў Amazon Web Services. Памылка адбылася падчас адладкі працэсу выстаўлення рахункаў кліентам хмарнага сховішча Amazon Simple Storage Service (S3). Супрацоўнік спрабаваў выдаліць некаторую колькасць выкарыстоўваных білінгавай сістэмай віртуальных сервераў, але закрануў буйнейшы кластар.

Галоўная прычына аварый у дата-цэнтрах - пракладка паміж кампутарам і крэслам

У выніку памылкі інжынера выдаліліся серверы, на якіх былі запушчаны важныя праграмныя модулі хмарнага сховішча Amazon. У першую чаргу пацярпела падсістэма індэксавання, якая змяшчае інфармацыю аб метададзеных і размяшчэнні ўсіх аб'ектаў S3 у амерыканскім рэгіёне US-EAST-1. Інцыдэнтам была таксама закранута выкарыстоўваная для размяшчэння дадзеных і кіравання даступным для захоўвання прасторай падсістэма. Пасля выдалення віртуальных машын гэтыя дзве падсістэмы запатрабавалі поўнага перазапуску, і далей інжынераў Amazon чакаў сюрпрыз – на працягу працяглага часу публічнае хмарнае сховішча не змагло абслугоўваць запыты кліентаў.

Эфект аказаўся маштабным, паколькі многія буйныя рэсурсы выкарыстоўваюць Amazon S3. Збоі ў працы закранулі Trello, Coursera, IFTTT і, што самае непрыемнае, сэрвісы буйных партнёраў Amazon са спісу S&P 500. Шкода ў такіх выпадках злічыць няпроста, але яго парадак апынуўся ў раёне сотняў мільёнаў даляраў ЗША. Як бачыце, каб вывесці са строю сэрвіс найбуйнейшай хмарнай платформы, дастаткова адной няслушнай каманды. Гэта не адзінкавы выпадак, 16 мая 2019 года падчас прафілактычных работ сэрвіс Яндэкс.Хмара выдаліў віртуальныя машыны карыстальнікаў у зоне ru-central1-c, якія хоць разоў знаходзіліся ў статусе SUSPENDED. Тут ужо пацярпелі кліенцкія дадзеныя, частка якіх была беззваротна страчана. Вядома, людзі недасканалыя, але сучасныя сістэмы інфармацыйнай бяспекі даўно ўмеюць кантраляваць дзеянні прывілеяваных карыстачоў да выканання ўведзеных імі каманд. Калі ў Яндэкс ці Amazon укараніць такія рашэнні, падобных інцыдэнтаў можна будзе пазбегнуць.

Галоўная прычына аварый у дата-цэнтрах - пракладка паміж кампутарам і крэслам

Змёрзлае астуджэнне

У студзені 2017 года адбылася буйная аварыя ў Дмітроўскага ЦАД кампаніі «Мегафон». Тады тэмпература ў маскоўскім рэгіёне знізілася да -35 ° С, што прывяло ў выхаду са строю сістэмы астуджэння аб'екта. Прэс-служба аператара асабліва не распаўсюджвалася аб прычынах інцыдэнту - расейскія кампаніі вельмі неахвотна кажуць аб аварыях на прыналежных ім аб'ектах, у сэнсе публічнасці мы моцна адстаем ад Захаду. У сацыяльных сетках хадзіла версія аб замярзанні цепланосбіта ў пракладзеных па вуліцы трубах і ўцечцы этыленгліколю. Калі верыць ёй, служба эксплуатацыі не змагла з-за працяглых святаў аператыўна атрымаць 30 тон холаданасьбіта і выкручвалася з выкарыстаннем падручных сродкаў, арганізаваўшы імправізаваны фрыкулінг з парушэннем правіл эксплуатацыі сістэмы. Моцныя халады пагоршылі праблему - у студзені ў Расіі раптам здарылася зіма, хоць ніхто яе не чакаў. У выніку персаналу прыйшлося абясточыць частку серверных стоек, з-за чаго некаторыя сэрвісы аператара былі недаступныя на працягу двух дзён.

Галоўная прычына аварый у дата-цэнтрах - пракладка паміж кампутарам і крэслам

Напэўна, тут можна гаварыць і аб анамаліі надвор'я, але такія маразы не з'яўляюцца для сталічнага рэгіёну нечым незвычайным. Тэмпература ўзімку ў Падмаскоўе можа апускацца і да ніжэйшых адзнак, таму дата-цэнтры будуюць у разліку на ўстойлівую працу пры -42°С. Часцей за ўсё сістэмы астуджэння на марозе адмаўляюць з-за нядосыць высокай канцэнтрацыі гліколяў і лішку вады ў растворы цепланосбіта. Бываюць праблемы і з мантажом труб або з пралікамі ў праектаванні і тэсціраванні сістэмы, звязанымі ў асноўным з жаданнем зэканоміць. У выніку на роўным месцы здараецца сур'ёзная аварыя, якую суцэль можна было бы не дапусціць.

Прыродныя катаклізмы

Часцей за ўсё навальніцы і/ці ўраганы парушаюць працу інжынернай інфраструктуры дата-цэнтра, што прыводзіць да спынення сэрвісаў і/ці да фізічнага пашкоджання абсталявання. Справакаваныя дрэнным надвор'ем інцыдэнты адбываюцца даволі часта. У 2012 годзе па заходнім узбярэжжы ЗША пракаціўся ўраган Сэндзі з моцным ліўнем. Размешчаны ў вышынным будынку на Ніжнім Манхэтэне дата-цэнтр Peer 1 пазбавіўся знешняга электрасілкавання, пасля таго як салёная марская вада заліла скляпы. Аварыйныя генератары аб'екта былі размешчаны на 18-м паверсе, і запас паліва для іх быў абмежаваны - уведзеныя ў Нью-Ёрку пасля тэрактаў 9/11 правілы забараняюць захоўваць вялікую колькасць паліва на верхніх паверхах.

Паліўная помпа таксама выйшаў са строю, таму персанал некалькі дзён цягаў дызель для генератараў уручную. Гераічнасць каманды выратаваў дата-цэнтр ад сур'ёзнай аварыі, але ці быў ён так неабходны? Мы жывем на планеце з азотна-кіслароднай атмасферай і вялікай колькасцю вады. Навальніцы і ўраганы тут - звычайная справа (асабліва ў прыморскіх раёнах). Праекціроўшчыкам, верагодна, варта было б улічыць звязаныя з імі рызыкі і пабудаваць адпаведную сістэму бесперабойнага электразабеспячэння. Ці хаця б выбраць для цэнтра апрацоўкі дадзеных больш прыдатнае месца, чым гмах на востраве.

Усё іншае

У гэтую катэгорыю Uptime Institute вылучае разнастайныя інцыдэнты, сярод якіх складана абраць тыповы. Крадзяжы медных кабеляў, якія ўразаюцца ў ЦАД, апоры ЛЭП і трансфарматарныя падстанцыі аўтамабілі, пажары, якія псуюць оптыку экскаватаршчыкі, грызуны (пацукі, трусы і нават вомбаты, якія наогул-то ставяцца да сумчатых), а таксама аматары папрактыкавацца ў стральбе па правадах - меню шырока . Збоі ў электрасілкаванні можа выклікаць нават крадзечая электраэнергію нелегальная плантацыя марыхуаны. У большасці выпадкаў віноўнікамі інцыдэнту становяцца канкрэтныя людзі, г. зн. мы зноў маем справу з чалавечым фактарам, калі ў праблемы ёсць імя і прозвішча. Нават калі на першы погляд аварыя злучана з тэхнічнай няспраўнасцю ці з прыроднымі катаклізмамі, яе можна пазбегнуць пры ўмове пісьменнага праектавання аб'екта і правільнай яго эксплуатацыі. Выключэнні складаюць хіба што выпадкі крытычнага пашкоджання інфраструктуры ЦАД або разбурэння будынкаў і збудаванняў з-за прыроднай катастрофы. Гэта сапраўды форс-мажорныя акалічнасці, а ўсе астатнія праблемы выкліканыя пракладкай паміж кампутарам і крэслам - мабыць, гэта самая ненадзейная частка любой складанай сістэмы.

Крыніца: habr.com

Дадаць каментар