Тэма буйных аварый у сучасных ЦАД выклікае пытанні, на якія ў першым артыкуле не было адказаў - мы вырашылі яе развіць.
Калі верыць статыстыцы Uptime Institute, большая частка інцыдэнтаў у дата-цэнтрах звязана з адмовамі сістэмы электразабеспячэння – на іх долю прыпадае 39% здарэнняў. За імі варта чалавечы фактар - гэта яшчэ 24% аварый. Трэцяй па значнасці (15%) прычынай сталі адмовы сістэмы кандыцыянавання, а на чацвёртым месцы (12%) аказаліся прыродныя катаклізмы. Сумарная доля іншых непрыемнасцяў складае толькі 10%. Не ставячы пад сумнеў дадзеныя паважанай арганізацыі, вылучым у розных аварыях нешта агульнае і паспрабуем зразумець, ці можна было іх пазбегнуць. Спойлер: можна ў большасці выпадкаў.
Навука аб кантактах
Кажучы спрошчана, з электрасілкаваннем бывае ўсяго дзве праблемы: альбо кантакту няма там, дзе ён павінен быць, альбо ён ёсць там, дзе кантакту быць не павінна. Можна доўга разважаць аб надзейнасці сучасных сістэм бесперабойнага электразабеспячэння, але ратуюць яны далёка не заўсёды. Узяць хоць бы нашумелы выпадак з выкарыстоўваным British Airways цэнтрам апрацоўкі дадзеных, прыналежным матчынай кампаніі International Airlines Group. Непадалёк ад аэрапорта Хітроў размешчаны два такіх аб'екта - Boadicea House і Comet House. У першым з іх 27 траўня 2017 года адбылося выпадковае адключэнне электрасілкавання, якое прывяло да перагрузкі і адмовы сістэмы КБС. У выніку частка ІТ-абсталявання была пашкоджана фізічна, а на ўстараненне апошняй аварыі пайшло тры дні.
Авіякампаніі прыйшлося адмяніць або перанесці больш за тысячу рэйсаў, каля 75 тысяч пасажыраў не змаглі вылецець своечасова - на выплату кампенсацый пайшло $ 128 млн, не лічачы спатрэбіліся на аднаўленне працаздольнасці дата-цэнтраў выдаткаў. Гісторыя з прычынамі блэкаўта незразумелая. Калі верыць агучаным генеральным дырэктарам International Airlines Group Вілі Уолшам вынікам унутранага расследавання, адбылося яно з-за памылкі інжынераў. Тым не менш, сістэма бесперабойнага электразабеспячэння павінна была вытрымаць такое адключэнне - для таго яна і змантаваная. ЦАД кіравалі спецыялісты аўтсорсінгавай кампаніі CBRE Managed Services, таму British Airways паспрабавала спагнаць суму шкоды праз суд Лондана.
Аварыі з электрасілкаваннем адбываюцца па падобных сцэнарах: спачатку ідзе адключэнне па віне пастаўшчыка электраэнергіі, часам з-за дрэннага надвор'я або ўнутраных праблем (уключаючы памылкі персаналу), а затым сістэма бесперабойнага электразабеспячэння не спраўляецца з нагрузкай або кароткачасовае перапыненне сінусоіды выклікае адмовы мноства аднаўленне працаздольнасці якіх сыходзіць прорва часу і грошай. Ці можна пазбегнуць падобных аварый? Безумоўна. Калі праектаваць сістэму правільна, аднак ад памылак не застрахаваны нават стваральнікі буйных ЦАД.
Чалавечы фактар
Калі непасрэдным чыннікам інцыдэнту становяцца няправільныя дзеянні персанала дата-цэнтра, праблемы часцей за ўсё (але не заўсёды) закранаюць праграмную частку ІТ-інфраструктуры. Такія аварыі адбываюцца нават у буйных карпарацыях. У лютым 2017 года з-за няправільна набранай чальцом групы тэхнічнай эксплуатацыі аднаго з ЦАД каманды была адключаная частка сервераў Amazon Web Services. Памылка адбылася падчас адладкі працэсу выстаўлення рахункаў кліентам хмарнага сховішча Amazon Simple Storage Service (S3). Супрацоўнік спрабаваў выдаліць некаторую колькасць выкарыстоўваных білінгавай сістэмай віртуальных сервераў, але закрануў буйнейшы кластар.
У выніку памылкі інжынера выдаліліся серверы, на якіх былі запушчаны важныя праграмныя модулі хмарнага сховішча Amazon. У першую чаргу пацярпела падсістэма індэксавання, якая змяшчае інфармацыю аб метададзеных і размяшчэнні ўсіх аб'ектаў S3 у амерыканскім рэгіёне US-EAST-1. Інцыдэнтам была таксама закранута выкарыстоўваная для размяшчэння дадзеных і кіравання даступным для захоўвання прасторай падсістэма. Пасля выдалення віртуальных машын гэтыя дзве падсістэмы запатрабавалі поўнага перазапуску, і далей інжынераў Amazon чакаў сюрпрыз – на працягу працяглага часу публічнае хмарнае сховішча не змагло абслугоўваць запыты кліентаў.
Эфект аказаўся маштабным, паколькі многія буйныя рэсурсы выкарыстоўваюць Amazon S3. Збоі ў працы закранулі Trello, Coursera, IFTTT і, што самае непрыемнае, сэрвісы буйных партнёраў Amazon са спісу S&P 500. Шкода ў такіх выпадках злічыць няпроста, але яго парадак апынуўся ў раёне сотняў мільёнаў даляраў ЗША. Як бачыце, каб вывесці са строю сэрвіс найбуйнейшай хмарнай платформы, дастаткова адной няслушнай каманды. Гэта не адзінкавы выпадак, 16 мая 2019 года падчас прафілактычных работ сэрвіс Яндэкс.Хмара
Змёрзлае астуджэнне
У студзені 2017 года адбылася буйная аварыя ў Дмітроўскага ЦАД кампаніі «Мегафон». Тады тэмпература ў маскоўскім рэгіёне знізілася да -35 ° С, што прывяло ў выхаду са строю сістэмы астуджэння аб'екта. Прэс-служба аператара асабліва не распаўсюджвалася аб прычынах інцыдэнту - расейскія кампаніі вельмі неахвотна кажуць аб аварыях на прыналежных ім аб'ектах, у сэнсе публічнасці мы моцна адстаем ад Захаду. У сацыяльных сетках хадзіла версія аб замярзанні цепланосбіта ў пракладзеных па вуліцы трубах і ўцечцы этыленгліколю. Калі верыць ёй, служба эксплуатацыі не змагла з-за працяглых святаў аператыўна атрымаць 30 тон холаданасьбіта і выкручвалася з выкарыстаннем падручных сродкаў, арганізаваўшы імправізаваны фрыкулінг з парушэннем правіл эксплуатацыі сістэмы. Моцныя халады пагоршылі праблему - у студзені ў Расіі раптам здарылася зіма, хоць ніхто яе не чакаў. У выніку персаналу прыйшлося абясточыць частку серверных стоек, з-за чаго некаторыя сэрвісы аператара былі недаступныя на працягу двух дзён.
Напэўна, тут можна гаварыць і аб анамаліі надвор'я, але такія маразы не з'яўляюцца для сталічнага рэгіёну нечым незвычайным. Тэмпература ўзімку ў Падмаскоўе можа апускацца і да ніжэйшых адзнак, таму дата-цэнтры будуюць у разліку на ўстойлівую працу пры -42°С. Часцей за ўсё сістэмы астуджэння на марозе адмаўляюць з-за нядосыць высокай канцэнтрацыі гліколяў і лішку вады ў растворы цепланосбіта. Бываюць праблемы і з мантажом труб або з пралікамі ў праектаванні і тэсціраванні сістэмы, звязанымі ў асноўным з жаданнем зэканоміць. У выніку на роўным месцы здараецца сур'ёзная аварыя, якую суцэль можна было бы не дапусціць.
Прыродныя катаклізмы
Часцей за ўсё навальніцы і/ці ўраганы парушаюць працу інжынернай інфраструктуры дата-цэнтра, што прыводзіць да спынення сэрвісаў і/ці да фізічнага пашкоджання абсталявання. Справакаваныя дрэнным надвор'ем інцыдэнты адбываюцца даволі часта. У 2012 годзе па заходнім узбярэжжы ЗША пракаціўся ўраган Сэндзі з моцным ліўнем. Размешчаны ў вышынным будынку на Ніжнім Манхэтэне дата-цэнтр Peer 1
Паліўная помпа таксама выйшаў са строю, таму персанал некалькі дзён цягаў дызель для генератараў уручную. Гераічнасць каманды выратаваў дата-цэнтр ад сур'ёзнай аварыі, але ці быў ён так неабходны? Мы жывем на планеце з азотна-кіслароднай атмасферай і вялікай колькасцю вады. Навальніцы і ўраганы тут - звычайная справа (асабліва ў прыморскіх раёнах). Праекціроўшчыкам, верагодна, варта было б улічыць звязаныя з імі рызыкі і пабудаваць адпаведную сістэму бесперабойнага электразабеспячэння. Ці хаця б выбраць для цэнтра апрацоўкі дадзеных больш прыдатнае месца, чым гмах на востраве.
Усё іншае
У гэтую катэгорыю Uptime Institute вылучае разнастайныя інцыдэнты, сярод якіх складана абраць тыповы. Крадзяжы медных кабеляў, якія ўразаюцца ў ЦАД, апоры ЛЭП і трансфарматарныя падстанцыі аўтамабілі, пажары, якія псуюць оптыку экскаватаршчыкі, грызуны (пацукі, трусы і нават вомбаты, якія наогул-то ставяцца да сумчатых), а таксама аматары папрактыкавацца ў стральбе па правадах - меню шырока . Збоі ў электрасілкаванні можа выклікаць нават
Крыніца: habr.com