Великі аварії у дата-центрах: причини та наслідки

Сучасні ЦОД надійні, проте будь-яке обладнання час від часу ламається. У невеликій нотатці ми зібрали найбільш значні інциденти 2018 року.

Великі аварії у дата-центрах: причини та наслідки

Вплив цифрових технологій на економіку зростає, збільшуються обсяги інформації, що обробляється, будуються нові об'єкти, і це добре, поки все працює. На жаль, вплив збоїв у дата-центрах на економіку також збільшується з того часу, як люди почали розміщувати в них критичну для бізнесу ІТ-інфраструктуру – це неминучий наслідок цифровізації. Ми публікуємо невелику добірку найпомітніших аварій, що сталися у різних країнах минулого року.

США

Ця країна є визнаним лідером у сфері ЦОДбудування. У найбільших великих комерційних і корпоративних центрів обробки даних, які обслуговують глобальні послуги, тому наслідки інцидентів у них найбільш значні. На початку березня через потужний циклон чотири об'єкти оператора Equinix зіткнулися зі збоями в системі електропостачання. Площі використовувалися для обладнання Amazon Web Services (AWS), аварія призвела до недоступності безлічі популярних сервісів: постраждали GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio та Capital One, а також віртуальний помічник Amazon Alexa.

У вересні погодні аномалії вдарили по дата-центрах Microsoft, що розташовані в штаті Техас, тоді через грозу було порушено роботу системи електропостачання цілого регіону, а в дату-центрі, що перейшов на харчування від ДДУ, невідомо чому відключилося охолодження. На усунення наслідків аварії пішло кілька днів, і хоч завдяки балансуванню навантаження цей збій не став критичним, деяке уповільнення роботи хмарних сервісів Microsoft помітили користувачі по всьому світу.

Росія

Найсерйозніша аварія сталася 20 серпня в одному з дата-центрів Ростелекому. Через неї сервери Єдиного державного реєстру нерухомості зупинилися на 66 годин, через що їх довелося переносити на резервний майданчик. Обробку заяв, що надходять по всіх каналах, Росреєстр зміг відновити лише 3 вересня – державна організація намагається стягнути з Ростелекому велику суму за порушення угоди про рівень обслуговування.

16 лютого через проблеми в мережах Лененерго включилася система резервного електропостачання до ЦОДу компанії Xelnet (Санкт-Петербург). Короткочасне переривання синусоїди призвело до порушень у роботі багатьох сервісів: постраждав, зокрема, великий хмарний провайдер 1cloud, але найбільш помітною для російської інтернет-аудиторії проблемою стала неможливість зайти на сайт соціальної мережі «ВКонтакте». Найцікавіше, що повне усунення наслідків короткочасного збою електроживлення пішло близько 12 годин.

Євросоюз

У ЄС у 2018 році було зафіксовано кілька серйозних інцидентів. У березні стався збій у дата-центрі авіаперевізника KLM: подача електроенергії відключилася на 10 хвилин, а потужність дизель-генераторних установок виявилася недостатньою для роботи обладнання. Частина серверів відключилася, і авіакомпанії довелося скасувати або перенести кілька десятків рейсів.

Це не єдина пригода, пов'язана з авіаперевезеннями, – вже у квітні збій стався у системі електропостачання ЦОД Eurocontrol. Організація управляє рухом літаків у Євросоюзі, і доки фахівці 5 годин усували наслідки аварії, пасажирам знову довелося терпіти затримки та перенесення рейсів.

Дуже серйозні проблеми виникають через аварії в дата-центрах, які обслуговують фінансовий сектор. Вартість перебоїв у проведенні транзакцій тут зазвичай висока, і рівень надійності об'єктів є відповідним, але від інцидентів це не рятує. 18 квітня фондова біржа Nordic NASDAQ (Гельсінкі, Фінляндія) не могла вести торги по всій Північній Європі протягом дня через несанкціонований запуск газової системи пожежогасіння в комерційному дата-центрі DigiPlex, який був аварійно знеструмлений.

7 червня перебої у роботі ЦОД змусили лондонську фондову біржу (London Stock Exchange, LSE) на годину відкласти початок торгів. Крім того, у червні на території Європи через збій у дата-центрі на цілий день відключилися сервіси міжнародної платіжної системи VISA, причому деталі інциденту так і не були розголошені.

Японія

Влітку 2018 року на підземних рівнях дата-центру Amazon, що будується в передмісті Токіо, сталася пожежа, в якій загинуло 5 робітників і постраждало не менше 50. Вогонь пошкодив близько 5000 м2 приміщень об'єкта. Розслідування показало, що причиною пожежі став людський фактор: через необережне поводження з ацетиленовими пальниками спалахнула ізоляція.

Причини збоїв

Наведений список інцидентів далеко не сповнений, через аварії в дата-центрах страждають клієнти банків і телеком-операторів, йдуть в офлайн сервіси хмарних провайдерів і навіть порушується робота екстрених служб. Невеликий перебій в обслуговуванні може призвести до серйозних збитків, при цьому, за даними Uptime Institute, основна маса відмов (39%) пов'язана із системою електропостачання. З другого краю місці (24 %) людський чинник, але в третьому (15 %) – система кондиціонування. На частку природних явищ можна віднести лише 12 % аварій у ЦОД'ах, і лише 10 % із них відбуваються з відмінних від перерахованих причин.

Незважаючи на суворі стандарти надійності та безпеки, від інцидентів не застраховано жодного об'єкта. Більшість їх відбувається через збоїв електроживлення чи помилок персоналу. На ці два фактори варто насамперед звернути увагу власникам ЦОД та серверних кімнат, а замовники мають розуміти: навіть лідери ринку не можуть гарантувати абсолютної надійності. Якщо обладнання чи хмарний сервіс обслуговує критичні для бізнесу процеси, варто подумати про резервний майданчик.

Джерело фото: telecombloger.ru

Джерело: habr.com

Додати коментар або відгук