Головна причина аварій у дата-центрах - прокладання між комп'ютером та кріслом

Тема великих аварій у сучасних ЦОД викликає питання, на які у першій статті не було відповідей – ми вирішили її розвинути.

Головна причина аварій у дата-центрах - прокладання між комп'ютером та кріслом

Якщо вірити статистиці Uptime Institute, більшість інцидентів у дата-центрах пов'язані з відмовими системи електропостачання — їхню частку припадає 39 % подій. За ними слідує людський фактор — це ще 24% аварій. Третьою за значимістю (15%) причиною стали відмови системи кондиціонування, але в четвертому місці (12%) виявилися природні катаклізми. Сумарна частка інших проблем становить лише 10 %. Не ставлячи під сумнів дані шановної організації, виділимо у різних аваріях щось спільне і спробуємо зрозуміти, чи можна було їх уникнути. Спойлер: можна здебільшого.

Наука про контакти

Говорячи спрощено, з електроживленням буває всього дві проблеми: або контакту немає там, де він має бути, або є там, де контакту бути не повинно. Можна довго розмірковувати про надійність сучасних систем безперебійного електропостачання, але рятують вони далеко не завжди. Взяти хоча б гучний випадок із British Airways центром обробки даних, що належить материнській компанії International Airlines Group. Неподалік від аеропорту Хітроу розташовані два таких об'єкти - Boadicea House і Comet House. У першому з них 27 травня 2017 року сталося випадкове відключення електроживлення, яке призвело до перевантаження та відмови системи ДБЖ. У результаті частина ІТ-устаткування було пошкоджено фізично, а на усунення останньої аварії пішло три дні.

Авіакомпанії довелося скасувати або перенести більше тисячі рейсів, близько 75 тисяч пасажирів не змогли вилетіти вчасно — на виплату компенсацій пішло $128 млн, не рахуючи потреби на відновлення працездатності дата-центрів витрат. Історія з причинами блекауту незрозуміла. Якщо вірити озвученим генеральним директором International Airlines Group Віллі Уолшем результатам внутрішнього розслідування, це сталося через помилку інженерів. Проте система безперебійного електропостачання мала витримати таке відключення — для того вона й змонтована. ЦОД керували спеціалістами аутсорсингової компанії CBRE Managed Services, тому British Airways спробувала стягнути суму збитків через суд Лондона.

Головна причина аварій у дата-центрах - прокладання між комп'ютером та кріслом

Аварії з електроживленням відбуваються за подібними сценаріями: спочатку йде відключення з вини постачальника електроенергії, часом через погану погоду або внутрішні проблеми (включаючи помилки персоналу), а потім система безперебійного електропостачання не справляється з навантаженням або короткочасне переривання синусоїди, викликає безліч відновлення працездатності яких йде прорва часу та грошей. Чи можна уникнути таких аварій? Безперечно. Якщо проектувати систему правильно, проте помилки не застраховані навіть творці великих ЦОД.

Людський фактор

Коли безпосередньою причиною інциденту стають неправильні дії персоналу дата-центру, проблеми найчастіше (але не завжди) торкаються програмної частини ІТ-інфраструктури. Такі аварії трапляються навіть у великих корпораціях. У лютому 2017 року через неправильно набрану членом групи технічної експлуатації одного з ЦОД команди було відключено частину серверів Amazon Web Services. Помилка сталася під час налагодження процесу виставлення рахунків клієнтам хмарного сховища Amazon Simple Storage Service (S3). Співробітник намагався видалити деяку кількість віртуальних серверів, що використовуються білінговою системою, але зачепив більший кластер.

Головна причина аварій у дата-центрах - прокладання між комп'ютером та кріслом

В результаті помилки інженера віддали сервери, на яких були запущені важливі програмні модулі хмарного сховища Amazon. Насамперед постраждала підсистема індексування, що містить інформацію про метадані та розташування всіх об'єктів S3 в американському регіоні US-EAST-1. Інцидентом була також порушена підсистема, що використовується для розміщення даних і управління доступним для зберігання простором. Після видалення віртуальних машин ці дві підсистеми зажадали повного перезапуску, і далі інженерів Amazon чекав сюрприз - протягом тривалого часу публічне сховище не змогло обслуговувати запити клієнтів.

Ефект виявився масштабним, оскільки багато великих ресурсів використовують Amazon S3. Збої в роботі торкнулися Trello, Coursera, IFTTT і, що найнеприємніше, сервіси великих партнерів Amazon зі списку S&P 500. Збитки в таких випадках порахувати непросто, але його порядок виявився близько сотень мільйонів доларів США. Як бачите, щоб вивести з ладу сервіс найбільшої хмарної платформи, достатньо однієї неправильної команди. Це не поодинокий випадок, 16 травня 2019 року під час профілактичних робіт сервіс Яндекс.Хмара видалив віртуальні машини користувачів у зоні ru-central1-c, які хоч раз перебували у статусі SUSPENDED. Тут уже постраждали клієнтські дані, частина яких була безповоротно втрачена. Звичайно, люди недосконалі, але сучасні системи інформаційної безпеки давно вміють контролювати дії привілейованих користувачів до виконання введених команд. Якщо в Яндекс або Amazon впровадити такі рішення, таких інцидентів можна буде уникнути.

Головна причина аварій у дата-центрах - прокладання між комп'ютером та кріслом

Змерзле охолодження

У січні 2017 року сталася аварія в дмитрівському ЦОД компанії «Мегафон». Тоді температура в московському регіоні знизилася до -35 °С, що призвело до виходу з ладу системи охолодження об'єкта. Прес-служба оператора особливо не поширювалася про причини інциденту — російські компанії вкрай неохоче говорять про аварії на об'єктах, що їм належать, у сенсі публічності ми сильно відстаємо від Заходу. У соціальних мережах ходила версія про замерзання теплоносія в прокладених по вулиці трубах та витік етиленгліколю. Якщо вірити їй, служба експлуатації не змогла через тривалі свята оперативно отримати 30 тонн холодоносія і викручувалась з використанням підручних засобів, організувавши імпровізований фрикулінг з порушенням правил експлуатації системи. Сильні холоди погіршили проблему — у січні в Росії раптово трапилася зима, хоча ніхто на неї не чекав. У результаті персоналу довелося знеструмити частину серверних стійок, через що деякі послуги оператора були недоступні протягом двох днів.

Головна причина аварій у дата-центрах - прокладання між комп'ютером та кріслом

Напевно, тут можна говорити і про погодну аномалію, але такі морози не є для столичного регіону чимось незвичайним. Температура взимку в Підмосков'ї може опускатися і до нижчих відміток, тому дата-центри будують для стійкої роботи при −42°С. Найчастіше системи охолодження на морозі відмовляють через недостатньо високу концентрацію гліколів та надлишку води в розчині теплоносія. Бувають проблеми з монтажем труб або з прорахунками в проектуванні та тестуванні системи, пов'язаними в основному з бажанням заощадити. У результаті рівному трапляється серйозна аварія, яку цілком можна було б не допустити.

Природні катаклізми

Найчастіше грози та/або урагани порушують роботу інженерної інфраструктури дата-центру, що призводить до зупинки сервісів та/або фізичного пошкодження обладнання. Спричинені поганою погодою інциденти відбуваються досить часто. У 2012 році західним узбережжям США прокотився ураган Сенді з сильною зливою. Розташований у висотному будинку на Нижньому Манхеттені дата-центр Peer 1 втратив зовнішнє електроживлення, після того, як солона морська вода залила підвали. Аварійні генератори об'єкта були розміщені на 18 поверсі, і запас палива для них був обмежений - введені в Нью-Йорку правила терактів 9/11 забороняють зберігати велику кількість пального на верхніх поверхах.

Паливний насос також вийшов з ладу, тому персонал кілька днів тягав дизель для генераторів вручну. Героїзм команди врятував дата-центр від серйозної аварії, але чи він був таким необхідним? Ми живемо на планеті з азотно-кисневою атмосферою та великою кількістю води. Грози та урагани тут – звичайна справа (особливо у приморських районах). Проектувальникам, ймовірно, варто було б врахувати пов'язані з ними ризики та побудувати відповідну систему безперебійного електропостачання. Або хоча б вибрати для центру обробки даних більш сприятливе місце, ніж висотка на острові.

Все інше

У цю категорію Uptime Institute виділяє різноманітні інциденти, серед яких важко вибрати типовий. Крадіжки мідних кабелів, що врізаються в ЦОД, опори ЛЕП і трансформаторні підстанції автомобілі, пожежі, екскаваторники, що псують оптику, гризуни (щури, кролики і навіть вомбати, які взагалі відносяться до сумчастих), а також любителі попрактикуватися в стрільбі по проводах - меню широко . Збої в електроживленні може викликати навіть злодійка електроенергію - нелегальна плантація марихуани. У більшості випадків винуватцями інциденту стають конкретні люди, тобто ми знову маємо справу з людським фактором, коли проблема має ім'я та прізвище. Навіть якщо на перший погляд аварія пов'язана з технічною несправністю або природними катаклізмами, її можна уникнути за умови грамотного проектування об'єкта і правильної його експлуатації. Винятки становлять хіба що випадки критичного пошкодження інфраструктури ЦОД або руйнування будівель та споруд через природну катастрофу. Це справді форс-мажорні обставини, а решта проблем викликана прокладкою між комп'ютером і кріслом — мабуть, це найненадійніша частина будь-якої складної системи.

Джерело: habr.com

Додати коментар або відгук