Современные ЦОД надежны, однако любое оборудование время от времени ломается. В небольшой заметке мы собрали наиболее значительные инциденты 2018 года.
Влияние цифровых технологий на экономику растет, увеличиваются объемы обрабатываемой информации, строятся новые объекты, и это хорошо, пока все работает. К сожалению, влияние сбоев в дата-центрах на экономику также увеличивается с тех пор, как люди начали размещать в них критичную для бизнеса ИТ-инфраструктуру – таково неизбежное следствие цифровизации. Мы публикуем небольшую подборку наиболее заметных аварий, произошедших в разных странах в прошлом году.
США
Эта страна является признанным лидером в сфере ЦОД’остроения. В США больше всего крупных коммерческих и корпоративных центров обработки данных, обслуживающих глобальные сервисы, потому последствия инцидентов в них наиболее значительны. В начале марта из-за мощного циклона четыре объекта оператора Equinix столкнулись со сбоями в системе электроснабжения. Площади использовались для оборудования Amazon Web Services (AWS), авария привела к недоступности множества популярных сервисов: пострадали GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio и мCapital One, а также виртуальный помощник Amazon Alexa.
В сентябре погодные аномалии ударили по расположенным в штате Техас дата-центрам Microsoft, тогда из-за грозы была нарушена работа системы электроснабжения целого региона, а в перешедшем на питание от ДГУ дата-центре неизвестно почему отключилось охлаждение. На устранение последствий аварии ушло несколько дней, и хотя благодаря балансировке нагрузки этот сбой не стал критическим, некоторое замедление работы облачных сервисов Microsoft заметили пользователи по всему миру.
Россия
Наиболее серьезная авария произошла 20 августа в одном из дата-центров Ростелекома. Из-за нее серверы Единого государственного реестра недвижимости остановились на 66 часов, в связи с чем их пришлось переносить на резервную площадку. Обработку поступающих по всем каналам заявлений Росреестр смог восстановить только 3 сентября – государственная организация пытается взыскать с Ростелекома крупную сумму за нарушение соглашения об уровне обслуживания.
16 февраля из-за проблем в сетях Ленэнерго включилась система резервного электроснабжения в ЦОД компании Xelnet (Санкт-Петербург). Кратковременное прерывание синусоиды привело к нарушениям в работе множества сервисов: пострадал, в частности, крупный облачный провайдер 1cloud, но наиболее заметной для российской интернет-аудитории проблемой стала невозможность зайти на сайт социальной сети «ВКонтакте». Самое интересное, что на полное устранение последствий кратковременного сбоя электропитания ушло около 12 часов.
Евросоюз
В ЕС в 2018 году было зафиксировано несколько серьезных инцидентов. В марте произошел сбой в дата-центре авиаперевозчика KLM: подача электроэнергии отключилась на 10 минут, а мощность дизель-генераторных установок оказалась недостаточной для работы оборудования. Часть серверов отключились, и авиакомпании пришлось отменить или перенести несколько десятков рейсов.
Это не единственное происшествие, связанное с авиаперевозками, – уже в апреле сбой произошел в системе электроснабжения ЦОД Eurocontrol. Организация управляет движением самолетов в Евросоюзе, и пока специалисты 5 часов устраняли последствия аварии, пассажирам снова пришлось терпеть задержки и переносы рейсов.
Очень серьезные проблемы возникают из-за аварий в дата-центрах, обслуживающих финансовый сектор. Стоимость перебоев в проведении транзакций здесь обычно высока, и уровень надежности объектов соответствующий, но от инцидентов это не спасает. 18 апреля фондовая биржа Nordic NASDAQ (Хельсинки, Финляндия) не могла вести торги по всей Северной Европе в течение дня из-за несанкционированного запуска газовой системы пожаротушения в коммерческом дата-центре DigiPlex, который был аварийно обесточен.
7 июня перебои в работе ЦОД заставили лондонскую фондовую биржу (London Stock Exchange, LSE) на час отложить начало торгов. Кроме того, в июне на территории Европы из-за сбоя в дата-центре на целый день отключились сервисы международной платежной системы VISA, причем детали инцидента так и не были разглашены.
Япония
Летом 2018 года на подземных уровнях строящегося в пригороде Токио дата-центра Amazon произошел пожар, в котором погибло 5 рабочих и пострадало не менее 50. Огонь повредил около 5000 м2 помещений объекта. Расследование показало, что причиной пожара стал человеческий фактор: из-за неосторожного обращения с ацетиленовыми горелками воспламенилась изоляция.
Причины сбоев
Приведенный список инцидентов далеко не полон, из-за аварий в дата-центрах страдают клиенты банков и телеком-операторов, уходят в офлайн сервисы облачных провайдеров и даже нарушается работа экстренных служб. Небольшой перебой в обслуживании может привести к серьезным убыткам, при этом, по данным Uptime Institute, основная масса отказов (39 %) связана с системой электроснабжения. На втором месте (24 %) человеческий фактор, а на третьем (15 %) – система кондиционирования. На долю природных явлений можно отнести только 12 % аварий в ЦОД’ах, и лишь 10 % из них происходят по отличным от перечисленных причинам.
Несмотря на строгие стандарты надежности и безопасности, от инцидентов не застрахован ни один объект. Большая их часть происходит из-за сбоев электропитания или ошибок персонала. На эти два фактора стоит в первую очередь обратить внимание владельцам ЦОД и серверных комнат, а заказчики должны понимать: даже лидеры рынка не могут гарантировать абсолютной надежности. Если оборудование или облачный сервис обслуживает критичные для бизнеса процессы, стоит подумать о резервной площадке.
Источник фото: telecombloger.ru
Источник: habr.com