Acidentes graves em data centers: causas e consequências

Os data centers modernos são confiáveis, mas qualquer equipamento quebra de tempos em tempos. Neste breve artigo coletamos os incidentes mais significativos de 2018.

Acidentes graves em data centers: causas e consequências

A influência das tecnologias digitais na economia é crescente, o volume de informação processada aumenta, novas instalações estão a ser construídas, e isso é bom desde que tudo funcione. Infelizmente, o impacto económico das falhas dos centros de dados também tem aumentado desde que as pessoas começaram a alojar infra-estruturas de TI críticas para os negócios, como consequência inevitável da digitalização. Estamos publicando uma pequena seleção dos acidentes mais notáveis ​​que ocorreram em diferentes países no ano passado.

Estados Unidos

Este país é um líder reconhecido na área de construção de data centers. Os Estados Unidos têm o maior número de grandes centros de dados comerciais e corporativos que servem serviços globais, pelo que as consequências dos incidentes são mais significativas. No início de março, quatro instalações da Equinix sofreram cortes de energia devido a um poderoso ciclone. O espaço era utilizado para equipamentos Amazon Web Services (AWS); o acidente levou à indisponibilidade de diversos serviços populares: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio e mCapital One, além da assistente virtual Amazon Alexa, Foram afetados.

Em setembro, anomalias climáticas atingiram os data centers da Microsoft localizados no Texas, então, devido a uma tempestade, o sistema de fornecimento de energia de toda a região foi interrompido e, no data center que passou a ser alimentado por um grupo gerador a diesel, não se sabe o porquê. o resfriamento foi desligado. Demorou vários dias para eliminar as consequências do acidente e, embora, graças ao balanceamento de carga, esta falha não tenha se tornado crítica, uma ligeira desaceleração no funcionamento dos serviços em nuvem da Microsoft foi percebida por usuários em todo o mundo.

Rússia

O acidente mais grave ocorreu no dia 20 de agosto em um dos data centers da Rostelecom. Por conta disso, os servidores do Cadastro Único de Imóveis do Estado pararam por 66 horas e, portanto, tiveram que ser transferidos para um site de backup. A Rosreestr conseguiu restaurar o processamento dos pedidos recebidos por todos os canais apenas no dia 3 de setembro - a organização governamental está tentando recuperar uma grande quantia da Rostelecom por violação do acordo de nível de serviço.

No dia 16 de fevereiro, devido a problemas nas redes da Lenenergo, foi ligado o sistema de alimentação de backup do data center de Xelnet (São Petersburgo). Uma interrupção de curto prazo da onda senoidal levou a interrupções na operação de muitos serviços: em particular, o grande provedor de nuvem 1cloud foi afetado, mas o problema mais notável para o público russo da Internet foi a incapacidade de acessar o site de rede social VKontakte . O mais interessante é que foram necessárias cerca de 12 horas para eliminar completamente as consequências de uma falha de energia de curto prazo.

UE

Vários incidentes graves foram registados na UE em 2018. Em março, ocorreu uma falha no data center da companhia aérea KLM: o fornecimento de energia foi cortado por 10 minutos e a potência dos grupos geradores a diesel era insuficiente para operar os equipamentos. Alguns servidores caíram e a companhia aérea teve que cancelar ou reprogramar várias dezenas de voos.

Este não é o único incidente relacionado com viagens aéreas - já em abril ocorreu uma falha no sistema de alimentação do data center Eurocontrol. A organização controla a movimentação de aeronaves na União Europeia e, enquanto os especialistas passaram 5 horas eliminando as consequências do acidente, os passageiros novamente tiveram que suportar atrasos e remarcar voos.

Surgem problemas muito graves devido a acidentes em data centers que atendem o setor financeiro. O custo das interrupções nas transações aqui costuma ser alto e o nível de confiabilidade das instalações é adequado, mas isso não evita incidentes. Em 18 de abril, a bolsa de valores nórdica NASDAQ (Helsinque, Finlândia) não conseguiu negociar em todo o norte da Europa durante o dia devido à ativação não autorizada de um sistema de extinção de incêndio a gás no data center comercial DigiPlex, que foi subitamente desenergizado.

Em 7 de junho, interrupções no data center forçaram a Bolsa de Valores de Londres (LSE) a atrasar o início das negociações por uma hora. Além disso, em junho, na Europa, devido a uma falha num data center, os serviços do sistema de pagamentos internacional VISA ficaram desativados durante todo o dia e os detalhes do incidente nunca foram divulgados.

Japão

No verão de 2018, ocorreu um incêndio nos níveis subterrâneos de um data center da Amazon em construção num subúrbio de Tóquio, matando 5 trabalhadores e ferindo pelo menos 50. O incêndio danificou cerca de 5000 m2 da instalação. A investigação mostrou que a causa do incêndio foi erro humano: devido ao manuseio descuidado das tochas de acetileno, o isolamento pegou fogo.

Razões para falhas

A lista de incidentes acima está longe de estar completa: devido a acidentes em data centers, clientes de bancos e operadoras de telecomunicações sofrem, os serviços dos provedores de nuvem ficam offline e até mesmo o trabalho dos serviços de emergência é interrompido. Uma pequena interrupção no serviço pode levar a grandes perdas, e a maioria das interrupções (39%) está relacionada ao sistema elétrico, segundo o Uptime Institute. Em segundo lugar (24%) está o fator humano e em terceiro (15%) está o sistema de ar condicionado. Apenas 12% dos acidentes em data centers podem ser atribuídos a fenômenos naturais, e apenas 10% deles ocorrem por motivos diferentes dos listados.

Apesar dos rígidos padrões de confiabilidade e segurança, nenhuma instalação está imune a incidentes. A maioria deles ocorre devido a falhas de energia ou erros humanos. Os proprietários de data centers e salas de servidores devem, em primeiro lugar, prestar atenção a estes dois fatores, e os clientes devem compreender: mesmo os líderes de mercado não podem garantir confiabilidade absoluta. Se um equipamento ou serviço em nuvem atende a processos críticos de negócios, você deve pensar em um site de backup.

Fonte da foto: telecombloger.ru

Fonte: habr.com

Adicionar um comentário