Acidentes graves em data centers: causas e consequências

Os data centers modernos são confiáveis, mas qualquer equipamento quebra de tempos em tempos. Neste breve artigo coletamos os incidentes mais significativos de 2018.

Acidentes graves em data centers: causas e consequências

A influência das tecnologias digitais na economia é crescente, o volume de informação processada aumenta, novas instalações estão a ser construídas, e isso é bom desde que tudo funcione. Infelizmente, o impacto económico das falhas dos centros de dados também tem aumentado desde que as pessoas começaram a alojar infra-estruturas de TI críticas para os negócios, como consequência inevitável da digitalização. Estamos publicando uma pequena seleção dos acidentes mais notáveis ​​que ocorreram em diferentes países no ano passado.

Estados Unidos

Este país é um líder reconhecido na construção de data centers. Os Estados Unidos possuem o maior número de grandes data centers comerciais e corporativos. centros de dadosA Equinix, que dá suporte a serviços globais, tem um impacto significativo em incidentes nessas instalações. No início de março, um poderoso ciclone causou apagões em quatro centros de distribuição da Equinix. Esses centros abrigavam equipamentos da Amazon Web Services (AWS), e a interrupção resultou na indisponibilidade de diversos serviços populares, incluindo GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio e mCapital One, além da assistente virtual da Amazon, Alexa.

Em setembro, anomalias climáticas atingiram os data centers da Microsoft localizados no Texas, então, devido a uma tempestade, o sistema de fornecimento de energia de toda a região foi interrompido e, no data center que passou a ser alimentado por um grupo gerador a diesel, não se sabe o porquê. o resfriamento foi desligado. Demorou vários dias para eliminar as consequências do acidente e, embora, graças ao balanceamento de carga, esta falha não tenha se tornado crítica, uma ligeira desaceleração no funcionamento dos serviços em nuvem da Microsoft foi percebida por usuários em todo o mundo.

Rússia

O acidente mais grave ocorreu no dia 20 de agosto em um dos data centers da Rostelecom. Por conta disso, os servidores do Cadastro Único de Imóveis do Estado pararam por 66 horas e, portanto, tiveram que ser transferidos para um site de backup. A Rosreestr conseguiu restaurar o processamento dos pedidos recebidos por todos os canais apenas no dia 3 de setembro - a organização governamental está tentando recuperar uma grande quantia da Rostelecom por violação do acordo de nível de serviço.

No dia 16 de fevereiro, devido a problemas nas redes da Lenenergo, foi ligado o sistema de alimentação de backup do data center de Xelnet (São Petersburgo). Uma interrupção de curto prazo da onda senoidal levou a interrupções na operação de muitos serviços: em particular, o grande provedor de nuvem 1cloud foi afetado, mas o problema mais notável para o público russo da Internet foi a incapacidade de acessar o site de rede social VKontakte . O mais interessante é que foram necessárias cerca de 12 horas para eliminar completamente as consequências de uma falha de energia de curto prazo.

UE

Vários incidentes graves foram registrados na UE em 2018. Em março, um centro de dados da KLM sofreu uma queda de energia: o fornecimento de energia foi interrompido por 10 minutos e os geradores a diesel não foram suficientes para operar os equipamentos. servidores A situação piorou e as companhias aéreas tiveram que cancelar ou remarcar dezenas de voos.

Este não é o único incidente relacionado com viagens aéreas - já em abril ocorreu uma falha no sistema de alimentação do data center Eurocontrol. A organização controla a movimentação de aeronaves na União Europeia e, enquanto os especialistas passaram 5 horas eliminando as consequências do acidente, os passageiros novamente tiveram que suportar atrasos e remarcar voos.

Surgem problemas muito graves devido a acidentes em data centers que atendem o setor financeiro. O custo das interrupções nas transações aqui costuma ser alto e o nível de confiabilidade das instalações é adequado, mas isso não evita incidentes. Em 18 de abril, a bolsa de valores nórdica NASDAQ (Helsinque, Finlândia) não conseguiu negociar em todo o norte da Europa durante o dia devido à ativação não autorizada de um sistema de extinção de incêndio a gás no data center comercial DigiPlex, que foi subitamente desenergizado.

Em 7 de junho, interrupções no data center forçaram a Bolsa de Valores de Londres (LSE) a atrasar o início das negociações por uma hora. Além disso, em junho, na Europa, devido a uma falha num data center, os serviços do sistema de pagamentos internacional VISA ficaram desativados durante todo o dia e os detalhes do incidente nunca foram divulgados.

Japão

No verão de 2018, ocorreu um incêndio nos níveis subterrâneos de um data center da Amazon em construção num subúrbio de Tóquio, matando 5 trabalhadores e ferindo pelo menos 50. O incêndio danificou cerca de 5000 m2 da instalação. A investigação mostrou que a causa do incêndio foi erro humano: devido ao manuseio descuidado das tochas de acetileno, o isolamento pegou fogo.

Razões para falhas

A lista de incidentes acima está longe de estar completa: devido a acidentes em data centers, clientes de bancos e operadoras de telecomunicações sofrem, os serviços dos provedores de nuvem ficam offline e até mesmo o trabalho dos serviços de emergência é interrompido. Uma pequena interrupção no serviço pode levar a grandes perdas, e a maioria das interrupções (39%) está relacionada ao sistema elétrico, segundo o Uptime Institute. Em segundo lugar (24%) está o fator humano e em terceiro (15%) está o sistema de ar condicionado. Apenas 12% dos acidentes em data centers podem ser atribuídos a fenômenos naturais, e apenas 10% deles ocorrem por motivos diferentes dos listados.

Apesar dos rígidos padrões de confiabilidade e segurança, nenhuma instalação está imune a incidentes. A maioria deles ocorre devido a falhas de energia ou erros humanos. Os proprietários de data centers e salas de servidores devem, em primeiro lugar, prestar atenção a estes dois fatores, e os clientes devem compreender: mesmo os líderes de mercado não podem garantir confiabilidade absoluta. Se um equipamento ou serviço em nuvem atende a processos críticos de negócios, você deve pensar em um site de backup.

Fonte da foto: telecombloger.ru

Fonte: habr.com

Compre hospedagem confiável para sites com proteção DDoS, servidores VPS VDS 🔥 Compre hospedagem de sites confiável com proteção contra DDoS, servidores VPS/VDS | ProHoster