A principal causa de acidentes em data centers é a junta entre o computador e a cadeira

O tema acidentes graves em data centers modernos levanta questões que não foram respondidas no primeiro artigo - decidimos desenvolvê-lo.

A principal causa de acidentes em data centers é a junta entre o computador e a cadeira

De acordo com estatísticas do Uptime Institute, a maioria dos incidentes em data centers está relacionada a falhas no sistema de fornecimento de energia – elas são responsáveis ​​por 39% dos incidentes. Seguem-se o fator humano, responsável por outros 24% dos acidentes. O terceiro motivo mais importante (15%) foi a falha do sistema de ar condicionado e em quarto lugar (12%) ficaram os desastres naturais. A parcela total de outros problemas é de apenas 10%. Sem questionar os dados de uma organização respeitada, vamos destacar algo comum em diversos acidentes e tentar entender se eles poderiam ter sido evitados. Spoiler: é possível na maioria dos casos.

A Ciência dos Contatos

Simplificando, existem apenas dois problemas com a fonte de alimentação: ou não há contato onde deveria estar, ou há contato onde não deveria haver contato. Você pode falar por muito tempo sobre a confiabilidade dos modernos sistemas de fonte de alimentação ininterrupta, mas eles nem sempre salvam você. Vejamos o caso de destaque do data center usado pela British Airways, que é propriedade da controladora International Airlines Group. Existem duas dessas propriedades localizadas perto do Aeroporto de Heathrow - Boadicea House e Comet House. Na primeira delas, em 27 de maio de 2017, ocorreu uma queda acidental de energia, que gerou sobrecarga e falha do sistema UPS. Como resultado, alguns dos equipamentos de TI foram fisicamente danificados e o último desastre levou três dias para ser resolvido.

A companhia aérea teve que cancelar ou remarcar mais de mil voos, cerca de 75 mil passageiros não conseguiram voar a tempo - foram gastos 128 milhões de dólares no pagamento de indemnizações, sem contar os custos necessários para restaurar a funcionalidade dos data centers. A história das razões do apagão não é clara. Se você acredita nos resultados da investigação interna anunciada pelo CEO do International Airlines Group, Willie Walsh, isso se deveu a um erro dos engenheiros. No entanto, o sistema de alimentação ininterrupta teve que suportar tal desligamento - é por isso que foi instalado. O data center era administrado por especialistas da empresa terceirizada CBRE Managed Services, então a British Airways tentou recuperar o valor dos danos através de um tribunal de Londres.

A principal causa de acidentes em data centers é a junta entre o computador e a cadeira

As interrupções de energia ocorrem em cenários semelhantes: primeiro há um apagão devido a falha do fornecedor de eletricidade, às vezes devido a mau tempo ou problemas internos (incluindo erros humanos), e então o sistema de alimentação ininterrupta não consegue lidar com a carga ou um curto A interrupção a longo prazo da onda senoidal causa falhas em muitos serviços, cuja restauração exige muito tempo e dinheiro. É possível evitar esses acidentes? Sem dúvida. Se você projetar o sistema corretamente, mesmo os criadores de grandes data centers não estarão imunes a erros.

Fator humano

Quando a causa imediata de um incidente são ações incorretas do pessoal do data center, os problemas geralmente (mas nem sempre) afetam a parte de software da infraestrutura de TI. Tais acidentes ocorrem mesmo em grandes corporações. Em fevereiro de 2017, devido ao recrutamento incorreto de um membro da equipe do grupo de operação técnica de um dos data centers, parte dos servidores da Amazon Web Services foi desativada. Ocorreu um erro ao depurar o processo de faturamento para clientes de armazenamento em nuvem do Amazon Simple Storage Service (S3). Um funcionário tentou excluir vários servidores virtuais usados ​​pelo sistema de cobrança, mas atingiu um cluster maior.

A principal causa de acidentes em data centers é a junta entre o computador e a cadeira

Como resultado de um erro de engenheiro, os servidores que executavam módulos importantes do software de armazenamento em nuvem da Amazon foram excluídos. O primeiro afetado foi o subsistema de indexação, que contém informações sobre os metadados e localização de todos os objetos S3 na região americana US-EAST-1. O incidente também afetou o subsistema utilizado para hospedar dados e gerenciar o espaço disponível para armazenamento. Depois de excluir as máquinas virtuais, esses dois subsistemas exigiram uma reinicialização completa, e então os engenheiros da Amazon tiveram uma surpresa – por muito tempo, o armazenamento em nuvem pública não conseguiu atender às solicitações dos clientes.

O impacto foi generalizado, já que muitos recursos grandes usam o Amazon S3. As interrupções afetaram o Trello, o Coursera, o IFTTT e, o que é mais desagradável, os serviços dos principais parceiros da Amazon na lista S&P 500. O dano nesses casos é difícil de calcular, mas foi da ordem de centenas de milhões de dólares americanos. Como você pode ver, um comando errado é suficiente para desabilitar o serviço da maior plataforma de nuvem. Este não é um caso isolado, no dia 16 de maio de 2019, durante trabalhos de manutenção, o serviço Yandex.Cloud deletado máquinas virtuais de usuários na zona ru-central1-c que estiveram no status SUSPENSO pelo menos uma vez. Os dados do cliente já foram danificados aqui, alguns dos quais foram irremediavelmente perdidos. É claro que as pessoas são imperfeitas, mas os sistemas modernos de segurança da informação há muito tempo são capazes de monitorar as ações de usuários privilegiados antes de executar os comandos que eles digitam. Se tais soluções forem implementadas no Yandex ou Amazon, tais incidentes poderão ser evitados.

A principal causa de acidentes em data centers é a junta entre o computador e a cadeira

Resfriamento congelado

Em janeiro de 2017, ocorreu um grave acidente no data center Dmitrov da empresa Megafon. Depois, a temperatura na região de Moscovo caiu para -35 °C, o que levou à falha do sistema de refrigeração da instalação. O serviço de imprensa da operadora não falou particularmente sobre as razões do incidente - as empresas russas estão extremamente relutantes em falar sobre acidentes nas instalações que possuem; em termos de publicidade, estamos muito atrás do Ocidente. Circulava nas redes sociais uma versão sobre congelamento de refrigerante em tubulações colocadas ao longo da rua e vazamento de etilenoglicol. Segundo ela, o serviço de operação não conseguiu obter rapidamente 30 toneladas de refrigerante devido aos feriados prolongados e saiu por meios improvisados, organizando free-cooling improvisado em violação às regras de funcionamento do sistema. O frio intenso agravou o problema - em janeiro, o inverno atingiu repentinamente a Rússia, embora ninguém esperasse por isso. Como resultado, a equipe teve que desligar a energia de parte dos racks dos servidores, razão pela qual alguns serviços da operadora ficaram indisponíveis por dois dias.

A principal causa de acidentes em data centers é a junta entre o computador e a cadeira

Provavelmente podemos falar aqui de uma anomalia climática, mas tais geadas não são algo incomum na região da capital. As temperaturas no inverno na região de Moscou podem cair para níveis mais baixos, por isso os data centers são construídos com a expectativa de operação estável a -42°C. Na maioria das vezes, os sistemas de refrigeração falham em climas frios devido a uma concentração insuficientemente alta de glicóis e ao excesso de água na solução de refrigeração. Também existem problemas com a instalação de tubulações ou com erros de cálculo no projeto e teste do sistema, principalmente associados ao desejo de economizar dinheiro. Como resultado, ocorre um acidente grave do nada, que poderia ter sido evitado.

Desastres naturais

Na maioria das vezes, tempestades e/ou furacões perturbam a infraestrutura de engenharia de um data center, levando a interrupções de serviço e/ou danos físicos aos equipamentos. Incidentes causados ​​por mau tempo ocorrem com bastante frequência. Em 2012, o furacão Sandy varreu a costa oeste dos Estados Unidos com fortes chuvas. Localizado em um prédio alto em Lower Manhattan, o data center Peer 1 fonte de alimentação externa perdida, depois que a água salgada do mar inundou os porões. Os geradores de emergência das instalações estavam localizados no 18º andar e o seu fornecimento de combustível era limitado - as regras introduzidas em Nova Iorque após os ataques terroristas de 9 de Setembro proíbem o armazenamento de grandes quantidades de combustível nos andares superiores.

A bomba de combustível também falhou, então a equipe passou vários dias transportando manualmente o diesel até os geradores. O heroísmo da equipe salvou o data center de um acidente grave, mas foi realmente necessário? Vivemos em um planeta com atmosfera de nitrogênio-oxigênio e muita água. Tempestades e furacões são comuns aqui (especialmente nas áreas costeiras). Os projetistas provavelmente fariam bem em considerar os riscos envolvidos e construir um sistema de fornecimento de energia ininterrupto apropriado. Ou pelo menos escolha um local mais adequado para o data center do que um arranha-céu em uma ilha.

Todo o resto

O Uptime Institute identifica uma variedade de incidentes nesta categoria, entre os quais é difícil escolher um típico. Roubos de cabos de cobre, colisão de carros contra data centers, suportes de linhas de energia e subestações transformadoras, incêndios, operadores de escavadeiras danificando ópticas, roedores (ratos, coelhos e até wombats, que na verdade são marsupiais), além de quem gosta de praticar tiro em fios - o menu é extenso. Falhas de energia podem até causar roubando eletricidade plantação ilegal de maconha. Na maioria dos casos, pessoas específicas passam a ser as culpadas do incidente, ou seja, estamos novamente lidando com o fator humano, quando o problema tem nome e sobrenome. Mesmo que à primeira vista o acidente esteja associado a uma avaria técnica ou a catástrofes naturais, pode ser evitado desde que a instalação seja devidamente concebida e operada corretamente. As únicas exceções são os casos de danos críticos à infraestrutura do data center ou destruição de edifícios e estruturas devido a um desastre natural. Estas são realmente circunstâncias de força maior, e todos os outros problemas são causados ​​​​pela junta entre o computador e a cadeira - talvez esta seja a parte menos confiável de qualquer sistema complexo.

Fonte: habr.com

Adicionar um comentário