A principal causa de accidentes nos centros de datos é a xunta entre o ordenador e a cadeira

O tema dos grandes accidentes nos centros de datos modernos suscita preguntas que non foron respondidas no primeiro artigo: decidimos desenvolvelo.

A principal causa de accidentes nos centros de datos é a xunta entre o ordenador e a cadeira

Segundo as estatísticas do Uptime Institute, a maioría dos incidentes nos centros de datos están relacionados con fallos do sistema de subministración de enerxía: representan o 39 % dos incidentes. Séguenlles o factor humano, que supón outro 24% dos accidentes. O terceiro motivo máis importante (15%) foi a falla do sistema de aire acondicionado, e en cuarto lugar (12%) foron as catástrofes naturais. A porcentaxe total doutros problemas é só do 10%. Sen cuestionar os datos dunha organización respectada, destacaremos algo común en diferentes accidentes e trataremos de comprender se se puideron evitar. Spoiler: é posible na maioría dos casos.

A Ciencia dos Contactos

Para dicilo sinxelamente, só hai dous problemas coa fonte de alimentación: ou non hai contacto onde debería estar, ou hai contacto onde non debería haber contacto. Podes falar durante moito tempo sobre a fiabilidade dos modernos sistemas de alimentación ininterrompida, pero non sempre te salvan. Tomemos o caso de alto perfil do centro de datos utilizado por British Airways, que é propiedade da empresa matriz International Airlines Group. Hai dúas propiedades deste tipo situadas preto do aeroporto de Heathrow: Boadicea House e Comet House. No primeiro deles, o 27 de maio de 2017, produciuse un corte accidental de enerxía eléctrica, que provocou unha sobrecarga e fallo do sistema UPS. Como resultado, algúns dos equipos informáticos sufriron danos físicos e o último desastre tardou tres días en resolverse.

A aerolínea tivo que cancelar ou reprogramar máis de mil voos, uns 75 mil pasaxeiros non puideron voar a tempo: gastáronse 128 millóns de dólares en pagar unha compensación, sen contar os custos necesarios para restaurar a funcionalidade dos centros de datos. O historial dos motivos do apagón non está claro. Se cres os resultados da investigación interna anunciada polo CEO de International Airlines Group, Willie Walsh, debeuse a un erro dos enxeñeiros. Non obstante, o sistema de alimentación ininterrompida tivo que soportar tal parada, por iso foi instalado. O centro de datos estaba xestionado por especialistas da empresa de subcontratación CBRE Managed Services, polo que British Airways intentou recuperar a cantidade de danos a través dun xulgado de Londres.

A principal causa de accidentes nos centros de datos é a xunta entre o ordenador e a cadeira

Os cortes de enerxía prodúcense en escenarios similares: primeiro hai un apagón por culpa do provedor de electricidade, ás veces debido ao mal tempo ou a problemas internos (incluídos erros humanos), e despois o sistema de alimentación ininterrompida non pode facer fronte á carga ou a curto prazo. -A interrupción temporal da onda sinusoidal provoca fallos en moitos servizos, o que fai que a restauración leva moito tempo e diñeiro. É posible evitar este tipo de accidentes? Sen dúbida. Se deseña o sistema correctamente, mesmo os creadores de grandes centros de datos non están a salvo de erros.

Factor humano

Cando a causa inmediata dun incidente son as accións incorrectas do persoal do centro de datos, os problemas máis frecuentemente (pero non sempre) afectan á parte do software da infraestrutura de TI. Estes accidentes ocorren incluso en grandes corporacións. En febreiro de 2017, debido a que un membro do equipo contratado incorrectamente do grupo de operación técnica dun dos centros de datos, desactivouse parte dos servidores de Amazon Web Services. Produciuse un erro ao depurar o proceso de facturación dos clientes de almacenamento na nube de Amazon Simple Storage Service (S3). Un empregado intentou eliminar varios servidores virtuais utilizados polo sistema de facturación, pero alcanzou un clúster máis grande.

A principal causa de accidentes nos centros de datos é a xunta entre o ordenador e a cadeira

Como resultado dun erro do enxeñeiro, elimináronse os servidores que executaban importantes módulos de software de almacenamento na nube de Amazon. O primeiro afectado foi o subsistema de indexación, que contén información sobre os metadatos e a localización de todos os obxectos S3 na rexión americana US-EAST-1. O incidente tamén afectou ao subsistema utilizado para aloxar datos e xestionar o espazo dispoñible para o almacenamento. Despois de eliminar as máquinas virtuais, estes dous subsistemas requiriron un reinicio completo e, a continuación, os enxeñeiros de Amazon tiveron unha sorpresa: durante moito tempo, o almacenamento na nube pública non puido atender as solicitudes dos clientes.

O impacto foi xeneralizado, xa que moitos recursos grandes usan Amazon S3. As interrupcións afectaron a Trello, Coursera, IFTTT e, o máis desagradable, os servizos dos principais socios de Amazon da lista S&P 500. Os danos nestes casos son difíciles de calcular, pero estaban na rexión de centos de millóns de dólares estadounidenses. Como podes ver, un comando incorrecto é suficiente para desactivar o servizo da plataforma de nube máis grande. Este non é un caso illado; o 16 de maio de 2019, durante os traballos de mantemento, o servizo Yandex.Cloud eliminado máquinas virtuais de usuarios da zona ru-central1-c que estaban no estado SUSPENDIDO polo menos unha vez. Os datos dos clientes xa foron danados aquí, algúns dos cales perderon de forma irremediable. Por suposto, as persoas son imperfectas, pero os modernos sistemas de seguridade da información son capaces de supervisar durante moito tempo as accións dos usuarios privilexiados antes de executar os comandos que introduciron. Se tales solucións se implementan en Yandex ou Amazon, estes incidentes pódense evitar.

A principal causa de accidentes nos centros de datos é a xunta entre o ordenador e a cadeira

Refrixeración conxelada

En xaneiro de 2017, ocorreu un importante accidente no centro de datos Dmitrov da empresa Megafon. A continuación, a temperatura na rexión de Moscova baixou a -35 °C, o que provocou o fallo do sistema de refrixeración da instalación. O servizo de prensa do operador non falou especialmente sobre as razóns do incidente: as empresas rusas son moi reacias a falar de accidentes nas instalacións que teñen; en termos de publicidade, estamos moi atrás de Occidente. Houbo unha versión que circulaba polas redes sociais sobre a conxelación de líquido refrixerante nos tubos colocados ao longo da rúa e a fuga de etilenglicol. Segundo ela, o servizo de operación non puido obter rapidamente 30 toneladas de refrixerante debido ás longas vacacións e saíu usando medios improvisados, organizando un free-cooling improvisado en violación das regras de funcionamento do sistema. O frío intenso agravou o problema: en xaneiro, o inverno golpeou de súpeto a Rusia, aínda que ninguén o esperaba. Como consecuencia, o persoal tivo que apagar parte dos racks de servidores, polo que algúns servizos da operadora non estiveron dispoñibles durante dous días.

A principal causa de accidentes nos centros de datos é a xunta entre o ordenador e a cadeira

Probablemente, podemos falar dunha anomalía meteorolóxica aquí, pero tales xeadas non son algo inusual para a rexión da capital. As temperaturas no inverno na rexión de Moscova poden baixar a niveis máis baixos, polo que os centros de datos constrúense coa expectativa dun funcionamento estable a -42 °C. Na maioría das veces, os sistemas de refrixeración fallan no tempo frío debido a unha concentración insuficiente de glicoles e o exceso de auga na solución de refrixeración. Tamén hai problemas coa instalación de tubos ou con erros de cálculo no deseño e probas do sistema, principalmente asociados ao desexo de aforrar cartos. Como consecuencia, prodúcese de repente un grave accidente que se puido evitar.

Desastres naturais

Na maioría das veces, as tormentas eléctricas e/ou furacáns perturban a infraestrutura de enxeñería dun centro de datos, provocando interrupcións do servizo e/ou danos físicos aos equipos. Os incidentes causados ​​polo mal tempo ocorren con bastante frecuencia. En 2012, o furacán Sandy percorreu a costa oeste dos Estados Unidos con fortes precipitacións. Situado nun edificio de gran altura no Baixo Manhattan, o centro de datos Peer 1 perdida da fonte de alimentación externa, despois de que a auga do mar salgada inundase os sotos. Os xeradores de emerxencia da instalación estaban situados no piso 18 e o seu abastecemento de combustible era limitado: as regras introducidas en Nova York tras os ataques terroristas do 9-S prohiben almacenar grandes cantidades de combustible nos pisos superiores.

Tamén fallou a bomba de combustible, polo que o persoal pasou varios días levando a man o gasóleo ata os xeradores. O heroísmo do equipo salvou o centro de datos dun grave accidente, pero era realmente necesario? Vivimos nun planeta cunha atmosfera de nitróxeno-osíxeno e moita auga. Aquí son frecuentes as tormentas e os furacáns (especialmente nas zonas costeiras). Os deseñadores probablemente farían ben en considerar os riscos implicados e construír un sistema de subministración de enerxía ininterrompida axeitado. Ou polo menos elixe un lugar máis axeitado para o centro de datos que un rañaceo nunha illa.

Todo o demáis

Uptime Institute identifica unha variedade de incidentes nesta categoría, entre os que é difícil escoller un típico. Roubo de cables de cobre, choques de coches contra centros de datos, soportes de liñas eléctricas e subestacións transformadoras, incendios, operadores de escavadoras que danan a óptica, roedores (ratas, coellos e ata wombats, que en realidade son marsupiais), así como aqueles aos que lles gusta practicar tiros. fíos - o menú é amplo. Incluso poden causar fallos de enerxía roubar electricidade plantación ilegal de marihuana. Na maioría dos casos, persoas concretas convértense en culpables do incidente, é dicir, estamos de novo ante o factor humano, cando o problema ten nome e apelidos. Aínda que a primeira vista o accidente estea asociado a un mal funcionamento técnico ou a catástrofes naturais, pódese evitar sempre que a instalación estea correctamente deseñada e operada correctamente. As únicas excepcións son os casos de danos críticos na infraestrutura do centro de datos ou de destrución de edificios e estruturas debido a un desastre natural. Estas son verdadeiramente circunstancias de forza maior e todos os demais problemas son causados ​​pola xunta entre o ordenador e a cadeira, quizais esta sexa a parte máis pouco fiable de calquera sistema complexo.

Fonte: www.habr.com

Engadir un comentario