Principais accidentes en centros de datos: causas e consecuencias

Os centros de datos modernos son fiables, pero calquera equipo avaríase de cando en vez. Neste breve artigo recollemos os incidentes máis significativos de 2018.

Principais accidentes en centros de datos: causas e consecuencias

Crece a influencia das tecnoloxías dixitais na economía, aumenta o volume de información procesada, constrúense novas instalacións, e isto é bo mentres todo funcione. Desafortunadamente, o impacto económico dos fallos dos centros de datos tamén foi aumentando desde que a xente comezou a aloxar infraestruturas de TI críticas para o negocio como consecuencia inevitable da dixitalización. Publicamos unha pequena escolma dos accidentes máis salientables ocorridos en diferentes países o ano pasado.

EUA

Este país é un líder recoñecido no campo da construción de centros de datos. Os Estados Unidos teñen o maior número de grandes centros de datos comerciais e corporativos que prestan servizos globais, polo que as consecuencias dos incidentes alí son máis importantes. A principios de marzo, catro instalacións de Equinix sufriron cortes de luz debido a un poderoso ciclón. O espazo utilizouse para equipos de Amazon Web Services (AWS); o accidente provocou a non dispoñibilidade de moitos servizos populares: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio e mCapital One, así como o asistente virtual de Amazon Alexa. foron afectados.

En setembro, anomalías meteorolóxicas atinxiron os centros de datos de Microsoft situados en Texas.Entón, debido a unha treboada, o sistema de subministración de enerxía de toda a rexión foi interrompido e no centro de datos que pasou á alimentación do grupo electróxeno diésel descoñécese por que o arrefriamento apagado. Tardaron varios días en eliminar as consecuencias do accidente e, aínda que, grazas ao equilibrio de carga, este fallo non se converteu en crítico, un lixeiro desaceleración no funcionamento dos servizos na nube de Microsoft foi notado polos usuarios de todo o mundo.

Rusia

O accidente máis grave ocorreu o 20 de agosto nun dos centros de datos de Rostelecom. Por iso, os servidores do Rexistro Estatal Unificado de Inmobles pararon durante 66 horas e, polo tanto, tiveron que ser trasladados a un sitio de reserva. Rosreestr puido restablecer o procesamento das solicitudes recibidas por todas as canles só o 3 de setembro: a organización gobernamental está tentando recuperar unha gran cantidade de Rostelecom por violar o acordo de nivel de servizo.

O 16 de febreiro, por problemas nas redes de Lenenergo, acendeuse o sistema de alimentación de reserva no centro de datos de Xelnet (San Petersburgo). Unha interrupción a curto prazo da onda sinusoidal provocou interrupcións no funcionamento de moitos servizos: en particular, o gran provedor de nube 1cloud viuse afectado, pero o problema máis notable para a audiencia rusa de Internet foi a incapacidade de acceder á rede social VKontakte. . O máis interesante é que tardou unhas 12 horas en eliminar completamente as consecuencias dunha falla de enerxía a curto prazo.

A Unión Europea

En 2018 rexistráronse varios incidentes graves na UE. En marzo, produciuse un fallo no centro de datos da compañía aérea KLM: a subministración de enerxía foi cortada durante 10 minutos e a potencia dos xeradores diésel foi insuficiente para operar o equipo. Algúns servidores caeron e a compañía aérea tivo que cancelar ou reprogramar varias ducias de voos.

Este non é o único incidente relacionado coas viaxes aéreas: xa en abril produciuse un fallo no sistema de alimentación do centro de datos Eurocontrol. A organización controla o movemento de aeronaves na Unión Europea, e mentres os especialistas dedicaron 5 horas a eliminar as consecuencias do accidente, os pasaxeiros volveron ter que soportar atrasos e voos reprogramados.

Os problemas moi graves xorden por accidentes en centros de datos ao servizo do sector financeiro. O custo das interrupcións nas transaccións aquí adoita ser elevado e o nivel de fiabilidade das instalacións é o adecuado, pero isto non evita incidentes. O 18 de abril, a bolsa nórdica NASDAQ (Helsinki, Finlandia) non puido cotizar en todo o norte de Europa durante o día debido á activación non autorizada dun sistema de extinción de incendios por gas no centro de datos comercial DigiPlex, que de súpeto quedou desenergizado.

O 7 de xuño, as interrupcións do centro de datos obrigaron á Bolsa de Valores de Londres (LSE) a atrasar durante unha hora o inicio da negociación. Ademais, en xuño, en Europa, debido a un fallo nun centro de datos, os servizos do sistema de pago internacional VISA quedaron desactivados durante todo o día, e nunca se revelaron os detalles do incidente.

Xapón

No verán de 2018 produciuse un incendio nos niveis subterráneos dun centro de datos de Amazon en construción nun suburbio de Toquio, co que morreron 5 traballadores e feriron polo menos 50. O lume danou uns 5000 m2 da instalación. A investigación demostrou que a causa do lume foi un erro humano: debido ao manexo descoidado dos fachos de acetileno, o illamento prendeuse.

Razóns dos fracasos

A lista de incidentes anterior está lonxe de estar completa; debido aos accidentes en centros de datos, sofren os clientes de bancos e operadores de telecomunicacións, os servizos dos provedores de nube quedan fóra de liña e mesmo o traballo dos servizos de emerxencia interrompe. Unha pequena interrupción do servizo pode provocar grandes perdas e a maioría das interrupcións (39 %) están relacionadas co sistema eléctrico, segundo o Uptime Institute. En segundo lugar (24%) sitúase o factor humano, e en terceiro (15%) o sistema de climatización. Só o 12% dos accidentes en centros de datos poden ser atribuídos a fenómenos naturais, e só o 10% deles ocorren por causas distintas ás indicadas.

A pesar dos estritos estándares de fiabilidade e seguridade, ningunha instalación está a salvo de incidentes. A maioría deles ocorren debido a fallos de enerxía ou erros humanos. Os propietarios de centros de datos e salas de servidores deben, en primeiro lugar, prestar atención a estes dous factores e os clientes deben entender: mesmo os líderes do mercado non poden garantir a fiabilidade absoluta. Se un equipo ou un servizo na nube serve procesos críticos para a empresa, deberías pensar nun sitio de copia de seguridade.

Fonte da foto: telecombloger.ru

Fonte: www.habr.com

Engadir un comentario