Los centros de datos modernos son fiables, pero cualquier equipo se estropea de vez en cuando. En este breve artículo hemos recopilado las incidencias más significativas de 2018.

La influencia de las tecnologías digitales en la economía va en aumento, aumenta el volumen de información procesada, se construyen nuevas instalaciones, y esto es bueno mientras todo funcione. Desafortunadamente, el impacto económico de las fallas de los centros de datos también ha aumentado desde que las personas comenzaron a albergar infraestructura de TI crítica para el negocio como consecuencia inevitable de la digitalización. Publicamos una pequeña selección de los accidentes más destacados ocurridos en diferentes países el año pasado.
Estados Unidos
Este país es un líder reconocido en la construcción de centros de datos. Estados Unidos tiene el mayor número de grandes centros comerciales y corporativos. centros de datos, que da soporte a servicios globales, por lo que el impacto de los incidentes allí es más significativo. A principios de marzo, un potente ciclón provocó cortes de energía en cuatro instalaciones de Equinix. Estas instalaciones albergaban equipos de Amazon Web Services (AWS), y el corte provocó la indisponibilidad de numerosos servicios populares, como GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio y mCapital One, así como del asistente virtual de Amazon, Alexa.
En septiembre, las anomalías climáticas afectaron los centros de datos de Microsoft ubicados en Texas, luego, debido a una tormenta, el sistema de suministro de energía de toda la región se interrumpió y en el centro de datos, que pasó a recibir energía del grupo electrógeno diesel, se desconoce por qué. el enfriamiento se apagó. Se necesitaron varios días para eliminar las consecuencias del accidente y, aunque gracias al equilibrio de carga esta falla no llegó a ser crítica, los usuarios de todo el mundo notaron una ligera desaceleración en el funcionamiento de los servicios en la nube de Microsoft.
United States of America
El accidente más grave ocurrió el 20 de agosto en uno de los centros de datos de Rostelecom. Debido a esto, los servidores del Registro Unificado de Bienes Raíces del Estado se detuvieron durante 66 horas, por lo que tuvieron que ser trasladados a un sitio de respaldo. Rosreestr no pudo restaurar el procesamiento de las solicitudes recibidas a través de todos los canales solo el 3 de septiembre: la organización gubernamental está tratando de recuperar una gran cantidad de Rostelecom por violar el acuerdo de nivel de servicio.
El 16 de febrero, debido a problemas en las redes de Lenenergo, se encendió el sistema de suministro de energía de respaldo en el centro de datos de Xelnet (San Petersburgo). Una interrupción breve de la onda sinusoidal provocó interrupciones en el funcionamiento de muchos servicios: en particular, el gran proveedor de la nube 1cloud se vio afectado, pero el problema más notable para los internautas rusos fue la imposibilidad de acceder a la red social VKontakte. . Lo más interesante es que se necesitaron unas 12 horas para eliminar por completo las consecuencias de un corte de energía a corto plazo.
UE
En 2018 se registraron varios incidentes graves en la UE. En marzo, un centro de datos de KLM sufrió un corte de electricidad: el suministro eléctrico se perdió durante 10 minutos y los generadores diésel fueron insuficientes para operar los equipos. servidores Cayó y las aerolíneas tuvieron que cancelar o reprogramar docenas de vuelos.
Este no es el único incidente relacionado con los viajes aéreos: ya en abril se produjo un fallo en el sistema de suministro de energía del centro de datos de Eurocontrol. La organización controla el movimiento de aviones en la Unión Europea, y mientras los especialistas tardaron 5 horas en eliminar las consecuencias del accidente, los pasajeros nuevamente tuvieron que sufrir retrasos y reprogramaciones de vuelos.
Surgen problemas muy graves debido a accidentes en los centros de datos que atienden al sector financiero. El coste de las interrupciones en las transacciones aquí suele ser elevado y el nivel de fiabilidad de las instalaciones es adecuado, pero esto no evita que se produzcan incidencias. El 18 de abril, la bolsa de valores nórdica NASDAQ (Helsinki, Finlandia) no pudo negociar en todo el norte de Europa durante el día debido a la activación no autorizada de un sistema de extinción de incendios por gas en el centro de datos comercial DigiPlex, que repentinamente se desenergizó.
El 7 de junio, las interrupciones en los centros de datos obligaron a la Bolsa de Valores de Londres (LSE) a retrasar el inicio de las operaciones durante una hora. Además, en junio, en Europa, debido a una falla en un centro de datos, los servicios del sistema de pago internacional VISA quedaron desactivados durante todo el día y los detalles del incidente nunca fueron revelados.
Japón
En el verano de 2018, se produjo un incendio en los niveles subterráneos de un centro de datos de Amazon en construcción en un suburbio de Tokio, que mató a cinco trabajadores e hirió al menos a 5. El incendio dañó unos 50 m5000 de las instalaciones. La investigación demostró que la causa del incendio fue un error humano: debido al manejo descuidado de los sopletes de acetileno, el aislamiento se encendió.
Razones de los fracasos
La lista anterior de incidentes está lejos de ser completa: debido a accidentes en los centros de datos, los clientes de bancos y operadores de telecomunicaciones sufren, los servicios de los proveedores de la nube se desconectan e incluso se interrumpe el trabajo de los servicios de emergencia. Una pequeña interrupción del servicio puede provocar pérdidas importantes, y la mayoría de las interrupciones (39%) están relacionadas con el sistema eléctrico, según el Uptime Institute. En segundo lugar (24%) está el factor humano y en tercer lugar (15%) el sistema de aire acondicionado. Sólo el 12% de los accidentes en los centros de datos pueden atribuirse a fenómenos naturales, y sólo el 10% de ellos ocurren por motivos distintos a los enumerados.
A pesar de los estrictos estándares de confiabilidad y seguridad, ninguna instalación está inmune a los incidentes. La mayoría de ellos ocurren debido a cortes de energía o errores humanos. Los propietarios de centros de datos y salas de servidores deben, en primer lugar, prestar atención a estos dos factores y los clientes deben comprender que ni siquiera los líderes del mercado pueden garantizar una fiabilidad absoluta. Si un equipo o un servicio en la nube atiende procesos críticos para el negocio, debería pensar en un sitio de respaldo.
Fuente de la foto: telecombloger.ru
Fuente: habr.com
