La principal causa de accidentes en los centros de datos es la junta entre el ordenador y la silla

El tema de los accidentes graves en los centros de datos modernos plantea preguntas que no fueron respondidas en el primer artículo; decidimos desarrollarlo.

La principal causa de accidentes en los centros de datos es la junta entre el ordenador y la silla

Según estadísticas del Uptime Institute, la mayoría de los incidentes en los centros de datos están relacionados con fallas del sistema eléctrico: representan el 39% de los incidentes. Le sigue el factor humano, que representa otro 24% de los accidentes. La tercera causa más importante (15%) fue el fallo del sistema de aire acondicionado y en cuarto lugar (12%) los desastres naturales. La proporción total de otros problemas es sólo del 10%. Sin cuestionar los datos de una organización respetada, resaltaremos algo común en diferentes accidentes y trataremos de comprender si podrían haberse evitado. Spoiler: es posible en la mayoría de los casos.

La ciencia de los contactos

En pocas palabras, solo hay dos problemas con la fuente de alimentación: o no hay contacto donde debería estar, o hay contacto donde no debería haber contacto. Se puede hablar durante mucho tiempo sobre la confiabilidad de los sistemas modernos de suministro de energía ininterrumpida, pero no siempre lo salvan. Tomemos el caso de alto perfil del centro de datos utilizado por British Airways, que es propiedad de la empresa matriz International Airlines Group. Hay dos propiedades de este tipo ubicadas cerca del aeropuerto de Heathrow: Boadicea House y Comet House. En el primero de ellos, el 27 de mayo de 2017, se produjo un corte de energía accidental, que provocó una sobrecarga y falla del sistema UPS. Como resultado, algunos de los equipos de TI sufrieron daños físicos y el último desastre tardó tres días en resolverse.

La aerolínea tuvo que cancelar o reprogramar más de mil vuelos, alrededor de 75 mil pasajeros no pudieron volar a tiempo; se gastaron 128 millones de dólares en el pago de compensaciones, sin contar los costos necesarios para restablecer la funcionalidad de los centros de datos. La historia de los motivos del apagón no está clara. Si cree en los resultados de la investigación interna anunciada por el director ejecutivo de International Airlines Group, Willie Walsh, se debió a un error de los ingenieros. Sin embargo, el sistema de suministro de energía ininterrumpida tuvo que resistir tal apagón, por eso se instaló. El centro de datos estaba gestionado por especialistas de la empresa de subcontratación CBRE Managed Services, por lo que British Airways intentó recuperar el importe del daño a través de un tribunal de Londres.

La principal causa de accidentes en los centros de datos es la junta entre el ordenador y la silla

Los cortes de energía ocurren en escenarios similares: primero hay un apagón debido a fallas del proveedor de electricidad, a veces debido al mal tiempo o problemas internos (incluidos errores humanos), y luego el sistema de suministro de energía ininterrumpida no puede hacer frente a la carga o un corto -La interrupción temporal de la onda sinusoidal provoca fallos en muchos servicios, provocando que su restauración requiera mucho tiempo y dinero. ¿Es posible evitar este tipo de accidentes? Indudablemente. Si el sistema se diseña correctamente, ni siquiera los creadores de grandes centros de datos están inmunes a errores.

Factor humano

Cuando la causa inmediata de un incidente son las acciones incorrectas del personal del centro de datos, los problemas afectan con mayor frecuencia (pero no siempre) la parte de software de la infraestructura de TI. Este tipo de accidentes ocurren incluso en las grandes corporaciones. En febrero de 2017, debido a que un miembro del equipo de operación técnica de uno de los centros de datos fue reclutado incorrectamente, parte de los servidores de Amazon Web Services fueron desactivados. Se produjo un error al depurar el proceso de facturación para los clientes de almacenamiento en la nube de Amazon Simple Storage Service (S3). Un empleado intentó eliminar varios servidores virtuales utilizados por el sistema de facturación, pero golpeó un grupo más grande.

La principal causa de accidentes en los centros de datos es la junta entre el ordenador y la silla

Como resultado de un error de ingeniero, se eliminaron servidores que ejecutaban importantes módulos de software de almacenamiento en la nube de Amazon. El primero afectado fue el subsistema de indexación, que contiene información sobre los metadatos y la ubicación de todos los objetos S3 en la región americana US-EAST-1. El incidente también afectó al subsistema utilizado para alojar los datos y gestionar el espacio disponible para su almacenamiento. Después de eliminar las máquinas virtuales, estos dos subsistemas requirieron un reinicio completo, y entonces los ingenieros de Amazon se llevaron una sorpresa: durante mucho tiempo, el almacenamiento en la nube pública no pudo atender las solicitudes de los clientes.

El impacto fue generalizado, ya que muchos recursos importantes utilizan Amazon S3. Los cortes afectaron a Trello, Coursera, IFTTT y, lo que es más desagradable, a los servicios de los principales socios de Amazon de la lista S&P 500. El daño en tales casos es difícil de calcular, pero fue del orden de cientos de millones de dólares estadounidenses. Como puede ver, un comando incorrecto es suficiente para desactivar el servicio de la plataforma en la nube más grande. Este no es un caso aislado, el 16 de mayo de 2019, durante trabajos de mantenimiento, el servicio Yandex.Cloud eliminado máquinas virtuales de usuarios en la zona ru-central1-c que estuvieron en estado SUSPENDIDO al menos una vez. Aquí ya se dañaron los datos del cliente, algunos de los cuales se perdieron irremediablemente. Por supuesto, las personas son imperfectas, pero los sistemas modernos de seguridad de la información han podido monitorear durante mucho tiempo las acciones de los usuarios privilegiados antes de ejecutar los comandos que ingresaron. Si estas soluciones se implementan en Yandex o Amazon, se pueden evitar incidentes de este tipo.

La principal causa de accidentes en los centros de datos es la junta entre el ordenador y la silla

Enfriamiento congelado

En enero de 2017 se produjo un accidente grave en el centro de datos de Dmitrov de la empresa Megafon. Luego, la temperatura en la región de Moscú descendió a -35 °C, lo que provocó un fallo del sistema de refrigeración de la instalación. El servicio de prensa del operador no habló particularmente sobre las razones del incidente: las empresas rusas son extremadamente reticentes a hablar de accidentes en sus propias instalaciones; en términos de publicidad, estamos muy por detrás de Occidente. En las redes sociales circulaba una versión sobre la congelación del refrigerante en las tuberías tendidas a lo largo de la calle y la fuga de etilenglicol. Según ella, el servicio de operación no pudo obtener rápidamente 30 toneladas de refrigerante debido a las largas vacaciones y salió con medios improvisados, organizando un free-cooling improvisado, violando las normas de funcionamiento del sistema. El frío intenso agravó el problema: en enero, de repente, el invierno llegó a Rusia, aunque nadie lo esperaba. Como resultado, el personal tuvo que cortar la alimentación de parte de los racks de servidores, por lo que algunos servicios del operador estuvieron fuera de servicio durante dos días.

La principal causa de accidentes en los centros de datos es la junta entre el ordenador y la silla

Probablemente aquí se pueda hablar de una anomalía meteorológica, pero este tipo de heladas no son algo inusual en la región de la capital. Las temperaturas en invierno en la región de Moscú pueden bajar a niveles más bajos, por lo que los centros de datos se construyen con la expectativa de un funcionamiento estable a -42°C. Muy a menudo, los sistemas de refrigeración fallan en climas fríos debido a una concentración insuficientemente alta de glicoles y exceso de agua en la solución refrigerante. También existen problemas con la instalación de tuberías o con errores de cálculo en el diseño y prueba del sistema, principalmente asociados al deseo de ahorrar dinero. Como resultado, de repente se produce un accidente grave que podría haberse evitado.

Desastres naturales

Muy a menudo, las tormentas eléctricas y/o los huracanes interrumpen la infraestructura de ingeniería de un centro de datos, lo que provoca interrupciones del servicio y/o daños físicos a los equipos. Los incidentes causados ​​por el mal tiempo ocurren con bastante frecuencia. En 2012, el huracán Sandy arrasó la costa oeste de Estados Unidos provocando fuertes lluvias. Ubicado en un edificio de gran altura en el Bajo Manhattan, el centro de datos Peer 1 pérdida de fuente de alimentación externa, después de que el agua salada del mar inundara los sótanos. Los generadores de emergencia de la instalación estaban ubicados en el piso 18 y su suministro de combustible era limitado: las reglas introducidas en Nueva York después de los ataques terroristas del 9 de septiembre prohíben almacenar grandes cantidades de combustible en los pisos superiores.

La bomba de combustible también falló, por lo que el personal pasó varios días transportando manualmente el diésel hasta los generadores. El heroísmo del equipo salvó al centro de datos de un grave accidente, pero ¿era realmente necesario? Vivimos en un planeta con una atmósfera de nitrógeno y oxígeno y mucha agua. Las tormentas y los huracanes son comunes aquí (especialmente en las zonas costeras). Los diseñadores probablemente harían bien en considerar los riesgos involucrados y construir un sistema de suministro de energía ininterrumpible apropiado. O al menos elegir una ubicación más adecuada para el centro de datos que un rascacielos en una isla.

Todo lo demas

Uptime Institute identifica una variedad de incidentes en esta categoría, entre los cuales es difícil elegir uno típico. Robos de cables de cobre, coches chocando contra centros de datos, soportes de líneas eléctricas y subestaciones transformadoras, incendios, operadores de excavadoras que dañan la óptica, roedores (ratas, conejos e incluso wombats, que en realidad son marsupiales), así como aquellos a los que les gusta practicar tiro cables: el menú es extenso. Los cortes de energía pueden incluso causar robando electricidad plantación ilegal de marihuana. En la mayoría de los casos, los culpables del incidente son personas concretas, es decir, volvemos a estar ante el factor humano, cuando el problema tiene nombre y apellido. Incluso si a primera vista el accidente está relacionado con un mal funcionamiento técnico o un desastre natural, se puede evitar siempre que la instalación esté correctamente diseñada y operada correctamente. Las únicas excepciones son los casos de daños críticos a la infraestructura del centro de datos o destrucción de edificios y estructuras debido a un desastre natural. Estas son verdaderamente circunstancias de fuerza mayor, y todos los demás problemas son causados ​​​​por la junta entre la computadora y la silla; quizás esta sea la parte menos confiable de cualquier sistema complejo.

Fuente: habr.com

Añadir un comentario