Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3

Continuamos nuestra historia sobre cómo cambiamos el sistema BMS en nuestros centros de datos (Parte 1, Parte 2). Al mismo tiempo, no nos limitamos a cambiar la solución de un proveedor por otro, sino que desarrollamos un sistema desde cero que se adaptaba a nuestras necesidades. Al final de nuestra historia, compartimos los resultados del trabajo realizado y soluciones interesantes que pueden resultarle útiles.

Nuevas interferencias

Aquí, como dicen, es mejor verlo una vez.

Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3Racks.

Veamos las diferencias.

  • En primer lugar, es красиво convenientemente Observe lo fácil que se ha vuelto rastrear las cargas en los módulos PDU (“Bancos” o simplemente “Bancos”) y la suma de cargas paralelas de módulos emparejados. En el modelo de bastidor del nuevo BMS, vemos inmediatamente que los módulos PDU emparejados inferiores están sobrecargados (la corriente total es mayor que los 16 A permitidos - notificación "azul"), y los superiores están subcargados. Si se desconecta una de las entradas, toda la carga se transferirá a la segunda y el módulo inferior que permanece energizado se apagará por sobrecarga. Para evitar que esto suceda, el servicio de soporte del centro de datos avisará al cliente con antelación y le enviará una recomendación sobre cómo redistribuir la carga.
  • Fácil adición de equipos. En el nuevo BMS, los sensores virtuales para las sumas de corrientes de los módulos y potencia del rack ya se agregan a las plantillas de rack estándar y se crean automáticamente después de agregar una PDU al rack. En el antiguo BMS, debían crearse manualmente y luego arrastrarse al mapa, lo que aumentaba la probabilidad de error debido al “factor humano”.
  • Espacio ilimitado para la creatividad. Ahora no tenemos restricciones a la hora de crear sensores virtuales. Puede construir absolutamente cualquier modelo matemático de cualquier variable. Esto significa que tenemos la capacidad de crear sensores virtuales complejos (antes solo podíamos agregar valores) y analizar mejor las estadísticas y tendencias en el desempeño de los sistemas de ingeniería. Esto mejora la calidad de las decisiones tomadas con respecto a la configuración del sistema, el reemplazo de equipos y la gestión de recursos. 
  • Interfaz intuitiva. En la nueva interfaz no hay un montón de iconos, los ventiladores giran y los interruptores hacen clic. Y lo más conveniente es la posibilidad de indicar el estado de la PDU Línea A/B dentro de los racks. Intentamos hacer algo similar en el antiguo BMS, pero la cantidad de íconos fusionados por centímetro cuadrado del mapa nos obligó a abandonarlo.

Ahora es agradable mirar:

Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3
Servidor.

Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3
Fragmento del cuadro principal.

Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3
Panel de control de ventilación.

Y el nuevo BMS se puede decorar para el Año Nuevo  🙂
Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3

Una página: entendimiento mutuo sin palabras y sin especificaciones técnicas

Durante mucho tiempo quisimos implementar otro "truco" en BMS: recopilar los parámetros principales del centro de datos en una página, de modo que un vistazo a la pantalla fuera suficiente para evaluar el estado de los sistemas principales. Sin embargo, no entendíamos completamente cómo debería verse.

Incluso antes de que comenzara el desarrollo del nuevo BMS, visitamos de excursión una docena de centros de datos en los Países Bajos. Uno de los objetivos era ver ejemplos de la implementación de dicha página.

Y ni un solo centro de datos nos lo mostró: en algunos no estaba, en otros se estaba "desarrollando ahora mismo", en otros era un "gran secreto comercial". Por lo tanto, en nuestros términos de referencia para la creación de un nuevo BMS, no había una descripción precisa de esta página tan importante para nosotros.

Como resultado, se nos ocurrió literalmente "sobre la marcha". Justo en ese momento tuve que consultar remotamente a mis colegas en el centro de datos. Era muy incómodo desplazarse por las páginas de BMS en el teléfono en busca de datos dispersos y, de hecho, la primera versión estaba dibujada en una servilleta. una página. Fue implementado por los desarrolladores basándose en la foto. 

Siguiendo el ejemplo de nuestros prudentes colegas holandeses, no mostraremos la versión final de nuestra página principal, especialmente porque cada centro de datos es único y no tiene sentido copiarlo. Pero describamos dos principios fundamentales de su formación:

  1. Se trata de una mesa diseñada para adaptarse al formato de la pantalla vertical de un teléfono inteligente (o un monitor, pero manteniendo un diseño vertical), con toda la información importante mostrada en una sola pantalla. Encima de la tabla hay un “resumen” de incidentes activos, por lo que era más conveniente colocarlos juntos en formato vertical. 
  2. La disposición de las celdas en la tabla sigue la arquitectura del centro de datos (física o lógica). Hemos abandonado la disposición de los sistemas en orden alfabético, como sería deseable a primera vista. La secuencia refleja las asociaciones visuales del personal del centro de datos, como si estuvieran monitoreando físicamente todas las salas y sistemas. Esto hace que sea más fácil encontrar información.

De hecho, ahora absolutamente todas las características clave del centro de datos se agrupan y presentan en una pantalla del teléfono inteligente/monitor del ingeniero y gerente responsable, mientras se implementa la vinculación con la topografía física y lógica del centro de datos. 

Aquí tenéis una foto de ese primer borrador, aunque, claro, luego esta versión fue repensada y finalizada.

Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3

Acuse de recibo y resumen de incidencias.

Hablemos de otro concepto nuevo para nosotros, que surgió como resultado del proyecto de actualización del sistema de seguimiento.

Handshake es un término bastante raro propuesto por el desarrollador del nuevo BMS. Significa confirmación de que el operador vio el incidente, lo reconoció y aceptó responsabilidades para resolverlo.  

La palabra se ha quedado y ahora “reconocemos” los incidentes.

El algoritmo incluido en la versión básica del nuevo BMS no nos convenía. De hecho, estos fueron comentarios al registro de eventos, es decir, los incidentes resueltos no desaparecieron del registro y los aceptados ("reconocidos") no se separaron de los nuevos.

Como resultado se desarrolló una ventana denominada “resumen”, en la cual:

  1. Sólo se muestran incidencias activas y dispositivos en modo servicio (no avisos azules comerciales).
  2. Existe una clara distinción entre incidentes NUEVOS y ACEPTADOS.
  3. Se indica quién aceptó el incidente.

El algoritmo de trabajo de los oficiales de servicio en el nuevo BMS es el siguiente:

  1. Los nuevos incidentes se incluyen en el informe y esperan reconocimiento. No pueden permanecer mucho tiempo en esta sección, debiendo la persona encargada del equipo hacerse cargo inmediatamente de la incidencia.
  2. El empleado asume la responsabilidad del incidente haciendo clic en la marca de verificación de la derecha. Dado que todos los empleados tienen cuentas únicas, se muestra automáticamente quién aceptó el incidente. Si es necesario, deja un comentario.
  3. El incidente se traslada a la sección “Reconocido”, el resto de los oficiales de turno y el gerente entienden que el incidente está siendo manejado por el empleado responsable.

Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3
Ejemplo de ventana de resumen con un mensaje nuevo y ya confirmado.

Al conectar la ventana de resumen con la tabla de una página, obtuvimos una vista completa Pantalla principal Sistema BMS, donde puedes ver inmediatamente: 

  • condición de los principales sistemas del centro de datos;
  • presencia de nuevas incidencias no procesadas;
  • la presencia de incidencias aceptadas e información sobre quién las elimina específicamente.

Acceso al navegador y alertas emergentes del teléfono

La interfaz web, accesible desde cualquier dispositivo desde cualquier parte del mundo, contrasta marcadamente con el cliente "grueso", que está completamente cerrado a usuarios externos. 

El antiguo enfoque entrañaba una serie de inconvenientes, desde problemas para organizar el trabajo remoto de los empleados del servicio de seguimiento hasta la necesidad de instalar clientes "pesados" desde kits de distribución en las estaciones de trabajo del personal en el centro de datos.

Ahora cualquier página en BMS tiene una dirección única, lo que le permite compartir no solo la dirección directa de la página o dispositivo, sino también enlaces a gráficos/informes únicos. 

El acceso al sistema ahora se realiza mediante autenticación LDAP a través de Active Directory, lo que aumenta su nivel de seguridad. 

Hoy en día, la movilidad es un factor clave en el trabajo de calidad de los ingenieros de servicio. Además del seguimiento en la sala de turnos de servicio, los ingenieros realizan rondas, realizan trabajos de rutina fuera de la "sala de trabajo" y, gracias a la pantalla principal BMS optimizada para pantallas móviles, no pierden el control de lo que sucede en las salas de turbinas, incluso por un segundo. 

La calidad del control también se mejora gracias a la funcionalidad de los chats de trabajo. Aceleran los procesos de trabajo al permitir que la correspondencia de los ingenieros de servicio esté "vinculada" al BMS. Por ejemplo, utilizamos la aplicación Teams, que le permite realizar correspondencia interna y recibir todos los mensajes del BMS en su teléfono en forma de notificaciones push emergentes, lo que elimina la necesidad de que el oficial de guardia mire constantemente el teléfono. pantalla.

Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3
 Notificación push en la pantalla del teléfono inteligente.

Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3
Así se ven las notificaciones en la aplicación Teams.

Al mismo tiempo, las notificaciones emergentes están configuradas solo para mensajes sobre la ocurrencia de incidentes, minimizando así el factor de distracción; el personal sabe: si aparece una notificación push de Teams en la pantalla del teléfono inteligente, entonces deben ir a la página de BMS. y aceptar el incidente. Los mensajes de resolución de incidentes se rastrean en la página BMS.

Monitorización en el centro de datos: cómo cambiamos el antiguo BMS por el nuevo. Parte 3
La foto muestra la interfaz BMS en un teléfono inteligente.

En resumen

Si bien el coste de actualizar un BMS de nuestro antiguo proveedor era comparable al de desarrollar un nuevo sistema desde cero (alrededor de 100 dólares), la diferencia en la funcionalidad de los productos resultó ser colosal. Recibimos un sistema flexible optimizado para nuestras tareas y procesos comerciales. También hemos logrado ahorros significativos en costos de actualización y soporte continuo del sistema. 

Pero, por supuesto, hubo dificultades. 

  • En primer lugar, subestimamos la cantidad de cambios que debían realizarse en la versión base del nuevo BMS y no cumplimos con los plazos acordados previamente. Para nosotros esto no fue un problema crítico, ya que estábamos asegurados hasta el último minuto y trabajamos con el sistema antiguo, y el proceso era creativo, complejo y por eso a veces iba más lento de lo esperado. Además, siempre hemos visto que nuestro desarrollador hace todo lo posible para lograr el mejor resultado. Pero, de hecho, la historia resultó ser muy larga y nuestros especialistas clave le dedicaron mucho más esfuerzo y tiempo del que habían planeado. 
  • En segundo lugar, necesitábamos varias etapas de prueba para depurar el algoritmo de reserva de máquinas virtuales y canales de comunicación. Inicialmente, hubo fallas tanto en el sistema BMS como en la configuración de las máquinas virtuales y la red. Esta depuración también llevó tiempo. Afortunadamente, el contratista dispuso de una plataforma de prueba en forma de servicio en la nube, donde se probaron inicialmente todas las configuraciones e innovaciones.
  • En tercer lugar, el sistema resultante resultó ser más difícil de editar por parte del usuario final. Si antes un mapa constaba de un fondo (archivo gráfico) e iconos que eran fáciles de cambiar o mover, ahora es una interfaz gráfica compleja con animación que requiere ciertas habilidades de edición.

La actualización radical de nuestro sistema BMS ya puede considerarse el proyecto más importante del año pasado, que afectará seriamente la calidad de la gestión operativa de nuestras instalaciones en el futuro. 

Por supuesto, no tiramos el viejo servidor de hierro, sino que lo “aligeramos”: lo limpiamos de miles de sensores virtuales y PDU “comerciales” y dejamos en él sólo unas pocas docenas de los dispositivos más críticos, como el diésel. grupos electrógenos, UPS, aires acondicionados, bombas, sensores de fugas y temperaturas En este modo, su velocidad anterior ha vuelto y puede ser una "reserva de reserva". Por cierto, después de retirar la PDU del antiguo BMS, liberamos alrededor de 1000 licencias ahora innecesarias, ¿sabes qué hacer con ellas?

Fuente: habr.com

Añadir un comentario