Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3

Continuamos a nosa historia sobre como cambiamos o sistema BMS nos nosos centros de datos (parte de 1, parte de 2). Ao mesmo tempo, non simplemente cambiamos a solución dun provedor por outro, senón que desenvolvemos un sistema desde cero para atender ás nosas necesidades. Ao final da nosa historia, compartimos os resultados do traballo realizado e solucións interesantes que che poden ser útiles.

Nova interface

Aquí, como din, é mellor velo unha vez.

Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3Racks.

Vexamos as diferenzas.

  • En primeiro lugar, é красиво cómodo. Observe o fácil que se volveu rastrexar as cargas dos módulos PDU ("Bancos" ou simplemente "Bancos") e a suma das cargas paralelas dos módulos emparellados. No modelo de rack do novo BMS, vemos inmediatamente que os módulos PDU emparellados inferiores están sobrecargados (a corrente total é superior á notificación "azul") permitida de 16A e os superiores están subcargados. Se unha das entradas está desconectada, toda a carga transferirase á segunda e o módulo inferior que permanece energizado apagarase debido á sobrecarga. Para evitar que isto suceda, o servizo de asistencia do centro de datos avisará ao cliente con antelación e enviará unha recomendación sobre como redistribuír a carga.
  • Fácil adición de equipos. No novo BMS, os sensores virtuais para as sumas de correntes do módulo e a potencia do rack xa se engaden aos modelos de rack estándar e créanse automaticamente despois de engadir unha PDU ó rack. No antigo BMS, tiñan que ser creados manualmente e despois arrastrados ao mapa, o que aumentaba a probabilidade de erro debido ao "factor humano".
  • Espazo ilimitado para a creatividade. Agora non temos restricións á hora de crear sensores virtuais. Podes construír absolutamente calquera modelo matemático de calquera variable. Isto significa que temos a capacidade de crear sensores virtuais complexos (antes só podíamos engadir valores) e analizar mellor as estatísticas e as tendencias no rendemento dos sistemas de enxeñería. Isto mellora a calidade das decisións tomadas sobre a configuración do sistema, a substitución de equipos e a xestión de recursos. 
  • Interface clara. Na nova interface non hai desorde de iconas, os fans xiran, os interruptores "clic". E o máis conveniente é a posibilidade de indicar o estado da PDU Line A/B dentro dos racks. Tentamos facer algo semellante no antigo BMS, pero o número de iconas combinadas por centímetro cadrado do mapa obrigounos a abandonalo.

Agora é bo mirar:

Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3
Servidor.

Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3
Fragmento do cadro principal.

Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3
Panel de control de ventilación.

E o novo BMS pódese decorar para o ano novo  🙂
Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3

Unha páxina: entendemento mutuo sen unha palabra e sen especificacións técnicas

Durante moito tempo queriamos implementar outro "truco" en BMS: compilar os parámetros principais do centro de datos nunha páxina, para que unha ollada á pantalla fose suficiente para avaliar o estado dos principais sistemas. Non obstante, non entendiamos ben como debería ser.

Mesmo antes de que comezase o desenvolvemento do novo BMS, visitamos unha ducia de centros de datos nos Países Baixos en excursións. Un dos obxectivos era ver exemplos da implantación desta páxina.

E nin un só centro de datos nolo mostrou: nalgúns non estaba alí, noutros estaba "a desenvolverse agora mesmo", noutros era un "gran segredo comercial". Polo tanto, nos nosos termos de referencia para a creación dun novo BMS, non había unha descrición precisa desta páxina tan importante para nós.

Como resultado, ocorrémolo literalmente "sobre a marcha". Xusto nese momento tiven que consultar a distancia aos compañeiros do centro de datos. Era moi incómodo desprazarse polas páxinas de BMS no teléfono en busca de datos espallados e, de feito, a primeira versión estaba esbozada nunha servilleta. Unha páxina. Foi implementado polos desenvolvedores baseándose na foto. 

Seguindo o exemplo dos nosos cautelosos colegas holandeses, non imos demostrar a versión final da nosa páxina principal, especialmente porque cada centro de datos é único e non ten sentido copialo. Pero imos describir dous principios principais da súa formación:

  1. Esta é unha táboa deseñada para adaptarse ao formato dunha pantalla de teléfono intelixente situada verticalmente (ou dun monitor, pero mantendo un deseño vertical), con toda a información importante que se mostra nunha soa pantalla. Enriba da táboa hai un "resumo" das incidencias activas, polo que era máis conveniente colocalas xuntos nun formato vertical. 
  2. A disposición das celas na táboa segue a arquitectura do centro de datos (física ou lóxica). Abandonamos a ordenación dos sistemas por orde alfabética, como sería desexable a primeira vista. A secuencia reflicte as asociacións visuais do persoal do centro de datos, coma se supervisasen fisicamente todas as salas e sistemas. Isto fai máis doado atopar información.

De feito, agora absolutamente todas as características clave do centro de datos agrúpanse e preséntanse nunha pantalla do teléfono intelixente/monitor do enxeñeiro e xestor responsable, mentres se implementa a vinculación coa topografía física e lóxica do centro de datos. 

Aquí tedes unha foto daquel primeiro borrador, aínda que, por suposto, despois esta versión foi repensada e finalizada.

Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3

Recoñecemento e resumo da incidencia

Falemos doutro novo concepto para nós, que xurdiu a raíz do proxecto de actualización do sistema de seguimento.

Apretón de mans é un termo bastante raro que foi proposto polo desenvolvedor do novo BMS. Significa a confirmación de que o operador viu o incidente, o recoñeceu e asumiu as responsabilidades para resolvelo.  

A palabra quedou atrapada, e agora "recoñecemos" os incidentes.

O algoritmo incluído na versión básica do novo BMS non nos conveña. De feito, trátase de comentarios ao rexistro de eventos, é dicir, as incidencias resoltas non desapareceron do rexistro, e as aceptadas (“recoñecidas”) non se clasificaron das novas.

Como resultado, desenvolveuse unha xanela chamada "resumo", na que:

  1. Só se amosan incidentes activos e dispositivos en modo de servizo (sen notificacións comerciais azuis).
  2. Hai unha clara distinción entre incidentes NOVOS e ACEPTADOS.
  3. Indícase quen aceptou o incidente.

O algoritmo de traballo para os axentes de servizo no novo BMS é o seguinte:

  1. As novas incidencias inclúense no informe e agardan a súa recepción. Non poden permanecer neste tramo durante moito tempo; a persoa de servizo do equipamento deberá facerse inmediatamente cargo do incidente.
  2. O empregado asume a responsabilidade do incidente facendo clic na marca de verificación da dereita. Dado que todos os empregados están baixo contas únicas, móstrase automaticamente quen aceptou o incidente. Se é necesario, deixa un comentario.
  3. O incidente trasládase á sección "Recoñecido", o resto dos axentes de servizo e o xerente entenden que o incidente está a ser xestionado polo empregado responsable.

Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3
Exemplo de ventá de resumo cunha mensaxe nova e xa confirmada.

Ao conectar a xanela de resumo coa táboa dunha páxina, obtivemos un completo pantalla principal Sistema BMS, onde podes ver inmediatamente: 

  • estado dos principais sistemas do centro de datos;
  • presenza de novas incidencias sen tramitar;
  • a presenza de incidencias aceptadas e información sobre quen as elimina especificamente.

Acceso ao navegador e alertas emerxentes do teléfono

A interface web, accesible desde calquera dispositivo desde calquera parte do mundo, é un marcado contraste co cliente "groso", que está completamente pechado para usuarios externos. 

O vello enfoque supuxo unha serie de inconvenientes, desde problemas na organización do traballo remoto para supervisar os empregados do servizo ata a necesidade de instalar clientes "grosos" desde kits de distribución nas estacións de traballo do persoal do centro de datos.

Agora calquera páxina en BMS ten un enderezo único, o que che permite compartir non só o enderezo directo da páxina ou do dispositivo, senón tamén ligazóns a gráficos/informes únicos. 

O acceso ao sistema realízase agora mediante a autenticación LDAP a través de Active Directory, o que aumenta o seu nivel de seguridade. 

A mobilidade é hoxe un factor clave no traballo de calidade dos enxeñeiros de servizo. Ademais de supervisar a vixilancia na sala de quendas de servizo, os enxeñeiros realizan roldas, realizan traballos rutineiros fóra da "sala de servizo" e, grazas á pantalla principal do BMS optimizada para pantallas móbiles, non perden o control do que está a suceder nas salas de turbinas nin sequera por un segundo. 

Tamén se mellora a calidade do control grazas á funcionalidade dos chats de traballo. Axilizan os procesos de traballo ao permitir que a correspondencia dos enxeñeiros de servizo estea "vinculada" ao BMS. Por exemplo, usamos a aplicación Teams, que che permite realizar correspondencia interna e recibir todas as mensaxes do BMS no teu teléfono en forma de notificacións emerxentes Push, o que elimina a necesidade de que o oficial de servizo mire constantemente o teléfono. pantalla.

Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3
 Notificación push na pantalla do smartphone.

Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3
Así se ven as notificacións na aplicación Teams.

Ao mesmo tempo, as notificacións emerxentes configúranse só para mensaxes sobre a aparición de incidentes, minimizando así o factor de distracción; o persoal sabe: se aparece unha notificación push de Teams na pantalla do teléfono intelixente, entón debe ir á páxina BMS. e acepta o incidente. As mensaxes de resolución de incidentes son rastrexadas na páxina BMS.

Monitorización no centro de datos: como substituímos o antigo BMS por un novo. Parte 3
A foto mostra a interface BMS nun teléfono intelixente.

Resumo

Aínda que o custo de actualizar un BMS do noso antigo provedor era comparable ao de desenvolver un novo sistema desde cero (uns 100 dólares), a diferenza na funcionalidade dos produtos resultou colosal. Recibimos un sistema flexible optimizado para as nosas tarefas e procesos empresariais. Tamén conseguimos aforros significativos nos custos de actualización e soporte continuo do sistema. 

Pero, claro, houbo dificultades. 

  • En primeiro lugar, subestimamos a cantidade de cambios que había que facer na versión base do novo BMS e non cumprimos os prazos acordados previamente. Para nós non foi un problema crítico, xa que estivemos asegurados ata o último momento e traballamos no sistema antigo, e o proceso foi creativo, complexo e, polo tanto, ás veces foi máis lento do previsto. Ademais, sempre vimos que o noso programador fai todo o posible para conseguir o mellor resultado. Pero, de feito, a historia resultou ser moi longa e os nosos especialistas clave dedicaron moito máis esforzo e tempo ao que tiñan previsto. 
  • En segundo lugar, necesitabamos varias fases de proba para depurar o algoritmo de reserva de máquinas virtuais e canles de comunicación. Inicialmente, houbo fallos tanto no lado do sistema BMS como no lado da configuración das máquinas virtuais e da rede. Esta depuración tamén levou tempo. Afortunadamente, o contratista recibiu unha plataforma de proba en forma de servizo na nube, onde se probaron inicialmente todas as configuracións e innovacións.
  • En terceiro lugar, o sistema resultante resultou ser máis difícil de editar polo usuario final. Se antes un mapa constaba dun fondo (arquivo gráfico) e iconas que eran fáciles de cambiar ou mover, agora trátase dunha complexa interface gráfica con animación que require certas habilidades de edición.

A actualización radical do noso sistema BMS xa se pode chamar o proxecto máis importante do ano pasado, o que afectará seriamente a calidade da xestión operativa dos nosos sitios no futuro. 

Nós, por suposto, non tiramos o vello servidor de ferro, senón que o "alixémolo": limpámolo de miles de sensores virtuais e PDU "comerciais" e deixamos nel só unhas poucas ducias dos dispositivos máis críticos, como o gasóleo. grupos electrógenos, UPS, aire acondicionado, bombas, sensores de fugas y temperaturas Neste modo, a súa antiga velocidade volveu e pode ser unha "reserva de reserva". Por certo, despois de quitar a PDU do antigo BMS, liberamos unhas 1000 licenzas agora innecesarias, sabes que facer con elas?

Fonte: www.habr.com

Engadir un comentario