Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3

Continuamos nossa história sobre como mudamos o sistema BMS em nossos data centers (parte 1, parte 2). Ao mesmo tempo, não trocamos simplesmente a solução de um fornecedor por outro, mas desenvolvemos um sistema do zero para atender às nossas necessidades. Ao final da nossa história, compartilhamos os resultados do trabalho realizado e soluções interessantes que podem ser úteis para você.

Nova interface

Aqui, como dizem, é melhor ver uma vez.

Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3Racks.

Vejamos as diferenças.

  • Em primeiro lugar, красиво convenientemente. Observe como ficou fácil rastrear as cargas nos módulos PDU (“Bancos” ou simplesmente “Bancos”) e a soma das cargas paralelas dos módulos emparelhados. No modelo de rack do novo BMS, vemos imediatamente que os módulos PDU emparelhados inferiores estão sobrecarregados (a corrente total é superior aos 16A permitidos - notificação “azul”) e os superiores estão subcarregados. Caso uma das entradas seja desligada, toda a carga será transferida para a segunda, e o módulo inferior que permanecer energizado será desligado por sobrecarga. Para evitar que isso aconteça, o serviço de suporte ao data center avisará o cliente com antecedência e enviará uma recomendação sobre como redistribuir a carga.
  • Fácil adição de equipamentos. No novo BMS, sensores virtuais para somas de correntes de módulos e potência do rack já foram adicionados aos modelos de rack padrão e são criados automaticamente após a adição de uma PDU ao rack. No antigo BMS, eles tinham que ser criados manualmente e depois arrastados para o mapa, o que aumentava a probabilidade de erro devido ao “fator humano”.
  • Escopo ilimitado para criatividade. Agora não temos restrições na hora de criar sensores virtuais. Você pode construir absolutamente qualquer modelo matemático de qualquer variável. Isso significa que temos a capacidade de criar sensores virtuais complexos (anteriormente só podíamos agregar valores) e analisar melhor estatísticas e tendências no desempenho dos sistemas de engenharia. Isso melhora a qualidade das decisões tomadas em relação à configuração do sistema, substituição de equipamentos e gerenciamento de recursos. 
  • Interface intuitiva. Na nova interface não há confusão de ícones, ventiladores giram, interruptores “clicam”. E o mais conveniente é a possibilidade de indicar o status da PDU Linha A/B dentro dos racks. Tentamos fazer algo semelhante no antigo BMS, mas a quantidade de ícones mesclados por centímetro quadrado do mapa nos obrigou a abandoná-lo.

Agora é bom ver:

Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3
Servidor.

Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3
Fragmento do quadro principal.

Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3
Painel de controle de ventilação.

E o novo BMS pode ser decorado para o Ano Novo  🙂
Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3

Uma página – compreensão mútua sem palavras e sem especificações técnicas

Há muito tempo que queríamos implementar outro “truque” no BMS: compilar os principais parâmetros do data center em uma página, para que uma olhada na tela fosse suficiente para avaliar o estado dos principais sistemas. No entanto, não entendemos completamente como deveria ser.

Mesmo antes do início do desenvolvimento do novo BMS, visitámos uma dúzia de centros de dados nos Países Baixos em excursões. Um dos objetivos era ver exemplos de implementação de tal página.

E nem um único data center nos mostrou isso - em alguns não estava lá, em outros estava “em desenvolvimento agora”, em outros era um “grande segredo comercial”. Portanto, nos nossos termos de referência para a criação de um novo BMS, não havia uma descrição precisa desta página tão importante para nós.

Como resultado, criamos isso literalmente “na hora”. Justamente naquele momento tive que consultar remotamente colegas no data center. Era muito inconveniente percorrer as páginas do BMS no telefone em busca de dados dispersos, e na verdade a primeira versão estava esboçada em um guardanapo Uma página. Foi implementado pelos desenvolvedores com base na foto. 

Seguindo o exemplo dos nossos cautelosos colegas holandeses, não iremos demonstrar a versão final da nossa página principal, especialmente porque cada data center é único e não faz sentido copiá-lo. Mas vamos descrever dois princípios básicos de sua formação:

  1. Trata-se de uma tabela desenhada para se adequar ao formato de tela vertical de um smartphone (ou monitor, mas mantendo o layout vertical), com todas as informações importantes exibidas em uma única tela. Acima da tabela há um “resumo” dos incidentes ativos, por isso foi mais conveniente colocá-los juntos em formato vertical. 
  2. A disposição das células na tabela segue a arquitetura do data center (física ou lógica). Abandonamos a disposição dos sistemas em ordem alfabética, como seria desejável à primeira vista. A sequência reflete as associações visuais do pessoal do data center – como se estivessem monitorando fisicamente todas as salas e sistemas. Isso torna mais fácil encontrar informações.

Na verdade, agora absolutamente todas as principais características do data center são agrupadas e apresentadas em uma tela do smartphone/monitor do engenheiro e gerente responsável, enquanto é implementada a ligação à topografia física e lógica do data center. 

Aqui está uma foto desse primeiro rascunho, embora, é claro, essa versão tenha sido repensada e finalizada.

Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3

Reconhecimento e resumo do incidente

Vamos falar de mais um conceito novo para nós, que surgiu como resultado do projeto de atualização do sistema de monitoramento.

Aperto de mão é um termo bastante raro proposto pelo desenvolvedor do novo BMS. Significa a confirmação de que o operador viu o incidente, reconheceu-o e aceitou as responsabilidades para resolvê-lo.  

A palavra pegou e agora “reconhecemos” os incidentes.

O algoritmo incluído na versão básica do novo BMS não nos agradou. Na verdade, eram comentários ao log de eventos, ou seja, os incidentes resolvidos não desapareciam do log e os aceitos (“reconhecidos”) não eram separados dos novos.

Como resultado, foi desenvolvida uma janela denominada “resumo”, na qual:

  1. Somente incidentes ativos e dispositivos em modo de serviço são exibidos (sem avisos comerciais azuis).
  2. Há uma distinção clara entre incidentes NOVOS e ACEITOS.
  3. É indicado quem aceitou o incidente.

O algoritmo de trabalho dos oficiais de serviço no novo BMS é o seguinte:

  1. Novos incidentes são incluídos no relatório e aguardam reconhecimento. Não podem permanecer muito tempo neste setor, devendo o responsável pelo equipamento assumir imediatamente o comando do incidente.
  2. O funcionário assume a responsabilidade pelo incidente clicando na marca de seleção à direita. Como todos os funcionários têm contas exclusivas, é exibido automaticamente quem aceitou o incidente. Se necessário, deixe um comentário.
  3. O incidente é movido para a seção “Reconhecido”, os demais oficiais de plantão e o gerente entendem que o incidente está sendo tratado pelo funcionário responsável.

Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3
Exemplo de janela de resumo com uma mensagem nova e já confirmada.

Ao conectar a janela de resumo com a tabela de uma página, obtivemos uma visão completa tela principal Sistema BMS, onde você pode ver imediatamente: 

  • condição dos principais sistemas do data center;
  • presença de novos incidentes não processados;
  • a presença de incidentes aceitos e informações sobre quem os elimina especificamente.

Acesso ao navegador e alertas pop-up do telefone

A interface web, acessível a partir de qualquer dispositivo de qualquer lugar do mundo, contrasta fortemente com o cliente “grosso”, que é completamente fechado para usuários externos. 

A abordagem antiga acarretava uma série de inconvenientes, desde problemas na organização do trabalho remoto para monitoramento dos funcionários do serviço até a necessidade de instalar clientes “grossos” de kits de distribuição nas estações de trabalho dos funcionários no data center.

Agora, qualquer página no BMS possui um endereço exclusivo, que permite compartilhar não apenas o endereço direto da página ou dispositivo, mas também links para gráficos/relatórios exclusivos. 

O acesso ao sistema passa a ser realizado através de autenticação LDAP através do Active Directory, o que aumenta o seu nível de segurança. 

A mobilidade hoje é um fator chave no trabalho de qualidade dos engenheiros em serviço. Além de monitorar o monitoramento na sala de plantão, os engenheiros fazem rondas, realizam trabalhos rotineiros fora da “sala de plantão” e, graças à tela principal do BMS otimizada para telas móveis, não perdem o controle do que está acontecendo nas salas de turbinas mesmo por um segundo. 

A qualidade do controle também é melhorada graças à funcionalidade dos chats de trabalho. Eles aceleram os processos de trabalho ao permitir que a correspondência dos engenheiros em serviço seja “vinculada” ao BMS. Por exemplo, utilizamos o aplicativo Teams, que permite realizar correspondência interna e receber todas as mensagens do BMS no seu telefone na forma de notificações push pop-up, o que elimina a necessidade do oficial de plantão olhar constantemente para o telefone tela.

Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3
 Notificação push na tela do smartphone.

Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3
É assim que as notificações aparecem no aplicativo Teams.

Ao mesmo tempo, as notificações pop-up são configuradas apenas para mensagens sobre a ocorrência de incidentes, minimizando assim o fator de distração; a equipe sabe: se uma Notificação Push do Teams aparecer na tela do smartphone, eles precisam ir para a página do BMS e aceitar o incidente. As mensagens de resolução de incidentes são rastreadas na página do BMS.

Monitoramento no data center: como substituímos o antigo BMS por um novo. Parte 3
A foto mostra a interface do BMS em um smartphone.

Resumindo

Embora o custo de atualização de um BMS do nosso antigo fornecedor fosse comparável ao desenvolvimento de um novo sistema do zero (cerca de US$ 100), a diferença na funcionalidade dos produtos acabou sendo colossal. Recebemos um sistema flexível otimizado para nossas tarefas e processos de negócios. Também obtivemos economias significativas no suporte contínuo do sistema e nos custos de atualização. 

Mas, claro, houve dificuldades. 

  • Primeiro, subestimamos a quantidade de alterações que precisavam ser feitas na versão base do novo BMS e não cumprimos os prazos pré-acordados. Para nós, este não foi um problema crítico, pois estávamos segurados até o último minuto e trabalhávamos no sistema antigo, e o processo era criativo, complexo e, portanto, às vezes era mais lento do que o esperado. Além disso, sempre vimos que nosso desenvolvedor se esforça ao máximo para alcançar o melhor resultado. Mas, na verdade, a história acabou sendo muito longa e nossos principais especialistas gastaram muito mais esforço e tempo nela do que haviam planejado. 
  • Em segundo lugar, foram necessárias várias etapas de testes para depurar o algoritmo de reserva de máquinas virtuais e canais de comunicação. Inicialmente, ocorreram falhas tanto do lado do sistema BMS quanto do lado da configuração das máquinas virtuais e da rede. Essa depuração também levou tempo. Felizmente, o contratante recebeu uma plataforma de teste em forma de serviço em nuvem, onde todas as configurações e inovações foram inicialmente testadas.
  • Terceiro, o sistema resultante revelou-se mais difícil de editar pelo usuário final. Se antes um mapa consistia em um fundo (arquivo gráfico) e ícones fáceis de alterar ou mover, agora é uma interface gráfica complexa com animação que requer certas habilidades de edição.

A atualização radical do nosso sistema BMS já pode ser considerada o projeto mais importante do ano passado, que afetará seriamente a qualidade da gestão operacional dos nossos sites no futuro. 

É claro que não jogamos fora o antigo servidor de ferro, mas o “aliviamos”: limpamos milhares de sensores virtuais e PDUs “comerciais” e deixamos nele apenas algumas dezenas dos dispositivos mais críticos, como diesel grupos geradores, UPS, condicionadores de ar, bombas, sensores de vazamento e temperaturas Neste modo, sua velocidade anterior voltou, e ele pode ser uma “reserva reserva”. A propósito, após remover a PDU do antigo BMS, liberamos cerca de 1000 licenças agora desnecessárias, você sabe o que fazer com elas?

Fonte: habr.com

Adicionar um comentário