Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3

Nous continuons notre histoire sur la façon dont nous avons modifié le système BMS dans nos centres de données (Partie 1, Partie 2). Dans le même temps, nous n'avons pas simplement échangé la solution d'un fournisseur contre un autre, mais avons développé un système à partir de zéro pour répondre à nos besoins. A la fin de notre récit, nous partageons les résultats du travail effectué et des solutions intéressantes qui pourraient vous être utiles.

Nouvelle interface

Ici, comme on dit, il vaut mieux voir une fois.

Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3Racks.

Regardons les différences.

  • Tout d'abord, il est красиво commodément. Remarquez à quel point il est devenu facile de suivre les charges sur les modules PDU (« Banques » ou simplement « Banques ») et la somme des charges parallèles des modules appariés. Sur le modèle de rack du nouveau BMS, nous voyons immédiatement que les modules PDU appariés inférieurs sont surchargés (le courant total est supérieur au 16A autorisé - notification «bleue») et les modules supérieurs sont sous-chargés. Si l'une des entrées est déconnectée, toute la charge sera transférée à la seconde et le module inférieur qui reste sous tension s'éteindra en raison d'une surcharge. Pour éviter que cela ne se produise, le service d'assistance du centre de données avertira le client à l'avance et enverra une recommandation sur la manière de redistribuer la charge.
  • Ajout facile d'équipement. Dans le nouveau BMS, des capteurs virtuels pour les sommes de courants de module et de puissance du rack sont déjà ajoutés aux modèles de rack standard et sont créés automatiquement après l'ajout d'une PDU au rack. Dans l'ancien BMS, ils devaient être créés manuellement puis glissés sur la carte, ce qui augmentait le risque d'erreur due au « facteur humain ».
  • Portée illimitée pour la créativité. Nous n'avons désormais aucune restriction lors de la création de capteurs virtuels. Vous pouvez créer absolument n'importe quel modèle mathématique de n'importe quelle variable. Cela signifie que nous avons la capacité de créer des capteurs virtuels complexes (auparavant, nous ne pouvions qu'ajouter des valeurs) et de mieux analyser les statistiques et les tendances des performances des systèmes d'ingénierie. Cela améliore la qualité des décisions prises concernant la configuration du système, le remplacement des équipements et la gestion des ressources. 
  • Interface intuitive. Dans la nouvelle interface, il n'y a pas d'icônes encombrées, les ventilateurs tournent, les commutateurs « cliquent ». Et le plus pratique est la possibilité d'indiquer l'état de la ligne PDU A/B à l'intérieur des racks. Nous avons essayé de faire quelque chose de similaire dans l'ancien BMS, mais le nombre d'icônes fusionnées par centimètre carré de carte nous a obligés à l'abandonner.

Maintenant, c'est agréable à regarder :

Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3
Serveur.

Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3
Fragment du tableau principal.

Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3
Panneau de commande de ventilation.

Et le nouveau BMS peut être décoré pour la nouvelle année 🙂
Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3

Une page – une compréhension mutuelle sans un mot et sans spécifications techniques

Depuis très longtemps, nous voulions mettre en œuvre une autre « astuce » dans BMS : compiler les principaux paramètres du centre de données sur une seule page, afin qu'un simple coup d'œil sur l'écran suffise pour évaluer l'état des principaux systèmes. Cependant, nous n’avons pas bien compris à quoi cela devrait ressembler.

Avant même le début du développement du nouveau BMS, nous avons visité une douzaine de centres de données aux Pays-Bas lors d'excursions. L'un des objectifs était de voir des exemples de mise en œuvre d'une telle page.

Et pas un seul centre de données ne nous l'a montré - dans certains, il n'était pas là, dans d'autres, il était « en cours de développement », dans d'autres, c'était un « grand secret commercial ». Ainsi, dans nos termes de référence pour la création d'un nouveau BMS, il n'y avait pas de description précise de cette page très importante pour nous.

En conséquence, nous l’avons imaginé littéralement « à la volée ». C’est justement à ce moment-là que j’ai dû consulter à distance mes collègues du centre de données. Il était très gênant de faire défiler les pages de BMS sur le téléphone à la recherche de données éparses, et en fait la première version a été esquissée sur une serviette Une page. Il a été mis en œuvre par les développeurs sur la base de la photo. 

A l'instar de nos prudents confrères néerlandais, nous ne démontrerons pas la version finale de notre page principale, d'autant plus que chaque data center est unique et qu'il ne sert à rien de le copier. Mais décrivons deux grands principes de sa formation :

  1. Il s'agit d'un tableau conçu pour s'adapter au format d'un écran vertical de smartphone (ou d'un moniteur, mais en conservant une disposition verticale), avec toutes les informations importantes affichées sur un seul écran. Au-dessus du tableau se trouve un « résumé » des incidents actifs, il était donc plus pratique de les regrouper dans un format vertical. 
  2. La disposition des cellules dans le tableau suit l'architecture du data center (physique ou logique). Nous avons abandonné la disposition des systèmes par ordre alphabétique, ce qui serait souhaitable à première vue. La séquence reflète les associations visuelles du personnel du centre de données, comme s'il surveillait physiquement toutes les pièces et tous les systèmes. Cela facilite la recherche d’informations.

En fait, désormais absolument toutes les caractéristiques clés du centre de données sont regroupées et présentées sur un seul écran du smartphone/moniteur de l'ingénieur et du gestionnaire responsable, tandis que la liaison avec la topographie physique et logique du centre de données est mise en œuvre. 

Voici une photo de cette toute première ébauche, même si, bien sûr, cette version a ensuite été repensée et finalisée.

Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3

Accusé de réception et résumé de l'incident

Parlons d'un autre nouveau concept pour nous, né du projet de mise à jour du système de surveillance.

Handshake est un terme plutôt rare proposé par le développeur du nouveau BMS. Cela signifie la confirmation que l'opérateur a vu l'incident, l'a reconnu et a accepté la responsabilité de le résoudre.  

Le mot est resté, et maintenant nous « reconnaissons » les incidents.

L'algorithme inclus dans la version de base du nouveau BMS ne nous convenait pas. En fait, il s'agissait de commentaires dans le journal des événements, c'est-à-dire que les incidents résolus ne disparaissaient pas du journal et que les incidents acceptés (« reconnus ») n'étaient pas triés des nouveaux.

De ce fait, une fenêtre appelée « résumé » a été développée, dans laquelle :

  1. Seuls les incidents actifs et les appareils en mode service sont affichés (pas de notifications bleues commerciales).
  2. Il existe une distinction claire entre les incidents NOUVEAUX et ACCEPTÉS.
  3. Il est indiqué qui a accepté l'incident.

L'algorithme de travail des agents de service dans le nouveau BMS est le suivant :

  1. Les nouveaux incidents sont inclus dans le rapport et attendent d’être reconnus. Ils ne peuvent pas rester longtemps dans cette section, la personne de garde pour le matériel doit immédiatement prendre en charge l'incident.
  2. L'employé assume la responsabilité de l'incident en cliquant sur la coche à droite. Étant donné que tous les employés sont sous des comptes uniques, il est automatiquement affiché qui a accepté l'incident. Si nécessaire, laissez un commentaire.
  3. L'incident est déplacé vers la section « Accusé de réception », le reste des agents de service et le manager comprennent que l'incident est traité par l'employé responsable.

Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3
Exemple de fenêtre récapitulative avec un nouveau message déjà acquitté.

En connectant la fenêtre de résumé avec le tableau d'une page, nous avons obtenu un aperçu complet écran principal Système BMS, où vous pouvez immédiatement voir : 

  • état des principaux systèmes du centre de données ;
  • présence de nouveaux incidents non traités ;
  • la présence d'incidents acceptés et des informations sur qui les élimine spécifiquement.

Accès au navigateur et alertes contextuelles du téléphone

L’interface Web, accessible depuis n’importe quel appareil depuis n’importe où dans le monde, contraste fortement avec le client « lourd », totalement fermé aux utilisateurs externes. 

L'ancienne approche comportait une série d'inconvénients, depuis les problèmes d'organisation du travail à distance pour la surveillance des employés des services jusqu'à la nécessité d'installer des clients « lourds » à partir de kits de distribution sur les postes de travail du personnel dans le centre de données.

Désormais, chaque page de BMS possède une adresse unique, ce qui vous permet de partager non seulement l'adresse directe de la page ou de l'appareil, mais également des liens vers des graphiques/rapports uniques. 

L'accès au système s'effectue désormais via l'authentification LDAP via Active Directory, ce qui augmente son niveau de sécurité. 

La mobilité est aujourd’hui un facteur clé de la qualité du travail des ingénieurs de service. En plus du contrôle de surveillance dans la salle de service, les ingénieurs effectuent des rondes, effectuent des travaux de routine en dehors de la « salle de service » et, grâce à l'écran principal BMS optimisé pour les écrans mobiles, ne perdent pas le contrôle de ce qui se passe dans les salles des machines, même pour une seconde. 

La qualité du contrôle est également améliorée grâce à la fonctionnalité des chats de travail. Ils accélèrent les processus de travail en permettant de « relier » la correspondance des ingénieurs en service au BMS. Par exemple, nous utilisons l'application Teams, qui vous permet d'effectuer une correspondance interne et de recevoir tous les messages du BMS sur votre téléphone sous forme de notifications Push pop-up, ce qui évite à l'agent de service de regarder constamment le téléphone. écran.

Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3
 Notification push sur l'écran du smartphone.

Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3
Voici à quoi ressemblent les notifications dans l’application Teams.

Dans le même temps, les notifications contextuelles sont configurées uniquement pour les messages sur l'apparition d'incidents, minimisant ainsi le facteur de distraction ; le personnel sait : si une notification push Teams apparaît sur l'écran du smartphone, il doit alors se rendre sur la page BMS. et accepter l'incident. Les messages de résolution d'incidents sont suivis sur la page BMS.

Surveillance dans le centre de données : comment nous avons remplacé l'ancien BMS par un nouveau. Partie 3
La photo montre l'interface BMS dans un smartphone.

Résumant

Alors que le coût de mise à jour d'un BMS de notre ancien fournisseur était comparable au développement d'un nouveau système à partir de zéro (environ 100 000 $), la différence dans les fonctionnalités des produits s'est avérée colossale. Nous avons reçu un système flexible optimisé pour nos tâches et processus commerciaux. Nous avons également réalisé des économies significatives sur le support système continu et les coûts de mise à niveau. 

Mais bien sûr, il y a eu des difficultés. 

  • Premièrement, nous avons sous-estimé le nombre de modifications qui devaient être apportées à la version de base du nouveau BMS et n'avons pas respecté les délais convenus. Pour nous, ce n'était pas un problème critique, car nous étions assurés jusqu'à la dernière minute et travaillions sur l'ancien système, et le processus était créatif, complexe et donc parfois plus lent que prévu. De plus, nous avons toujours constaté que notre développeur met tout en œuvre pour obtenir le meilleur résultat. Mais en fait, l'histoire s'est avérée très longue et nos principaux spécialistes y ont consacré beaucoup plus d'efforts et de temps que prévu. 
  • Deuxièmement, nous avons eu besoin de plusieurs étapes de tests pour déboguer l'algorithme de réservation des machines virtuelles et des canaux de communication. Au départ, il y a eu des échecs tant du côté du système BMS que du côté de la configuration des machines virtuelles et du réseau. Ce débogage a également pris du temps. Heureusement, l'entrepreneur disposait d'une plate-forme de test sous la forme d'un service cloud, sur laquelle tous les paramètres et innovations étaient initialement testés.
  • Troisièmement, le système résultant s’est avéré plus difficile à modifier par l’utilisateur final. Si auparavant une carte était composée d'un arrière-plan (fichier graphique) et d'icônes faciles à modifier ou à déplacer, il s'agit désormais d'une interface graphique complexe avec une animation qui nécessite certaines compétences d'édition.

La mise à jour radicale de notre système BMS peut déjà être considérée comme le projet le plus important de l'année écoulée, qui affectera sérieusement la qualité de la gestion opérationnelle de nos sites à l'avenir. 

Bien sûr, nous n'avons pas jeté l'ancien serveur de fer, mais nous l'avons « allégé » : nous l'avons débarrassé de milliers de capteurs virtuels et de PDU « commerciaux » et n'y avons laissé que quelques dizaines d'appareils les plus critiques, tels que le diesel. groupes électrogènes, UPS, climatiseurs, pompes, capteurs de fuite et températures Dans ce mode, son ancienne vitesse est revenue, et il peut être une « réserve de réserve ». D'ailleurs, après avoir supprimé le PDU de l'ancien BMS, nous avons libéré environ 1000 licences désormais inutiles, savez-vous quoi en faire ?

Source: habr.com

Ajouter un commentaire