Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3

Continuem la nostra història sobre com vam canviar el sistema BMS als nostres centres de dades (part de 1, part de 2). Al mateix temps, no només vam canviar la solució d'un proveïdor per un altre, sinó que vam desenvolupar un sistema des de zero que s'adaptava als nostres requisits. Al final de la nostra història, compartim els resultats del treball realitzat i solucions interessants que us poden ser útils.

Nova interfície

Aquí, com diuen, és millor veure-ho una vegada.

Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3Bastidors.

Vegem les diferències.

  • En primer lloc, és красиво convenientment. Observeu el fàcil que s'ha tornat fer el seguiment de les càrregues dels mòduls PDU ("Bancs" o simplement "Bancs") i la suma de les càrregues paral·leles dels mòduls aparellats. Al model de bastidor del nou BMS, veiem immediatament que els mòduls PDU emparellats inferiors estan sobrecarregats (el corrent total és superior a la notificació "blava") de 16 A permesa i els superiors estan subcarregats. Si es desconnecta una de les entrades, tota la càrrega es transferirà a la segona i el mòdul inferior que roman energitzat s'apagarà per sobrecàrrega. Per evitar que això passi, el servei d'assistència del centre de dades avisarà el client amb antelació i enviarà una recomanació sobre com redistribuir la càrrega.
  • Fàcil incorporació d'equips. Al nou BMS, els sensors virtuals per a les sumes de corrents de mòduls i potència del bastidor ja s'afegeixen a les plantilles de bastidor estàndard i es creen automàticament després d'afegir una PDU al bastidor. A l'antic BMS, s'havien de crear manualment i després arrossegar-los al mapa, la qual cosa augmentava la probabilitat d'error a causa del "factor humà".
  • Àmbit il·limitat per a la creativitat. Ara no tenim restriccions a l'hora de crear sensors virtuals. Podeu construir absolutament qualsevol model matemàtic de qualsevol variable. Això vol dir que tenim la capacitat de crear sensors virtuals complexos (abans només podíem afegir valors) i analitzar millor les estadístiques i les tendències en el rendiment dels sistemes d'enginyeria. Això millora la qualitat de les decisions preses pel que fa a la configuració del sistema, la substitució d'equips i la gestió de recursos. 
  • Interfície intuïtiva. A la nova interfície no hi ha un desordre d'icones, els ventiladors giren, els interruptors "clic". I el més convenient és la possibilitat d'indicar l'estat de la línia PDU A/B dins dels bastidors. Vam intentar fer alguna cosa semblant a l'antic BMS, però el nombre d'icones combinades per centímetre quadrat del mapa ens va obligar a abandonar-lo.

Ara és agradable mirar-ho:

Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3
Servidor.

Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3
Fragment de la centralita principal.

Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3
Panell de control de ventilació.

I el nou BMS es pot decorar per l'Any Nou :)
Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3

Una pàgina: comprensió mútua sense una paraula i sense especificacions tècniques

Durant molt de temps volíem implementar un altre "truc" a BMS: compilar els paràmetres principals del centre de dades en una pàgina, de manera que una ullada a la pantalla seria suficient per avaluar l'estat dels sistemes principals. Tanmateix, no enteníem del tot com hauria de ser.

Fins i tot abans que comencés el desenvolupament del nou BMS, vam visitar una dotzena de centres de dades als Països Baixos en excursions. Un dels objectius era veure exemples d'implementació d'aquesta pàgina.

I no ens ho va mostrar cap centre de dades: en alguns no hi era, en d'altres s'estava "desenvolupant ara", en d'altres era un "gran secret comercial". Per tant, en els nostres termes de referència per a la creació d'un nou BMS, no hi havia una descripció precisa d'aquesta pàgina tan important per a nosaltres.

Com a resultat, ens ho vam plantejar literalment "sobre la marxa". Just en aquell moment vaig haver de consultar a distància els companys del centre de dades. Era molt incòmode desplaçar-se per les pàgines de BMS al telèfon a la recerca de dades disperses i, de fet, la primera versió es va dibuixar en un tovalló. Una pàgina. Va ser implementat pels desenvolupadors a partir de la foto. 

Seguint l'exemple dels nostres prudents col·legues holandesos, no mostrarem la versió final de la nostra pàgina principal, sobretot perquè cada centre de dades és únic i no té sentit copiar-lo. Però descriurem dos principis principals de la seva formació:

  1. Aquesta és una taula dissenyada per adaptar-se al format d'una pantalla vertical de telèfon intel·ligent (o un monitor, però mantenint una disposició vertical), amb tota la informació important que es mostra en una pantalla. A sobre de la taula hi ha un "resum" de les incidències actives, per la qual cosa era més convenient col·locar-les juntes en format vertical. 
  2. La disposició de les cel·les de la taula segueix l'arquitectura del centre de dades (física o lògica). Vam abandonar la disposició dels sistemes per ordre alfabètic, com seria desitjable a primera vista. La seqüència reflecteix les associacions visuals del personal del centre de dades, com si controlessin físicament totes les sales i sistemes. Això fa que sigui més fàcil trobar informació.

De fet, ara absolutament totes les característiques clau del centre de dades s'agrupen i es presenten en una pantalla del telèfon intel·ligent/monitor de l'enginyer i gestor responsable, mentre s'implementa la vinculació a la topografia física i lògica del centre de dades. 

Aquí teniu una foto d'aquell primer esborrany, tot i que, per descomptat, després aquesta versió es va repensar i finalitzar.

Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3

Reconeixement i resum d'incidències

Parlem d'un altre concepte nou per a nosaltres, que va sorgir arran del projecte d'actualització del sistema de seguiment.

Encaixada de mans és un terme força rar que va ser proposat pel desenvolupador del nou BMS. Significa confirmar que l'operador ha vist l'incident, l'ha reconegut i ha acceptat les responsabilitats per resoldre'l.  

La paraula s'ha quedat, i ara "reconeixem" els incidents.

L'algoritme inclòs a la versió bàsica del nou BMS no ens agradava. De fet, es tractava de comentaris al registre d'esdeveniments, és a dir, les incidències resoltes no desapareixien del registre, i les acceptades (“reconegudes”) no s'ordenaven de les noves.

Com a resultat, es va desenvolupar una finestra anomenada "resum", en la qual:

  1. Només es mostren les incidències actius i els dispositius en mode de servei (no hi ha avisos comercials blaus).
  2. Hi ha una clara distinció entre incidents NOU i ACCEPTAT.
  3. S'indica qui va acceptar l'incident.

L'algoritme de treball per als oficials de servei al nou BMS és el següent:

  1. Les noves incidències s'inclouen a l'informe i estan pendents de reconeixement. No poden romandre en aquesta secció durant molt de temps; la persona de servei de l'equip s'ha de fer càrrec immediatament de l'incident.
  2. L'empleat es fa responsable de l'incident fent clic a la marca de verificació de la dreta. Com que tots els empleats tenen comptes únics, es mostra automàticament qui va acceptar l'incident. Si cal, deixa un comentari.
  3. L'incident es trasllada a la secció "Reconeixement", la resta d'agents de servei i el gerent entenen que l'incident està sent gestionat per l'empleat responsable.

Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3
Exemple d'una finestra de resum amb un missatge nou i ja reconegut.

En connectar la finestra de resum amb la taula d'una pàgina, en vam obtenir una completa pantalla principal Sistema BMS, on podeu veure immediatament: 

  • estat dels principals sistemes del centre de dades;
  • presència de noves incidències no tramitades;
  • la presència d'incidències acceptades i informació sobre qui les elimina específicament.

Accés al navegador i alertes emergents del telèfon

La interfície web, accessible des de qualsevol dispositiu des de qualsevol lloc del món, és un fort contrast amb el client "gruixut", que està completament tancat als usuaris externs. 

L'antic enfocament comportava una sèrie d'inconvenients, des de problemes per organitzar el treball a distància per supervisar els empleats del servei fins a la necessitat d'instal·lar clients "gruixuts" des de kits de distribució a les estacions de treball del personal del centre de dades.

Ara qualsevol pàgina de BMS té una adreça única, que us permet compartir no només l'adreça directa de la pàgina o del dispositiu, sinó també enllaços a gràfics/informes únics. 

L'accés al sistema es realitza ara mitjançant l'autenticació LDAP a través d'Active Directory, la qual cosa augmenta el seu nivell de seguretat. 

La mobilitat és avui un factor clau en el treball de qualitat dels enginyers de servei. A més de supervisar el seguiment a la sala de torns de servei, els enginyers fan rondes, realitzen treballs rutinaris fora de la "sala de servei" i, gràcies a la pantalla principal BMS optimitzada per a pantalles mòbils, no perden el control del que passa a les sales de turbines fins i tot. per un segon. 

La qualitat del control també es millora gràcies a la funcionalitat dels xats de treball. Agiliren els processos de treball permetent que la correspondència dels enginyers de servei estigui "vinculada" al BMS. Per exemple, utilitzem l'aplicació Teams, que us permet realitzar correspondència interna i rebre tots els missatges del BMS al vostre telèfon en forma de notificacions push emergents, que elimina la necessitat que l'oficial de servei miri constantment el telèfon. pantalla.

Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3
 Notificació push a la pantalla del telèfon intel·ligent.

Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3
Així es veuen les notificacions a l'aplicació Teams.

Al mateix temps, les notificacions emergents es configuren només per als missatges sobre l'ocurrència d'incidències, minimitzant així el factor de distracció; el personal sap: si apareix una notificació push d'equips a la pantalla del telèfon intel·ligent, hauran d'anar a la pàgina BMS. i acceptar l'incident. Els missatges de resolució d'incidències es fan un seguiment a la pàgina BMS.

Monitorització al centre de dades: com vam canviar l'antic BMS pel nou. Part 3
La foto mostra la interfície BMS en un telèfon intel·ligent.

En resum

Tot i que el cost d'actualització d'un BMS del nostre antic proveïdor era comparable al desenvolupament d'un nou sistema des de zero (uns 100 dòlars), la diferència en la funcionalitat dels productes va resultar colossal. Vam rebre un sistema flexible optimitzat per a les nostres tasques i processos empresarials. També hem aconseguit estalvis significatius en el suport del sistema i els costos d'actualització. 

Però, és clar, hi havia dificultats. 

  • En primer lloc, vam subestimar la quantitat de canvis que calia fer a la versió base del nou BMS i no vam complir els terminis acordats prèviament. Per a nosaltres, això no va ser un problema crític, ja que estàvem assegurats fins a darrera hora i vam treballar amb l'antic sistema, i el procés era creatiu, complex i, per tant, de vegades anava més lent del que s'esperava. A més, sempre hem vist que el nostre desenvolupador fa tot el possible per aconseguir el millor resultat. Però, de fet, la història va resultar ser molt llarga i els nostres especialistes clau van dedicar-hi molt més esforç i temps del que havien previst. 
  • En segon lloc, necessitàvem diverses etapes de prova per depurar l'algoritme de reserva de màquines virtuals i canals de comunicació. Inicialment, hi va haver errors tant pel costat del sistema BMS com pel costat de la configuració de les màquines virtuals i la xarxa. Aquesta depuració també va prendre temps. Afortunadament, el contractista va rebre una plataforma de prova en forma de servei al núvol, on es van provar inicialment totes les configuracions i innovacions.
  • En tercer lloc, el sistema resultant va resultar ser més difícil d'editar per l'usuari final. Si abans un mapa constava d'un fons (fitxer gràfic) i icones que eren fàcils de canviar o moure, ara és una interfície gràfica complexa amb animació que requereix certes habilitats d'edició.

L'actualització radical del nostre sistema BMS ja es pot anomenar el projecte més important de l'any passat, que afectarà greument la qualitat de la gestió operativa dels nostres llocs en el futur. 

Nosaltres, per descomptat, no vam llençar el vell servidor de ferro, sinó que el vam "lleugerir": el vam netejar de milers de sensors virtuals i PDU "comercials" i només hi vam deixar unes quantes desenes dels dispositius més crítics, com el dièsel. grups electrògens, SAI, aparells d'aire condicionat, bombes, sensors de fuites i temperatures En aquesta modalitat, la seva velocitat anterior ha tornat i pot ser una "reserva de reserva". Per cert, després de treure la PDU de l'antic BMS, vam alliberar unes 1000 llicències ara innecessàries, saps què fer amb elles?

Font: www.habr.com

Afegeix comentari