Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3

Vi fortsætter vores historie om, hvordan vi ændrede BMS-systemet i vores datacentre (Part 1, Part 2). Samtidig byttede vi ikke bare løsningen fra en leverandør ud med en anden, men udviklede et system fra bunden, der passede til vores behov. I slutningen af ​​vores historie deler vi resultaterne af det udførte arbejde og interessante løsninger, som kan være nyttige for dig.

Ny grænseflade

Her, som de siger, er det bedre at se en gang.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3Reoler.

Lad os se på forskellene.

  • Det skal i første красиво bekvemt. Læg mærke til, hvor nemt det er blevet at spore belastningerne på PDU-moduler ("Banker" eller blot "Banker") og summen af ​​parallelle belastninger af parrede moduler. På rack-modellen fra det nye BMS ser vi straks, at de nederste parrede PDU-moduler er overbelastet (den samlede strøm er højere end den tilladte 16A - "blå" notifikation), og de øverste er underbelastet. Hvis en af ​​indgangene afbrydes, vil hele belastningen overføres til den anden, og det nederste modul, der forbliver strømførende, slukkes på grund af overbelastning. For at forhindre dette i at ske, vil datacenterets supporttjeneste advare klienten på forhånd og sende en anbefaling om, hvordan belastningen skal omfordeles.
  • Nem tilføjelse af udstyr. I det nye BMS er virtuelle sensorer for summer af modulstrømme og rackeffekt allerede tilføjet til standard rackskabeloner og oprettes automatisk efter tilføjelse af en PDU til racket. I det gamle BMS skulle de oprettes manuelt og derefter trækkes ind på kortet, hvilket øgede sandsynligheden for fejl på grund af den "menneskelige faktor".
  • Ubegrænset muligheder for kreativitet. Nu har vi ingen begrænsninger, når vi opretter virtuelle sensorer. Du kan bygge absolut alle matematiske modeller af alle variabler. Det betyder, at vi har evnen til at skabe komplekse virtuelle sensorer (tidligere kunne vi kun tilføje værdier) og bedre analysere statistikker og tendenser i ingeniørsystemers ydeevne. Dette forbedrer kvaliteten af ​​beslutninger, der træffes vedrørende systemkonfiguration, udstyrsudskiftning og ressourcestyring. 
  • Intuitiv grænseflade. I den nye grænseflade er der ingen rod af ikoner, fans snurrer, kontakter "klik". Og det mest praktiske er muligheden for at angive status for PDU Line A/B inde i stativerne. Vi forsøgte at gøre noget lignende i det gamle BMS, men antallet af sammenlagte ikoner pr. kvadratcentimeter af kortet tvang os til at opgive det.

Nu er det rart at se på:

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Server.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Fragment af hovedtavlen.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Ventilations kontrolpanel.

Og det nye BMS kan pyntes op til nytår :)
Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3

Én side – gensidig forståelse uden et ord og uden tekniske specifikationer

I meget lang tid ønskede vi at implementere et andet "trick" i BMS: at kompilere datacentrets hovedparametre på én side, så et blik på skærmen ville være nok til at vurdere status for hovedsystemerne. Vi forstod dog ikke helt, hvordan det skulle se ud.

Allerede før udviklingen af ​​det nye BMS begyndte, besøgte vi et dusin datacentre i Holland på udflugter. Et af målene var at se eksempler på implementeringen af ​​sådan en side.

Og ikke et eneste datacenter viste det til os - i nogle var det der ikke, i andre var det "ved at blive udviklet lige nu", i andre var det en "stor forretningshemmelighed". Derfor var der i vores kommissorium for oprettelse af et nyt BMS ingen præcis beskrivelse af denne meget vigtige side for os.

Som et resultat kom vi op med det bogstaveligt talt "i farten." Netop i det øjeblik måtte jeg eksternt konsultere kolleger i datacentret. Det var meget ubelejligt at rulle gennem siderne af BMS på telefonen på jagt efter spredte data, og faktisk blev den første version skitseret på en serviet En side. Det blev implementeret af udviklerne baseret på billedet. 

Efter eksemplet fra vores forsigtige hollandske kolleger, vil vi ikke demonstrere den endelige version af vores hovedside, især da hvert datacenter er unikt, og det er ingen mening i at kopiere det. Men lad os beskrive to hovedprincipper for dens dannelse:

  1. Dette er en tabel designet til at passe til formatet af en lodret smartphoneskærm (eller en skærm, men med et lodret layout), med alle vigtige oplysninger vist på én skærm. Over tabellen er en "oversigt" af aktive hændelser, så det var mest bekvemt at placere dem sammen i et vertikalt format. 
  2. Arrangementet af celler i tabellen følger datacentrets arkitektur (fysisk eller logisk). Vi opgav arrangementet af systemer i alfabetisk rækkefølge, som det ville være ønskeligt ved første øjekast. Sekvensen afspejler datacenterpersonalets visuelle associationer - som om de fysisk overvågede alle rum og systemer. Dette gør det nemmere at finde information.

Faktisk er absolut alle datacentrets nøglekarakteristika nu grupperet og præsenteret på én skærm på smartphonen/monitoren af ​​den ansvarlige ingeniør og leder, mens linkning til datacentrets fysiske og logiske topografi er implementeret. 

Her er et foto af det allerførste udkast, selvom denne version selvfølgelig blev gentænket og færdiggjort.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3

Kvittering og hændelsesoversigt

Lad os tale om endnu et nyt koncept for os, som opstod som et resultat af projektet med at opdatere overvågningssystemet.

Håndtryk er et ret sjældent udtryk, der blev foreslået af udvikleren af ​​det nye BMS. Det betyder en bekræftelse af, at operatøren så hændelsen, anerkendte den og påtog sig ansvar for at løse den.  

Ordet har sat sig fast, og nu "anerkender" vi hændelser.

Algoritmen inkluderet i grundversionen af ​​det nye BMS passede ikke os. Faktisk var disse kommentarer til hændelsesloggen, det vil sige, at løste hændelser ikke forsvandt fra loggen, og accepterede ("anerkendte") blev ikke sorteret fra nye.

Som et resultat blev der udviklet et vindue kaldet "resumé", hvori:

  1. Kun aktive hændelser og enheder i servicetilstand vises (ingen kommercielle blå meddelelser).
  2. Der er en klar skelnen mellem NYE og ACCEPTEREDE hændelser.
  3. Det er angivet, hvem der har accepteret hændelsen.

Arbejdsalgoritmen for vagthavende i det nye BMS er som følger:

  1. Nye hændelser er inkluderet i rapporten og afventer anerkendelse. De kan ikke opholde sig i denne afdeling i længere tid, den vagthavende for udstyret skal straks tage ansvaret for hændelsen.
  2. Medarbejderen tager ansvar for hændelsen ved at klikke på fluebenet til højre. Da alle medarbejdere er under unikke konti, vises det automatisk, hvem der har accepteret hændelsen. Skriv eventuelt en kommentar.
  3. Hændelsen flyttes til afsnittet "Anerkendt", resten af ​​vagtcheferne og lederen forstår, at hændelsen håndteres af den ansvarlige medarbejder.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Eksempel på et opsummeringsvindue med en ny og allerede bekræftet besked.

Ved at forbinde oversigtsvinduet med One page-tabellen fik vi en fuld hovedskærm BMS-system, hvor du med det samme kan se: 

  • tilstanden af ​​de vigtigste datacentersystemer;
  • tilstedeværelse af nye ubehandlede hændelser;
  • tilstedeværelsen af ​​accepterede hændelser og oplysninger om, hvem der specifikt eliminerer dem.

Browseradgang og telefon-pop-up-advarsler

Webgrænsefladen, der er tilgængelig fra enhver enhed fra hvor som helst i verden, er en skarp kontrast til den "tykke" klient, som er fuldstændig lukket for eksterne brugere. 

Den gamle tilgang indebar en række gener, lige fra problemer med at organisere fjernarbejde til overvågning af servicemedarbejdere til behovet for at installere "tykke" klienter fra distributionssæt på personalearbejdsstationer i datacentret.

Nu har enhver side i BMS en unik adresse, som giver dig mulighed for at dele ikke kun den direkte adresse på siden eller enheden, men også links til unikke grafer/rapporter. 

Adgang til systemet udføres nu gennem LDAP-godkendelse gennem Active Directory, hvilket øger dets sikkerhedsniveau. 

Mobilitet i dag er en nøglefaktor i vagthavende ingeniørers kvalitetsarbejde. Udover at overvåge overvågningen i vagtlokalet, laver ingeniører runder, udfører rutinearbejde uden for ”vagtrummet” og mister, takket være BMS-hovedskærmen optimeret til mobile skærme, ikke kontrollen over, hvad der sker i møllerummene selv et sekund. 

Kvaliteten af ​​kontrol er også forbedret takket være funktionaliteten af ​​arbejdschat. De fremskynder arbejdsprocesserne ved at tillade korrespondancen fra vagthavende ingeniører at blive "linket" til BMS. For eksempel bruger vi Teams-applikationen, som giver dig mulighed for at føre intern korrespondance og modtage alle beskeder fra BMS'en på din telefon i form af pop-up Push notifikationer, hvilket eliminerer behovet for, at vagtchefen konstant skal kigge på telefonen skærmen.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
 Push-meddelelse på smartphone-skærmen.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Sådan ser notifikationer ud i Teams-appen.

Samtidig konfigureres pop-up-meddelelser kun til beskeder om forekomsten af ​​hændelser, hvorved distraktionsfaktoren minimeres; personalet ved: Hvis en Teams Push-meddelelse vises på smartphone-skærmen, skal de gå til BMS-siden og acceptere hændelsen. Hændelsesløsningsmeddelelser spores på BMS-siden.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Billedet viser BMS-grænsefladen i en smartphone.

Opsummering

Mens omkostningerne ved at opdatere et BMS fra vores gamle leverandør var sammenlignelige med at udvikle et nyt system fra bunden (ca. $100), viste forskellen i produkternes funktionalitet at være kolossal. Vi fik et fleksibelt system optimeret til vores forretningsopgaver og processer. Vi har også opnået betydelige besparelser i løbende systemsupport og opgraderingsomkostninger. 

Men selvfølgelig var der vanskeligheder. 

  • For det første undervurderede vi mængden af ​​ændringer, der skulle foretages i basisversionen af ​​det nye BMS og overholdt ikke de på forhånd aftalte deadlines. For os var dette ikke et kritisk problem, da vi var forsikret til sidste øjeblik og arbejdede på det gamle system, og processen var kreativ, kompleks og gik derfor nogle gange langsommere end forventet. Derudover har vi altid set, at vores udvikler gør alt for at opnå det bedste resultat. Men faktisk viste historien sig at være meget lang, og vores nøglespecialister brugte meget mere kræfter og tid på den, end de havde planlagt. 
  • For det andet havde vi brug for flere teststadier for at fejlsøge algoritmen til at reservere virtuelle maskiner og kommunikationskanaler. I starten var der fejl både på siden af ​​BMS-systemet og på siden med opsætning af virtuelle maskiner og netværket. Denne fejlretning tog også tid. Heldigvis fik entreprenøren en testplatform i form af en cloud-tjeneste, hvor alle indstillinger og innovationer i første omgang blev testet.
  • For det tredje viste det resulterende system sig at være sværere at redigere af slutbrugeren. Hvis et kort tidligere bestod af en baggrund (grafisk fil) og ikoner, der var nemme at ændre eller flytte, er det nu en kompleks grafisk grænseflade med animation, der kræver visse redigeringsevner.

Den radikale opdatering af vores BMS-system kan allerede kaldes det vigtigste projekt i det forløbne år, hvilket vil påvirke kvaliteten af ​​den operationelle styring af vores websteder i fremtiden alvorligt. 

Vi smed selvfølgelig ikke den gamle jernserver ud, men "lettede den": vi ryddede den for tusindvis af "kommercielle" virtuelle sensorer og PDU'er og efterlod kun et par dusin af de mest kritiske enheder i den, såsom diesel. generatorsæt, UPS, klimaanlæg, pumper, lækagesensorer og temperaturer I denne tilstand er hans tidligere hastighed vendt tilbage, og han kan være en "reservereserve". Forresten, efter at have fjernet PDU'en fra det gamle BMS, frigav vi omkring 1000 nu unødvendige licenser, ved du tilfældigvis, hvad du skal gøre med dem?

Kilde: www.habr.com

Tilføj en kommentar