Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3

Vi fortsætter vores historie om, hvordan vi ændrede BMS-systemet i vores datacentre (Part 1, Part 2). Samtidig byttede vi ikke blot én leverandørs løsning ud med en anden, men udviklede et system fra bunden for at imødekomme vores krav. Som afslutning på vores historie deler vi resultaterne af det udførte arbejde og interessante løsninger, der kan være nyttige for dig.

Ny grænseflade

Her, som man siger, er det bedre at se det én gang.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3Reoler.

Lad os se på forskellene.

  • Det skal i første красиво bekvemt. Bemærk hvor nemt det er at spore PDU-banker og summen af ​​parallelle belastninger af parrede moduler. På rackmodellen fra den nye BMS ser vi straks, at de nederste parrede PDU-moduler er overbelastede (den samlede strøm er højere end de tilladte 16A – "blå" meddelelse), og de øverste er underbelastede. Hvis en af ​​indgangene afbrydes, overføres hele belastningen til den anden, og det nederste modul, der forbliver strømførende, afbrydes på grund af overbelastning. For at forhindre dette vil datacenterets supporttjeneste advare klienten på forhånd og sende anbefalinger om, hvordan belastningen kan omfordeles.
  • Nemt at tilføje udstyr. I det nye BMS er virtuelle sensorer til summen af ​​modulstrømme og rack-effekt allerede tilføjet til skabelonerne for typiske racks og oprettes automatisk efter tilføjelse af en PDU til racket. I det gamle BMS skulle de oprettes manuelt og derefter trækkes over på kortet, hvilket øgede sandsynligheden for menneskelige fejl.
  • Ubegrænset muligheder for kreativitet. Nu har vi ingen begrænsninger, når vi opretter virtuelle sensorer. Det er muligt at konstruere absolut enhver matematisk model af enhver variabel. Det betyder, at vi har mulighed for at skabe komplekse virtuelle sensorer (tidligere kunne vi kun lægge værdier sammen) og bedre analysere statistikker og tendenser i driften af ​​tekniske systemer. Dette forbedrer kvaliteten af ​​beslutninger truffet om systemopsætning, udskiftning af udstyr og ressourcestyring. 
  • Intuitiv grænseflade. Den nye brugerflade er fri for rodede ikoner, ventilatorer drejer, og kontakter klikker. Og det mest bekvemme er muligheden for at indikere status for PDU Line A/B inde i rackene. Vi prøvede at gøre noget lignende i det gamle BMS, men antallet af flettede ikoner pr. kvadratcentimeter af kortet fik os til at opgive det.

Nu er det en fornøjelse at se på:

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Server.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Fragment af hovedtavlen.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Ventilationskontrolpanel.

Og du kan også pynte det nye BMS til nytår 🙂
Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3

Én side – gensidig forståelse på et øjeblik og uden tekniske specifikationer

Vi har længe ønsket at implementere endnu en "funktion" i BMS: at samle datacentrets vigtigste parametre på én side, så et enkelt blik på skærmen ville være nok til at vurdere tilstanden af ​​de vigtigste systemer. Vi forstod dog ikke helt, hvordan det skulle se ud.

Selv før vi begyndte at udvikle det nye BMS, besøgte vi et dusin datacentre i Holland på rundvisninger. Et af målene var at se eksempler på, hvordan en sådan side kunne implementeres.

Og ikke et eneste datacenter viste det til os - et sted var det der ikke, et sted "de udviklede det lige nu", et sted var det "en stor kommerciel hemmelighed". Derfor manglede der en præcis beskrivelse af denne for os meget vigtige side i vores tekniske specifikationer for oprettelsen af ​​et nyt BMS.

Til sidst kom vi bogstaveligt talt op med det “på farten”. Det var i det øjeblik, at jeg var nødt til at konsultere kolleger i datacenteret på afstand. Det var meget ubelejligt at bladre gennem siderne i BMS på telefonen i jagten på forskellige data, og den første version var faktisk skitseret på en serviet. En side. Udviklerne implementerede det baseret på billedet. 

Efter vores forsigtige hollandske kollegers eksempel vil vi ikke demonstrere den endelige version af vores hovedside, især da hvert datacenter er unikt, og det ikke giver mening at kopiere det. Men lad os beskrive to hovedprincipper for dens dannelse:

  1. Dette er en tabel designet til at passe til den vertikalt placerede smartphoneskærm (eller skærm, men med bibeholdelse af den vertikale placering), hvor alle vigtige oplysninger vises på én skærm. Over tabellen er der en "opsummering" af aktive hændelser, så det var mest praktisk at placere dem samlet i et lodret format. 
  2. Arrangementet af celler i tabellen følger datacentrets arkitektur (fysisk eller logisk). Vi har opgivet ideen om at arrangere systemerne i alfabetisk rækkefølge, som man umiddelbart kunne ønske sig. Sekvensen afspejler datacenterpersonalets visuelle associationer – som om de fysisk overvågede alle rum og systemer. Dette gør det nemmere at finde information.

I bund og grund er absolut alle datacentrets nøglekarakteristika nu grupperet og præsenteret på én skærm på den ansvarlige ingeniørs og leders smartphone/skærm, samtidig med at forbindelsen til datacentrets fysiske og logiske topografi er implementeret. 

Her er et billede af det allerførste udkast, selvom denne version selvfølgelig derefter blev gentænkt og revideret.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3

Anerkendelse og opsummering af hændelser

Lad os tale om et andet nyt koncept for os, der opstod som et resultat af projektet med at opdatere overvågningssystemet.

Anerkendelse er et ret sjældent udtryk, der blev foreslået brugt af udvikleren af ​​det nye BMS. Det betyder, at operatøren har set hændelsen, anerkendt den og taget ansvar for dens løsning.  

Ordet har slået igennem, og nu "afgør" vi hændelser.

Vi var ikke tilfredse med den algoritme, der var indarbejdet i den grundlæggende version af det nye BMS. Faktisk var disse kommentarer til hændelsesloggen, dvs. at løste hændelser ikke forsvandt fra loggen, og accepterede ("bekræftede") hændelser blev ikke sorteret fra nye.

Som følge heraf blev der udviklet et vindue kaldet "resumé", hvor:

  1. Kun aktive hændelser og enheder i servicetilstand vises (ingen kommercielle "blå" notifikationer).
  2. Der skelnes tydeligt mellem NYE og ACCEPTEREDE hændelser.
  3. Det er angivet, hvem der accepterede hændelsen.

Arbejdsalgoritmen for vagthavende betjente i det nye BMS er som følger:

  1. Nye hændelser er tilføjet til rapporten og afventer bekræftelse. De kan ikke blive i denne sektion længe; Den vagthavende officer, der er ansvarlig for udstyret, skal straks tage ansvar for hændelsen.
  2. Medarbejderen accepterer hændelsen ved at klikke på fluebenet til højre. Da alle medarbejdere er under unikke konti, vises det automatisk, hvem der accepterede hændelsen. Hvis det er nødvendigt, så skriv en kommentar.
  3. Hændelsen flyttes til sektionen "Bekræftet", og de andre vagthavende og lederen forstår, at hændelsen håndteres af den ansvarlige medarbejder.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Eksempel på et oversigtsvindue med en ny og allerede bekræftet besked.

Ved at kombinere oversigtsvinduet med tabellen på én side fik vi et fuldt udviklet hovedskærm BMS-systemer, hvor du straks kan se: 

  • tilstanden af ​​de vigtigste datacentersystemer;
  • tilstedeværelsen af ​​nye ubehandlede hændelser;
  • tilstedeværelsen af ​​accepterede hændelser og data om, hvem der specifikt løser dem.

Adgang via browser og pop op-notifikationer på telefonen

En webgrænseflade, der er tilgængelig fra enhver enhed og hvor som helst i verden, står i skarp kontrast til en tyk klient, der er fuldstændig lukket for eksterne brugere. 

Den gamle tilgang medførte en række ulemper, lige fra problemer med at organisere fjernarbejde for overvågningsmedarbejdere til behovet for at installere "tykke" klienter fra distributioner på personalets arbejdsstationer i datacentret.

Nu har hver side i BMS en unik adresse, som giver dig mulighed for at dele ikke kun den direkte adresse på siden eller enheden, men også links til unikke grafer/rapporter. 

Adgang til systemet sker nu via LDAP-godkendelse via Active Directory, hvilket øger sikkerhedsniveauet. 

Mobilitet er i dag en nøglefaktor i kvaliteten af ​​​​arbejdet udført af vagthavende ingeniører. Udover at overvåge det rum, hvor vagten er på vagt, går ingeniørerne runder, udfører rutinearbejde uden for "vagtrummet", og takket være BMS-hovedskærmen, der er optimeret til en mobilskærm, mister de ikke kontrollen over, hvad der sker i maskinrummene, et sekund. 

Kontrolkvaliteten er også forbedret takket være funktionaliteten af ​​arbejdschats. De fremskynder arbejdsprocesser ved at give dig mulighed for at "forbinde" korrespondancen fra vagthavende teknikere til BMS'et. For eksempel bruger vi Teams-applikationen, som giver os mulighed for at føre intern korrespondance og modtage alle beskeder fra BMS på vores telefon i form af pop-up push-notifikationer, hvilket fritager vagthavende fra konstant at skulle kigge på telefonskærmen.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
 Push-notifikation på smartphone-skærmen.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Sådan ser notifikationer ud i Teams-appen.

Samtidig er pop op-notifikationer kun konfigureret til beskeder om hændelser, hvilket minimerer distraktionsfaktoren. Personalet ved, at hvis en Teams push-notifikation vises på smartphoneskærmen, skal de gå til BMS-siden og acceptere hændelsen. Meddelelser om hændelsesløsning spores allerede på BMS-siden.

Overvågning i datacenteret: hvordan vi ændrede det gamle BMS til det nye. Del 3
Billedet viser BMS-grænsefladen i en smartphone.

Opsummering

Da omkostningerne ved at opgradere et BMS fra vores gamle leverandør var sammenlignelige med at udvikle et nyt system fra bunden (omkring $100), var forskellen i funktionalitet mellem produkterne kolossal. Vi modtog et fleksibelt system, der er optimeret til vores forretningsopgaver og processer. Vi har også opnået betydelige besparelser i de løbende omkostninger til systemsupport og opdateringer. 

Men der var selvfølgelig også vanskeligheder. 

  • For det første undervurderede vi mængden af ​​ændringer, der skulle foretages i den grundlæggende version af det nye BMS, og vi overholdt ikke de tidligere aftalte deadlines. For os var dette ikke et kritisk problem, da vi havde forsikret os selv helt til det sidste og arbejdet på det gamle system, og processen var kreativ, kompleks og derfor til tider gik langsommere end forventet. Derudover har vi altid set, at vores udviklere yder en maksimal indsats for at opnå det bedste resultat. Men faktisk viste historien sig at være meget lang, og vores nøglespecialister brugte betydeligt mere tid og kræfter på den, end de havde planlagt. 
  • For det andet havde vi brug for flere testfaser for at fejlfinde algoritmen til reservation af virtuelle maskiner og kommunikationskanaler. I starten var der fejl både på BMS-systemsiden og på siden af ​​den virtuelle maskine og netværksopsætningen. Denne fejlfinding tog også tid. Heldigvis fik entreprenøren stillet en testplatform til rådighed i form af en cloudtjeneste, hvor alle indstillinger og innovationer blev testet i første omgang.
  • For det tredje var det resulterende system vanskeligere for slutbrugeren at redigere. Hvis kortet tidligere var en baggrund (grafisk fil) og ikoner, som nemt kunne ændres eller flyttes, er det nu en kompleks grafisk brugerflade med animation, der kræver visse færdigheder til redigering.

Den radikale opgradering af vores BMS-system kan allerede kaldes det vigtigste projekt i det forløbne år, hvilket i alvorlig grad vil påvirke kvaliteten af ​​den operationelle styring af vores lokationer i fremtiden. 

Selvfølgelig smed vi ikke den gamle hardwareserver ud, men "lettede den op": Vi rensede den for tusindvis af "kommercielle" virtuelle sensorer og PDU'er og efterlod kun et par dusin af de mest kritiske enheder, såsom dieselgeneratorer, UPS'er, klimaanlæg, pumper, lækage- og temperatursensorer. I denne tilstand er dens tidligere hastighed vendt tilbage til den, og den kan være en "reserve af en reserve". Forresten, efter at have fjernet PDU'en fra det gamle BMS, stod vi tilbage med omkring 1000 nu unødvendige licenser. Ved du tilfældigvis, hvad du skal gøre med dem?

Kilde: www.habr.com

Køb pålidelig hosting til websteder med DDoS-beskyttelse, VPS VDS-servere 🔥 Køb pålidelig webhosting med DDoS-beskyttelse, VPS VDS-servere | ProHoster