Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3

Nastavljamo priču o tome kako smo promijenili BMS sistem u našim data centrima (deo 1-a, deo 2-a). Istovremeno, nismo jednostavno zamijenili rješenje jednog dobavljača za drugog, već smo razvili sistem od nule kako bi odgovarao našim zahtjevima. Na kraju naše priče dijelimo rezultate obavljenog posla i zanimljiva rješenja koja bi vam mogla biti od koristi.

Novi interfejs

Ovdje je, kako kažu, bolje jednom vidjeti.

Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3Racks.

Pogledajmo razlike.

  • Prva je красиво udobno. Obratite pažnju kako je postalo lako pratiti opterećenja na PDU modulima („Banke“ ili jednostavno „Banke“) i zbir paralelnih opterećenja uparenih modula. Na rack modelu iz novog BMS-a odmah vidimo da su donji upareni PDU moduli preopterećeni (ukupna struja je veća od dozvoljenih 16A - “plava” obavijest), a gornji su podopterećeni. Ako se jedan od ulaza isključi, cijelo opterećenje će se prebaciti na drugi, a donji modul koji ostane pod naponom će se isključiti zbog preopterećenja. Kako se to ne bi dogodilo, služba podrške data centra će unaprijed upozoriti klijenta i poslati preporuku kako da preraspodijeli opterećenje.
  • Lako dodavanje opreme. U novom BMS-u, virtuelni senzori za sume struja modula i snage stalka već su dodati standardnim šablonima stalka i kreiraju se automatski nakon dodavanja PDU-a u stalak. U starom BMS-u, morali su se kreirati ručno, a zatim povući na mapu, što je povećalo vjerovatnoću greške zbog „ljudskog faktora“.
  • Neograničen prostor za kreativnost. Sada nemamo ograničenja pri kreiranju virtuelnih senzora. Možete izgraditi apsolutno bilo koji matematički model bilo koje varijable. To znači da imamo mogućnost da kreiramo složene virtuelne senzore (ranije smo mogli samo da dodajemo vrednosti) i bolje analiziramo statistiku i trendove u performansama inženjerskih sistema. Ovo poboljšava kvalitet odluka koje se donose u vezi sa konfiguracijom sistema, zamjenom opreme i upravljanjem resursima. 
  • Jasno sučelje. U novom interfejsu nema gužve sa ikonama, ventilatori se okreću, prekidači „kliknu“. A najpogodnija stvar je mogućnost označavanja statusa PDU linije A/B unutar rekova. Pokušali smo napraviti nešto slično u starom BMS-u, ali nas je broj spojenih ikona po kvadratnom centimetru karte natjerao da to napustimo.

Sad je lijepo pogledati:

Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3
Server.

Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3
Fragment glavne centrale.

Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3
Kontrolna tabla za ventilaciju.

A novi BMS se moze ukrasiti za Novu godinu :)
Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3

Jedna stranica – međusobno razumijevanje bez riječi i bez tehničkih specifikacija

Dugo smo želeli da implementiramo još jedan “trik” u BMS: da sastavimo glavne parametre data centra na jednoj stranici, tako da je jedan pogled na ekran dovoljan za procenu statusa glavnih sistema. Međutim, nismo u potpunosti razumjeli kako bi to trebalo izgledati.

I prije nego što je počeo razvoj novog BMS-a, posjetili smo desetak data centara u Holandiji na ekskurzijama. Jedan od ciljeva je bio vidjeti primjere implementacije takve stranice.

I nijedan data centar nam to nije pokazao – u nekima ga nije bilo, u drugima se „upravo razvija“, u trećima je to bila „velika poslovna tajna“. Stoga, u našem zadatku za kreiranje novog BMS-a nije bilo preciznog opisa ove za nas veoma važne stranice.

Kao rezultat toga, došli smo do njega bukvalno "u hodu". Upravo u tom trenutku morao sam na daljinu konsultovati kolege u data centru. Bilo je vrlo nezgodno prelistavati stranice BMS-a na telefonu u potrazi za razbacanim podacima, a zapravo je prva verzija skicirana na salveti Jedna stranica. Programeri su ga implementirali na osnovu fotografije. 

Po uzoru na naše oprezne holandske kolege, nećemo demonstrirati konačnu verziju naše glavne stranice, pogotovo jer je svaki data centar jedinstven i nema smisla kopirati ga. Ali hajde da opišemo dva glavna principa njegovog formiranja:

  1. Ovo je tabela dizajnirana tako da odgovara formatu vertikalnog ekrana pametnog telefona (ili monitora, ali ima vertikalni raspored), sa svim važnim informacijama prikazanim na jednom ekranu. Iznad tabele nalazi se „sažetak“ aktivnih incidenata, pa je bilo najpogodnije staviti ih zajedno u vertikalni format. 
  2. Raspored ćelija u tabeli prati arhitekturu data centra (fizičku ili logičku). Odustali smo od rasporeda sistema po abecednom redu, po želji na prvi pogled. Slijed odražava vizualne asocijacije osoblja centra podataka - kao da fizički nadgledaju sve prostorije i sisteme. Ovo olakšava pronalaženje informacija.

Naime, sada su apsolutno sve ključne karakteristike data centra grupisane i predstavljene na jednom ekranu pametnog telefona/monitora odgovornog inženjera i menadžera, dok je implementirano povezivanje sa fizičkom i logičkom topografijom data centra. 

Evo fotografije tog prvog nacrta, iako je, naravno, ta verzija ponovo osmišljena i finalizirana.

Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3

Potvrda i sažetak incidenta

Hajde da razgovaramo o još jednom novom konceptu za nas, koji je nastao kao rezultat projekta ažuriranja sistema praćenja.

Rukovanje je prilično rijedak termin koji je predložio programer novog BMS-a. To znači potvrdu da je operater vidio incident, da ga je priznao i da je prihvatio odgovornost da ga riješi.  

Reč se zadržala i sada „priznajemo“ incidente.

Algoritam uključen u osnovnu verziju novog BMS-a nam nije odgovarao. Zapravo, to su bili komentari na dnevnik događaja, odnosno riješeni incidenti nisu nestali iz dnevnika, a prihvaćeni („potvrđeni“) nisu sortirani iz novih.

Kao rezultat toga, razvijen je prozor nazvan "sažetak" u kojem:

  1. Prikazuju se samo aktivni incidenti i uređaji u servisnom režimu (bez komercijalnih plavih obaveštenja).
  2. Postoji jasna razlika između NOVIH i PRIHVATLJENIH incidenata.
  3. Naznačeno je ko je prihvatio incident.

Algoritam rada dežurnih u novom BMS-u je sljedeći:

  1. Novi incidenti su uključeni u izvještaj i čekaju potvrdu. Na ovoj dionici ne mogu ostati duže vrijeme, dežurni za opremu mora odmah preuzeti odgovornost za incident.
  2. Zaposleni preuzima odgovornost za incident klikom na kvačicu sa desne strane. Pošto su svi zaposleni pod jedinstvenim računima, automatski se prikazuje ko je prihvatio incident. Ako je potrebno, ostavite komentar.
  3. Incident se premešta u odeljak „Prihvaćeno“, ostali dežurni i rukovodilac razumeju da incidentom rukovodi odgovorni službenik.

Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3
Primjer prozora sažetka s novom i već potvrđenom porukom.

Povezivanjem prozora rezimea sa tabelom One page, dobili smo punu glavni ekran BMS sistem, gde se odmah vidi: 

  • stanje sistema glavnog data centra;
  • prisustvo novih neobrađenih incidenata;
  • prisustvo prihvaćenih incidenata i informacije o tome ko ih konkretno eliminiše.

Pristup preko pretraživača i iskačuća upozorenja na telefonu

Web sučelje, dostupno sa bilo kojeg uređaja s bilo kojeg mjesta u svijetu, je ogromna suprotnost “debelom” klijentu, koji je potpuno zatvoren za vanjske korisnike. 

Stari pristup je podrazumevao niz neprijatnosti, od problema u organizovanju rada na daljinu za nadzor zaposlenih u službi do potrebe za instaliranjem „debelih” klijenata iz distributivnih kompleta na radne stanice osoblja u data centru.

Sada svaka stranica u BMS-u ima jedinstvenu adresu, koja vam omogućava da dijelite ne samo direktnu adresu stranice ili uređaja, već i veze do jedinstvenih grafikona/izvještaja. 

Pristup sistemu se sada vrši putem LDAP autentifikacije preko Active Directory-a, što povećava njegov nivo sigurnosti. 

Mobilnost je danas ključni faktor u kvalitetnom radu dežurnih inženjera. Osim praćenja praćenja u dežurnoj prostoriji, inženjeri obilaze, obavljaju rutinske poslove izvan „dežurne sobe“ i zahvaljujući glavnom ekranu BMS optimiziranom za mobilne ekrane, ne gube kontrolu nad onim što se dešava u turbinskim prostorijama čak ni na sekundu. 

Kvalitet kontrole je također poboljšan zahvaljujući funkcionalnosti radnih razgovora. Ubrzavaju radne procese omogućavajući da se korespondencija dežurnih inženjera „poveže“ sa BMS-om. Na primjer, koristimo aplikaciju Teams, koja vam omogućava da vodite internu korespondenciju i primate sve poruke sa BMS-a na svoj telefon u obliku iskačućih Push obavijesti, što eliminira potrebu da dežurni stalno gleda u telefon ekran.

Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3
 Push obavještenje na ekranu pametnog telefona.

Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3
Ovako izgledaju obavijesti u aplikaciji Teams.

Istovremeno, iskačuća obavještenja su konfigurirana samo za poruke o nastanku incidenata, čime se minimizira faktor ometanja; osoblje zna: ako se na ekranu pametnog telefona pojavi Teams Push Notifikacija, onda moraju otići na stranicu BMS i prihvati incident. Poruke o rješavanju incidenata prate se na stranici BMS.

Praćenje u data centru: kako smo stari BMS promijenili u novi. Dio 3
Fotografija prikazuje BMS interfejs u pametnom telefonu.

Sumirati

Iako je trošak ažuriranja BMS-a našeg starog dobavljača bio uporediv sa razvojem novog sistema od nule (oko 100 dolara), razlika u funkcionalnosti proizvoda se pokazala kolosalnom. Dobili smo fleksibilan sistem optimiziran za naše poslovne zadatke i procese. Takođe smo postigli značajne uštede u tekućim troškovima podrške i nadogradnje sistema. 

Ali, naravno, bilo je poteškoća. 

  • Prvo, potcijenili smo količinu izmjena koje je trebalo napraviti na osnovnoj verziji novog BMS-a i nismo ispunili unaprijed dogovorene rokove. Za nas to nije bio kritičan problem, jer smo do posljednjeg trenutka bili osigurani i radili po starom sistemu, a proces je bio kreativan, složen i samim tim je ponekad išao sporije od očekivanog. Osim toga, uvijek smo vidjeli da naš programer ulaže sve napore da postigne najbolji rezultat. Ali zapravo se ispostavilo da je priča jako duga, a naši ključni stručnjaci su na nju utrošili mnogo više truda i vremena nego što su planirali. 
  • Drugo, bilo nam je potrebno nekoliko faza testiranja da bismo otklonili greške u algoritmu za rezervisanje virtuelnih mašina i komunikacijskih kanala. U početku je bilo kvarova kako na strani BMS sistema, tako i na strani postavljanja virtuelnih mašina i mreže. Ovo otklanjanje grešaka takođe je trajalo. Na sreću, izvođaču je dostavljena testna platforma u vidu cloud servisa, na kojoj su sva podešavanja i inovacije prvobitno testirane.
  • Treće, pokazalo se da je rezultirajući sistem teže uređivati ​​krajnjem korisniku. Ako se ranije mapa sastojala od pozadine (grafičke datoteke) i ikona koje je bilo lako mijenjati ili pomicati, sada je to složeno grafičko sučelje s animacijom koje zahtijeva određene vještine uređivanja.

Radikalno ažuriranje našeg BMS sistema već se može nazvati najvažnijim projektom u protekloj godini, koji će u budućnosti ozbiljno uticati na kvalitet operativnog upravljanja našim sajtovima. 

Mi, naravno, nismo izbacili stari željezni server, već smo ga "olakšali": očistili smo ga od hiljada "komercijalnih" virtuelnih senzora i PDU-ova i u njemu ostavili samo nekoliko desetina najkritičnijih uređaja, poput dizela generatorski setovi, UPS, klima uređaji, pumpe, senzori curenja i temperature U ovom režimu, njegova bivša brzina se vratila i on može biti „rezervna rezerva“. Inače, nakon uklanjanja PDU-a sa starog BMS-a oslobodili smo oko 1000 sada nepotrebnih licenci, znate li slučajno šta sa njima?

izvor: www.habr.com

Dodajte komentar