Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3

Ne continuăm povestea despre cum am schimbat sistemul BMS în centrele noastre de date (parte 1, parte 2). În același timp, nu am schimbat pur și simplu soluția unui furnizor cu altul, ci am dezvoltat de la zero un sistem care să se potrivească cerințelor noastre. La finalul poveștii noastre, vă împărtășim rezultatele muncii depuse și soluții interesante care vă pot fi utile.

Interfață nouă

Aici, după cum se spune, este mai bine să vezi o dată.

Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3Rafturi.

Să ne uităm la diferențe.

  • În primul rând, este красиво convenabil. Observați cât de ușor a devenit să urmăriți sarcinile modulelor PDU („Bănci” sau pur și simplu „Bănci”) și suma sarcinilor paralele ale modulelor pereche. Pe modelul de rack de la noul BMS, vedem imediat că modulele PDU împerecheate inferioare sunt supraîncărcate (curentul total este mai mare decât notificarea admisibilă de 16A - „albastru”), iar cele superioare sunt subîncărcate. Dacă una dintre intrări este deconectată, întreaga sarcină se va transfera la a doua, iar modulul inferior care rămâne alimentat se va opri din cauza suprasarcinului. Pentru a preveni acest lucru, serviciul de asistență al centrului de date va avertiza clientul în avans și va trimite o recomandare cu privire la modul de redistribuire a încărcăturii.
  • Adăugarea ușoară a echipamentului. În noul BMS, senzorii virtuali pentru sumele curenților modulelor și puterea rack-ului sunt deja adăugați la șabloanele standard de rack și sunt creați automat după adăugarea unei PDU la rack. În vechiul BMS, acestea trebuiau create manual și apoi trase pe hartă, ceea ce creștea probabilitatea de eroare din cauza „factorului uman”.
  • Domeniu nelimitat de creativitate. Acum nu avem restricții atunci când creăm senzori virtuali. Puteți construi absolut orice modele matematice ale oricăror variabile. Aceasta înseamnă că avem capacitatea de a crea senzori virtuali complecși (anterior puteam doar adăuga valori) și de a analiza mai bine statisticile și tendințele în performanța sistemelor de inginerie. Acest lucru îmbunătățește calitatea deciziilor luate cu privire la configurarea sistemului, înlocuirea echipamentelor și gestionarea resurselor. 
  • Interfață intuitivă. În noua interfață nu există aglomerație de pictograme, ventilatoarele se rotesc, comutatoarele „clic”. Și cel mai convenabil lucru este capacitatea de a indica starea liniei PDU A/B în interiorul rafturilor. Am încercat să facem ceva asemănător în vechiul BMS, dar numărul de pictograme îmbinate pe centimetru pătrat al hărții ne-a forțat să-l abandonăm.

Acum e frumos să te uiți la:

Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3
Server.

Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3
Fragment din tabloul principal.

Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3
Panou de control al ventilației.

Iar noul BMS poate fi decorat pentru Anul Nou :)
Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3

O pagină – înțelegere reciprocă fără un cuvânt și fără specificații tehnice

De foarte mult timp ne-am dorit să implementăm un alt „truc” în BMS: să compilam parametrii principali ai centrului de date pe o singură pagină, astfel încât o singură privire pe ecran să fie suficientă pentru a evalua starea sistemelor principale. Cu toate acestea, nu am înțeles pe deplin cum ar trebui să arate.

Chiar înainte de a începe dezvoltarea noului BMS, am vizitat o duzină de centre de date din Olanda în excursii. Unul dintre obiective a fost acela de a vedea exemple de implementare a unei astfel de pagini.

Și nici un singur centru de date nu ne-a arătat - în unele nu era acolo, în altele era „în curs de dezvoltare chiar acum”, în altele era un „mare secret comercial”. Prin urmare, în termenii noștri de referință pentru crearea unui nou BMS, nu exista o descriere precisă a acestei pagini foarte importante pentru noi.

Drept urmare, am venit cu el literalmente „din mers”. Chiar în acel moment a trebuit să consult de la distanță colegii din centrul de date. Era foarte incomod să defilezi prin paginile BMS de pe telefon în căutarea datelor împrăștiate și, de fapt, prima versiune a fost schițată pe un șervețel O pagină. A fost implementat de dezvoltatori pe baza fotografiei. 

Urmând exemplul colegilor noștri precauți olandezi, nu vom demonstra versiunea finală a paginii noastre principale, mai ales că fiecare centru de date este unic și nu are rost să-l copiem. Dar să descriem două principii principale ale formării sale:

  1. Acesta este un tabel conceput pentru a se potrivi formatului unui ecran de smartphone situat vertical (sau a unui monitor, dar menținând un aspect vertical), cu toate informațiile importante afișate pe un singur ecran. Deasupra tabelului este un „rezumat” al incidentelor active, așa că a fost cel mai convenabil să le plasați împreună într-un format vertical. 
  2. Dispunerea celulelor din tabel urmează arhitectura centrului de date (fizică sau logică). Am abandonat aranjarea sistemelor în ordine alfabetică, așa cum se dorește la prima vedere. Secvența reflectă asocierile vizuale ale personalului centrului de date - ca și cum ar monitoriza fizic toate camerele și sistemele. Acest lucru face mai ușor să găsiți informații.

De fapt, acum absolut toate caracteristicile cheie ale centrului de date sunt grupate și prezentate pe un ecran al smartphone-ului/monitorului inginerului și managerului responsabil, în timp ce este implementată legătura la topografia fizică și logică a centrului de date. 

Iată o fotografie a acestei prime schițe, deși, desigur, apoi această versiune a fost regândită și finalizată.

Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3

Recunoașterea și rezumatul incidentului

Să vorbim despre un alt concept nou pentru noi, care a apărut ca urmare a proiectului de actualizare a sistemului de monitorizare.

Strângere de mână este un termen destul de rar care a fost propus de dezvoltatorul noului BMS. Înseamnă confirmarea faptului că operatorul a văzut incidentul, l-a recunoscut și și-a acceptat responsabilitățile pentru a-l rezolva.  

Cuvântul s-a blocat, iar acum „recunoaștem” incidente.

Algoritmul inclus în versiunea de bază a noului BMS nu ni s-a potrivit. De fapt, acestea au fost comentarii la jurnalul de evenimente, adică incidentele rezolvate nu au dispărut din jurnal, iar cele acceptate („recunoscute”) nu au fost sortate din altele noi.

Ca urmare, a fost dezvoltată o fereastră numită „rezumat”, în care:

  1. Sunt afișate doar incidentele active și dispozitivele aflate în modul service (fără notificări comerciale albastre).
  2. Există o distincție clară între incidentele NOI și ACCEPTATE.
  3. Se indică cine a acceptat incidentul.

Algoritmul de lucru pentru ofițerii de serviciu în noul BMS este următorul:

  1. Noi incidente sunt incluse în raport și așteaptă confirmarea. Ei nu pot sta în această secție pentru o perioadă lungă de timp, persoana de serviciu pentru echipament trebuie să se ocupe imediat de incident.
  2. Angajatul își asumă responsabilitatea pentru incident făcând clic pe bifa din dreapta. Deoarece toți angajații se află sub conturi unice, se afișează automat cine a acceptat incidentul. Dacă este necesar, lăsați un comentariu.
  3. Incidentul este mutat în secțiunea „Recunoștință”, restul ofițerilor de serviciu și managerul înțeleg că incidentul este gestionat de angajatul responsabil.

Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3
Exemplu de fereastră de rezumat cu un mesaj nou și deja confirmat.

Conectând fereastra de rezumat cu tabelul One page, am obținut un complet ecranul principal Sistem BMS, unde puteți vedea imediat: 

  • starea principalelor sisteme de centre de date;
  • prezența unor noi incidente neprocesate;
  • prezența incidentelor acceptate și informații despre cine le elimină în mod specific.

Acces la browser și alerte pop-up pe telefon

Interfața web, accesibilă de pe orice dispozitiv de oriunde în lume, este un contrast puternic cu clientul „gros”, care este complet închis pentru utilizatorii externi. 

Vechea abordare a implicat o serie de inconveniente, de la probleme în organizarea lucrului de la distanță pentru monitorizarea angajaților de servicii până la necesitatea instalării clienților „groși” din kiturile de distribuție pe stațiile de lucru ale personalului din centrul de date.

Acum, orice pagină din BMS are o adresă unică, care vă permite să partajați nu numai adresa directă a paginii sau dispozitivului, ci și link-uri către grafice/rapoarte unice. 

Accesul la sistem se realizează acum prin autentificare LDAP prin Active Directory, ceea ce îi crește nivelul de securitate. 

Mobilitatea astăzi este un factor cheie în munca de calitate a inginerilor de serviciu. Pe lângă monitorizarea monitorizării în camera de serviciu, inginerii fac tururi, efectuează lucrări de rutină în afara „camerului de serviciu” și, datorită ecranului principal BMS optimizat pentru ecranele mobile, nu pierd controlul asupra a ceea ce se întâmplă în încăperile turbinelor chiar și Pentru o secundă. 

Calitatea controlului este, de asemenea, îmbunătățită datorită funcționalității chat-urilor de serviciu. Ele accelerează procesele de lucru permițând corespondenței inginerilor de serviciu să fie „legate” la BMS. De exemplu, folosim aplicația Teams, care vă permite să efectuați corespondență internă și să primiți toate mesajele de la BMS pe telefonul dvs. sub formă de notificări pop-up Push, ceea ce elimină nevoia ca ofițerul de serviciu să se uite constant la telefon ecran.

Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3
 Notificare push pe ecranul smartphone-ului.

Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3
Așa arată notificările în aplicația Teams.

În același timp, notificările pop-up sunt configurate numai pentru mesajele despre apariția incidentelor, reducând astfel la minimum factorul de distragere a atenției, personalul știe: dacă pe ecranul smartphone-ului apare o Notificare Push, atunci trebuie să meargă la pagina BMS; și acceptă incidentul. Mesajele de rezolvare a incidentelor sunt urmărite pe pagina BMS.

Monitorizare în centrul de date: cum am înlocuit vechiul BMS cu unul nou. Partea 3
Fotografia arată interfața BMS într-un smartphone.

Rezumând

În timp ce costul actualizării unui BMS de la vechiul nostru furnizor a fost comparabil cu dezvoltarea unui nou sistem de la zero (aproximativ 100 USD), diferența de funcționalitate a produselor s-a dovedit a fi colosală. Am primit un sistem flexibil optimizat pentru sarcinile și procesele noastre de afaceri. Am realizat, de asemenea, economii semnificative în ceea ce privește suportul continuu al sistemului și costurile de actualizare. 

Dar, desigur, au fost dificultăți. 

  • În primul rând, am subestimat cantitatea de modificări care trebuiau făcute în versiunea de bază a noului BMS și nu am respectat termenele pre-acordate. Pentru noi, aceasta nu a fost o problemă critică, deoarece am fost asigurați până în ultimul minut și am lucrat la sistemul vechi, iar procesul a fost creativ, complex și, prin urmare, uneori a mers mai lent decât se aștepta. În plus, am văzut întotdeauna că dezvoltatorul nostru depune toate eforturile pentru a obține cel mai bun rezultat. Dar, de fapt, povestea s-a dovedit a fi foarte lungă, iar specialiștii noștri cheie au cheltuit mult mai mult efort și mai mult timp decât plănuiseră. 
  • În al doilea rând, am avut nevoie de mai multe etape de testare pentru a depana algoritmul de rezervare a mașinilor virtuale și a canalelor de comunicare. Inițial, au existat defecțiuni atât pe partea sistemului BMS, cât și pe partea de configurare a mașinilor virtuale și a rețelei. Această depanare a durat de asemenea. Din fericire, contractorului i s-a pus la dispoziție o platformă de testare sub forma unui serviciu cloud, unde au fost testate inițial toate setările și inovațiile.
  • În al treilea rând, sistemul rezultat s-a dovedit a fi mai dificil de editat de către utilizatorul final. Dacă anterior o hartă era formată dintr-un fundal (fișier grafic) și pictograme ușor de schimbat sau mutat, acum este o interfață grafică complexă cu animație care necesită anumite abilități de editare.

Actualizarea radicală a sistemului nostru BMS poate fi deja numită cel mai important proiect al anului trecut, care va afecta serios calitatea managementului operațional al site-urilor noastre în viitor. 

Noi, desigur, nu am aruncat vechiul server de fier, ci l-am „ușurat”: l-am curățat de mii de senzori virtuali și PDU „comerciali” și am lăsat în el doar câteva zeci dintre cele mai critice dispozitive, precum motorina. grupuri electrogene, UPS, aparate de aer condiționat, pompe, senzori de scurgeri și temperaturi În acest mod, viteza anterioară a revenit și el poate fi o „rezervă de rezervă”. Apropo, după ce am scos PDU-ul din vechiul BMS, am eliberat vreo 1000 de licențe acum inutile, se întâmplă să știi ce să faci cu ele?

Sursa: www.habr.com

Cumpărați găzduire de încredere pentru site-uri cu protecție DDoS, servere VPS VDS 🔥 Cumpără găzduire web fiabilă cu protecție DDoS, servere VPS VDS | ProHoster