Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3

Continuiamo la nostra storia su come abbiamo cambiato il sistema BMS nei nostri data center (parte 1, parte 2). Allo stesso tempo, non abbiamo semplicemente scambiato la soluzione di un fornitore con un altro, ma abbiamo sviluppato da zero un sistema adatto alle nostre esigenze. Alla fine del nostro racconto condividiamo i risultati del lavoro svolto e soluzioni interessanti che potrebbero esserti utili.

Nuove interfacce

Qui, come si suol dire, è meglio vedere una volta.

Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3Scaffali.

Diamo un'occhiata alle differenze.

  • Primo, è красиво conveniente. Notate quanto è diventato facile tenere traccia dei carichi sui moduli PDU ("Banche" o semplicemente "Banche") e la somma dei carichi paralleli dei moduli accoppiati. Sul modello rack del nuovo BMS, vediamo immediatamente che i moduli PDU accoppiati inferiori sono sovraccarichi (la corrente totale è superiore ai 16 A consentiti - notifica "blu") e quelli superiori sono sottocarichi. Se uno degli ingressi viene disconnesso, l'intero carico verrà trasferito al secondo e il modulo inferiore che rimane sotto tensione si spegnerà per sovraccarico. Per evitare che ciò accada, il servizio di supporto del data center avviserà in anticipo il cliente e invierà una raccomandazione su come ridistribuire il carico.
  • Facile aggiunta di attrezzature. Nel nuovo BMS, i sensori virtuali per la somma delle correnti dei moduli e della potenza del rack sono già aggiunti ai modelli di rack standard e vengono creati automaticamente dopo l'aggiunta di una PDU al rack. Nel vecchio BMS dovevano essere creati manualmente e poi trascinati sulla mappa, il che aumentava la probabilità di errore dovuta al “fattore umano”.
  • Portata illimitata per la creatività. Ora non abbiamo restrizioni durante la creazione di sensori virtuali. Puoi costruire assolutamente qualsiasi modello matematico di qualsiasi variabile. Ciò significa che abbiamo la capacità di creare sensori virtuali complessi (in precedenza potevamo solo aggiungere valori) e di analizzare meglio le statistiche e le tendenze nelle prestazioni dei sistemi di ingegneria. Ciò migliora la qualità delle decisioni prese in merito alla configurazione del sistema, alla sostituzione delle apparecchiature e alla gestione delle risorse. 
  • Interfaccia intuitiva. Nella nuova interfaccia non c'è confusione di icone, le ventole girano, gli interruttori "cliccano". E la cosa più comoda è la possibilità di indicare lo stato delle PDU Linea A/B all'interno dei rack. Abbiamo provato a fare qualcosa di simile nel vecchio BMS, ma il numero di icone unite per centimetro quadrato della mappa ci ha costretto ad abbandonarlo.

Ora è bello guardare:

Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3
Server.

Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3
Frammento del quadro principale.

Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3
Pannello di controllo della ventilazione.

E il nuovo BMS può essere decorato per il nuovo anno :)
Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3

Una pagina – comprensione reciproca senza una parola e senza specifiche tecniche

Da molto tempo volevamo implementare un altro “trucco” nel BMS: raccogliere in un’unica pagina i principali parametri del data center, in modo che bastasse uno sguardo allo schermo per valutare lo stato dei principali sistemi. Tuttavia, non abbiamo compreso appieno come dovrebbe essere.

Ancor prima che iniziasse lo sviluppo del nuovo BMS, abbiamo visitato una dozzina di data center nei Paesi Bassi durante le escursioni. Uno degli obiettivi era vedere esempi dell'implementazione di tale pagina.

E nessun data center ce lo ha mostrato: in alcuni non c'era, in altri era "in fase di sviluppo proprio adesso", in altri era un "grande segreto commerciale". Pertanto, nel nostro mandato per la creazione di un nuovo BMS, non c'era una descrizione precisa di questa pagina per noi così importante.

Di conseguenza, l’abbiamo inventato letteralmente “al volo”. Proprio in quel momento dovevo consultare da remoto i colleghi del data center. Era molto scomodo scorrere le pagine di BMS sul telefono alla ricerca di dati sparsi, e infatti la prima versione era abbozzata su un tovagliolo una pagina. È stato implementato dagli sviluppatori in base alla foto. 

Seguendo l'esempio dei nostri cauti colleghi olandesi, non mostreremo la versione finale della nostra pagina principale, soprattutto perché ogni data center è unico e non ha senso copiarlo. Ma descriviamo due principi fondamentali della sua formazione:

  1. Si tratta di un tavolo progettato per adattarsi al formato dello schermo verticale di uno smartphone (o di un monitor, ma mantenendo un layout verticale), con tutte le informazioni importanti visualizzate su un unico schermo. Sopra la tabella c'è un "riepilogo" degli incidenti attivi, quindi è stato più conveniente metterli insieme in formato verticale. 
  2. La disposizione delle celle nella tabella segue l'architettura del data center (fisico o logico). Abbiamo abbandonato la disposizione dei sistemi in ordine alfabetico, come sarebbe a prima vista auspicabile. La sequenza riflette le associazioni visive del personale del data center, come se stesse monitorando fisicamente tutte le stanze e i sistemi. Ciò semplifica la ricerca delle informazioni.

Infatti, ora tutte le caratteristiche chiave del data center sono raggruppate e presentate su uno schermo dello smartphone/monitor dell'ingegnere e manager responsabile, mentre viene implementato il collegamento alla topografia fisica e logica del data center. 

Ecco una foto di quella primissima bozza, anche se, ovviamente, questa versione è stata poi ripensata e finalizzata.

Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3

Riconoscimento e riepilogo dell'incidente

Parliamo di un altro concetto per noi nuovo, emerso a seguito del progetto di aggiornamento del sistema di monitoraggio.

Stretta di mano è un termine piuttosto raro proposto dallo sviluppatore del nuovo BMS. Significa la conferma che l'operatore ha visto l'incidente, lo ha riconosciuto e ha accettato la responsabilità di risolverlo.  

La parola è rimasta impressa e ora “riconosciamo” gli incidenti.

L'algoritmo incluso nella versione base del nuovo BMS non era adatto a noi. In realtà, si trattava di commenti al registro eventi, ovvero gli incidenti risolti non scomparivano dal registro e quelli accettati ("riconosciuti") non venivano ordinati da quelli nuovi.

Di conseguenza è stata sviluppata una finestra denominata “riepilogo”, in cui:

  1. Vengono visualizzati solo gli incidenti attivi e i dispositivi in ​​modalità di servizio (nessun avviso blu commerciale).
  2. Esiste una chiara distinzione tra incidenti NUOVI e ACCETTATI.
  3. È indicato chi ha accettato l'incidente.

L'algoritmo di lavoro per gli ufficiali di servizio nel nuovo BMS è il seguente:

  1. Nuovi incidenti sono inclusi nel rapporto e attendono il riconoscimento. Non possono sostare a lungo in questa sezione; l'addetto al ritiro delle attrezzature deve immediatamente farsi carico dell'accaduto.
  2. Il dipendente si assume la responsabilità dell'incidente cliccando sul segno di spunta a destra. Poiché tutti i dipendenti sono sotto account univoci, viene automaticamente visualizzato chi ha accettato l'incidente. Se necessario, lascia un commento.
  3. L'incidente viene spostato nella sezione "Riconosciuto", il resto dei funzionari in servizio e il manager comprendono che l'incidente è gestito dal dipendente responsabile.

Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3
Esempio di finestra di riepilogo con un messaggio nuovo e già riconosciuto.

Collegando la finestra di riepilogo con la tabella Una pagina, abbiamo ottenuto un full schermo principale Sistema BMS, dove puoi immediatamente vedere: 

  • stato dei principali sistemi del data center;
  • presenza di nuovi incidenti non trattati;
  • la presenza di incidenti accettati e informazioni su chi li elimina specificamente.

Accesso al browser e avvisi popup sul telefono

L'interfaccia web, accessibile da qualsiasi dispositivo da qualsiasi parte del mondo, è in netto contrasto con il client “thick”, che è completamente chiuso agli utenti esterni. 

Il vecchio approccio comportava una serie di inconvenienti, dai problemi nell'organizzazione del lavoro da remoto per il monitoraggio dei dipendenti dei servizi alla necessità di installare client “thick” dai kit di distribuzione sulle postazioni di lavoro del personale nel data center.

Ora qualsiasi pagina in BMS ha un indirizzo univoco, che consente di condividere non solo l'indirizzo diretto della pagina o del dispositivo, ma anche collegamenti a grafici/report univoci. 

L'accesso al sistema avviene ora tramite l'autenticazione LDAP tramite Active Directory, che ne aumenta il livello di sicurezza. 

La mobilità oggi è un fattore chiave nel lavoro di qualità degli ingegneri in servizio. Oltre a monitorare il monitoraggio nella sala di turno, gli ingegneri effettuano giri, eseguono lavori di routine al di fuori della “sala di lavoro” e, grazie allo schermo principale BMS ottimizzato per schermi mobili, non perdono il controllo di ciò che accade nelle sale turbine anche per un secondo. 

Anche la qualità del controllo è migliorata grazie alla funzionalità delle chat di lavoro. Accelerano i processi di lavoro consentendo di “collegare” la corrispondenza dei tecnici in servizio al BMS. Ad esempio, utilizziamo l'applicazione Teams, che ti consente di condurre la corrispondenza interna e ricevere tutti i messaggi dal BMS sul tuo telefono sotto forma di notifiche push pop-up, eliminando la necessità che l'ufficiale di turno guardi costantemente il telefono schermo.

Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3
 Notifica push sullo schermo dello smartphone.

Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3
Ecco come appaiono le notifiche nell'app Teams.

Allo stesso tempo, le notifiche pop-up sono configurate solo per i messaggi relativi al verificarsi di incidenti, riducendo così al minimo il fattore di distrazione; il personale sa: se sullo schermo dello smartphone appare una notifica push di Teams, è necessario andare alla pagina BMS e accettare l'incidente. I messaggi di risoluzione degli incidenti vengono tracciati nella pagina BMS.

Monitoraggio nel data center: come abbiamo sostituito il vecchio BMS con uno nuovo. Parte 3
La foto mostra l'interfaccia BMS in uno smartphone.

Riassumendo

Sebbene il costo dell’aggiornamento di un BMS del nostro vecchio fornitore fosse paragonabile allo sviluppo di un nuovo sistema da zero (circa 100 dollari), la differenza nella funzionalità dei prodotti si è rivelata colossale. Abbiamo ricevuto un sistema flessibile ottimizzato per le nostre attività e processi aziendali. Abbiamo inoltre ottenuto notevoli risparmi nel supporto continuo del sistema e nei costi di aggiornamento. 

Ma ovviamente c'erano delle difficoltà. 

  • Innanzitutto, abbiamo sottovalutato la quantità di modifiche che dovevano essere apportate alla versione base del nuovo BMS e non abbiamo rispettato le scadenze prestabilite. Per noi questo non è stato un problema critico, dato che eravamo assicurati fino all'ultimo minuto e lavoravamo sul vecchio sistema, e il processo era creativo, complesso e quindi a volte è andato più lentamente del previsto. Inoltre, abbiamo sempre visto che il nostro sviluppatore fa ogni sforzo per ottenere il miglior risultato. Ma in realtà, la storia si è rivelata molto lunga e i nostri specialisti chiave hanno dedicato molti più sforzi e tempo di quanto avessero previsto. 
  • In secondo luogo, abbiamo avuto bisogno di diverse fasi di test per eseguire il debug dell'algoritmo per la prenotazione delle macchine virtuali e dei canali di comunicazione. Inizialmente si sono verificati guasti sia dal lato del sistema BMS che dal lato della configurazione delle macchine virtuali e della rete. Anche questo debug ha richiesto tempo. Fortunatamente al committente è stata messa a disposizione una piattaforma di prova sotto forma di servizio cloud, dove sono state inizialmente testate tutte le impostazioni e le innovazioni.
  • In terzo luogo, il sistema risultante si è rivelato più difficile da modificare da parte dell'utente finale. Se prima una mappa era composta da uno sfondo (file grafico) e da icone facili da modificare o spostare, ora è un'interfaccia grafica complessa con animazione che richiede determinate capacità di editing.

L'aggiornamento radicale del nostro sistema BMS può già essere definito il progetto più importante dell'anno scorso, che influenzerà seriamente la qualità della gestione operativa dei nostri siti in futuro. 

Naturalmente, non abbiamo buttato via il vecchio server di ferro, ma lo abbiamo "alleggerito": lo abbiamo ripulito da migliaia di sensori e PDU virtuali "commerciali" e vi abbiamo lasciato solo poche dozzine dei dispositivi più critici, come i diesel gruppi elettrogeni, UPS, condizionatori, pompe, sensori di perdite e temperature In questa modalità, la sua velocità precedente è tornata e può essere una "riserva di riserva". A proposito, dopo aver rimosso la PDU dal vecchio BMS, abbiamo liberato circa 1000 licenze ormai inutili, sai per caso cosa farne?

Fonte: habr.com

Aggiungi un commento