E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
Il capo del reparto operativo è salito sul portello del deposito sotterraneo del carburante per mostrare i contrassegni sull'elettrovalvola.

All'inizio di febbraio, il nostro più grande data center Tier III NORD-4 Ricertificato dall'Uptime Institute (UI) secondo lo standard di sostenibilità operativa. Oggi vi diremo cosa stanno esaminando i revisori e con quali risultati abbiamo terminato.

Per coloro che hanno familiarità con i data center, esaminiamo brevemente l'hardware. Standard di livello valuta e certifica i data center in tre fasi:

  • progetto (Design): viene controllato il pacchetto della documentazione di progetto.Qui il noto Fila. Ce ne sono 4 in totale: Livello I–IV. Quest'ultimo è, di conseguenza, il più alto.
  • struttura realizzata (Facility): viene verificata l'infrastruttura ingegneristica del data center e la sua conformità al progetto. Il data center viene controllato a pieno carico di progetto utilizzando una serie di test con approssimativamente il seguente contenuto: uno degli UPS (DGS, refrigeratori, condizionatori d'aria di precisione, armadi di distribuzione, sbarre collettrici, ecc.) viene messo fuori servizio per manutenzione o riparazione , e l'alimentazione elettrica della città è spenta. . I data center di livello III e superiori dovrebbero essere in grado di gestire la situazione senza alcun impatto sul carico utile IT.

    È possibile usufruire della struttura se il data center ha già superato la certificazione di progettazione.
    NORD-4 ha ricevuto il certificato di progettazione nel 2015 e di struttura nel 2016.

  • Sostenibilità operativa. Di fatto, la certificazione più importante e complessa. Valuta in modo completo i processi e le competenze di un operatore nel mantenimento e nella gestione di un data center con un livello Tier stabilito (per superare la Sostenibilità Operativa è necessario essere già in possesso del certificato di Facility). Dopotutto, senza processi operativi adeguatamente strutturati e un team qualificato, anche un data center di livello IV può trasformarsi in un edificio inutile con attrezzature molto costose.

    Ci sono anche i livelli qui: Bronzo, Argento e Oro. All'ultima ricertificazione abbiamo concluso con un punteggio di 88,95 su 100 punti possibili, e questo è Argento. È sceso appena al di sotto dell'Oro: 1,05 punti. 

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Come verificare che i processi necessari siano costruiti e funzionino come dovrebbero? Inoltre, come farlo in due giorni: ecco quanto tempo ci vuole per la ricertificazione. La certificazione, insomma, si basa su un confronto certosino tra quanto scritto nelle normative, racconti di “come funziona tutto” e pratiche reali. Le informazioni su quest'ultimo si ottengono dalle visite guidate del data center e dalle conversazioni con gli ingegneri del data center - "confronti", come li chiamiamo affettuosamente. Questo è ciò che stanno guardando.

Squadra

Innanzitutto, i revisori dell’interfaccia utente verificano se il data center dispone di personale di supporto sufficiente. Prendono la tabella del personale, il programma dei turni di lavoro e li controllano selettivamente con i rapporti sui turni e i dati di controllo degli accessi per assicurarsi che il numero richiesto di ingegneri fosse effettivamente sul posto quel giorno.

I revisori esaminano attentamente anche il numero di ore di straordinario. Questo a volte accade quando arriva un grande cliente ed è necessario installare dozzine di rack contemporaneamente. In questi momenti, i ragazzi di altri turni vengono in soccorso e per questo vengono pagati soldi extra.

Ci sono 4 ingegneri che lavorano su NORD-7 per turno: 6 in servizio e un ingegnere senior. Questi sono coloro che monitorano il monitoraggio 24 ore su 7, 24 giorni su 7, incontrano i clienti, aiutano con l'installazione delle apparecchiature e altre richieste di routine. Questa è la prima linea di supporto tecnico del cliente. Le loro responsabilità includono la registrazione delle situazioni di emergenza e la loro segnalazione a ingegneri specializzati. Il lavoro dell'infrastruttura ingegneristica è monitorato da singole persone: funzionari addetti all'infrastruttura. Anche XNUMX ore su XNUMX, XNUMX giorni su XNUMX.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
Il direttore di produzione e il responsabile del cantiere di NORD raccontano agli auditor quante persone stanno lavorando sul cantiere in questo momento.

Una volta stabiliti i numeri, vengono verificate le qualifiche della squadra. I revisori esaminano in modo casuale i fascicoli del personale degli ingegneri per assicurarsi che dispongano dei diplomi, dei certificati e dei documenti di autorizzazione necessari (ad esempio, certificati di sicurezza elettrica) per lavorare in una determinata posizione.

Controllano anche il modo in cui formiamo il nostro personale. Anche durante l'ultimo audit, il nostro sistema per la formazione dei nuovi ingegneri in servizio ha impressionato gli specialisti dell'interfaccia utente. Trascorriamo tre mesi per loro corso di formazione come stage retribuito, durante il quale li presentiamo ai processi e ai principi di lavoro nel nostro data center.

Anche gli ingegneri già in servizio devono seguire una formazione regolare, anche sul lavoro in situazioni di emergenza. I revisori controlleranno sicuramente i programmi di formazione e i materiali di tali corsi di formazione ed esamineranno anche casualmente gli ingegneri. A nessuno verrà chiesto di passare a un gruppo elettrogeno diesel, ma verrà chiesto di dirvi passo dopo passo cosa bisogna fare quando viene interrotta l'erogazione di energia elettrica in città. Sulla base dei risultati dell'audit, porteremo tutti i programmi di formazione e istruzione a un unico standard in modo che non differiscano per i diversi team.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
Mostriamo agli auditor la sala pausa per gli ingegneri di turno.

Esercizio e manutenzione di sistemi di ingegneria 

In questa ampia sezione dell'audit, mostriamo che tutte le apparecchiature e i sistemi di ingegneria ricevono una manutenzione regolare secondo il programma raccomandato dai fornitori, che il magazzino dispone dei pezzi di ricambio necessari, accordi di assistenza validi con gli appaltatori e che ogni operazione con le apparecchiature ha il proprio procedure e algoritmi per lavorare su casi diversi.

MMS Quando gestisci dozzine di UPS, gruppi elettrogeni diesel, condizionatori d'aria e altre cose, devi raccogliere tutte le informazioni su questa struttura da qualche parte. Per ogni attrezzatura creiamo indicativamente il seguente dossier:

  • modello e numero di serie;
  • marcatura;
  • caratteristiche tecniche e impostazioni;
  • sito di installazione;
  • date di produzione, messa in servizio, scadenza della garanzia;
  • contratti di servizio;
  • programma e cronologia della manutenzione;
  • e l'intera "storia medica": guasti, riparazioni.

Come e dove raccogliere tutte queste informazioni spetta a ciascun operatore del data center decidere autonomamente. L'interfaccia utente non è limitata negli strumenti. Può trattarsi di un semplice Excel (abbiamo iniziato con questo) o di un sistema di gestione della manutenzione (MMS) autoprodotto, come quello che abbiamo ora. A proposito, servizio reception, contabilità di magazzino, registro online e monitoraggio sono anch'essi autoprodotti.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
Esiste un "file personale" per ogni attrezzatura.

Abbiamo dimostrato le nostre pratiche a questo riguardo, anche utilizzando l'esempio di questo UPS infrastrutturale (nella foto), che ha donato una delle sue parti all'UPS che serve il carico IT. Sì, secondo la norma tale “donazione” può essere effettuata solo dalle apparecchiature infrastrutturali che alimentano i condizionatori e l’illuminazione di emergenza, ma non dal carico informatico.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Successivamente, gli auditor hanno chiesto di mostrare il ticket corrispondente al Service Desk:

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

E il profilo UPS in MMS:

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

APP. Per la manutenzione tempestiva e le riparazioni di emergenza delle apparecchiature tecniche, conserviamo i nostri pezzi di ricambio e accessori. C'è un magazzino generale con grandi pezzi di ricambio per attrezzature e piccoli armadietti con pezzi di ricambio nelle sale tecniche (in modo da non dover correre lontano).

Nella foto: stiamo verificando la disponibilità dei pezzi di ricambio per il gruppo elettrogeno diesel. Abbiamo contato 12 filtri. Quindi abbiamo controllato i dati nell'MMS.  

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Un esercizio simile è stato effettuato presso il magazzino principale, dove sono immagazzinati grandi pezzi di ricambio: compressori, controller, automazione, ventilatori, umidificatori a vapore e centinaia di altri articoli. Abbiamo riscritto selettivamente i contrassegni e li abbiamo "perforati" tramite MMS.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
Dati di inventario dei pezzi di ricambio. Rosso - Questo è ciò che manca e che deve essere acquistato.

Manutenzione preventiva. Oltre alla manutenzione e alle riparazioni, l'UI consiglia di eseguire la manutenzione preventiva. Aiuta a trasformare un potenziale incidente in una riparazione pianificata. Per ogni parametro configuriamo i valori di soglia nel monitoraggio. Se vengono superati, i responsabili ricevono allarmi e intraprendono le azioni necessarie. Ad esempio, noi:

  • Controlliamo i quadri elettrici con una termocamera per rilevare rapidamente i difetti negli impianti elettrici: cattivo contatto, surriscaldamento locale di un conduttore o di un interruttore automatico. 
  • Monitoriamo gli indicatori di vibrazione e il consumo di corrente delle pompe del sistema di refrigerazione. Ciò consente di identificare tempestivamente eventuali scostamenti e pianificare la sostituzione dei pezzi di ricambio senza fretta.
  • Effettuiamo analisi del carburante e dell'olio di gruppi elettrogeni e compressori diesel.
  • Testiamo la concentrazione del glicole nel sistema di refrigerazione.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
Diagramma delle vibrazioni della pompa prima e dopo la riparazione.

Lavorare con gli appaltatori. La manutenzione e la riparazione delle attrezzature vengono effettuate da ditte esterne. Dalla nostra parte ci sono specialisti separati in gruppi elettrogeni diesel, condizionatori d'aria e UPS che ne controllano il funzionamento. Controllano se gli appaltatori dispongono degli strumenti e dei materiali necessari per lavori di riparazione/manutenzione, certificati professionali, certificati di sicurezza elettrica e permessi. Accettano tutto il lavoro.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
Ecco come appare la lista di controllo per accettare i lavori di manutenzione del condizionatore d'aria.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
All'ufficio abbonamenti controlliamo se gli abbonamenti sono stati rilasciati ai rappresentanti autorizzati degli appaltatori, se hanno effettuato la manutenzione all'orario specificato e se hanno letto le regole.

Documentazione. I processi consolidati per la manutenzione di sistemi e apparecchiature rappresentano metà dell’opera. Tutte le procedure eseguite da esseri umani nel data center devono essere documentate. Lo scopo è semplice: affinché tutto non sia limitato a una persona specifica e, in caso di incidente, qualsiasi ingegnere possa prendere istruzioni chiare e fare tutte le operazioni necessarie per eliminarlo.

L'interfaccia utente ha la propria metodologia per tale documentazione.

Per le attività semplici e ripetitive vengono stabilite procedure operative standard (SOP). Ad esempio, esistono SOP per accendere/spegnere il refrigeratore e impostare l'UPS su bypass.

Per manutenzioni o operazioni complesse, come la sostituzione delle batterie di un UPS, vengono create procedure di manutenzione (Methods of Procedures, MOP). Questi possono includere SOP. Ogni tipo di attrezzatura di ingegneria deve avere i propri MOP.

Infine, ci sono le Procedure Operative di Emergenza (EOP), ovvero istruzioni in caso di emergenza. Viene compilato un elenco di situazioni di emergenza specifiche e vengono scritte istruzioni per esse. Ecco una parte dell'elenco delle situazioni di emergenza, che dettaglia i segni di un incidente, le azioni, le persone responsabili e le persone da avvisare:

  • interruzione dell'alimentazione elettrica cittadina: gruppi elettrogeni diesel avviati/non avviati;
  • Incidenti UPS; 
  • incidenti sul sistema di monitoraggio del data center;
  • surriscaldamento della sala macchine;
  • perdita del sistema di refrigerazione;
  • guasti alle apparecchiature di rete e informatiche;

прочее и.

Compilare un tale volume di documentazione è di per sé un compito ad alta intensità di lavoro. È ancora più difficile mantenerlo aggiornato (a proposito, anche i revisori dei conti lo controllano). E, cosa più importante, il personale deve conoscere queste istruzioni, lavorare in base ad esse e apportare miglioramenti, se necessario.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
Sì, le istruzioni dovrebbero essere disponibili dove potrebbero essere necessarie e non solo a prendere polvere negli archivi.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
Note sulle modifiche alle norme di manutenzione dei sistemi di ingegneria dei data center.

Durante l'audit esaminano anche la documentazione tecnica sugli impianti, la documentazione esecutiva ed operativa, gli atti di messa in esercizio degli impianti. 

Marcatura. Mentre camminavano nel data center, lo controllavano ovunque potessero raggiungere. Dove non potevano arrivare, arrivavano con una scala a pioli :). Abbiamo osservato la sua presenza su ogni quadro, macchina e valvola. Abbiamo verificato l'unicità, l'univocità e la conformità agli schemi vigenti della documentazione as-built. Nella foto sotto: siamo nella sala pompe di stoccaggio del carburante e confrontiamo le marcature sulle elettrovalvole con lo schema della documentazione as-built. 

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Tutto era d'accordo con lei, ma con lo schema assonometrico “decorativo” locale sul muro in un parametro non coincideva.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Nei locali del data center dovrebbero essere affissi anche i diagrammi dei sistemi ivi installati. In caso di incidente, ti aiutano a scoprire rapidamente dove si trova tutto e a prendere una decisione informata. La foto, ad esempio, mostra uno schema unifilare nel locale del quadro elettrico principale.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

La pertinenza dei diagrammi è stata verificata nel modo seguente: hanno nominato l'elemento contrassegnato sul diagramma e hanno chiesto di mostrarlo “nella vita reale”. 

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Qui l'auditor fotografa le regolazioni (impostazioni) dell'interruttore principale di ingresso del centralino, per poi confrontarle con gli indicatori dello schema unifilare in copie cartacee ed elettroniche. Su una delle macchine, QF-3, l'indicatore non corrispondeva al diagramma cartaceo e abbiamo guadagnato un punto di penalità. Ora due ingegneri controlleranno se le marcature negli schemi unifilari corrispondono al fatto.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Questo non è tutto ciò che i revisori hanno verificato in termini di processi di servizio. Ecco cos'altro c'era all'ordine del giorno:

  • sistema di monitoraggio. Qui abbiamo ottenuto benefici karmici con una buona visualizzazione, la presenza di un'applicazione mobile e schermi situazionali posizionati nei corridoi dei data center. Qui abbiamo scritto in dettaglio come lavoriamo monitoraggio.

    E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute
    Questo è l'MCC con informazioni visive sullo stato dei principali sistemi di ingegneria di NORD-4 e degli altri nostri data center che lavorano sul sito.

  • pianificazione del ciclo di vita delle apparecchiature tecniche;
  • gestione della capacità (gestione della capacità);
  • budgeting (parlato un po' qui);
  • procedura di analisi degli incidenti;
  • il processo di accettazione, messa in servizio e collaudo delle apparecchiature (abbiamo scritto di test qui).

Cos'altro stava guardando l'interfaccia utente?

Sicurezza e controllo degli accessi. L'audit verifica anche il funzionamento dei sistemi di sicurezza. Ad esempio, il revisore dei conti ha tentato di entrare in uno dei locali a cui non aveva accesso, quindi ha verificato se ciò si rifletteva nel sistema di controllo degli accessi e se la sicurezza ne era stata informata (spoiler - lo era).

Se nei nostri data center la porta di una stanza rimane aperta per più di due minuti, viene attivato un avviso presso il posto di sicurezza. Per verificarlo, gli auditor hanno aperto una delle porte con un estintore. È vero, non abbiamo mai sentito una sirena: la sicurezza ha visto che qualcosa non andava attraverso le videocamere ed è arrivata prima sulla "scena del crimine".

Ordine e pulizia. I revisori cercano polvere, scatole di attrezzature sparse in modo caotico e quanto spesso i locali vengono puliti. In questo caso, ad esempio, gli auditor si sono interessati a un oggetto non identificato nel corridoio di ventilazione. Si tratta di un blocco del sistema di ventilazione, che si stava già preparando a prendere il suo posto. Ma mi hanno comunque chiesto di firmare.

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Sempre in tema di ordine nel data center: questi armadi con tutti gli strumenti necessari per i lavori di emergenza sulle apparecchiature si trovano nel centralino principale. 

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Posizione. Il data center viene valutato in base alle condizioni di localizzazione, ovvero alla presenza di basi militari, aeroporti, fiumi, vulcani e altri oggetti pericolosi nelle vicinanze. Nella foto mostriamo solo che dall'ultima certificazione del 2017 attorno al data center non sono cresciute centrali nucleari o strutture di stoccaggio del petrolio. Ma laggiù è in costruzione un nuovo data center NORD-5, che dovrà superare anche tutti i livelli di certificazione Uptime Institute Tier III. Ma questa è una storia completamente diversa).

E dimostra, o come abbiamo superato l'audit di sostenibilità operativa presso l'Uptime Institute

Fonte: habr.com

Aggiungi un commento