Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
Șeful departamentului de operațiuni a urcat în trapa depozitului subteran de combustibil pentru a arăta marcajele de pe electrovalva.

La începutul lunii februarie, cel mai mare centru de date Tier III NORD-4 Recertificat de Uptime Institute (UI) la standardul de durabilitate operațională. Astăzi vă vom spune la ce se uită auditorii și cu ce rezultate am terminat.

Pentru cei care sunt familiarizați cu centrele de date, să trecem pe scurt la hardware. Standarde de nivel evaluează și certifică centrele de date în trei etape:

  • proiect (Design): se verifică pachetul de documentație de proiect.Aici binecunoscutul Nivelul. Sunt 4 în total: Nivelul I–IV. Acesta din urmă este, în consecință, cel mai înalt.
  • instalație construită (Facility): se verifică infrastructura de inginerie a centrului de date și conformitatea acesteia cu proiectul. Centrul de date este verificat sub sarcina de proiectare completă folosind o varietate de teste cu aproximativ următorul conținut: unul dintre UPS-uri (DGS, chillere, aparate de aer condiționat de precizie, dulapuri de distribuție, bare colectoare etc.) este scos din funcțiune pentru întreținere sau reparație. , iar sursa de alimentare a orașului este oprită. Centrele de date de nivelul III și de mai sus ar trebui să poată face față situației fără niciun impact asupra sarcinii utile IT.

    Facilitatea poate fi luată dacă centrul de date a trecut deja certificarea de proiectare.
    NORD-4 a primit certificatul de proiectare în 2015, iar Facility în 2016.

  • Sustenabilitate operațională. De fapt, cea mai importantă și complexă certificare. Evaluează în mod cuprinzător procesele și competențele unui operator în întreținerea și gestionarea unui centru de date cu un nivel de nivel stabilit (pentru a promova sustenabilitatea operațională, trebuie să aveți deja un certificat de facilitate). La urma urmei, fără procese operaționale structurate corespunzător și o echipă calificată, chiar și un centru de date Tier IV se poate transforma într-o clădire inutilă cu echipamente foarte scumpe.

    Există și niveluri aici: Bronz, Argint și Aur. La ultima recertificare am terminat cu un scor de 88,95 din 100 de puncte posibile, iar acesta este Silver. A căzut doar sub aur - 1,05 puncte. 

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Cum să verificați dacă procesele necesare sunt construite și funcționează așa cum ar trebui? Mai mult, cum să o faci în două zile - atât timp durează re-certificarea. Pe scurt, certificarea se bazează pe o comparație minuțioasă a ceea ce este scris în regulamente, povești despre „cum funcționează totul” și practici reale. Informațiile despre acestea din urmă sunt obținute din vizitele centrului de date și conversațiile cu inginerii centrelor de date - „confruntări”, așa cum le numim cu afecțiune. La asta se uită ei.

Echipă

În primul rând, auditorii UI verifică dacă centrul de date are suficient personal de asistență. Ei iau tabelul de personal, programul de serviciu și îl verifică selectiv cu rapoarte de schimb și date de control al accesului pentru a se asigura că numărul necesar de ingineri se aflau efectiv la fața locului în acea zi.

De asemenea, auditorii analizează cu atenție numărul de ore suplimentare. Acest lucru se întâmplă uneori când intră un client mare și zeci de rafturi trebuie instalate în același timp. În astfel de momente, băieți din alte ture vin în ajutor și sunt plătiți cu bani în plus pentru asta.

Există 4 ingineri care lucrează pe NORD-7 pe tură: 6 de serviciu și un inginer senior. Aceștia sunt cei care monitorizează monitorizarea 24x7, întâlnesc clienți, ajută la instalarea echipamentelor și alte solicitări de rutină. Aceasta este prima linie de asistență tehnică pentru clienți. Responsabilitățile lor includ înregistrarea situațiilor de urgență și escaladarea acestora către ingineri de specialitate. Lucrarea infrastructurii de inginerie este monitorizată de persoane individuale - ofițeri de serviciu de infrastructură. De asemenea, 24x7.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
Directorul de producție și managerul de șantier al NORD le spune auditorilor câți oameni lucrează pe șantier în acest moment.

Când numerele sunt sortate, se verifică calificările echipei. Auditorii examinează aleatoriu dosarele de personal ale inginerilor pentru a se asigura că aceștia au diplomele, certificatele și documentele de autorizare necesare (de exemplu, certificate de siguranță electrică) pentru a lucra într-o anumită poziție.

Ei verifică, de asemenea, modul în care ne instruim personalul. Chiar și în timpul ultimului audit, sistemul nostru de pregătire a noilor ingineri de serviciu i-a impresionat pe specialiștii UI. Petrecem trei luni pentru ei curs de pregatire ca un stagiu plătit, în timpul căruia îi prezentăm procesele și principiile de lucru din centrul nostru de date.

Inginerii care lucrează deja trebuie să urmeze, de asemenea, instruire regulată, inclusiv pentru lucrul în situații de urgență. Auditorii vor verifica cu siguranță programele de instruire și materialele unor astfel de instruiri și, de asemenea, vor examina aleatoriu inginerii. Nimănui nu i se va cere să treacă la un grup electrogen diesel, dar i se va cere să vă spună pas cu pas ce trebuie făcut atunci când alimentarea orașului este oprită. Pe baza rezultatelor auditului, vom aduce toate programele de formare și educație la un singur standard, astfel încât acestea să nu difere pentru diferite echipe.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
Le arătăm auditorilor sala de pauză pentru inginerii de tură.

Operarea și întreținerea sistemelor de inginerie 

În această secțiune mare a auditului, arătăm că toate echipamentele și sistemele de inginerie primesc întreținere regulată conform programului recomandat de vânzători, depozitul are piesele de schimb necesare, acorduri de service valabile cu contractorii, iar fiecare operațiune cu echipament are propriile sale operațiuni. proceduri şi algoritmi de lucru pe diferite cazuri.

MMS. Când operați zeci de UPS-uri, grupuri electrogene diesel, aparate de aer condiționat și alte lucruri, trebuie să colectați undeva toate informațiile despre această facilitate. Creăm aproximativ următorul dosar pentru fiecare echipament:

  • model și număr de serie;
  • marcare;
  • caracteristici tehnice și setări;
  • locul de instalare;
  • datele de producție, punerea în funcțiune, expirarea garanției;
  • contracte de servicii;
  • program de întreținere și istoric;
  • și întregul „istoric medical” - defecțiuni, reparații.

Cum și unde să colecteze toate aceste informații depinde de fiecare operator de centru de date să decidă singur. Interfața de utilizare nu este limitată în instrumente. Acesta poate fi un simplu Excel (am început cu acesta) sau un sistem de management al întreținerii (MMS) auto-scris, așa cum avem acum. Apropo, birou de servicii, contabilitatea depozitului, jurnalul de rețea, monitorizarea sunt, de asemenea, scrise de la sine.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
Există un astfel de „dosar personal” pentru fiecare echipament.

Am demonstrat practicile noastre în acest sens, inclusiv folosind exemplul acestei infrastructuri UPS (foto), care a donat una dintre părțile sale UPS-ului care deservește sarcina IT. Da, conform standardului, o astfel de „donație” poate fi efectuată numai de echipamentele de infrastructură care alimentează aparatele de aer condiționat și iluminatul de urgență, dar nu și sarcina IT.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Ulterior, auditorii au cerut să prezinte biletul corespunzător în Service Desk:

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Și profilul UPS în MMS:

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Piese de schimb Pentru întreținerea la timp și reparațiile de urgență ale echipamentelor de inginerie, păstrăm propriile piese de schimb și accesorii. Există un depozit general cu piese de schimb mari pentru echipamente și dulapuri mici cu piese de schimb în sălile de inginerie (pentru a nu fi nevoit să alergi departe).

În fotografie: verificăm disponibilitatea pieselor de schimb pentru grupul generator diesel. Am numărat 12 filtre. Apoi au verificat datele din MMS.  

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Un exercițiu similar a fost efectuat la depozitul principal, unde sunt depozitate piese de schimb mari: compresoare, controlere, automatizări, ventilatoare, umidificatoare cu abur și alte sute de articole. Am rescris selectiv marcajele și le-am „perforat” prin MMS.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
Date despre inventarul pieselor de schimb. roșu - Acesta este ceea ce lipsește și trebuie achiziționat.

Intretinere preventiva. Pe lângă întreținere și reparații, UI recomandă efectuarea de întreținere preventivă. Ajută la transformarea unui potențial accident într-o reparație programată. Pentru fiecare parametru, configurăm valori de prag în monitorizare. Dacă acestea sunt depășite, responsabilii primesc alarme și iau măsurile necesare. De exemplu, noi:

  • Verificăm panourile electrice cu camera termică pentru a detecta rapid defecțiunile instalațiilor electrice: contact slab, supraîncălzire locală a unui conductor sau întrerupător. 
  • Monitorizăm indicatoarele de vibrații și consumul de curent al pompelor sistemului frigorific. Acest lucru vă permite să identificați abaterile în timp și să planificați piesele de schimb fără grabă.
  • Facem analize de combustibil și ulei pentru grupuri electrogene și compresoare diesel.
  • Testăm glicolul în sistemul de refrigerare pentru concentrare.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
Diagrama vibrațiilor pompei înainte și după reparație.

Lucrul cu contractorii. Întreținerea și reparațiile echipamentelor sunt efectuate de antreprenori externi. De partea noastră, există specialiști separati în grupuri electrogene diesel, aparate de aer condiționat și UPS care controlează funcționarea acestora. Ei verifică dacă antreprenorii au instrumentele și materialele necesare pentru lucrări de reparații/întreținere, certificate profesionale, certificate de siguranță electrică și permise. Acceptă toată munca.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
Așa arată lista de verificare pentru acceptarea lucrărilor de întreținere a aparatului de aer condiționat.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
La biroul de permise, verificăm dacă permisele au fost eliberate reprezentanților autorizați ai contractanților, dacă aceștia au fost supuși întreținerii la ora specificată și dacă au citit regulamentul.

Documentație. Procesele stabilite pentru întreținerea sistemelor și echipamentelor sunt jumătate din luptă. Toate procedurile efectuate de oameni în centrul de date trebuie să fie documentate. Scopul acestui lucru este simplu: pentru ca totul să nu se limiteze la o singură persoană, iar în cazul unui accident, orice inginer poate lua instrucțiuni clare și poate face toate operațiunile necesare pentru a-l elimina.

UI are propria metodologie pentru o astfel de documentare.

Pentru activități simple și repetitive sunt stabilite proceduri standard de operare (POS). De exemplu, există SOP-uri pentru pornirea/oprirea răcitorului de lichid și setarea UPS-ului să ocolească.

Pentru întreținere sau operațiuni complexe, cum ar fi înlocuirea bateriilor într-un UPS, sunt create proceduri de întreținere (Metode de proceduri, MOP). Acestea pot include SOP-uri. Fiecare tip de echipament de inginerie trebuie să aibă propriile MOP-uri.

În cele din urmă, există proceduri de operare de urgență (EOP) - instrucțiuni în caz de urgență. Este întocmită o listă cu situații de urgență specifice și sunt scrise instrucțiuni pentru acestea. Iată o parte din lista situațiilor de urgență, care detaliază semnele unui accident, acțiuni, persoane responsabile și persoane de sesizat:

  • oprirea sursei de alimentare a orașului: grupuri electrogene diesel pornite/nu au pornit;
  • accidente UPS; 
  • accidente asupra sistemului de monitorizare a centrului de date;
  • supraîncălzirea sălii mașinilor;
  • scurgeri ale sistemului de refrigerare;
  • defecțiune la rețea și echipamentele de calcul;

și așa mai departe.

Compilarea unui astfel de volum de documentație este o sarcină intensivă în muncă în sine. Este și mai dificil să-l ții la zi (apropo, auditorii verifică și asta). Și cel mai important, personalul trebuie să cunoască aceste instrucțiuni, să lucreze în conformitate cu acestea și să facă îmbunătățiri dacă este necesar.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
Da, instrucțiunile ar trebui să fie disponibile acolo unde ar putea fi necesare, și nu doar adunarea prafului în arhive.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
Note privind modificările în reglementările de întreținere pentru sistemele de inginerie pentru centrele de date.

În timpul auditului, aceștia analizează și documentația tehnică privind sistemele, documentația executivă și de lucru și actele de punere în funcțiune a sistemelor. 

Marcarea. În timp ce se plimbau prin centrul de date, l-au verificat oriunde au putut ajunge. Unde n-au putut ajunge, au ajuns de pe o scară :). Ne-am uitat la prezența sa pe fiecare tablou, mașină și supapă. Am verificat unicitatea, neechivocitatea și conformitatea cu schemele actuale ale documentației as-built. În fotografia de mai jos: suntem în camera pompei de stocare a combustibilului comparând marcajele de pe electrovalvele cu diagrama documentației așa cum este construită. 

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Totul a fost de acord cu ea, dar cu diagrama axonometrică „decorativă” locală de pe perete într-un parametru nu a coincis.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Diagramele sistemelor amplasate acolo ar trebui, de asemenea, afișate în sediul centrului de date. În cazul unui accident, vă ajută să aflați rapid unde este totul și să luați o decizie în cunoștință de cauză. Fotografia, de exemplu, arată o diagramă cu o singură linie în camera centrală principală.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Relevanța diagramelor a fost verificată în felul următor: au denumit marcajul elementului de pe diagramă și au cerut să îl arate „în viața reală”. 

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Aici auditorul realizează fotografii ale setărilor (setarilor) întreruptorului de circuit de intrare al tabloului principal, pentru a le compara ulterior cu indicatorii de pe schema unifilară în copii hârtie și electronice. Pe una dintre mașini, QF-3, indicatorul nu se potrivea cu diagrama de hârtie și am câștigat un punct de penalizare. Acum doi ingineri vor verifica dacă marcajele din diagramele cu o singură linie corespund faptului.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Acest lucru nu este tot ce au verificat auditorii în ceea ce privește procesele de servicii. Iată ce altceva era pe ordinea de zi:

  • sistem de monitorizare. Aici am câștigat beneficii karma cu o bună vizualizare, prezența unei aplicații mobile și ecrane situaționale plasate pe coridoarele centrelor de date. Aici am scris în detaliu despre cum lucrăm monitorizarea.

    Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute
    Acesta este MCC cu informații vizuale despre starea principalelor sisteme de inginerie ale NORD-4 și ale celorlalte centre de date ale noastre care lucrează pe site.

  • planificarea ciclului de viață al echipamentelor de inginerie;
  • managementul capacitatii (managementul capacitatii);
  • bugetare (s-a vorbit puțin aici);
  • procedura de analiza a accidentelor;
  • procesul de acceptare, punere în funcțiune și testare a echipamentelor (am scris despre teste aici).

La ce altceva se uita UI?

Securitate și control acces. De asemenea, auditul verifică funcționarea sistemelor de siguranță și securitate. De exemplu, auditorul a încercat să intre într-una dintre incintele în care nu avea acces și apoi a verificat dacă acest lucru se reflectă în sistemul de control al accesului și dacă securitatea a fost anunțată despre acest lucru (spoiler - a fost).

Dacă în centrele noastre de date ușa oricărei camere rămâne deschisă mai mult de două minute, atunci se declanșează o alertă la punctul de securitate. Pentru a testa acest lucru, auditorii au deschis una dintre uși cu un stingător. Adevărat, nu am primit niciodată o sirenă - securitatea a văzut că ceva nu era în regulă prin camerele video și a ajuns mai devreme la „locul crimei”.

Ordine si curatenie. Auditorii caută praf, cutii de echipamente întinse în mod haotic și cât de des sunt curățate spațiile. Aici, de exemplu, auditorii au devenit interesați de un obiect neidentificat din coridorul de ventilație. Acesta este un bloc din sistemul de ventilație, care deja se pregătea să-i ia locul. Dar tot mi-au cerut să semnez.

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

De asemenea, pe tema comenzii în centrul de date - aceste dulapuri cu toate instrumentele necesare pentru lucrări de urgență la echipament sunt situate în camera principală a tabloului de distribuție. 

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Locație. Centrul de date este evaluat în funcție de condițiile de locație - dacă există baze militare, aeroporturi, râuri, vulcani și alte obiecte periculoase în apropiere. În fotografie arătăm doar că de la ultima certificare din 2017, în jurul centrului de date nu au crescut centrale nucleare sau instalații de stocare a petrolului. Dar acolo se construiește un nou centru de date NORD-5, care va trebui, de asemenea, să treacă toate nivelurile de certificare Uptime Institute Tier III. Dar asta este o cu totul altă poveste).

Și demonstrează, sau Cum am trecut auditul de sustenabilitate operațională la Uptime Institute

Sursa: www.habr.com

Adauga un comentariu