In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
Vodja operative je splezal v loputo podzemnega skladišča goriva in pokazal oznake na elektromagnetnem ventilu.

V začetku februarja naš največji podatkovni center stopnje III NORD-4 Ponovno certificiran s strani Uptime Institute (UI) za standard Operational Sustainability. Danes vam bomo povedali, kaj gledajo revizorji in s kakšnimi rezultati smo zaključili.

Za tiste, ki poznate podatkovne centre, pojdimo na kratko na strojno opremo. Standardi stopnje ocenjuje in certificira podatkovne centre v treh fazah:

  • projekt (Design): pregleda se paket projektne dokumentacije.Tukaj je znano Tier. Skupaj so 4: stopnja I–IV. Slednji je torej najvišji.
  • zgrajen objekt (Facility): preveri se inženirska infrastruktura podatkovnega centra in njena skladnost s projektom. Podatkovni center je preverjen pri polni načrtovani obremenitvi z različnimi testi s približno naslednjo vsebino: eden od UPS-jev (DGS, hladilniki, precizne klimatske naprave, razdelilne omare, zbiralke itd.) je izključen zaradi vzdrževanja ali popravila. , mestno napajanje pa je izklopljeno. . Podatkovni centri stopnje III in višje bi morali biti sposobni obvladovati situacijo brez vpliva na obremenitev IT.

    Objekt je mogoče prevzeti, če je podatkovni center že opravil certificiranje Design.
    NORD-4 je leta 2015 prejel certifikat Design, leta 2016 pa Facility.

  • Operativna trajnost. Pravzaprav najpomembnejše in zapleteno certificiranje. Celovito ocenjuje procese in kompetence operaterja pri vzdrževanju in upravljanju podatkovnega centra z vzpostavljeno stopnjo Tier (če želite opraviti Operational Sustainability, morate že imeti Facility certifikat). Navsezadnje se lahko brez ustrezno strukturiranih operativnih procesov in usposobljene ekipe tudi podatkovni center Tier IV spremeni v neuporabno zgradbo z zelo drago opremo.

    Tukaj so tudi ravni: bronasta, srebrna in zlata. Pri zadnjem recertificiranju smo končali z rezultatom 88,95 od 100 možnih točk in to je srebro. Zmanjkalo mu je zlato - 1,05 točke. 

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Kako preveriti, ali so potrebni procesi zgrajeni in delujejo, kot bi morali? Še več, kako to storiti v dveh dneh - toliko časa traja ponovno certificiranje. Skratka, certificiranje temelji na mukotrpni primerjavi zapisanega v predpisih, zgodbah, »kako vse deluje«, in realnih praks. Podatke o slednjem pridobivamo s sprehodi po podatkovnem centru in pogovori z inženirji podatkovnih centrov – »soočenja«, kot jih ljubkovalno imenujemo. To je tisto, kar gledajo.

Ekipa

Revizorji uporabniškega vmesnika najprej preverijo, ali ima podatkovni center dovolj podpornega osebja. Vzamejo tabelo osebja, razpored dežurstev in ga selektivno preverijo s poročili o izmenah in podatki o nadzoru dostopa, da se prepričajo, ali je bilo zahtevano število inženirjev tisti dan dejansko na lokaciji.

Revizorji pozorno spremljajo tudi število nadur. To se včasih zgodi, ko pride velika stranka in je treba hkrati namestiti na desetine regalov. V takšnih trenutkih na pomoč priskočijo fantje iz drugih izmen, ki so za to dodatno plačani.

Na NORD-4 dela 7 inženirjev na izmeno: 6 dežurnih in en višji inženir. To so tisti, ki spremljajo nadzor 24x7, se srečujejo s strankami, pomagajo pri namestitvi opreme in drugih rutinskih zahtevah. To je prva linija tehnične podpore strankam. Njihove odgovornosti vključujejo beleženje izrednih razmer in njihovo posredovanje specializiranim inženirjem. Delo inženirske infrastrukture spremljajo posamezne osebe – dežurni infrastrukture. Tudi 24x7.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
NORD-ov direktor proizvodnje in vodja gradbišča povesta revizorjem, koliko ljudi trenutno dela na gradbišču.

Ko so številke razvrščene, se preveri usposobljenost ekipe. Revizorji naključno pregledajo kadrovske datoteke inženirjev, da zagotovijo, da imajo potrebne diplome, potrdila in avtorizacijske dokumente (na primer potrdila o električni varnosti) za delo na določenem delovnem mestu.

Preverjajo tudi, kako usposabljamo kadre. Tudi med zadnjo presojo je naš sistem za usposabljanje novih dežurnih inženirjev navdušil strokovnjake za uporabniški vmesnik. Zanje porabimo tri mesece vadba kot plačano prakso, na kateri jim predstavimo procese in principe dela v našem podatkovnem centru.

Že delujoči inženirji se morajo tudi redno izobraževati, tudi za delo v izrednih razmerah. Presojevalci bodo zagotovo preverili programe usposabljanja in materiale takšnih usposabljanj ter naključno pregledali inženirje. Od nikogar ne bodo zahtevali, da preklopi na dizelski agregat, vendar bodo od njih zahtevali, da vam korak za korakom povedo, kaj je treba storiti, ko je mestno napajanje izklopljeno. Na podlagi rezultatov presoje bomo vse programe usposabljanja in izobraževanja poenotili, da se ne bodo razlikovali za različne ekipe.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
Revizorjem pokažemo sobo za odmor za izmenske inženirje.

Delovanje in vzdrževanje inženirskih sistemov 

V tem velikem delu revizije pokažemo, da so vsa inženirska oprema in sistemi deležni rednega vzdrževanja v skladu z urnikom, ki ga priporočajo prodajalci, da ima skladišče potrebne rezervne dele, veljavne servisne pogodbe z izvajalci in da ima vsaka operacija z opremo svoje postopki in algoritmi za delo na različnih primerih.

MMS Ko upravljate na desetine UPS-jev, dizelskih agregatov, klimatskih naprav in drugih stvari, morate nekje zbrati vse informacije o tem objektu. Za vsak kos opreme ustvarimo približno naslednji dosje:

  • model in serijska številka;
  • označevanje;
  • tehnične lastnosti in nastavitve;
  • lokacija namestitve;
  • datumi proizvodnje, zagona, poteka garancije;
  • storitvene pogodbe;
  • urnik in zgodovina vzdrževanja;
  • in celotno "zdravstveno zgodovino" - okvare, popravila.

Kako in kje zbirati vse te podatke, se vsak operater podatkovnega centra odloči sam. Uporabniški vmesnik ni omejen na orodja. To je lahko preprost Excel (začeli smo s tem) ali samonapisani sistem za upravljanje vzdrževanja (MMS), kot ga imamo zdaj. Mimogrede, servisni pult, skladiščno knjigovodstvo, omrežni dnevnik, spremljanje so prav tako napisani sami.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
Za vsak kos opreme obstaja takšna "osebna datoteka".

Naše prakse v zvezi s tem smo prikazali, tudi na primeru tega infrastrukturnega UPS-a (na sliki), ki je enega od svojih delov podaril UPS-u za IT obremenitev. Da, po standardu lahko takšno “donacijo” izvede le infrastrukturna oprema, ki napaja klimatske naprave in zasilno razsvetljavo, ne pa tudi IT obremenitev.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Nato so revizorji zahtevali, da pokažejo ustrezno vozovnico v servisni pisarni:

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

In profil UPS v MMS:

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Rezervni deli Za pravočasno vzdrževanje in nujna popravila inženirske opreme imamo lastne rezervne dele in dodatke. Obstaja splošno skladišče z velikimi rezervnimi deli za opremo in majhnimi omarami z rezervnimi deli v inženirskih sobah (tako da vam ni treba teči daleč).

Na sliki: preverjamo razpoložljivost rezervnih delov za dizel agregat. Našteli smo 12 filtrov. Nato so preverili podatke v MMS-u.  

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Podobna vaja je bila izvedena v glavnem skladišču, kjer so shranjeni veliki rezervni deli: kompresorji, krmilniki, avtomatika, ventilatorji, parni vlažilci in na stotine drugih predmetov. Selektivno smo prepisali markacije in jih “preluknjali” preko MMS.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
Podatki o zalogi rezervnih delov. rdeča - To je tisto, kar manjka in ga je treba kupiti.

Preventivno vzdrževanje. Poleg vzdrževanja in popravil UI priporoča izvajanje preventivnega vzdrževanja. Pomaga spremeniti potencialno nesrečo v načrtovano popravilo. Za vsak parameter konfiguriramo mejne vrednosti pri spremljanju. Če so preseženi, odgovorni prejmejo alarme in ustrezno ukrepajo. Na primer, mi:

  • Električne panoje preverjamo s termovizijsko kamero za hitro odkrivanje napak na električnih inštalacijah: slab stik, lokalno pregrevanje vodnika ali odklopnika. 
  • Spremljamo indikatorje vibracij in trenutno porabo črpalk hladilnega sistema. To vam omogoča, da pravočasno prepoznate odstopanja in načrtujete zamenjavo delov brez naglice.
  • Izvajamo analize goriva in olja dizelskih agregatov in kompresorjev.
  • Testiramo koncentracijo glikola v hladilnem sistemu.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
Diagram vibracij črpalke pred in po popravilu.

Sodelovanje z izvajalci. Vzdrževanje in popravila opreme izvajajo zunanji izvajalci. Na naši strani so ločeni strokovnjaki za dizel agregate, klimatske naprave in UPS, ki nadzorujejo njihovo delovanje. Preverijo, ali imajo izvajalci potrebna orodja in materiale za popravila/vzdrževanje, strokovna potrdila, elektrovarnostna potrdila in dovoljenja. Sprejemajo vsa dela.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
Takole izgleda kontrolni seznam za prevzem dela pri vzdrževanju klimatske naprave.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
Na blagajni preverimo, ali so bile izkaznice izdane pooblaščenim predstavnikom izvajalcev, ali so bili na vzdrževanju v določenem času in ali so prebrali pravilnik.

Dokumentacija. Vzpostavljeni procesi vzdrževanja sistemov in opreme so pol uspeha. Vsi postopki, ki jih izvajajo ljudje v podatkovnem centru, morajo biti dokumentirani. Namen tega je preprost: da ni vse omejeno na eno določeno osebo in da lahko v primeru nesreče vsak inženir sprejme jasna navodila in izvede vse potrebne postopke za njeno odpravo.

UI ima svojo metodologijo za takšno dokumentacijo.

Za preproste in ponavljajoče se dejavnosti so določeni standardni operativni postopki (SOP). Obstajajo na primer SOP za vklop/izklop hladilnika in nastavitev UPS-a na obvod.

Za vzdrževanje ali zapletene operacije, kot je zamenjava baterij v UPS-u, se ustvarijo vzdrževalni postopki (Methods of Procedures, MOP). Ti lahko vključujejo SOP. Vsaka vrsta inženirske opreme mora imeti svoje MOP.

Na koncu so še operativni postopki v sili (EOP) – navodila v nujnih primerih. Sestavi se seznam posebnih izrednih situacij in zanje napišejo navodila. Tukaj je del seznama izrednih razmer, ki podrobno opisuje znake nesreče, ukrepe, odgovorne osebe in osebe, ki jih je treba obvestiti:

  • izklop mestnega napajanja: dizel generatorji so se zagnali/ni zagnali;
  • nesreče UPS; 
  • nesreče na sistemu za spremljanje podatkovnega centra;
  • pregrevanje strojnice;
  • puščanje hladilnega sistema;
  • okvara omrežja in računalniške opreme;

in tako naprej.

Sestavljanje tolikšnega obsega dokumentacije je že samo po sebi delovno intenzivna naloga. Še težje ga je vzdrževati ažurno (to mimogrede preverjajo tudi revizorji). In kar je najpomembneje, osebje mora poznati ta navodila, delati v skladu z njimi in jih po potrebi izboljšati.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
Da, navodila bi morala biti na voljo tam, kjer bi jih morda potrebovali, ne pa samo nabirati prah po arhivih.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
Opombe o spremembah predpisov o vzdrževanju za inženirske sisteme podatkovnih centrov.

Pri reviziji pregledajo tudi tehnično dokumentacijo o sistemih, izvedbeno in delovno dokumentacijo ter akte predaje sistemov v obratovanje. 

Označevanje Med sprehodom po podatkovnem centru so ga pregledali povsod, kjer so se lahko dokopali. Kjer niso mogli doseči, so segli z lestve :). Ogledali smo si njegovo prisotnost na vsaki stikalni plošči, stroju in ventilu. Preverili smo edinstvenost, nedvoumnost in skladnost z veljavnimi shemami izvedbene dokumentacije. Na spodnji sliki: smo v črpalnici goriva in primerjamo oznake na elektromagnetnih ventilih s shemo izvedbene dokumentacije. 

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Vse se je strinjalo z njo, vendar z lokalnim "okrasnim" aksonometričnim diagramom na steni v enem parametru ni sovpadalo.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

V prostorih podatkovnega centra naj bodo objavljeni tudi diagrami tam nameščenih sistemov. V primeru nesreče vam pomagajo hitro ugotoviti, kje vse je, in se premišljeno odločiti. Fotografija na primer prikazuje enočrtni diagram v sobi glavne stikalne plošče.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Ustreznost diagramov so preverili na naslednji način: poimenovali so oznako elementa na diagramu in prosili, da ga pokažejo »v resničnem življenju«. 

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Tu revizor fotografira nastavitve (nastavitve) vhodnega odklopnika glavne stikalne plošče, da jih kasneje primerja z indikatorji na enočrtnem diagramu v papirni in elektronski kopiji. Na enem od aparatov, QF-3, se indikator ni ujemal s papirnatim diagramom in smo si prislužili kazensko točko. Zdaj bosta dva inženirja preverila, ali oznake v enočrtnih diagramih ustrezajo dejstvu.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

To pa ni vse, kar so revizorji preverili pri storitvenih procesih. Kaj je še bilo na dnevnem redu:

  • nadzorni sistem. Tu smo si zaslužili karma ugodnosti z dobro vizualizacijo, prisotnostjo mobilne aplikacije in situacijskih zaslonov, postavljenih na hodnikih podatkovnih centrov. Tukaj smo podrobno pisali o našem delu spremljanje.

    In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute
    To je MCC z vizualnimi informacijami o statusu glavnih inženirskih sistemov NORD-4 in drugih naših podatkovnih centrov, ki delujejo na spletnem mestu.

  • načrtovanje življenjskega cikla inženirske opreme;
  • upravljanje zmogljivosti (upravljanje zmogljivosti);
  • proračun (malo pogovora tukaj);
  • postopek analize nesreče;
  • postopek prevzema, zagona in testiranja opreme (pisali smo o testih tukaj).

Kaj je še gledal uporabniški vmesnik?

Varnost in nadzor dostopa. Revizija preverja tudi delovanje varnostnih in varnostnih sistemov. Revizor je na primer poskušal priti v enega od prostorov, kamor ni imel dostopa, nato pa je preveril, ali se to odraža v sistemu za nadzor dostopa in ali je o tem obveščeno varnostno osebje (spojler – je).

Če v naših podatkovnih centrih vrata katere koli sobe ostanejo odprta več kot dve minuti, se na varnostnem mestu sproži opozorilo. Da bi to preizkusili, so revizorji ena od vrat podprli z gasilnim aparatom. Res je, nikoli nismo dobili sirene - varnostniki so prek video kamer videli, da je nekaj narobe, in prej prispeli na "kraj zločina".

Red in čistoča. Revizorji iščejo prah, škatle z opremo, ki kaotično ležijo naokoli, in kako pogosto se prostori čistijo. Tu se je na primer revizorje zanimalo za neidentificiran predmet v prezračevalnem hodniku. To je blok iz prezračevalnega sistema, ki se je že pripravljal na svoje mesto. A so me vseeno prosili, naj podpišem.

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Tudi na temo reda v podatkovnem centru - te omare z vsemi potrebnimi orodji za nujna dela na opremi se nahajajo v prostoru glavne stikalne plošče. 

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Lokacija Podatkovni center se ocenjuje glede na lokacijske pogoje – ali so v bližini vojaške baze, letališča, reke, vulkani in drugi nevarni objekti. Na fotografiji samo prikazujemo, da od zadnjega certificiranja leta 2017 okoli podatkovnega centra ni zrasla nobena jedrska elektrarna ali skladišče nafte. Toda tam čez se gradi nov podatkovni center NORD-5, ki bo moral prestati tudi vse stopnje certificiranja Uptime Institute Tier III. Ampak to je čisto druga zgodba).

In pokažite ali kako smo opravili presojo operativne trajnosti na Uptime Institute

Vir: www.habr.com

Dodaj komentar