I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
Šef operativnog odjela popeo se u otvor podzemnog skladišta goriva kako bi pokazao oznake na elektromagnetnom ventilu.

Početkom februara, naš najveći Tier III data centar NORD-4 Ponovno certificiran od strane Uptime Institute (UI) prema standardu operativne održivosti. Danas ćemo vam reći šta gledaju revizori i sa kakvim smo rezultatima završili.

Za one koji su upoznati sa podatkovnim centrima, idemo ukratko preko hardvera. Standardi nivoa ocjenjuje i certificira podatkovne centre u tri faze:

  • projekat (Dizajn): provjerava se paket projektne dokumentacije Ovdje dobro poznato Tier. Ima ih 4: Nivo I–IV. Potonji je, shodno tome, najviši.
  • izgrađeni objekat (Facility): provjerava se inženjerska infrastruktura data centra i njena usklađenost sa projektom. Data centar se provjerava pod punim projektnim opterećenjem korištenjem raznih testova sa približno sljedećim sadržajem: jedan od UPS-ova (DGS, rashladni uređaji, precizni klima uređaji, razvodni ormari, sabirnice, itd.) stavljen je iz upotrebe radi održavanja ili popravke , a gradsko napajanje je isključeno. Tier III i više podatkovni centri bi trebali biti u stanju da se izbore sa situacijom bez ikakvog uticaja na teret IT-a.

    Objekat se može uzeti ako je data centar već prošao certifikaciju dizajna.
    NORD-4 je dobio sertifikat za projektovanje 2015. godine, a objekat 2016. godine.

  • Operativna održivost. Zapravo, najvažnija i najkompleksnija certifikacija. Sveobuhvatno procjenjuje procese i kompetencije operatera u održavanju i upravljanju podatkovnim centrom s utvrđenim nivoom (da biste položili Operativnu održivost, morate već imati certifikat Facility). Uostalom, bez pravilno strukturiranih operativnih procesa i kvalifikovanog tima, čak i Tier IV data centar može da se pretvori u beskorisnu zgradu sa veoma skupom opremom.

    Ovdje također postoje nivoi: bronzani, srebrni i zlatni. Na posljednjoj recertifikaciji završili smo sa ocjenom 88,95 od 100 mogućih bodova, a ovo je Srebro. To je malo manje od zlata - 1,05 poena. 

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Kako provjeriti da li su potrebni procesi izgrađeni i rade kako bi trebali? Štaviše, kako to učiniti za dva dana - toliko je potrebno za ponovnu certifikaciju. Ukratko, sertifikacija se zasniva na mukotrpnom poređenju onoga što piše u propisima, pričama o tome „kako sve funkcioniše“ i stvarnim praksama. Informacije o potonjem dobijaju se obilaskom data centra i razgovorima sa inženjerima data centra – „sukobanjima“, kako ih mi od milja zovemo. To je ono što oni gledaju.

tim

Prije svega, UI revizori provjeravaju da li centar podataka ima dovoljno osoblja za podršku. Uzimaju tabelu osoblja, raspored dežurstava i selektivno ga provjeravaju s izvještajima o smjenama i podacima o kontroli pristupa kako bi bili sigurni da je potreban broj inženjera stvarno bio na licu mjesta tog dana.

Revizori takođe pažljivo prate broj prekovremenih sati. Ovo se ponekad dešava kada dođe veliki klijent i na desetine rekova treba da se instaliraju istovremeno. U takvim trenucima u pomoć priskaču momci iz drugih smjena, a za to im se dodatno plaća.

Na NORD-4 radi 7 inženjera po smjeni: 6 dežurnih i jedan viši inženjer. To su oni koji nadgledaju 24x7 nadzor, izlaze u susret klijentima, pomažu u instalaciji opreme i drugim rutinskim zahtjevima. Ovo je prva linija tehničke podrške korisnicima. Njihove odgovornosti uključuju snimanje hitnih situacija i njihovo prosljeđivanje specijaliziranim inženjerima. Rad inžinjerijske infrastrukture prate pojedini ljudi – dežurni za infrastrukturu. Takođe 24x7.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
NORD-ov direktor proizvodnje i menadžer gradilišta govori revizorima koliko ljudi trenutno radi na gradilištu.

Kada se slože brojevi, provjeravaju se kvalifikacije tima. Revizori nasumično pregledavaju dosijee osoblja inženjera kako bi osigurali da imaju potrebne diplome, certifikate i dokumente o ovlaštenju (na primjer, certifikate o električnoj sigurnosti) za rad na određenoj poziciji.

Provjeravaju i kako obučavamo naše osoblje. Čak i tokom poslednje revizije, naš sistem za obuku novih dežurnih inženjera impresionirao je stručnjake za UI. Za njih smo potrošili tri mjeseca obuka kao plaćenu praksu, tokom koje ih upoznajemo sa procesima i principima rada u našem data centru.

Inženjeri koji već rade moraju takođe proći redovnu obuku, uključujući rad u vanrednim situacijama. Revizori će svakako provjeriti programe obuke i materijale takvih obuka, a također će nasumično ispitati inženjere. Od nikoga se neće tražiti da pređe na dizel agregat, ali će se od njih tražiti da vam korak po korak kažu šta treba učiniti kada se gradsko napajanje isključi. Na osnovu rezultata revizije, sve programe obuke i edukacije ćemo dovesti na jedinstven standard kako se ne bi razlikovali za različite timove.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
Pokazujemo revizorima prostoriju za odmor za inženjere smjena.

Rad i održavanje inženjerskih sistema 

U ovom velikom dijelu revizije pokazujemo da se sva inženjerska oprema i sistemi redovno održavaju po rasporedu koji preporučuju dobavljači, skladište ima potrebne rezervne dijelove, važeće servisne ugovore sa izvođačima, a svaka operacija sa opremom ima svoju procedure i algoritmi za rad na različitim slučajevima.

MMS. Kada upravljate desetinama UPS-ova, dizel agregata, klima uređaja i ostalog, morate negdje prikupiti sve podatke o ovom objektu. Za svaki komad opreme kreiramo otprilike sljedeći dosije:

  • model i serijski broj;
  • označavanje;
  • tehničke karakteristike i postavke;
  • mjesto instalacije;
  • datumi proizvodnje, puštanja u rad, isteka garancije;
  • ugovori o uslugama;
  • raspored održavanja i istorijat;
  • i cijela “istorija bolesti” - kvarovi, popravke.

Kako i gdje će prikupiti sve ove informacije, svaki operater centra podataka odlučuje sam. UI nije ograničen na alate. Ovo može biti jednostavan Excel (počeli smo s ovim) ili samostalno pisani sistem upravljanja održavanjem (MMS), kakav imamo sada. Između ostalog, servisni desk, skladišno knjigovodstvo, mrežni dnevnik, nadzor su također samopisni.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
Za svaki komad opreme postoji takav „lični dosije“.

Mi smo demonstrirali našu praksu u tom pogledu, uključujući i korištenje primjera ove infrastrukture UPS-a (na slici), koji je donirao jedan od svojih dijelova UPS-u koji opslužuje IT opterećenje. Da, prema standardu, takvu „donaciju“ može izvršiti samo infrastrukturna oprema koja napaja klima uređaje i rasvjetu u slučaju nužde, ali ne i IT opterećenje.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Nakon toga, revizori su tražili da pokažu odgovarajuću kartu u servisnoj službi:

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

I UPS profil u MMS-u:

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Rezervni dijelovi Za pravovremeno održavanje i hitne popravke inženjerske opreme čuvamo vlastite rezervne dijelove i pribor. Postoji generalni magacin sa velikim rezervnim delovima za opremu i malim ormanima sa rezervnim delovima u inženjerskim prostorijama (da ne morate trčati daleko).

Na fotografiji: provjeravamo dostupnost rezervnih dijelova za dizel agregat. Izbrojali smo 12 filtera. Zatim su provjerili podatke u MMS-u.  

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Slična vježba izvedena je i na glavnom skladištu, gdje se nalaze veliki rezervni dijelovi: kompresori, kontroleri, automatika, ventilatori, parni ovlaživači i stotine drugih artikala. Oznake smo selektivno prepisivali i “probijali” putem MMS-a.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
Podaci o zalihama rezervnih dijelova. Crveni - To je ono što nedostaje i treba ga kupiti.

Preventivno održavanje. Uz održavanje i popravke, UI preporučuje izvođenje preventivnog održavanja. Pomaže da se potencijalna nesreća pretvori u planiranu popravku. Za svaki parametar konfigurišemo granične vrednosti u praćenju. Ako su prekoračeni, odgovorni dobijaju alarme i poduzimaju potrebne radnje. Na primjer, mi:

  • Električne ploče provjeravamo termovizirom kako bismo brzo otkrili kvarove na električnim instalacijama: loš kontakt, lokalno pregrijavanje vodiča ili prekidača. 
  • Pratimo indikatore vibracija i trenutnu potrošnju pumpi rashladnog sistema. To vam omogućava da na vrijeme prepoznate odstupanja i bez žurbe planirate zamjenske dijelove.
  • Radimo analize goriva i ulja dizel agregata i kompresora.
  • Testiramo koncentraciju glikola u rashladnom sistemu.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
Dijagram vibracija pumpe prije i poslije popravka.

Rad sa izvođačima radova. Održavanje i popravke opreme obavljaju vanjski izvođači. Sa naše strane postoje posebni stručnjaci za dizel agregate, klima uređaje i UPS koji kontrolišu njihov rad. Provjeravaju da li izvođači imaju potrebne alate i materijale za popravke/održavanje, stručne certifikate, certifikate o električnoj sigurnosti i dozvole. Oni prihvataju sav posao.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
Ovako izgleda kontrolna lista za prihvatanje radova na održavanju klima uređaja.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
U birou za propusnice provjeravamo da li su propusnice izdate ovlaštenim predstavnicima izvođača radova, da li su bili na održavanju u navedeno vrijeme i da li su pročitali pravila.

Dokumentacija. Uspostavljeni procesi za održavanje sistema i opreme su pola bitke. Sve procedure koje izvode ljudi u data centru moraju biti dokumentovane. Svrha ovoga je jednostavna: tako da sve nije ograničeno na jednu konkretnu osobu, a u slučaju nesreće, svaki inženjer može preuzeti jasna uputstva i obaviti sve potrebne radnje da je otkloni.

UI ima svoju metodologiju za takvu dokumentaciju.

Za jednostavne i ponavljajuće aktivnosti uspostavljene su standardne operativne procedure (SOP). Na primjer, postoje SOP-ovi za uključivanje/isključivanje hladnjaka i postavljanje UPS-a na premosnicu.

Za održavanje ili složene operacije, kao što je zamena baterija u UPS-u, kreiraju se procedure održavanja (Metode procedura, MOP). To može uključivati ​​SOP. Svaka vrsta inženjerske opreme mora imati svoje MOP-ove.

Konačno, postoje hitne operativne procedure (EOP)—uputstva u slučaju nužde. Sastavlja se lista konkretnih vanrednih situacija i za njih se pišu upute. Evo dijela liste vanrednih situacija u kojoj su detaljno navedeni znakovi nesreće, radnje, odgovorna lica i osobe koje treba obavijestiti:

  • isključenje gradskog napajanja: dizel agregati pokrenuti/nisu startali;
  • UPS nezgode; 
  • nezgode na sistemu za praćenje data centra;
  • pregrijavanje mašinske prostorije;
  • curenje rashladnog sistema;
  • kvar na mreži i računarskoj opremi;

i tako dalje.

Sastavljanje takve količine dokumentacije sam po sebi je radno intenzivan zadatak. Još teže ga je ažurirati (usput i revizori to provjeravaju). I što je najvažnije, osoblje mora znati ove upute, raditi u skladu s njima i po potrebi vršiti poboljšanja.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
Da, uputstva bi trebala biti dostupna tamo gdje bi mogla biti potrebna, a ne samo skupljati prašinu po arhivama.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
Napomene o promjenama u propisima o održavanju inženjerskih sistema data centara.

Prilikom revizije pregledavaju i tehničku dokumentaciju o sistemima, izvršnu i radnu dokumentaciju, te akte puštanja sistema u rad. 

Označavanje Dok su hodali po data centru, provjeravali su ga svuda gdje su mogli doći. Gdje nisu mogli stići, stigli su sa merdevina :). Pogledali smo njegovu prisutnost na svakoj centrali, mašini i ventilu. Provjerili smo jedinstvenost, nedvosmislenost i usklađenost sa postojećim šemama gotove dokumentacije. Na slici ispod: nalazimo se u prostoriji za skladištenje goriva i upoređujemo oznake na elektromagnetnim ventilima sa dijagramom urađene dokumentacije. 

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Sve se slagalo s njom, ali s lokalnim "ukrasnim" aksonometrijskim dijagramom na zidu u jednom parametru nije se poklopilo.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Dijagrami sistema koji se tamo nalaze takođe treba da budu postavljeni u prostorijama data centra. U slučaju nezgode, pomažu vam da brzo saznate gdje se sve nalazi i donesete informiranu odluku. Fotografija, na primjer, prikazuje jednolinijski dijagram u prostoriji glavne centrale.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Relevantnost dijagrama je provjerena na sljedeći način: dali su naziv elementu koji je označen na dijagramu i zatražio da se to prikaže „u stvarnom životu“. 

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Ovdje revizor fotografira postavke (postavke) ulaznog prekidača glavne centrale, kako bi ih kasnije uporedio sa indikatorima na jednolinijskom dijagramu u papirnim i elektronskim kopijama. Na jednoj od mašina, QF-3, indikator nije odgovarao papirnom dijagramu i zaradili smo kazneni poen. Sada će dva inženjera provjeriti da li oznake na jednolinijskim dijagramima odgovaraju činjenici.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

To nije sve što su revizori provjerili u smislu procesa usluga. Evo šta je još bilo na dnevnom redu:

  • sistem praćenja. Ovdje smo zaradili karma pogodnosti dobrom vizualizacijom, prisustvom mobilne aplikacije i situacijskim ekranima postavljenim u hodnicima data centara. Ovdje smo detaljno pisali o tome kako radimo praćenje.

    I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu
    Ovo je MCC sa vizuelnim informacijama o statusu glavnih inženjerskih sistema NORD-4 i drugih naših data centara koji rade na lokaciji.

  • planiranje životnog ciklusa inženjerske opreme;
  • upravljanje kapacitetima (upravljanje kapacitetima);
  • budžetiranje (malo pričali ovdje);
  • postupak analize nezgoda;
  • proces prijema, puštanja u rad i ispitivanja opreme (pisali smo o testovima ovdje).

Šta je još gledao korisnički interfejs?

Sigurnost i kontrola pristupa. Revizija također provjerava rad sigurnosnih i sigurnosnih sistema. Na primjer, revizor je pokušao da uđe u jednu od prostorija u koju nije imao pristup, a zatim provjerio da li se to odražava na sistem kontrole pristupa i da li je obezbjeđenje o tome obaviješteno (spoiler - jeste).

Ako u našim data centrima vrata bilo koje sobe ostanu otvorena duže od dvije minute, tada se aktivira upozorenje na sigurnosnom mjestu. Da bi to testirali, revizori su otvorili jedna od vrata aparatom za gašenje požara. Istina, nikada nismo dobili sirenu – obezbeđenje je preko video kamera videlo da nešto nije u redu i ranije je stiglo na „mesto zločina“.

Red i čistoća. Revizori traže prašinu, kutije sa opremom koje haotično leže okolo i koliko često se prostorije čiste. Ovdje su se, na primjer, revizori zainteresovali za neidentifikovani objekat u ventilacionom hodniku. Ovo je blok od ventilacionog sistema koji se već spremao da zauzme svoje mesto. Ali su me i dalje tražili da potpišem.

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Takođe na temu reda u data centru - ovi ormari sa svim potrebnim alatima za hitne radove na opremi nalaze se u prostoriji glavne centrale. 

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

Lokacija Data centar se procjenjuje na osnovu lokacijskih uslova - da li se u blizini nalaze vojne baze, aerodromi, rijeke, vulkani i drugi opasni objekti. Na fotografiji samo pokazujemo da od posljednje certifikacije 2017. godine oko data centra nije izrasla nijedna nuklearna elektrana ili skladišta nafte. Ali tamo se gradi novi NORD-5 data centar, koji će također morati proći sve nivoe Uptime Institute Tier III certifikata. Ali to je sasvim druga priča).

I demonstrirajte, ili kako smo prošli reviziju operativne održivosti na Uptime Institutu

izvor: www.habr.com

Dodajte komentar