Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
Lederen for operasjonsavdelingen klatret inn i luken til det underjordiske drivstofflageret for å vise merkingene på magnetventilen.

I begynnelsen av februar, vårt største Tier III-datasenter NORD-4 Resertifisert av Uptime Institute (UI) til Operational Sustainability-standarden. I dag skal vi fortelle deg hva revisorene ser på og hvilke resultater vi avsluttet med.

For de som er kjent med datasentre, la oss kort gå gjennom maskinvaren. Nivåstandarder evaluerer og sertifiserer datasentre i tre stadier:

  • prosjekt (Design): pakken med prosjektdokumentasjon sjekkes Her det velkjente Nivået. Det er 4 av dem totalt: Tier I–IV. Sistnevnte er følgelig høyest.
  • konstruert anlegg (Facility): den tekniske infrastrukturen til datasenteret kontrolleres og dens samsvar med prosjektet. Datasenteret kontrolleres under full designbelastning ved hjelp av en rekke tester med omtrent følgende innhold: en av UPS-ene (DGS, kjølere, presisjonsklimaanlegg, distribusjonsskap, samleskinner, etc.) tas ut av drift for vedlikehold eller reparasjon , og byens strømforsyning er slått av. . Tier III og høyere datasentre skal være i stand til å håndtere situasjonen uten noen innvirkning på IT-nyttelasten.

    Fasilitet kan tas hvis datasenteret allerede har bestått Design-sertifisering.
    NORD-4 mottok sitt designsertifikat i 2015, og Facility i 2016.

  • Operasjonell bærekraft. Faktisk den viktigste og mest komplekse sertifiseringen. Den evaluerer grundig prosessene og kompetansen til en operatør for å vedlikeholde og administrere et datasenter med et etablert nivå (for å bestå operasjonell bærekraft, må du allerede ha et anleggssertifikat). Tross alt, uten riktig strukturerte operasjonelle prosesser og et kvalifisert team, kan til og med et Tier IV-datasenter bli en ubrukelig bygning med veldig dyrt utstyr.

    Det er også nivåer her: Bronse, Sølv og Gull. Ved siste resertifisering endte vi med en score på 88,95 av 100 mulige poeng, og dette er sølv. Det falt like under gull - 1,05 poeng. 

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Hvordan kontrollere at de nødvendige prosessene er bygget og fungerer som de skal? Dessuten, hvordan du gjør det på to dager - det er hvor lang tid det tar for ny sertifisering. Kort sagt er sertifisering basert på en møysommelig sammenligning av det som står i regelverket, historier om «hvordan alt fungerer» og reell praksis. Informasjon om sistnevnte er hentet fra gjennomganger av datasenteret og samtaler med datasenteringeniører - "konfrontasjoner", som vi kjærlig kaller dem. Det er det de ser på.

Lag

Først av alt sjekker UI-revisorer om datasenteret har nok støttepersonell. De tar bemanningstabellen, vaktplanen og sjekker den selektivt med skiftrapporter og tilgangskontrolldata for å sikre at det nødvendige antallet ingeniører faktisk var på stedet den dagen.

Revisorer ser også nøye på antall overtidstimer. Dette skjer noen ganger når en stor klient kommer inn og dusinvis av stativer må installeres samtidig. I slike øyeblikk kommer gutter fra andre skift til unnsetning, og de får utbetalt ekstra penger for dette.

Det er 4 ingeniører som jobber på NORD-7 per skift: 6 på vakt og en senioringeniør. Det er disse som overvåker 24x7 overvåking, møter klienter, hjelper til med utstyrsinstallasjon og andre rutinemessige forespørsler. Dette er den første linjen med kundestøtte. Deres ansvar inkluderer å registrere nødsituasjoner og eskalere dem til spesialiserte ingeniører. Arbeidet med den tekniske infrastrukturen overvåkes av enkeltpersoner - infrastrukturvakter. Også 24x7.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
NORDs produksjonsdirektør og anleggsleder forteller revisorene hvor mange som jobber på stedet akkurat nå.

Når tallene er sortert ut, sjekkes lagets kvalifikasjoner. Revisorer gjennomgår tilfeldig ingeniørers personalmapper for å sikre at de har de nødvendige vitnemål, sertifikater og autorisasjonsdokumenter (for eksempel elektriske sikkerhetssertifikater) for å jobbe i en gitt stilling.

De sjekker også hvordan vi lærer opp våre ansatte. Selv under den siste revisjonen imponerte vårt system for opplæring av nye tjenesteingeniører brukergrensesnittspesialister. Vi bruker tre måneder på dem treningskurs som et betalt internship, der vi introduserer dem til prosessene og prinsippene for arbeidet i datasenteret vårt.

Allerede arbeidende ingeniører må også gjennomgå regelmessig opplæring, blant annet om arbeid i nødssituasjoner. Revisorer vil definitivt sjekke opplæringsprogrammene og materialene til slike treninger, og også tilfeldig undersøke ingeniører. Ingen vil bli bedt om å bytte til et dieselgeneratorsett, men de vil bli bedt om å fortelle deg trinn for trinn hva som må gjøres når byens strømforsyning er slått av. Basert på revisjonsresultatene vil vi bringe alle opplærings- og utdanningsprogrammene til én standard slik at de ikke er forskjellige for ulike team.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
Vi viser revisorene pauserommet for skiftingeniører.

Drift og vedlikehold av ingeniørsystemer 

I denne store delen av tilsynet viser vi at alt teknisk utstyr og systemer får regelmessig vedlikehold i henhold til tidsplanen anbefalt av leverandørene, lageret har nødvendige reservedeler, gyldige serviceavtaler med entreprenører, og hver operasjon med utstyr har sin egen. prosedyrer og algoritmer for å jobbe med ulike saker.

MMS Når du betjener dusinvis av UPS-er, dieselgeneratorsett, klimaanlegg og andre ting, må du samle all informasjon om dette anlegget et sted. Vi lager omtrent følgende dokumentasjon for hvert utstyr:

  • modell og serienummer;
  • merking;
  • tekniske egenskaper og innstillinger;
  • installasjonssted;
  • dato for produksjon, igangkjøring, utløp av garanti;
  • tjenestekontrakter;
  • vedlikeholdsplan og historikk;
  • og hele "medisinhistorien" - sammenbrudd, reparasjoner.

Hvordan og hvor all denne informasjonen skal samles inn er opp til hver datasenteroperatør å bestemme selv. Brukergrensesnittet er ikke begrenset i verktøy. Dette kan være en enkel Excel (vi begynte med dette) eller et selvskrevet Maintenance Management System (MMS), slik vi har nå. Forresten, informasjonsskranke, lagerregnskap, nettlogg, overvåking er også selvskrevet.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
Det er en slik "personlig fil" for hvert utstyr.

Vi demonstrerte vår praksis i denne forbindelse, inkludert å bruke eksemplet med denne infrastrukturen UPS (bildet), som donerte en av delene til UPS-en som betjener IT-belastningen. Ja, i henhold til standarden kan slik "donasjon" bare utføres av infrastrukturutstyr som driver klimaanlegg og nødbelysning, men ikke IT-belastningen.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Etterpå ba revisorene om å vise tilsvarende billett i Service Desk:

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Og UPS-profilen i MMS:

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Reservedeler For rettidig vedlikehold og nødreparasjoner av ingeniørutstyr beholder vi våre egne reservedeler og tilbehør. Det er et generell lager med store reservedeler for utstyr og små skap med reservedeler i ingeniørrom (slik at du ikke trenger å løpe langt).

På bildet: vi sjekker tilgjengeligheten av reservedeler til dieselgeneratorsettet. Vi telte 12 filtre. Så sjekket vi dataene i MMS.  

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

En lignende øvelse ble gjennomført på hovedlageret, hvor store reservedeler er lagret: kompressorer, kontrollere, automasjon, vifter, dampbefuktere og hundrevis av andre gjenstander. Vi skrev selektivt om merkingene og "stanset" dem via MMS.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
Reservedelslagerdata. rød - Det er dette som mangler og må kjøpes.

Forebyggende vedlikehold. I tillegg til vedlikehold og reparasjoner, anbefaler UI å utføre forebyggende vedlikehold. Det hjelper å gjøre en potensiell ulykke til en planlagt reparasjon. For hver parameter konfigurerer vi terskelverdier i overvåking. Hvis de overskrides, mottar de ansvarlige alarmer og iverksetter nødvendige tiltak. For eksempel, vi:

  • Vi sjekker elektriske paneler med et termisk kamera for raskt å oppdage feil i elektriske installasjoner: dårlig kontakt, lokal overoppheting av en leder eller effektbryter. 
  • Vi overvåker vibrasjonsindikatorer og strømforbruk til kjølesystempumper. Dette lar deg identifisere avvik i tid og planlegge reservedeler uten hastverk.
  • Vi gjør drivstoff- og oljeanalyser av dieselgeneratorsett og kompressorer.
  • Vi tester glykol i kjølesystemet for konsentrasjon.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
Pumpevibrasjonsdiagram før og etter reparasjon.

Jobber med entreprenører. Vedlikehold og reparasjoner av utstyr utføres av eksterne entreprenører. På vår side er det egne spesialister innen dieselgeneratorsett, klimaanlegg og UPS som kontrollerer driften. De sjekker om entreprenører har nødvendig verktøy og materiell til reparasjonsarbeid/vedlikehold, fagsertifikater, elsikkerhetssertifikater, og tillatelser. De aksepterer alt arbeid.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
Slik ser sjekklisten for å godta vedlikeholdsarbeid av klimaanlegg ut.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
På passkontoret sjekker vi om passene er utstedt til autoriserte representanter for entreprenører, om de har gjennomgått vedlikehold til angitt tidspunkt og om de har lest reglene.

Dokumentasjon. Etablerte prosesser for vedlikehold av systemer og utstyr er halve kampen. Alle prosedyrer utført av mennesker i datasenteret skal dokumenteres. Formålet med dette er enkelt: slik at alt ikke er begrenset til en spesifikk person, og i tilfelle en ulykke kan enhver ingeniør ta klare instruksjoner og gjøre alle nødvendige operasjoner for å eliminere det.

UI har sin egen metodikk for slik dokumentasjon.

For enkle og repeterende aktiviteter etableres standard driftsprosedyrer (SOPs). For eksempel er det SOP-er for å slå kjøleren på/av og sette UPS-en til å omgå.

For vedlikehold eller komplekse operasjoner, som for eksempel utskifting av batterier i en UPS, opprettes vedlikeholdsprosedyrer (Methods of Procedures, MOPs). Disse kan inkludere SOP-er. Hver type ingeniørutstyr må ha sine egne MOP-er.

Til slutt er det Emergency Operating Procedures (EOPs)—instruksjoner i nødstilfeller. En liste over spesifikke nødsituasjoner er satt sammen og instruksjoner skrevet for dem. Her er en del av listen over nødsituasjoner, som beskriver tegn på en ulykke, handlinger, ansvarlige personer og personer som skal varsle:

  • avstengning av strømforsyning i byen: dieselgeneratorsett startet/startet ikke;
  • UPS-ulykker; 
  • ulykker på datasenterets overvåkingssystem;
  • overoppheting av maskinrommet;
  • lekkasje av kjølesystemet;
  • feil på nettverk og datautstyr;

og så videre.

Å utarbeide et slikt dokumentasjonsvolum er en arbeidskrevende oppgave i seg selv. Det er enda vanskeligere å holde det oppdatert (forresten, revisorer sjekker dette også). Og viktigst av alt, personalet må kjenne til disse instruksjonene, arbeide etter dem og gjøre forbedringer om nødvendig.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
Ja, instruksjoner skal være tilgjengelige der de kan være nødvendige, og ikke bare samle støv i arkiver.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
Merknader om endringer i vedlikeholdsforskriften for datasentertekniske systemer.

Under tilsynet ser de også på teknisk dokumentasjon om systemer, styrings- og arbeidsdokumentasjon, og handlinger for å sette systemer i drift. 

Merking. Mens de gikk rundt i datasenteret, sjekket de det overalt hvor de kunne nå. Der de ikke kunne nå, nådde de fra en trappestige :). Vi så på dens tilstedeværelse på alle sentralbord, maskiner og ventiler. Vi sjekket det unike, entydige og samsvar med gjeldende ordninger for as-built-dokumentasjonen. På bildet nedenfor: vi er i pumperommet for drivstofflageret og sammenligner merkingene på magnetventilene med diagrammet over dokumentasjonen som er bygget. 

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Alt stemte med henne, men med det lokale "dekorative" aksonometriske diagrammet på veggen i en parameter falt det ikke sammen.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Diagrammer over systemene som ligger der bør også legges ut i datasenterets lokaler. Ved en ulykke hjelper de deg raskt å finne ut hvor alt er og ta en informert beslutning. Bildet viser for eksempel et enlinjediagram i hovedtavlerommet.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Relevansen til diagrammene ble sjekket på følgende måte: de navnga elementmerkingen på diagrammet og ba om å vise den "i det virkelige liv". 

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Det er her revisor tar bilder av innstillingene (innstillingene) til hovedinngangsbryteren for sentralbord, for senere å sammenligne dem med indikatorene på enkeltlinjediagrammet i papir- og elektroniske kopier. På en av maskinene, QF-3, stemte ikke indikatoren med papirdiagrammet, og vi fikk et straffepoeng. Nå skal to ingeniører sjekke om markeringene i enkeltlinjediagrammer samsvarer med faktum.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Dette er ikke alt revisor sjekket når det gjelder tjenesteprosesser. Her er hva annet som sto på agendaen:

  • overvåkningsstystem. Her tjente vi karma-fordeler med god visualisering, tilstedeværelsen av en mobilapplikasjon og situasjonsbestemte skjermer plassert i korridorene til datasentre. Her skrev vi i detalj om hvordan vi jobber overvåkning.

    Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute
    Dette er MCC med visuell informasjon om statusen til hovedteknikksystemene til NORD-4 og våre andre datasentre som jobber på nettstedet.

  • livssyklusplanlegging av ingeniørutstyr;
  • kapasitetsstyring (kapasitetsstyring);
  • budsjettering (snakket litt her);
  • ulykkesanalyseprosedyre;
  • prosessen med aksept, igangkjøring og testing av utstyr (vi skrev om tester her).

Hva annet så brukergrensesnittet på?

Sikkerhet og tilgangskontroll. Tilsynet kontrollerer også driften av sikkerhetssystemer. Revisor forsøkte for eksempel å komme seg inn i et av lokalene hvor han ikke hadde tilgang, og sjekket deretter om dette gjenspeiles i adgangskontrollsystemet og om sikkerheten ble varslet om dette (spoiler - det var det).

Hvis i datasentrene våre døren til et rom forblir åpen i mer enn to minutter, utløses et varsel ved sikkerhetsposten. For å teste dette, støttet revisorer opp en av dørene med et brannslukningsapparat. Riktignok fikk vi aldri en sirene - sikkerheten så at noe var galt gjennom videokameraer og ankom "åstedet" tidligere.

Orden og renslighet. Revisorer ser etter støv, utstyrsbokser som ligger kaotisk rundt, og hvor ofte lokalene rengjøres. Her ble for eksempel revisorene interessert i en uidentifisert gjenstand i ventilasjonsgangen. Dette er en blokk fra ventilasjonssystemet, som allerede forberedte seg på å ta sin plass. Men de ba meg likevel signere.

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Også på temaet orden i datasenteret - disse skapene med alle nødvendige verktøy for nødarbeid på utstyret er plassert i hovedtavlerommet. 

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Beliggenhet. Datasenteret vurderes ut fra lokaliseringsforhold – om det er militærbaser, flyplasser, elver, vulkaner og andre farlige gjenstander i nærheten. På bildet viser vi bare at siden siste sertifisering i 2017 har det ikke vokst frem atomkraftverk eller oljelagre rundt datasenteret. Men der borte bygges et nytt NORD-5-datasenter, som også må bestå alle nivåer av Uptime Institute Tier III-sertifisering. Men det er en helt annen historie).

Og demonstrer, eller hvordan vi bestod operasjonell bærekraftsrevisjon ved Uptime Institute

Kilde: www.habr.com

Legg til en kommentar