Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
Lederen af ​​driftsafdelingen klatrede ind i lugen på det underjordiske brændstoflager for at vise markeringerne på magnetventilen.

I begyndelsen af ​​februar, vores største Tier III datacenter NORD-4 Gencertificeret af Uptime Institute (UI) til Operational Sustainability-standarden. I dag vil vi fortælle dig, hvad revisorerne kigger på, og hvilke resultater vi er færdige med.

For dem, der er fortrolige med datacentre, lad os kort gennemgå hardwaren. Niveaustandarder evaluerer og certificerer datacentre på tre trin:

  • projekt (Design): pakken med projektdokumentation kontrolleres Her den velkendte dyr. Der er 4 af dem i alt: Tier I–IV. Det sidste er derfor det højeste.
  • konstrueret facilitet (Facilitet): Datacentrets tekniske infrastruktur kontrolleres, og dets overensstemmelse med projektet. Datacentret kontrolleres under fuld designbelastning ved hjælp af en række tests med omtrent følgende indhold: en af ​​UPS'erne (DGS, kølere, præcisionsklimaanlæg, distributionsskabe, samleskinner osv.) tages ud af drift til vedligeholdelse eller reparation , og byens strømforsyning er slukket. . Tier III og højere datacentre bør være i stand til at håndtere situationen uden nogen indvirkning på IT-nyttelasten.

    Faciliteten kan tages, hvis datacentret allerede har bestået Design-certificering.
    NORD-4 modtog sit designcertifikat i 2015 og facilitet i 2016.

  • Operationel bæredygtighed. Faktisk den vigtigste og mest komplekse certificering. Den evaluerer omfattende processerne og kompetencerne hos en operatør til at vedligeholde og administrere et datacenter med et etableret Tier-niveau (for at bestå Operationel Bæredygtighed skal du allerede have et Facility-certifikat). Uden ordentligt strukturerede operationelle processer og et kvalificeret team kan selv et Tier IV-datacenter blive til en ubrugelig bygning med meget dyrt udstyr.

    Der er også niveauer her: Bronze, Sølv og Guld. Ved sidste recertificering endte vi med en score på 88,95 ud af 100 mulige point, og dette er sølv. Det faldt lige under Guld - 1,05 point. 

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Hvordan kontrolleres, at de nødvendige processer er bygget og fungerer, som de skal? Desuden, hvordan man gør det på to dage - det er så lang tid, det tager for re-certificering. Kort sagt er certificering baseret på en omhyggelig sammenligning af, hvad der står i reglerne, historier om "hvordan alting fungerer" og reel praksis. Oplysninger om sidstnævnte fås fra gennemgange af datacentret og samtaler med datacenteringeniører - "konfrontationer", som vi kærligt kalder dem. Det er det, de kigger på.

Team

Først og fremmest tjekker UI-revisorer, om datacentret har tilstrækkeligt supportpersonale. De tager personaletabellen, vagtplanen og tjekker den selektivt med vagtrapporter og adgangskontroldata for at sikre, at det nødvendige antal ingeniører faktisk var på stedet den dag.

Revisorer ser også nøje på antallet af overarbejdstimer. Dette sker nogle gange, når en stor kunde kommer ind, og dusinvis af stativer skal installeres på samme tid. I sådanne øjeblikke kommer fyre fra andre vagter til undsætning, og de får ekstra penge for dette.

Der er 4 ingeniører, der arbejder på NORD-7 pr. skift: 6 på vagt og en senioringeniør. Det er dem, der overvåger overvågning 24x7, møder kunder, hjælper med installation af udstyr og andre rutinemæssige anmodninger. Dette er den første linje af kundesupport. Deres ansvar omfatter registrering af nødsituationer og eskalering af dem til specialiserede ingeniører. Arbejdet med den tekniske infrastruktur overvåges af individuelle personer - infrastrukturvagtofficerer. Også 24x7.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
NORDs produktionsdirektør og site manager fortæller revisorerne, hvor mange der arbejder på stedet lige nu.

Når tallene er sorteret fra, tjekkes holdets kvalifikationer. Revisorer gennemgår tilfældigt ingeniørers personalekartoteker for at sikre, at de har de nødvendige diplomer, certifikater og autorisationsdokumenter (f.eks. elektriske sikkerhedscertifikater) til at arbejde i en given stilling.

De tjekker også, hvordan vi uddanner vores personale. Selv under den sidste revision imponerede vores system til uddannelse af nye vagthavende ingeniører UI-specialister. Vi bruger tre måneder på dem Træningsbane som et betalt praktikophold, hvor vi introducerer dem til processerne og principperne for arbejdet i vores datacenter.

Allerede arbejdende ingeniører skal også gennemgå en regelmæssig uddannelse, herunder om at arbejde i nødsituationer. Auditorer vil helt sikkert kontrollere træningsprogrammerne og materialerne til sådanne træninger og også tilfældigt undersøge ingeniører. Ingen vil blive bedt om at skifte til et dieselgeneratorsæt, men de vil blive bedt om at fortælle dig trin for trin, hvad der skal gøres, når byens strømforsyning er slukket. Baseret på auditresultaterne vil vi bringe alle trænings- og uddannelsesprogrammer til en enkelt standard, så de ikke adskiller sig fra forskellige hold.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
Vi viser revisorerne pauserummet for skifteingeniører.

Drift og vedligeholdelse af tekniske systemer 

I denne store del af revisionen viser vi, at alt teknisk udstyr og systemer modtager regelmæssig vedligeholdelse i henhold til den tidsplan, som sælgerne anbefaler, lageret har de nødvendige reservedele, gyldige serviceaftaler med entreprenører, og hver operation med udstyr har sin egen. procedurer og algoritmer til at arbejde med forskellige sager.

MMS. Når du betjener snesevis af UPS'er, dieselgeneratorsæt, klimaanlæg og andre ting, skal du samle alle oplysninger om denne facilitet et sted. Vi opretter cirka følgende dossier for hvert udstyrsstykke:

  • model og serienummer;
  • mærkning;
  • tekniske egenskaber og indstillinger;
  • installationssted;
  • datoer for produktion, idriftsættelse, udløb af garanti;
  • servicekontrakter;
  • vedligeholdelsesplan og historie;
  • og hele "sygehistorien" - nedbrud, reparationer.

Hvordan og hvor man indsamler alle disse oplysninger er op til hver datacenteroperatør selv at bestemme. Brugergrænsefladen er ikke begrænset i værktøjer. Dette kan være en simpel Excel (vi startede med dette) eller et selvskrevet Maintenance Management System (MMS), som vi har nu. I øvrigt, servicedesk, lagerregnskab, online log, overvågning er også selvskrevet.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
Der er sådan en "personlig fil" for hvert stykke udstyr.

Vi demonstrerede vores praksis i denne henseende, herunder ved at bruge eksemplet med denne infrastruktur UPS (billedet), som donerede en af ​​dens dele til den UPS, der betjener IT-belastningen. Ja, ifølge standarden kan en sådan "donation" kun udføres af infrastrukturudstyr, der driver klimaanlæg og nødbelysning, men ikke IT-belastningen.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Bagefter bad revisorerne om at vise den tilsvarende billet i Service Desk:

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Og UPS-profilen i MMS:

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Reservedele For rettidig vedligeholdelse og nødreparationer af ingeniørudstyr beholder vi vores egne reservedele og tilbehør. Der er et samlet lager med store reservedele til udstyr og små skabe med reservedele i teknikrum (så du ikke skal løbe langt).

På billedet: vi tjekker tilgængeligheden af ​​reservedele til dieselgeneratorsættet. Vi talte 12 filtre. Så tjekkede vi dataene i MMS'en.  

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

En lignende øvelse blev gennemført på hovedlageret, hvor store reservedele opbevares: kompressorer, regulatorer, automatik, ventilatorer, dampbefugtere og hundredvis af andre genstande. Vi omskrev selektivt markeringerne og "stansede" dem via MMS.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
Reservedelslagerdata. Rød Det er det, der mangler og skal købes.

Forebyggende vedligeholdelse. Ud over vedligeholdelse og reparationer anbefaler UI at udføre forebyggende vedligeholdelse. Det hjælper med at gøre en potentiel ulykke til en planlagt reparation. For hver parameter konfigurerer vi tærskelværdier i overvågning. Hvis de overskrides, modtager de ansvarlige alarmer og træffer de nødvendige foranstaltninger. Vi:

  • Vi kontrollerer el-tavler med et termisk kamera for hurtigt at opdage defekter i elektriske installationer: dårlig kontakt, lokal overophedning af en leder eller afbryder. 
  • Vi overvåger vibrationsindikatorer og strømforbrug af køleanlægspumper. Dette giver dig mulighed for at identificere afvigelser i tid og planlægge reservedele uden hastværk.
  • Vi laver brændstof- og olieanalyser af dieselgeneratorsæt og kompressorer.
  • Vi tester glykol i kølesystemet for koncentration.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
Pumpevibrationsdiagram før og efter reparation.

Samarbejde med entreprenører. Vedligeholdelse og reparationer af udstyr udføres af eksterne entreprenører. På vores side er der separate specialister i dieselgeneratorsæt, klimaanlæg og UPS, som styrer deres drift. De kontrollerer, om entreprenører har det nødvendige værktøj og materialer til reparationsarbejde/vedligeholdelse, fagcertifikater, elsikkerhedscertifikater og tilladelser. De accepterer alt arbejde.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
Sådan ser tjeklisten for at acceptere klimaanlægsvedligeholdelsesarbejde ud.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
På paskontoret tjekker vi, om passene er udstedt til autoriserede repræsentanter for entreprenører, om de har gennemgået vedligeholdelse på det angivne tidspunkt, og om de har læst reglerne.

Dokumentation. Etablerede processer til vedligeholdelse af systemer og udstyr er halvdelen af ​​kampen. Alle procedurer udført af mennesker i datacentret skal dokumenteres. Formålet med dette er enkelt: så alt ikke er begrænset til en bestemt person, og i tilfælde af en ulykke kan enhver ingeniør tage klare instruktioner og udføre alle de nødvendige operationer for at eliminere det.

UI har sin egen metode til sådan dokumentation.

For simple og gentagne aktiviteter etableres standarddriftsprocedurer (SOP'er). For eksempel er der SOP'er til at tænde/slukke for køleren og indstille UPS'en til at bypasse.

Til vedligeholdelse eller komplekse operationer, såsom udskiftning af batterier i en UPS, er der oprettet vedligeholdelsesprocedurer (Methods of Procedures, MOP'er). Disse kan omfatte SOP'er. Hver type teknisk udstyr skal have sine egne MOP'er.

Endelig er der Emergency Operating Procedures (EOP'er) - instruktioner i tilfælde af en nødsituation. Der udarbejdes en liste over specifikke nødsituationer, og der skrives instruktioner til dem. Her er en del af listen over nødsituationer, som beskriver tegn på en ulykke, handlinger, ansvarlige personer og personer, der skal underrettes:

  • nedlukning af bystrømforsyning: dieselgeneratorsæt startede/startede ikke;
  • UPS ulykker; 
  • ulykker på datacentrets overvågningssystem;
  • overophedning af maskinrummet;
  • lækage af kølesystemet;
  • fejl på netværk og computerudstyr;

og så videre.

At udarbejde en sådan mængde dokumentation er en arbejdskrævende opgave i sig selv. Det er endnu sværere at holde det opdateret (det tjekker revisorer i øvrigt også). Og vigtigst af alt, skal personalet kende disse instruktioner, arbejde efter dem og foretage forbedringer, hvis det er nødvendigt.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
Ja, instruktioner skal være tilgængelige, hvor de måtte være nødvendige, og ikke kun samle støv i arkiver.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
Bemærkninger om ændringer i vedligeholdelsesbestemmelserne for datacentersystemer.

Under revisionen ser de også på teknisk dokumentation om systemer, ledelses- og arbejdsdokumentation og handlinger for at sætte systemer i drift. 

Mærkning. Mens de gik rundt i datacentret, tjekkede de det overalt, hvor de kunne nå. Hvor de ikke kunne nå, nåede de fra en trappestige :). Vi så på dens tilstedeværelse på hver tavle, maskine og ventil. Vi kontrollerede det unikke, utvetydige og overensstemmelse med de nuværende ordninger i as-built-dokumentationen. På billedet nedenfor: vi er i brændstofopbevaringspumperummet og sammenligner markeringerne på magnetventilerne med diagrammet over den færdige dokumentation. 

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Alt stemte med hende, men med det lokale "dekorative" aksonometriske diagram på væggen i en parameter faldt det ikke sammen.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Diagrammer over de systemer, der er placeret dér, bør også placeres i datacentrets lokaler. I tilfælde af en ulykke hjælper de dig med hurtigt at finde ud af, hvor alt er og træffe en informeret beslutning. Billedet viser for eksempel et enkeltlinjediagram i hovedtavlerummet.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Relevansen af ​​diagrammerne blev kontrolleret på følgende måde: de navngav elementmærket på diagrammet og bad om at vise det "i det virkelige liv". 

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Det er her, revisoren tager billeder af indstillingerne (indstillingerne) af hovedtavlens indgangsafbryder for senere at sammenligne dem med indikatorerne på enkeltlinjediagrammet i papir- og elektroniske kopier. På en af ​​maskinerne, QF-3, matchede indikatoren ikke papirdiagrammet, og vi fik et strafpoint. Nu vil to ingeniører kontrollere, om markeringerne i enkeltlinjediagrammer svarer til det faktum.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Det er ikke alt, som revisorerne har kontrolleret i forhold til serviceprocesser. Her er hvad der ellers var på dagsordenen:

  • overvågningssystem. Her tjente vi karma-fordele med god visualisering, tilstedeværelsen af ​​en mobilapplikation og situationsbestemte skærme placeret i datacentres korridorer. Her skrev vi i detaljer om, hvordan vi arbejder overvågning.

    Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute
    Dette er MCC med visuel information om status for de vigtigste tekniske systemer i NORD-4 og vores andre datacentre, der arbejder på siden.

  • livscyklusplanlægning af ingeniørudstyr;
  • kapacitetsstyring (kapacitetsstyring);
  • budgettering (snakket lidt her);
  • ulykkesanalyseprocedure;
  • processen med accept, idriftsættelse og test af udstyr (vi skrev om tests her).

Hvad så brugergrænsefladen ellers på?

Sikkerhed og adgangskontrol. Revisionen kontrollerer også driften af ​​sikkerhedssystemer. Revisor forsøgte eksempelvis at komme ind i et af lokalerne, hvor han ikke havde adgang, og tjekkede herefter, om dette afspejlede sig i adgangskontrolsystemet, og om sikkerheden var underrettet om dette (spoiler - det var det).

Hvis døren til ethvert rum i vores datacentre forbliver åben i mere end to minutter, udløses en alarm på sikkerhedsposten. For at teste dette åbnede revisorer en af ​​dørene med en ildslukker. Sandt nok fik vi aldrig en sirene - sikkerhedsvagten så, at noget var galt gennem videokameraer og ankom til "forbrydelsesstedet" tidligere.

Orden og renlighed. Revisorer kigger efter støv, udstyrskasser, der ligger kaotisk rundt, og hvor ofte der bliver gjort rent i lokalerne. Her blev revisorerne for eksempel interesseret i en uidentificeret genstand i ventilationsgangen. Dette er en blok fra ventilationssystemet, som allerede var ved at forberede sig på at tage sin plads. Men de bad mig stadig om at skrive under.

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Også om emnet orden i datacentret - disse skabe med alle de nødvendige værktøjer til nødarbejde på udstyret er placeret i hovedtavlerummet. 

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Placering. Datacentret vurderes ud fra lokationsforhold – om der er militærbaser, lufthavne, floder, vulkaner og andre farlige genstande i nærheden. På billedet viser vi blot, at der siden sidste certificering i 2017 ikke er vokset atomkraftværker eller olielagerfaciliteter omkring datacentret. Men derovre er et nyt NORD-5 datacenter ved at blive bygget, som også skal bestå alle niveauer af Uptime Institute Tier III certificering. Men det er en helt anden historie).

Og demonstrer, eller hvordan vi bestod Operational Sustainability audit på Uptime Institute

Kilde: www.habr.com

Tilføj en kommentar