Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
Chefen för driftavdelningen klättrade in i luckan till det underjordiska bränsleförrådet för att visa markeringarna på magnetventilen.

I början av februari, vårt största Tier III-datacenter NORD-4 Omcertifierad av Uptime Institute (UI) till Operational Sustainability-standarden. Idag ska vi berätta vad revisorerna tittar på och vilka resultat vi slutade med.

För dem som är bekanta med datacenter, låt oss kort gå igenom hårdvaran. Nivåstandarder utvärderar och certifierar datacenter i tre steg:

  • projekt (Design): paketet med projektdokumentation kontrolleras. Här det välkända Tier. Det finns 4 av dem totalt: Tier I–IV. Den sistnämnda är följaktligen den högsta.
  • konstruerad anläggning (Facilitet): datacentrets tekniska infrastruktur kontrolleras och dess överensstämmelse med projektet. Datacentret kontrolleras under full designbelastning med hjälp av en mängd olika tester med ungefär följande innehåll: en av UPS:erna (DGS, kylaggregat, precisionsklimatanläggningar, distributionsskåp, samlingsskenor, etc.) tas ur drift för underhåll eller reparation , och stadens strömförsörjning är avstängd. . Tier III och högre datacenter bör kunna hantera situationen utan att påverka IT-nyttolasten.

    Faciliteten kan tas om datacentret redan har godkänts designcertifiering.
    NORD-4 fick sitt designcertifikat 2015 och Facility 2016.

  • Operationell hållbarhet. Faktum är att den viktigaste och mest komplexa certifieringen. Den utvärderar på ett omfattande sätt processerna och kompetensen hos en operatör för att underhålla och hantera ett datacenter med en etablerad nivånivå (för att klara operativ hållbarhet måste du redan ha ett anläggningscertifikat). Trots allt, utan ordentligt strukturerade operativa processer och ett kvalificerat team, kan även ett Tier IV-datacenter förvandlas till en värdelös byggnad med mycket dyr utrustning.

    Det finns även nivåer här: Brons, Silver och Guld. Vid den senaste omcertifieringen slutade vi med en poäng på 88,95 av 100 möjliga poäng, och det här är Silver. Det föll strax under Guld - 1,05 poäng. 

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Hur kontrollerar man att nödvändiga processer är byggda och fungerar som de ska? Dessutom, hur man gör det på två dagar - det är hur lång tid det tar för omcertifiering. Kortfattat bygger certifieringen på en noggrann jämförelse av vad som står i regelverket, berättelser om "hur allt fungerar" och verkliga praxis. Information om det senare erhålls från genomgångar av datacentret och samtal med datacenteringenjörer - "konfrontationer", som vi kärleksfullt kallar dem. Det är vad de tittar på.

Team

Först och främst kontrollerar UI-revisorer om datacentret har tillräckligt med supportpersonal. De tar bemanningstabellen, tjänstgöringsschemat och kontrollerar det selektivt med skiftrapporter och passerkontrolldata för att säkerställa att det erforderliga antalet ingenjörer faktiskt var på plats den dagen.

Revisorerna tittar också noga på antalet övertidstimmar. Detta händer ibland när en stor kund kommer in och dussintals rack måste installeras samtidigt. I sådana ögonblick kommer killar från andra skift till undsättning, och de får extra pengar för detta.

Det är 4 ingenjörer som arbetar på NORD-7 per skift: 6 i tjänst och en senior ingenjör. Det är dessa som övervakar övervakning dygnet runt, möter kunder, hjälper till med installation av utrustning och andra rutinförfrågningar. Detta är den första raden av kundsupport. Deras ansvar inkluderar att registrera nödsituationer och eskalera dem till specialiserade ingenjörer. Arbetet med den tekniska infrastrukturen övervakas av enskilda personer - infrastrukturtjänstemän. Även 24x7.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
NORDs produktionsdirektör och platschef berättar för revisorerna hur många som jobbar på plats just nu.

När siffrorna är sorterade kontrolleras lagets kvalifikationer. Revisorer granskar slumpmässigt ingenjörers personalakter för att säkerställa att de har de nödvändiga diplom, certifikat och behörighetsdokument (till exempel elsäkerhetscertifikat) för att arbeta i en given position.

De kontrollerar också hur vi utbildar vår personal. Redan under den senaste granskningen imponerade vårt system för utbildning av nya tjänstgörande ingenjörer på UI-specialister. Vi spenderar tre månader åt dem träningskurs som en betald praktik, under vilken vi introducerar dem till processerna och principerna för arbetet i vårt datacenter.

Redan arbetande ingenjörer måste också genomgå regelbunden utbildning, inklusive om att arbeta i nödsituationer. Revisorer kommer definitivt att kontrollera utbildningsprogram och material för sådana utbildningar, och även slumpmässigt undersöka ingenjörer. Ingen kommer att bli ombedd att byta till en dieselgenerator, men de kommer att bli ombedda att berätta steg för steg vad som behöver göras när stadens strömförsörjning är avstängd. Baserat på revisionsresultaten kommer vi att föra alla utbildningar och utbildningar till en standard så att de inte skiljer sig åt för olika team.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
Vi visar revisorerna pausrummet för skiftingenjörer.

Drift och underhåll av tekniska system 

I denna stora del av revisionen visar vi att all teknisk utrustning och system får regelbundet underhåll enligt det schema som rekommenderas av leverantörerna, lagret har nödvändiga reservdelar, giltiga serviceavtal med entreprenörer och varje drift med utrustning har sin egen. procedurer och algoritmer för att arbeta med olika fall.

MMS När du använder dussintals UPS-enheter, dieselgeneratorer, luftkonditioneringsapparater och annat måste du samla all information om den här anläggningen någonstans. Vi skapar ungefär följande underlag för varje utrustning:

  • modell och serienummer;
  • märkning;
  • tekniska egenskaper och inställningar;
  • installationsplats;
  • datum för tillverkning, driftsättning, garantins utgång;
  • tjänstekontrakt;
  • underhållsschema och historik;
  • och hela "medicinska historien" - haverier, reparationer.

Hur och var man samlar in all denna information är upp till varje datacenteroperatör att bestämma själv. Användargränssnittet är inte begränsat till verktyg. Detta kan vara en enkel Excel (vi började med detta) eller ett självskrivet underhållsledningssystem (MMS), som vi har nu. Förresten, service Desk, lagerbokföring, onlinelogg, övervakning är också självskrivna.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
Det finns en sådan "personlig fil" för varje utrustning.

Vi demonstrerade vår praxis i detta avseende, inklusive att använda exemplet med denna infrastruktur UPS (bilden), som donerade en av dess delar till UPS:en som betjänar IT-belastningen. Ja, enligt standarden kan sådan "donation" endast utföras av infrastrukturutrustning som driver luftkonditionering och nödbelysning, men inte IT-belastningen.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Efteråt bad revisorerna att visa motsvarande biljett i Service Desk:

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Och UPS-profilen i MMS:

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Reservdelar För snabbt underhåll och nödreparationer av teknisk utrustning behåller vi våra egna reservdelar och tillbehör. Det finns ett allmänt lager med stora reservdelar för utrustning och små skåp med reservdelar i teknikrum (så att du inte behöver springa långt).

På bilden: vi kontrollerar tillgängligheten av reservdelar till dieselgeneratorset. Vi räknade 12 filter. Sedan kollade vi uppgifterna i MMS.  

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

En liknande övning genomfördes på huvudlagret, där stora reservdelar förvaras: kompressorer, styrenheter, automation, fläktar, ångbefuktare och hundratals andra föremål. Vi skrev selektivt om markeringarna och "stansade" dem via MMS.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
Reservdelslagerdata. Röd - Det är detta som saknas och måste köpas in.

Förebyggande underhåll. Utöver underhåll och reparationer rekommenderar UI att du utför förebyggande underhåll. Det hjälper till att förvandla en potentiell olycka till en planerad reparation. För varje parameter konfigurerar vi tröskelvärden vid övervakning. Om de överskrids får de ansvariga larm och vidtar nödvändiga åtgärder. Till exempel, vi:

  • Vi kontrollerar elpaneler med en värmekamera för att snabbt upptäcka defekter i elektriska installationer: dålig kontakt, lokal överhettning av en ledare eller strömbrytare. 
  • Vi övervakar vibrationsindikatorer och aktuell förbrukning av kylsystemspumpar. Detta gör att du kan identifiera avvikelser i tid och planera reservdelar utan brådska.
  • Vi gör bränsle- och oljeanalyser av dieselaggregat och kompressorer.
  • Vi testar glykol i kylsystemet för koncentration.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
Pumpvibrationsdiagram före och efter reparation.

Arbetar med entreprenörer. Underhåll och reparationer av utrustning utförs av externa entreprenörer. På vår sida finns det separata specialister på dieselgeneratorer, luftkonditioneringsapparater och UPS som kontrollerar deras drift. De kontrollerar om entreprenörer har nödvändiga verktyg och material för reparationsarbete/underhåll, yrkesintyg, elsäkerhetsintyg och tillstånd. De accepterar allt arbete.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
Så här ser checklistan för att ta emot luftkonditioneringsunderhållsarbeten ut.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
På passkontoret kontrollerar vi om passen utfärdats till behöriga företrädare för entreprenörer, om de genomgått underhåll vid angiven tid och om de har läst reglerna.

Dokumentation. Etablerade processer för underhåll av system och utrustning är halva striden. Alla procedurer som utförs av människor i datacentret ska dokumenteras. Syftet med detta är enkelt: så att allt inte är begränsat till en specifik person, och i händelse av en olycka kan vilken ingenjör som helst ta tydliga instruktioner och göra alla nödvändiga åtgärder för att eliminera det.

UI har sin egen metodik för sådan dokumentation.

För enkla och repetitiva aktiviteter fastställs standardförfaranden (SOP). Till exempel finns det SOP:er för att slå på/stänga av kylaggregatet och ställa in UPS:en på förbikoppling.

För underhåll eller komplexa operationer, som att byta batterier i en UPS, skapas underhållsprocedurer (Methods of Procedures, MOPs). Dessa kan inkludera SOP. Varje typ av teknisk utrustning måste ha sina egna MOP:er.

Slutligen finns det Emergency Operating Procedures (EOPs) – instruktioner i händelse av en nödsituation. En lista över specifika nödsituationer sammanställs och instruktioner skrivs för dem. Här är en del av listan över nödsituationer, som beskriver tecken på en olycka, åtgärder, ansvariga personer och personer att meddela:

  • avstängning av stadens strömförsörjning: dieselgeneratoraggregat startade/startade inte;
  • UPS-olyckor; 
  • olyckor på datacentrets övervakningssystem;
  • överhettning av maskinrummet;
  • läckage av kylsystemet;
  • fel på nätverk och datorutrustning;

och så vidare.

Att sammanställa en sådan mängd dokumentation är en arbetskrävande uppgift i sig. Ännu svårare är det att hålla den aktuell (förresten, revisorer kontrollerar detta också). Och viktigast av allt, personalen måste känna till dessa instruktioner, arbeta efter dem och göra förbättringar vid behov.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
Ja, instruktioner ska finnas tillgängliga där de kan behövas, och inte bara samla damm i arkiv.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
Anteckningar om ändringar i underhållsbestämmelserna för datacentertekniksystem.

Under granskningen tittar de också på teknisk dokumentation om system, lednings- och arbetsdokumentation och handlingar för att sätta system i drift. 

Märkning. När de gick runt i datacentret kontrollerade de det överallt där de kunde nå. Där de inte kunde nå, nådde de från en stege :). Vi tittade på dess närvaro på varje växel, maskin och ventil. Vi kontrollerade unikheten, otvetydigheten och överensstämmelsen med de nuvarande scheman för den byggda dokumentationen. På bilden nedan: vi är i bränslelagringspumprummet och jämför markeringarna på magnetventilerna med diagrammet över den färdiga dokumentationen. 

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Allt stämde med henne, men med det lokala "dekorativa" axonometriska diagrammet på väggen i en parameter sammanföll det inte.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Diagram över de system som finns där bör också finnas i datacentrets lokaler. I händelse av en olycka hjälper de dig att snabbt ta reda på var allt finns och fatta ett välgrundat beslut. Bilden visar till exempel ett enradsdiagram i huvudväxelrummet.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Diagrammens relevans kontrollerades på följande sätt: de namngav elementmarkeringen på diagrammet och bad om att visa den "i verkligheten". 

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Det är här som revisorn tar fotografier av inställningarna (inställningarna) för huvudströmbrytarens ingångsbrytare för att senare jämföra dem med indikatorerna på enradsdiagrammet i pappers- och elektroniska kopior. På en av maskinerna, QF-3, stämde inte indikatorn med pappersdiagrammet och vi fick en straffpoäng. Nu ska två ingenjörer kontrollera om markeringarna i enlinjediagram överensstämmer med faktumet.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Det är inte allt som revisorerna kontrollerat när det gäller serviceprocesser. Här är vad mer som stod på agendan:

  • övervakningssystem. Här tjänade vi karmafördelar med bra visualisering, närvaron av en mobilapplikation och situationsanpassade skärmar placerade i datacenters korridorer. Här skrev vi utförligt om hur vi jobbar övervakning av.

    Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute
    Detta är MCC med visuell information om statusen för de huvudsakliga tekniska systemen för NORD-4 och våra andra datacenter som arbetar på webbplatsen.

  • livscykelplanering av ingenjörsutrustning;
  • Kapacitetshantering (Kapacitetshantering);
  • budgetering (pratade lite här);
  • olycksanalysförfarande;
  • processen för acceptans, driftsättning och testning av utrustning (vi skrev om tester här).

Vad tittade gränssnittet mer på?

Säkerhet och passerkontroll. Revisionen kontrollerar också funktionen av säkerhets- och säkerhetssystemen. Till exempel försökte revisorn ta sig in i en av lokalerna där han inte hade tillträde, och kontrollerade sedan om detta återspeglades i passersystemet och om säkerheten varslad om detta (spoiler - det var det).

Om i våra datacenter dörren till något rum förblir öppen i mer än två minuter, utlöses en varning vid säkerhetsposten. För att testa detta ställde revisorerna upp en av dörrarna med en brandsläckare. Det är sant att vi aldrig fick en siren - säkerheten såg att något var fel genom videokameror och kom till "brottsplatsen" tidigare.

Ordning och renlighet. Revisorer letar efter damm, utrustningslådor som ligger kaotiskt och hur ofta lokalerna städas. Här blev till exempel revisorerna intresserade av ett oidentifierat föremål i ventilationskorridoren. Detta är ett kvarter från ventilationssystemet, som redan förberedde sig för att ta sin plats. Men de bad mig ändå skriva under.

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Också på ämnet ordning i datacentret - dessa skåp med alla nödvändiga verktyg för nödarbete på utrustningen finns i huvudväxelrummet. 

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Läge. Datacentret bedöms utifrån lägesförhållanden – om det finns militärbaser, flygplatser, floder, vulkaner och andra farliga föremål i närheten. På bilden visar vi bara att sedan den senaste certifieringen 2017 har inga kärnkraftverk eller oljelagringsanläggningar växt runt datacentret. Men där borta byggs ett nytt NORD-5-datacenter, som också måste klara alla nivåer av Uptime Institute Tier III-certifiering. Men det är en helt annan historia).

Och visa, eller hur vi klarade operativ hållbarhetsrevision på Uptime Institute

Källa: will.com

Lägg en kommentar