I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
El cap del departament d'operacions va pujar a l'escotilla de la instal·lació subterrània d'emmagatzematge de combustible per mostrar les marques de la vàlvula solenoide.

A principis de febrer, el nostre centre de dades de nivell III més gran NORD-4 Recertificat per l'Uptime Institute (UI) amb l'estàndard de sostenibilitat operativa. Avui us explicarem què estan mirant els auditors i amb quins resultats hem acabat.

Per a aquells que estiguin familiaritzats amb els centres de dades, repassem breument el maquinari. Estàndards de nivell avalua i certifica els centres de dades en tres etapes:

  • projecte (Disseny): es revisa el paquet de documentació del projecte, aquí el conegut nivell. N'hi ha 4: Nivell I–IV. Aquest últim és, en conseqüència, el més alt.
  • instal·lació construïda (instal·lació): es comprova la infraestructura d'enginyeria del centre de dades i el seu compliment amb el projecte. El centre de dades es comprova a plena càrrega de disseny mitjançant una varietat de proves amb aproximadament el contingut següent: un dels SAI (DGS, refrigeradors, aparells d'aire condicionat de precisió, armaris de distribució, barres, etc.) es deixa fora de servei per a manteniment o reparació. , i la font d'alimentació de la ciutat està apagada. . Els centres de dades de nivell III i superior haurien de poder gestionar la situació sense cap impacte en la càrrega útil de TI.

    La instal·lació es pot prendre si el centre de dades ja ha superat la certificació de disseny.
    NORD-4 va rebre el seu certificat de disseny el 2015 i la instal·lació el 2016.

  • Sostenibilitat operativa. De fet, la certificació més important i complexa. Avalua de manera exhaustiva els processos i les competències d'un operador en el manteniment i la gestió d'un centre de dades amb un nivell de Tier establert (per aprovar la Sostenibilitat Operativa, ja cal tenir un certificat d'instal·lació). Al cap i a la fi, sense processos operatius ben estructurats i un equip qualificat, fins i tot un centre de dades de nivell IV es pot convertir en un edifici inútil amb un equipament molt car.

    També hi ha nivells aquí: Bronze, Plata i Or. En l'última recertificació vam acabar amb una puntuació de 88,95 sobre 100 punts possibles, i això és Plata. Va quedar per sota de l'or: 1,05 punts. 

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

Com comprovar que els processos necessaris estan construïts i funcionen com cal? A més, com fer-ho en dos dies: això és el temps que triga a tornar a certificar. En definitiva, la certificació es basa en una minuciosa comparació del que està escrit a la normativa, històries de “com funciona tot” i pràctiques reals. La informació sobre aquest últim s'obté a través de visites guiades del centre de dades i converses amb enginyers del centre de dades: "enfrontaments", com els anomenem afectuosament. Això és el que estan mirant.

Equip

En primer lloc, els auditors de la IU comproven si el centre de dades té prou personal de suport. Agafen la taula de personal, el calendari de treball i el comproven selectivament amb informes de torns i dades de control d'accés per assegurar-se que el nombre d'enginyers necessaris es trobava realment al lloc aquell dia.

Els auditors també miren de prop el nombre d'hores extraordinàries. Això de vegades passa quan entra un client gran i cal instal·lar desenes de bastidors alhora. En aquests moments, els nois d'altres torns vénen al rescat i se'ls paguen diners addicionals per això.

Hi ha 4 enginyers treballant a NORD-7 per torn: 6 de servei i un enginyer superior. Aquests són els que supervisen la supervisió 24x7, es troben amb clients, ajuden amb la instal·lació d'equips i altres sol·licituds rutinàries. Aquesta és la primera línia d'assistència tècnica al client. Les seves responsabilitats inclouen registrar situacions d'emergència i traslladar-les a enginyers especialitzats. El treball de la infraestructura d'enginyeria és supervisat per persones individuals: oficials d'infraestructura. També 24x7.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
El director de producció i el gerent del lloc de NORD explica als auditors quanta gent està treballant al lloc en aquests moments.

Quan es classifiquen els números, es comprova la qualificació de l'equip. Els auditors revisen aleatòriament els fitxers de personal dels enginyers per assegurar-se que tenen els diplomes, certificats i documents d'autorització necessaris (per exemple, certificats de seguretat elèctrica) per treballar en un lloc determinat.

També comproven com formem el nostre personal. Fins i tot durant l'última auditoria, el nostre sistema per formar nous enginyers de servei va impressionar els especialistes de la IU. Passem tres mesos per ells curs d'entrenament com a pràctiques remunerades, durant la qual els introduïm en els processos i principis de treball al nostre centre de dades.

Els enginyers que ja treballen també han de rebre una formació regular, inclòs el treball en situacions d'emergència. Els auditors definitivament comprovaran els programes de formació i els materials d'aquestes formacions, i també examinaran aleatòriament els enginyers. A ningú se li demanarà que canviï a un grup electrògen dièsel, però se li demanarà que us expliqui pas a pas què cal fer quan es tanqui el subministrament elèctric de la ciutat. A partir dels resultats de l'auditoria, reunirem tots els programes de formació i educació a un únic estàndard perquè no difereixin per a diferents equips.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
Mostrem als auditors la sala de descans per als enginyers de torn.

Operació i manteniment de sistemes d'enginyeria 

En aquesta gran secció de l'auditoria, mostrem que tots els equips i sistemes d'enginyeria reben un manteniment regular segons el calendari recomanat pels venedors, el magatzem disposa de les peces de recanvi necessàries, acords de servei vàlids amb els contractistes i cada operació amb equip té la seva pròpia procediments i algorismes per treballar diferents casos.

MMS. Quan opereu desenes de SAI, grups electrògens dièsel, aparells d'aire condicionat i altres coses, heu de recollir tota la informació sobre aquesta instal·lació en algun lloc. Creem aproximadament el següent dossier per a cada equipament:

  • model i número de sèrie;
  • marcatge;
  • característiques tècniques i configuracions;
  • lloc d'instal·lació;
  • dates de producció, posada en marxa, caducitat de la garantia;
  • contractes de serveis;
  • calendari i historial de manteniment;
  • i tot el "historial mèdic": avaries, reparacions.

Com i on recollir tota aquesta informació depèn de cada operador del centre de dades que decideix per si mateix. La interfície d'usuari no es limita a les eines. Pot ser un simple Excel (vam començar amb això) o un sistema de gestió de manteniment (MMS) escrit per nosaltres mateixos, com ara. A propòsit, taulell de servei, la comptabilitat del magatzem, el registre en línia, el seguiment també s'escriuen per compte propi.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
Hi ha un "arxiu personal" per a cada equip.

Vam demostrar les nostres pràctiques en aquest sentit, inclòs l'ús de l'exemple d'aquest SAI d'infraestructura (a la foto), que va donar una de les seves peces al SAI que servia la càrrega de TI. Sí, segons la norma, aquesta "donació" només es pot dur a terme mitjançant equips d'infraestructura que alimenten els aparells d'aire condicionat i la il·luminació d'emergència, però no la càrrega informàtica.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

Posteriorment, els auditors van demanar que mostrés el tiquet corresponent al Taulell de Serveis:

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

I el perfil UPS en MMS:

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

Recanvis Per al manteniment oportú i reparacions d'emergència dels equips d'enginyeria, conservem els nostres propis recanvis i accessoris. Hi ha un magatzem general amb grans recanvis per a equips i petits armaris amb recanvis a les sales d'enginyeria (per tal que no hagis de córrer lluny).

A la foto: estem comprovant la disponibilitat de recanvis per al grup electrògen dièsel. Hem comptat 12 filtres. Després vam comprovar les dades a l'MMS.  

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

Un exercici similar s'ha realitzat al magatzem principal, on s'emmagatzemen grans recanvis: compressors, controladors, automatismes, ventiladors, humidificadors de vapor i centenars d'altres articles. Vam reescriure selectivament les marques i les vam "perforar" mitjançant MMS.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
Dades d'inventari de recanvis. Vermell - Això és el que falta i s'ha de comprar.

Manteniment preventiu. A més del manteniment i reparació, UI recomana realitzar un manteniment preventiu. Ajuda a convertir un possible accident en una reparació planificada. Per a cada paràmetre, configurem valors de llindar en monitorització. Si es superen, els responsables reben alarmes i prenen les accions necessàries. Per exemple, nosaltres:

  • Comprovem els quadres elèctrics amb una càmera tèrmica per tal de detectar ràpidament defectes en les instal·lacions elèctriques: mal contacte, sobreescalfament local d'un conductor o disjuntor. 
  • Supervisem els indicadors de vibració i el consum actual de les bombes del sistema de refrigeració. Això us permet identificar les desviacions en el temps i planificar peces de recanvi sense presses.
  • Fem anàlisis de combustible i oli de grups electrògens i compressors dièsel.
  • Provem la concentració de glicol al sistema de refrigeració.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
Diagrama de vibració de la bomba abans i després de la reparació.

Treball amb contractistes. El manteniment i reparació de l'equip es realitza per contractistes externs. Per la nostra banda, hi ha especialistes separats en grups electrògens dièsel, aparells d'aire condicionat i SAI que controlen el seu funcionament. Comproven si els contractistes disposen de les eines i materials necessaris per a treballs de reparació/manteniment, certificats professionals, certificats de seguretat elèctrica i permisos. Accepten tota la feina.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
Així és la llista de verificació per acceptar treballs de manteniment de l'aire condicionat.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
A l'oficina de passades, comprovem si els abonaments s'han lliurat a representants autoritzats dels contractistes, si s'han sotmès a manteniment a l'hora especificada i si han llegit les normes.

Documentació. Els processos establerts per al manteniment de sistemes i equips són la meitat de la batalla. Tots els procediments realitzats per humans al centre de dades s'han de documentar. La finalitat d'això és senzilla: perquè no es limiti a una persona concreta, i en cas d'accident, qualsevol enginyer pot prendre instruccions clares i fer totes les operacions necessàries per eliminar-lo.

La IU té la seva pròpia metodologia per a aquesta documentació.

Per a activitats senzilles i repetitives, s'estableixen procediments operatius estàndard (SOP). Per exemple, hi ha SOP per encendre/apagar el refrigerador i configurar el SAI per bypassar.

Per al manteniment o operacions complexes, com ara la substitució de bateries en un SAI, es creen procediments de manteniment (Mètodes de procediments, MOP). Aquests poden incloure SOP. Cada tipus d'equip d'enginyeria ha de tenir els seus propis MOP.

Finalment, hi ha els procediments operatius d'emergència (EOP): instruccions en cas d'emergència. S'elabora una llista de situacions d'emergència específiques i s'escriuen instruccions per a elles. Aquí teniu una part de la llista de situacions d'emergència, que detallen els signes d'un accident, actuacions, responsables i persones a notificar:

  • apagada de l'alimentació de la ciutat: els grups electrògens dièsel van començar/no van començar;
  • accidents d'UPS; 
  • accidents al sistema de control del centre de dades;
  • sobreescalfament de la sala de màquines;
  • fuites del sistema de refrigeració;
  • fallada en la xarxa i equips informàtics;

i així successivament.

La compilació d'aquest volum de documentació és una tasca intensa en si mateixa. Encara és més difícil mantenir-lo actualitzat (per cert, els auditors també ho comproven). I el més important, el personal ha de conèixer aquestes instruccions, treballar d'acord amb elles i fer millores si cal.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
Sí, les instruccions haurien d'estar disponibles allà on poguessin ser necessàries, i no només acumular pols als arxius.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
Notes sobre els canvis en la normativa de manteniment dels sistemes d'enginyeria de centres de dades.

Durant l'auditoria també s'estudien la documentació tècnica dels sistemes, la documentació executiva i de treball, i els actes de posada en funcionament dels sistemes. 

Marcatge. Mentre caminaven pel centre de dades, el van comprovar a tot arreu on podien arribar. On no podien arribar, arribaven des d'una escala :). Hem observat la seva presència a cada quadre de comandament, màquina i vàlvula. Hem comprovat la singularitat, la inequívocitat i el compliment dels esquemes actuals de la documentació tal com està construïda. A la foto següent: estem a la sala de bombes d'emmagatzematge de combustible comparant les marques de les vàlvules solenoides amb el diagrama de la documentació tal com està construïda. 

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

Tot estava d'acord amb ella, però amb el diagrama axonomètric "decorat" local a la paret en un paràmetre no va coincidir.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

Els diagrames dels sistemes ubicats allà també s'han de penjar a les instal·lacions del centre de dades. En cas d'accident, t'ajuden a esbrinar ràpidament on està tot i a prendre una decisió informada. La foto, per exemple, mostra un esquema unifilar a la sala de centralitas principal.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

La rellevància dels diagrames es va comprovar de la següent manera: van anomenar l'element marcat al diagrama i van demanar que el mostrés “a la vida real”. 

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

És aquí on l'auditor fa fotografies de la configuració (ajustaments) de l'interruptor d'entrada de la centralita principal, per posteriorment comparar-les amb els indicadors de l'esquema unifilar en còpia paper i electrònica. En una de les màquines, QF-3, l'indicador no coincidia amb el diagrama de paper i vam guanyar un punt de penalització. Ara dos enginyers comprovaran si les marques dels diagrames d'una sola línia es corresponen amb el fet.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

Això no és tot el que van comprovar els auditors pel que fa als processos de servei. Aquí teniu el que més hi havia a l'agenda:

  • sistema de seguiment. Aquí vam obtenir beneficis de karma amb una bona visualització, la presència d'una aplicació mòbil i pantalles situacionals col·locades als passadissos dels centres de dades. Aquí hem escrit amb detall sobre com treballem seguiment.

    I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute
    Aquest és el MCC amb informació visual sobre l'estat dels principals sistemes d'enginyeria de NORD-4 i els altres centres de dades que treballen al lloc.

  • planificació del cicle de vida dels equips d'enginyeria;
  • gestió de la capacitat (gestió de la capacitat);
  • pressupost (parlat una mica aquí);
  • procediment d'anàlisi d'accidents;
  • el procés d'acceptació, posada en marxa i prova d'equips (vam escriure sobre proves aquí).

Què més mirava la IU?

Seguretat i control d'accés. L'auditoria també verifica el funcionament dels sistemes de seguretat i seguretat. Per exemple, l'auditor va intentar entrar en una de les instal·lacions on no tenia accés i després va comprovar si això es reflectia al sistema de control d'accés i si la seguretat s'havia notificat sobre això (spoiler - ho era).

Si als nostres centres de dades la porta de qualsevol habitació roman oberta durant més de dos minuts, s'activarà una alerta al lloc de seguretat. Per comprovar-ho, els auditors van obrir una de les portes amb un extintor. És cert que mai no vam rebre una sirena: la seguretat va veure que alguna cosa anava malament a través de les càmeres de vídeo i va arribar abans a l'"escena del crim".

Ordre i neteja. Els auditors busquen pols, caixes d'equips que es troben caòticament i amb quina freqüència es netegen els locals. Aquí, per exemple, els auditors es van interessar per un objecte no identificat al passadís de ventilació. Es tracta d'un bloc del sistema de ventilació, que ja es preparava per ocupar el seu lloc. Però encara em van demanar que signés.

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

També sobre el tema de l'ordre al centre de dades: aquests armaris amb totes les eines necessàries per al treball d'emergència a l'equip es troben a la sala principal de la centralita. 

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

Ubicació El centre de dades s'avalua en funció de les condicions d'ubicació: si hi ha bases militars, aeroports, rius, volcans i altres objectes perillosos a prop. A la foto només mostrem que des de l'última certificació el 2017, no ha crescut cap central nuclear ni instal·lacions d'emmagatzematge de petroli al voltant del centre de dades. Però allà s'està construint un nou centre de dades NORD-5, que també haurà de superar tots els nivells de certificació Uptime Institute Tier III. Però aquesta és una història completament diferent).

I demostra, o com hem superat l'auditoria de sostenibilitat operativa a Uptime Institute

Font: www.habr.com

Afegeix comentari