E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
O xefe do departamento de operacións subiu á escotilla do almacén subterráneo de combustible para mostrar as marcas da electroválvula.

A principios de febreiro, o noso maior centro de datos de nivel III NORD-4 Recertificado polo Uptime Institute (UI) segundo o estándar de sustentabilidade operativa. Hoxe contarémosvos o que están mirando os auditores e con que resultados rematamos.

Para aqueles que estean familiarizados cos centros de datos, repasemos brevemente o hardware. Estándares de nivel avalía e certifica os centros de datos en tres etapas:

  • proxecto (Deseño): compróbase o paquete de documentación do proxecto Aquí o coñecido Nivel. Son 4 en total: Nivel I–IV. Este último é, en consecuencia, o máis alto.
  • instalación construída (Instalación): compróbase a infraestrutura de enxeñería do centro de datos e o seu cumprimento co proxecto. Compróbase o centro de datos a plena carga de deseño mediante unha variedade de probas con aproximadamente o seguinte contido: un dos SAI (DGS, chillers, aire acondicionado de precisión, armarios de distribución, barras colectoras, etc.) ponse fóra de servizo para mantemento ou reparación. , e a fonte de enerxía da cidade está desactivada. . Os centros de datos de nivel III e superiores deberían poder xestionar a situación sen ningún impacto na carga útil de TI.

    A instalación pódese tomar se o centro de datos xa aprobou a certificación de deseño.
    NORD-4 recibiu o seu certificado de deseño en 2015 e Facility en 2016.

  • Sostibilidade Operativa. De feito, a certificación máis importante e complexa. Avalía de forma exhaustiva os procesos e as competencias dun operador para manter e xestionar un centro de datos cun nivel de Tier establecido (para superar a Sostibilidade Operativa é necesario ter xa un certificado de instalación). Despois de todo, sen procesos operativos debidamente estruturados e un equipo cualificado, mesmo un centro de datos de nivel IV pode converterse nun edificio inútil con equipos moi caros.

    Tamén hai niveis aquí: Bronce, Prata e Ouro. Na última recertificación rematamos cunha puntuación de 88,95 sobre 100 puntos posibles, e esta é Prata. Quedou só por debaixo do Ouro - 1,05 puntos. 

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Como comprobar que os procesos necesarios están construídos e funcionando como deberían? Ademais, como facelo en dous días: é o tempo que leva a re-certificación. En definitiva, a certificación baséase nunha minuciosa comparación do que está escrito na normativa, historias de "como funciona todo" e prácticas reais. A información sobre este último obtense a través de visitas ao centro de datos e conversacións con enxeñeiros do centro de datos: "enfrontamentos", como os chamamos cariñosamente. Iso é o que están mirando.

Equipo

En primeiro lugar, os auditores da IU verifican se o centro de datos ten persoal de apoio suficiente. Eles toman o cadro de persoal, o calendario de traballo e compróbeno selectivamente con informes de quendas e datos de control de acceso para asegurarse de que o número necesario de enxeñeiros estivese realmente no lugar ese día.

Os auditores tamén observan con atención o número de horas extraordinarias. Isto ocorre ás veces cando entra un cliente grande e hai que instalar ducias de racks ao mesmo tempo. Nestes momentos, rapaces doutras quendas acoden ao rescate e páganselles cartos extra por iso.

Hai 4 enxeñeiros traballando en NORD-7 por quenda: 6 de servizo e un enxeñeiro superior. Estes son os que supervisan o seguimento 24x7, coñecen clientes, axudan coa instalación de equipos e outras solicitudes rutineiras. Esta é a primeira liña de soporte técnico ao cliente. As súas responsabilidades inclúen rexistrar situacións de emerxencia e transmitilas a enxeñeiros especializados. O traballo da infraestrutura de enxeñería é supervisado por persoas individuais: oficiais de infraestrutura. Tamén 24x7.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
O director de produción e xestor do sitio de NORD dilles aos auditores cantas persoas están traballando no lugar agora mesmo.

Cando se clasifican os números, compróbase a cualificación do equipo. Os auditores revisan aleatoriamente os ficheiros de persoal dos enxeñeiros para asegurarse de que teñen os diplomas, certificados e documentos de autorización necesarios (por exemplo, certificados de seguridade eléctrica) para traballar nun determinado posto.

Tamén comproban como formamos o noso persoal. Mesmo durante a última auditoría, o noso sistema de formación de novos enxeñeiros de servizo impresionou aos especialistas da IU. Pasamos tres meses por eles curso de entrenamento como prácticas remuneradas, durante a cal introducimos os procesos e principios de traballo no noso centro de datos.

Os enxeñeiros que xa traballan tamén deben recibir formación regular, incluso sobre o traballo en situacións de emerxencia. Os auditores definitivamente comprobarán os programas de formación e os materiais destes adestramentos, e tamén examinarán aos enxeñeiros de forma aleatoria. Non se lle pedirá a ninguén que cambie a un grupo electróxeno diésel, pero si se lle indicará paso a paso o que hai que facer cando se desconecte a subministración eléctrica da cidade. En función dos resultados da auditoría, levaremos todos os programas de formación e educación a un único estándar para que non difiran para os distintos equipos.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
Amosámoslles aos auditores a sala de descanso dos enxeñeiros de quendas.

Operación e mantemento de sistemas de enxeñería 

Nesta gran sección da auditoría, mostramos que todos os equipos e sistemas de enxeñería reciben un mantemento regular segundo o calendario recomendado polos vendedores, o almacén ten os recambios necesarios, os acordos de servizo válidos cos contratistas e cada operación con equipos ten o seu propio. procedementos e algoritmos para traballar diferentes casos.

MMS. Cando manexas decenas de SAI, xeradores diésel, aire acondicionado e outras cousas, debes recoller toda a información sobre esta instalación nalgún lugar. Creamos aproximadamente o seguinte dossier para cada equipamento:

  • modelo e número de serie;
  • marcado;
  • características técnicas e configuración;
  • lugar de instalación;
  • datas de produción, posta en servizo, caducidade da garantía;
  • contratos de servizos;
  • calendario e historial de mantemento;
  • e todo o "historial médico" - avarías, reparacións.

Como e onde recoller toda esta información depende de cada operador do centro de datos decidir por si mesmo. A IU non está limitada en ferramentas. Este pode ser un simple Excel (comezamos con isto) ou un sistema de xestión de mantemento (MMS) escrito por si mesmo, como temos agora. Por certo, mesa de servizo, a contabilidade do almacén, o rexistro en liña, o seguimento tamén son escritos por si mesmos.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
Hai un "ficheiro persoal" para cada equipo.

Demostramos as nosas prácticas a este respecto, incluíndo o exemplo deste SAI de infraestrutura (na imaxe), que doou unha das súas pezas ao SAI que atendía a carga de TI. Si, segundo a norma, esa "doazón" só pode ser realizada por equipos de infraestrutura que alimentan os acondicionadores de aire e a iluminación de emerxencia, pero non a carga informática.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Posteriormente, os auditores solicitaron a presentación do ticket correspondente na Mesa de Atención:

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

E o perfil de UPS en MMS:

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Recambios Para o mantemento oportuno e as reparacións de emerxencia dos equipos de enxeñería, conservamos os nosos propios recambios e accesorios. Hai un almacén xeral con grandes recambios para equipos e pequenos armarios con recambios en salas de enxeñaría (para que non teñas que correr lonxe).

Na foto: estamos comprobando a dispoñibilidade de recambios para o grupo electróxeno diésel. Contamos 12 filtros. Despois comprobamos os datos no MMS.  

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Un exercicio similar realizouse no almacén principal, onde se almacenan grandes recambios: compresores, controladores, automatismos, ventiladores, humidificadores de vapor e centos de artigos máis. Reescribimos selectivamente as marcas e "perforámolas" mediante MMS.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
Datos de inventario de recambios. vermello - Isto é o que falta e hai que mercar.

Mantemento preventivo. Ademais do mantemento e reparacións, UI recomenda realizar un mantemento preventivo. Axuda a converter un posible accidente nunha reparación planificada. Para cada parámetro, configuramos valores de limiar en monitorización. Se se superan, os responsables reciben alarmas e adoptan as medidas necesarias. Por exemplo, nós:

  • Comprobamos os cadros eléctricos cunha cámara térmica para detectar rapidamente defectos nas instalacións eléctricas: mal contacto, sobrequecemento local dun condutor ou interruptor automático. 
  • Monitorizamos os indicadores de vibración e o consumo de corrente das bombas do sistema de refrixeración. Isto permítelle identificar as desviacións no tempo e planificar as pezas de substitución sen présa.
  • Facemos análises de combustible e aceite de grupos electróxenos e compresores diésel.
  • Probamos a concentración de glicol no sistema de refrixeración.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
Diagrama de vibración da bomba antes e despois da reparación.

Traballando con contratistas. O mantemento e reparación do equipamento realízase por contratistas externos. Pola nosa banda, hai especialistas separados en xeradores diésel, aire acondicionado e UPS que controlan o seu funcionamento. Verifican se os contratistas dispoñen das ferramentas e materiais necesarios para os traballos de reparación/mantemento, certificados profesionais, certificados de seguridade eléctrica e permisos. Aceptan todo o traballo.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
Así é a lista de verificación para aceptar traballos de mantemento do aire acondicionado.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
Na oficina de pases, comprobamos se os pases foron emitidos a representantes autorizados dos contratistas, se foron sometidos a mantemento no momento especificado e se leron as normas.

Documentación. Os procesos establecidos para o mantemento dos sistemas e equipos son a metade da batalla. Deben documentarse todos os procedementos realizados por humanos no centro de datos. A finalidade disto é simple: para que non todo se limite a unha persoa concreta e, en caso de accidente, calquera enxeñeiro pode tomar instrucións claras e facer todas as operacións necesarias para eliminalo.

UI ten a súa propia metodoloxía para esa documentación.

Para actividades sinxelas e repetitivas, establécense procedementos operativos estándar (SOP). Por exemplo, hai SOP para encender/apagar o enfriador e configurar o SAI para que bypass.

Para o mantemento ou operacións complexas, como a substitución de baterías nun SAI, créanse procedementos de mantemento (Métodos de procedementos, MOP). Estes poden incluír SOP. Cada tipo de equipo de enxeñería debe ter os seus propios MOP.

Finalmente, hai Procedementos operativos de emerxencia (EOPs): instrucións en caso de emerxencia. Compílase unha lista de situacións de emerxencia específicas e escríbense instrucións para elas. Aquí está parte da lista de situacións de emerxencia, na que se detallan os signos dun accidente, actuacións, responsables e persoas a notificar:

  • apagado da subministración eléctrica da cidade: os grupos electróxenos diésel comezaron/non comezaron;
  • accidentes de UPS; 
  • accidentes no sistema de vixilancia do centro de datos;
  • sobrequecemento da sala de máquinas;
  • fuga do sistema de refrixeración;
  • fallo na rede e equipos informáticos;

e así por diante.

A recompilación de tal volume de documentación é unha tarefa de por si moi laboriosa. É aínda máis difícil mantelo actualizado (por certo, os auditores tamén o comproban). E o máis importante, o persoal debe coñecer estas instrucións, traballar de acordo coas mesmas e facer melloras se é necesario.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
Si, as instrucións deberían estar dispoñibles onde sexan necesarias, e non só recoller po nos arquivos.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
Notas sobre cambios na normativa de mantemento dos sistemas de enxeñería de centros de datos.

Durante a auditoría tamén analizan a documentación técnica sobre sistemas, a documentación executiva e de traballo e os actos de posta en funcionamento dos sistemas. 

Marcado. Mentres paseaban polo centro de datos, comprobárono a todos os lugares aos que podían chegar. A onde non podían chegar, chegaban dende unha escaleira :). Observamos a súa presenza en cada cadro, máquina e válvula. Comprobamos a unicidade, a inequívoca e o cumprimento dos esquemas actuais da documentación conforme a construción. Na foto de abaixo: estamos na sala de bombas de almacenamento de combustible comparando as marcas das electroválvulas co diagrama da documentación conforme. 

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Todo estaba de acordo con ela, pero co diagrama axonométrico "decorativo" local na parede nun parámetro non coincidía.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Os diagramas dos sistemas alí situados tamén deben colgarse nas instalacións do centro de datos. En caso de accidente, axúdanche a descubrir rapidamente onde está todo e a tomar unha decisión informada. A foto, por exemplo, mostra un esquema unifilar na sala principal de centralita.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Comprobouse a relevancia dos diagramas do seguinte xeito: nomearon o elemento marcado no diagrama e pedíronlle que o mostrase “na vida real”. 

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Aquí é onde o auditor realiza fotografías dos axustes (axustes) do interruptor automático de entrada do cadro principal, para posteriormente comparalos cos indicadores do esquema unifilar en papel e copias electrónicas. Nunha das máquinas, QF-3, o indicador non coincidía co diagrama en papel e gañamos un punto de penalización. Agora dous enxeñeiros comprobarán se as marcas dos diagramas unifilares se corresponden co feito.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Isto non é todo o que comprobaron os auditores en canto aos procesos de servizo. Aquí tes o que máis había na axenda:

  • sistema de vixilancia. Aquí obtivemos beneficios de karma cunha boa visualización, a presenza dunha aplicación móbil e pantallas situacionais colocadas nos corredores dos centros de datos. Aquí escribimos en detalle sobre como traballamos vixilancia.

    E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute
    Este é o MCC con información visual sobre o estado dos principais sistemas de enxeñería de NORD-4 e os outros centros de datos que traballan no sitio.

  • planificación do ciclo de vida dos equipos de enxeñería;
  • xestión da capacidade (xestión da capacidade);
  • orzamento (falado un pouco aquí);
  • procedemento de análise de accidentes;
  • o proceso de aceptación, posta en servizo e proba de equipos (escribimos sobre probas aquí).

Que máis estaba mirando a IU?

Seguridade e control de acceso. A auditoría tamén verifica o funcionamento dos sistemas de seguridade e seguridade. Por exemplo, o auditor intentou entrar nun dos locais onde non tiña acceso e, a continuación, comprobou se iso se reflectía no sistema de control de acceso e se se lle avisou á seguridade sobre isto (spoiler - era).

Se nos nosos centros de datos a porta de calquera sala permanece aberta durante máis de dous minutos, activarase unha alerta no posto de seguridade. Para probalo, os auditores abriron unha das portas cun extintor. É certo, nunca recibimos unha serea: a seguridade viu que algo andaba mal a través das cámaras de vídeo e chegou antes á "escena do crime".

Orde e limpeza. Os auditores buscan po, caixas de equipos tiradas caóticamente e con que frecuencia se limpan os locais. Aquí, por exemplo, os auditores interesáronse por un obxecto non identificado no corredor de ventilación. Trátase dun bloque do sistema de ventilación, que xa se preparaba para ocupar o seu lugar. Pero aínda así me pediron que asinase.

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Tamén sobre o tema da orde no centro de datos: estes armarios con todas as ferramentas necesarias para o traballo de emerxencia no equipo están situados na sala de distribución principal. 

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Localización. O centro de datos avalíase en función das condicións de localización: se hai bases militares, aeroportos, ríos, volcáns e outros obxectos perigosos nas proximidades. Na foto só mostramos que desde a última certificación en 2017, non creceu centrais nucleares nin instalacións de almacenamento de petróleo arredor do centro de datos. Pero alí estase construíndo un novo centro de datos NORD-5, que tamén terá que superar todos os niveis de certificación Uptime Institute Tier III. Pero esa é unha historia completamente diferente).

E demostra, ou como aprobamos a auditoría de sustentabilidade operativa no Uptime Institute

Fonte: www.habr.com

Engadir un comentario