Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
El jefe del departamento de operaciones subió a la escotilla del depósito subterráneo de combustible para mostrar las marcas en la válvula solenoide.

A principios de febrero, nuestro centro de datos Tier III más grande NORD-4 Recertificado por el Uptime Institute (UI) según el estándar de Sostenibilidad Operacional. Hoy te contamos qué están mirando los auditores y con qué resultados terminamos.

Para aquellos que están familiarizados con los centros de datos, repasemos brevemente el hardware. Estándares de nivel evalúa y certifica centros de datos en tres etapas:

  • proyecto (Diseño): se comprueba el paquete de documentación del proyecto, aquí el conocido Nivel. Hay 4 en total: Nivel I-IV. Este último es, por tanto, el más alto.
  • instalación construida (Instalación): se verifica la infraestructura de ingeniería del centro de datos y su cumplimiento con el proyecto. El centro de datos se verifica bajo carga de diseño completa mediante una variedad de pruebas con aproximadamente el siguiente contenido: uno de los UPS (DGS, enfriadores, acondicionadores de aire de precisión, gabinetes de distribución, barras colectoras, etc.) se retira de servicio para mantenimiento o reparación. , y se corta el suministro eléctrico de la ciudad. . Los centros de datos de nivel III y superiores deberían poder manejar la situación sin ningún impacto en la carga útil de TI.

    Se pueden utilizar las instalaciones si el centro de datos ya ha pasado la certificación de diseño.
    NORD-4 recibió su certificado de Diseño en 2015 y de Instalación en 2016.

  • Sostenibilidad operativa. De hecho, la certificación más importante y compleja. Evalúa de forma integral los procesos y competencias de un operador en el mantenimiento y gestión de un centro de datos con un nivel Tier establecido (para aprobar Sostenibilidad Operacional es necesario contar ya con un certificado de Instalación). Después de todo, sin procesos operativos adecuadamente estructurados y un equipo calificado, incluso un centro de datos de nivel IV puede convertirse en un edificio inútil con equipos muy costosos.

    También hay niveles aquí: Bronce, Plata y Oro. En la última recertificación terminamos con una puntuación de 88,95 sobre 100 puntos posibles, y esto es Plata. Quedó justo por debajo del oro: 1,05 puntos. 

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

¿Cómo comprobar que los procesos necesarios están construidos y funcionando como deberían? Además, cómo hacerlo en dos días: ese es el tiempo que lleva volver a certificarse. En definitiva, la certificación se basa en una minuciosa comparación de lo escrito en la normativa, historias de “cómo funciona todo” y prácticas reales. La información sobre esto último se obtiene de recorridos por el centro de datos y de conversaciones con los ingenieros del centro de datos: "enfrentamientos", como los llamamos cariñosamente. Eso es lo que están mirando.

Equipo

En primer lugar, los auditores de UI verifican si el centro de datos cuenta con suficiente personal de soporte. Toman la tabla de personal, el cronograma de tareas y lo verifican selectivamente con informes de turnos y datos de control de acceso para asegurarse de que la cantidad requerida de ingenieros estuviera realmente en el sitio ese día.

Los auditores también observan de cerca el número de horas extras. Esto sucede a veces cuando llega un cliente grande y es necesario instalar docenas de racks al mismo tiempo. En esos momentos, los muchachos de otros turnos vienen al rescate y les pagan dinero extra por ello.

Hay 4 ingenieros trabajando en NORD-7 por turno: 6 de servicio y un ingeniero superior. Estos son los que monitorean las 24 horas del día, los 7 días de la semana, se reúnen con los clientes, ayudan con la instalación de equipos y otras solicitudes de rutina. Esta es la primera línea de soporte técnico al cliente. Sus responsabilidades incluyen registrar situaciones de emergencia y derivarlas a ingenieros especializados. El trabajo de la infraestructura de ingeniería es supervisado por personas individuales: los oficiales de servicio de infraestructura. También 24x7.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
El director de producción y el jefe de obra de NORD informan a los auditores cuántas personas están trabajando actualmente en la obra.

Cuando se ordenan los números, se comprueban las calificaciones del equipo. Los auditores revisan aleatoriamente los archivos personales de los ingenieros para asegurarse de que tengan los diplomas, certificados y documentos de autorización necesarios (por ejemplo, certificados de seguridad eléctrica) para trabajar en un puesto determinado.

También comprueban cómo formamos a nuestro personal. Incluso durante la última auditoría, nuestro sistema para la formación de nuevos ingenieros de servicio impresionó a los especialistas de UI. Pasamos tres meses por ellos. curso de entrenamiento como una pasantía remunerada, durante la cual les presentamos los procesos y principios de trabajo en nuestro centro de datos.

Los ingenieros que ya trabajan también deben recibir formación periódica, incluido el trabajo en situaciones de emergencia. Los auditores definitivamente verificarán los programas y materiales de capacitación de dichas capacitaciones y también examinarán aleatoriamente a los ingenieros. A nadie se le pedirá que cambie a un grupo electrógeno diésel, pero se le pedirá que le diga paso a paso qué se debe hacer cuando se corta el suministro eléctrico de la ciudad. Según los resultados de la auditoría, reuniremos todos los programas de capacitación y educación en un estándar único para que no difieran para los diferentes equipos.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
Mostramos a los auditores la sala de descanso para los ingenieros de turno.

Operación y mantenimiento de sistemas de ingeniería. 

En esta gran sección de la auditoría, mostramos que todos los equipos y sistemas de ingeniería reciben mantenimiento regular de acuerdo con el cronograma recomendado por los proveedores, el almacén cuenta con los repuestos necesarios, acuerdos de servicio válidos con los contratistas y cada operación con equipos tiene su propia Procedimientos y algoritmos para trabajar en diferentes casos.

SMM. Cuando opera docenas de UPS, grupos electrógenos diésel, aires acondicionados y otras cosas, necesita recopilar toda la información sobre esta instalación en alguna parte. Creamos aproximadamente el siguiente dossier para cada equipo:

  • modelo y número de serie;
  • calificación;
  • características técnicas y configuración;
  • lugar de instalación;
  • fechas de producción, puesta en servicio, vencimiento de la garantía;
  • contratos de servicios;
  • calendario e historial de mantenimiento;
  • y todo el “historial médico”: averías, reparaciones.

Cómo y dónde recopilar toda esta información depende de cada operador del centro de datos decidir por sí mismo. La interfaz de usuario no está limitada en herramientas. Puede ser un Excel simple (comenzamos con esto) o un Sistema de gestión de mantenimiento (MMS) escrito por nosotros mismos, como lo tenemos ahora. Por cierto, Servicio de mesa, contabilidad de almacén, registro en línea y seguimiento también están escritos por usted mismo.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
Existe un “archivo personal” para cada equipo.

Demostramos nuestras prácticas en este sentido, incluido el ejemplo de esta infraestructura UPS (en la foto), que donó una de sus partes al UPS que atiende la carga de TI. Sí, según la norma, dicha “donación” sólo puede realizarse mediante equipos de infraestructura que alimentan los acondicionadores de aire y la iluminación de emergencia, pero no la carga de TI.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Posteriormente, los auditores solicitaron mostrar el ticket correspondiente en el Service Desk:

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Y el perfil de UPS en MMS:

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

SPTA. Para el mantenimiento oportuno y las reparaciones de emergencia de los equipos de ingeniería, mantenemos nuestros propios repuestos y accesorios. Hay un almacén general con grandes repuestos para equipos y pequeños armarios con repuestos en las salas de ingeniería (para que no tengas que correr muy lejos).

En la foto: estamos comprobando la disponibilidad de repuestos para el grupo electrógeno diésel. Contamos 12 filtros. Luego verificamos los datos en el MMS.  

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Un ejercicio similar se realizó en el almacén principal, donde se almacenan grandes repuestos: compresores, controladores, automatismos, ventiladores, humidificadores de vapor y cientos de artículos más. Reescribimos selectivamente las marcas y las "perforamos" a través de MMS.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
Datos de inventario de repuestos. Rojo - Esto es lo que falta y hay que comprarlo.

Mantenimiento preventivo. Además del mantenimiento y las reparaciones, UI recomienda realizar un mantenimiento preventivo. Ayuda a convertir un posible accidente en una reparación planificada. Para cada parámetro, configuramos valores umbral en el seguimiento. Si se superan, los responsables reciben alarmas y toman las acciones necesarias. Por ejemplo, nosotros:

  • Comprobamos los cuadros eléctricos con una cámara termográfica para detectar rápidamente defectos en las instalaciones eléctricas: mal contacto, sobrecalentamiento local de un conductor o disyuntor. 
  • Monitoreamos los indicadores de vibración y el consumo actual de las bombas del sistema de refrigeración. Esto le permite identificar desviaciones a tiempo y planificar piezas de repuesto sin prisas.
  • Realizamos análisis de combustible y aceite de grupos electrógenos y compresores diésel.
  • Probamos la concentración de glicol en el sistema de refrigeración.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
Diagrama de vibración de la bomba antes y después de la reparación.

Trabajar con contratistas. El mantenimiento y las reparaciones de los equipos son realizados por contratistas externos. De nuestro lado, existen distintos especialistas en grupos electrógenos diésel, aires acondicionados y UPS que controlan su funcionamiento. Verifican si los contratistas tienen las herramientas y materiales necesarios para los trabajos de reparación/mantenimiento, certificados profesionales, certificados de seguridad eléctrica y permisos. Aceptan todos los trabajos.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
Así es la lista de verificación para aceptar trabajos de mantenimiento de aire acondicionado.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
En la oficina de pases comprobamos si los pases fueron emitidos a los representantes autorizados de los contratistas, si se les realizó el mantenimiento en el momento indicado y si leyeron las reglas.

Documentación. Los procesos establecidos para el mantenimiento de sistemas y equipos son la mitad de la batalla. Todos los procedimientos realizados por humanos en el centro de datos deben estar documentados. El objetivo de esto es simple: que todo no se limite a una persona concreta, y en caso de accidente, cualquier ingeniero pueda recibir instrucciones claras y realizar todas las operaciones necesarias para solucionarlo.

UI tiene su propia metodología para dicha documentación.

Para actividades simples y repetitivas, se establecen procedimientos operativos estándar (SOP). Por ejemplo, existen procedimientos operativos estándar para encender/apagar la enfriadora y configurar el UPS en derivación.

Para mantenimiento u operaciones complejas, como el reemplazo de baterías en un UPS, se crean procedimientos de mantenimiento (Métodos de Procedimientos, MOP). Estos pueden incluir POE. Cada tipo de equipo de ingeniería debe tener sus propios MOP.

Finalmente, están los Procedimientos Operativos de Emergencia (EOP, por sus siglas en inglés): instrucciones en caso de una emergencia. Se compila una lista de situaciones de emergencia específicas y se escriben instrucciones para ellas. A continuación se muestra parte del listado de situaciones de emergencia, que detalla las señales de un accidente, acciones, responsables y personas a notificar:

  • corte del suministro eléctrico de la ciudad: los grupos electrógenos diésel arrancaron/no arrancaron;
  • Accidentes de UPS; 
  • accidentes en el sistema de monitoreo del centro de datos;
  • sobrecalentamiento de la sala de máquinas;
  • fuga del sistema de refrigeración;
  • falla en la red y el equipo informático;

y así sucesivamente.

Recopilar semejante volumen de documentación es en sí mismo una tarea que requiere mucha mano de obra. Es aún más difícil mantenerlo actualizado (por cierto, los auditores también lo verifican). Y lo más importante, el personal debe conocer estas instrucciones, trabajar de acuerdo con ellas y realizar mejoras si es necesario.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
Sí, las instrucciones deben estar disponibles donde puedan ser necesarias, y no simplemente acumulando polvo en los archivos.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
Notas sobre cambios en la normativa de mantenimiento de sistemas de ingeniería de centros de datos.

Durante la auditoría también se examina la documentación técnica de los sistemas, la documentación ejecutiva y de trabajo y los actos de puesta en funcionamiento de los sistemas. 

Marcado Mientras caminaban por el centro de datos, lo comprobaron en todos los lugares a los que podían llegar. Donde no podían llegar, lo hicieron desde una escalera de mano :). Observamos su presencia en cada cuadro de distribución, máquina y válvula. Verificamos la unicidad, la falta de ambigüedad y el cumplimiento de los esquemas actuales de la documentación conforme a obra. En la foto de abajo: estamos en la sala de bombas de almacenamiento de combustible comparando las marcas de las válvulas solenoides con el diagrama de la documentación de construcción. 

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Todo estaba de acuerdo con ella, pero con el diagrama axonométrico "decorativo" local en la pared en un parámetro no coincidía.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Los diagramas de los sistemas allí ubicados también deben publicarse en las instalaciones del centro de datos. En caso de accidente, le ayudarán a saber rápidamente dónde está todo y a tomar una decisión informada. La fotografía, por ejemplo, muestra un esquema unifilar en la sala del cuadro principal.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

La relevancia de los diagramas se comprobó de la siguiente manera: nombraron el elemento marcado en el diagrama y pidieron mostrarlo "en la vida real". 

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Aquí es donde el auditor toma fotografías de los ajustes (ajustes) del disyuntor de entrada del cuadro principal, para luego compararlos con los indicadores del diagrama unifilar en papel y copias electrónicas. En una de las máquinas, la QF-3, el indicador no coincidía con el diagrama en papel y obtuvimos un punto de penalización. Ahora dos ingenieros comprobarán si las marcas en los diagramas unifilares se corresponden con la realidad.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Esto no es todo lo que comprobaron los auditores en términos de procesos de servicio. Esto es lo que había en la agenda:

  • Sistema de monitoreo. Aquí obtuvimos beneficios karma con una buena visualización, la presencia de una aplicación móvil y pantallas situacionales colocadas en los pasillos de los centros de datos. Aquí escribimos en detalle sobre cómo trabajamos. monitoreo.

    Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute
    Este es el MCC con información visual sobre el estado de los principales sistemas de ingeniería de NORD-4 y nuestros otros centros de datos que trabajan en el sitio.

  • planificación del ciclo de vida de equipos de ingeniería;
  • gestión de capacidad (gestión de capacidad);
  • presupuesto (hablé un poco aquí);
  • procedimiento de análisis de accidentes;
  • el proceso de aceptación, puesta en servicio y prueba de equipos (escribimos sobre pruebas aquí).

¿Qué más estaba mirando la interfaz de usuario?

Seguridad y control de acceso. La auditoría también verifica el funcionamiento de los sistemas de seguridad y protección. Por ejemplo, el auditor intentó entrar en una de las instalaciones a las que no tenía acceso y luego comprobó si esto se reflejaba en el sistema de control de acceso y si se había notificado a seguridad (spoiler, así fue).

Si en nuestros centros de datos la puerta de cualquier habitación permanece abierta durante más de dos minutos, se activa una alerta en el puesto de seguridad. Para comprobarlo, los auditores abrieron una de las puertas con un extintor de incendios. Es cierto que nunca sonó la sirena: los guardias de seguridad vieron que algo andaba mal a través de las cámaras de video y llegaron antes a la "escena del crimen".

Orden y limpieza. Los auditores buscan polvo, cajas de equipos esparcidas caóticamente y con qué frecuencia se limpian las instalaciones. Aquí, por ejemplo, los auditores se interesaron por un objeto no identificado en el pasillo de ventilación. Se trata de un bloque del sistema de ventilación, que ya se estaba preparando para ocupar su lugar. Pero aun así me pidieron que firmara.

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Hablando también del orden en el centro de datos, estos armarios con todas las herramientas necesarias para trabajos de emergencia en el equipo se encuentran en la sala del cuadro de distribución principal. 

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Ubicación. El centro de datos se evalúa en función de las condiciones de ubicación: si hay bases militares, aeropuertos, ríos, volcanes y otros objetos peligrosos cerca. En la foto simplemente mostramos que desde la última certificación en 2017, no ha crecido ninguna planta de energía nuclear ni instalaciones de almacenamiento de petróleo alrededor del centro de datos. Pero allí se está construyendo un nuevo centro de datos NORD-5, que también deberá superar todos los niveles de certificación Tier III del Uptime Institute. Pero esa es una historia completamente diferente).

Y demostrar, o Cómo pasamos la auditoría de Sostenibilidad Operacional en Uptime Institute

Fuente: habr.com

Añadir un comentario