E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
O chefe do departamento de operações subiu na escotilha do depósito subterrâneo de combustível para mostrar as marcações na válvula solenóide.

No início de fevereiro, nosso maior data center Tier III NORDE-4 Recertificado pelo Uptime Institute (UI) no padrão de Sustentabilidade Operacional. Hoje vamos contar o que os auditores estão olhando e com quais resultados terminamos.

Para aqueles que estão familiarizados com data centers, vamos examinar brevemente o hardware. Padrões de nível avalia e certifica data centers em três etapas:

  • projeto (Design): é verificado o pacote de documentação do projeto. Aqui o conhecido camada. Existem 4 deles no total: Nível I – IV. Este último é, portanto, o mais elevado.
  • instalação construída (Facility): é verificada a infraestrutura de engenharia do data center e sua conformidade com o projeto. O data center é verificado sob carga total de projeto usando uma variedade de testes com aproximadamente o seguinte conteúdo: um dos UPSs (DGS, chillers, condicionadores de ar de precisão, gabinetes de distribuição, barramentos, etc.) é retirado de serviço para manutenção ou reparo , e a fonte de alimentação da cidade é desligada. Os data centers de nível III e superiores devem ser capazes de lidar com a situação sem qualquer impacto na carga útil de TI.

    A instalação pode ser tomada se o data center já tiver sido aprovado na certificação de Design.
    O NORD-4 recebeu seu certificado de Design em 2015 e de Instalação em 2016.

  • Sustentabilidade Operacional. Na verdade, a certificação mais importante e complexa. Ele avalia de forma abrangente os processos e competências de um operador na manutenção e gerenciamento de um data center com um nível Tier estabelecido (para passar em Sustentabilidade Operacional, você já deve ter um certificado de Instalação). Afinal, sem processos operacionais devidamente estruturados e sem uma equipe qualificada, até mesmo um data center Tier IV pode se transformar em um prédio inútil e com equipamentos caríssimos.

    Também existem níveis aqui: Bronze, Prata e Ouro. Na última recertificação terminamos com nota 88,95 em 100 pontos possíveis, e esta é a Prata. Ficou um pouco aquém do Ouro – 1,05 pontos. 

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Como verificar se os processos necessários estão construídos e funcionando como deveriam? Além disso, como fazer isso em dois dias - é quanto tempo leva para a recertificação. Em suma, a certificação baseia-se numa comparação meticulosa entre o que está escrito nos regulamentos, histórias de “como tudo funciona” e práticas reais. As informações sobre este último são obtidas a partir de visitas guiadas ao data center e conversas com engenheiros do data center - “confrontos”, como carinhosamente os chamamos. É para isso que eles estão olhando.

Equipe

Em primeiro lugar, os auditores da UI verificam se o data center possui pessoal de suporte suficiente. Eles pegam a tabela de pessoal, o cronograma de serviço e os verificam seletivamente com relatórios de turnos e dados de controle de acesso para garantir que o número necessário de engenheiros estivesse realmente no local naquele dia.

Os auditores também analisam atentamente o número de horas extras. Isso às vezes acontece quando chega um cliente grande e dezenas de racks precisam ser instalados ao mesmo tempo. Nesses momentos, caras de outros turnos vêm em socorro e recebem um dinheiro extra por isso.

Há 4 engenheiros trabalhando no NORD-7 por turno: 6 de plantão e um engenheiro sênior. São eles que acompanham o monitoramento 24x7, atendem clientes, auxiliam na instalação de equipamentos e outras solicitações rotineiras. Esta é a primeira linha de suporte técnico ao cliente. Suas responsabilidades incluem registrar situações de emergência e encaminhá-las para engenheiros especializados. O trabalho da infraestrutura de engenharia é monitorado por pessoas individuais - oficiais de serviço de infraestrutura. Também 24x7.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
O diretor de produção e gerente de obra da NORD informa aos auditores quantas pessoas estão trabalhando na obra neste momento.

Quando os números são ordenados, as qualificações da equipe são verificadas. Os auditores revisam aleatoriamente os arquivos pessoais dos engenheiros para garantir que eles tenham os diplomas, certificados e documentos de autorização necessários (por exemplo, certificados de segurança elétrica) para trabalhar em uma determinada posição.

Eles também verificam como treinamos nossa equipe. Mesmo durante a última auditoria, nosso sistema para treinar novos engenheiros de plantão impressionou os especialistas em UI. Passamos três meses para eles curso de treinamento como um estágio remunerado, durante o qual apresentamos os processos e princípios de trabalho em nosso data center.

Os engenheiros que já trabalham também devem passar por treinamento regular, inclusive sobre como trabalhar em situações de emergência. Os auditores certamente verificarão os programas e materiais de treinamento de tais treinamentos, e também examinarão aleatoriamente os engenheiros. Ninguém será solicitado a mudar para um grupo gerador a diesel, mas será solicitado que você diga passo a passo o que precisa ser feito quando a energia da cidade for desligada. Com base nos resultados da auditoria, reuniremos todos os programas de treinamento e educação em um único padrão para que não sejam diferentes para equipes diferentes.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
Mostramos aos auditores a sala de descanso para os engenheiros de turno.

Operação e manutenção de sistemas de engenharia 

Nesta grande seção da auditoria, mostramos que todos os equipamentos e sistemas de engenharia recebem manutenção regular de acordo com o cronograma recomendado pelos fornecedores, o armazém possui as peças de reposição necessárias, contratos de serviço válidos com empreiteiros e cada operação com equipamento tem seu próprio procedimentos e algoritmos para trabalhar em diferentes casos.

mms. Ao operar dezenas de UPSs, grupos geradores a diesel, condicionadores de ar e outras coisas, você precisa coletar todas as informações sobre esta instalação em algum lugar. Criamos aproximadamente o seguinte dossiê para cada equipamento:

  • modelo e número de série;
  • marcação;
  • características técnicas e configurações;
  • local de instalação;
  • datas de produção, comissionamento, vencimento da garantia;
  • contratos de serviços;
  • cronograma e histórico de manutenção;
  • e todo o “histórico médico” - avarias, reparos.

Como e onde coletar todas essas informações cabe a cada operador de data center decidir por si mesmo. A IU não se limita a ferramentas. Pode ser um simples Excel (começamos com ele) ou um Sistema de Gerenciamento de Manutenção (MMS) escrito por nós mesmos, como temos agora. Por falar nisso, balcão de atendimento, contabilidade de armazém, registro de rede e monitoramento também são auto-escritos.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
Existe um “arquivo pessoal” para cada equipamento.

Demonstramos nossas práticas nesse sentido, inclusive usando o exemplo dessa infraestrutura UPS (foto), que doou uma de suas peças para a UPS que atende a carga de TI. Sim, pela norma, tal “doação” só poderá ser realizada por equipamentos de infraestrutura que alimentem aparelhos de ar condicionado e iluminação de emergência, mas não a carga de TI.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Posteriormente, os auditores solicitaram a apresentação do ticket correspondente no Service Desk:

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

E o perfil UPS no MMS:

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Partes separadas. Para manutenção oportuna e reparos de emergência de equipamentos de engenharia, mantemos nossas próprias peças de reposição e acessórios. Existe um armazém geral com grandes peças de reposição para equipamentos e pequenos armários com peças de reposição nas salas de engenharia (para que você não precise correr muito).

Na foto: verificamos a disponibilidade de peças de reposição para o grupo gerador a diesel. Contamos 12 filtros. Depois verificamos os dados no MMS.  

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Exercício semelhante foi realizado no armazém principal, onde estão armazenadas grandes peças de reposição: compressores, controladores, automação, ventiladores, umidificadores a vapor e centenas de outros itens. Reescrevemos seletivamente as marcações e as “perfuramos” via MMS.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
Dados de inventário de peças sobressalentes. Vermelho - Isso é o que falta e precisa ser comprado.

Manutenção preventiva. Além de manutenção e reparos, a UI recomenda a realização de manutenção preventiva. Ajuda a transformar um acidente potencial em um reparo planejado. Para cada parâmetro, configuramos valores limite no monitoramento. Caso sejam ultrapassados, os responsáveis ​​recebem alarmes e tomam as ações necessárias. Por exemplo, nós:

  • Verificamos os painéis elétricos com termovisor para detectar rapidamente defeitos nas instalações elétricas: mau contato, superaquecimento local de condutor ou disjuntor. 
  • Monitoramos indicadores de vibração e consumo de corrente das bombas do sistema de refrigeração. Isso permite identificar desvios de tempo e planejar peças de reposição sem pressa.
  • Fazemos análises de combustível e óleo de grupos geradores e compressores a diesel.
  • Testamos a concentração do glicol no sistema de refrigeração.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
Diagrama de vibração da bomba antes e depois do reparo.

Trabalhando com empreiteiros. A manutenção e os reparos dos equipamentos são realizados por empresas terceirizadas. Do nosso lado, existem especialistas distintos em grupos geradores a diesel, condicionadores de ar e UPS que controlam sua operação. Eles verificam se os empreiteiros possuem as ferramentas e materiais necessários para trabalhos de reparo/manutenção, certificados profissionais, certificados de segurança elétrica e licenças. Eles aceitam todo trabalho.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
Esta é a aparência da lista de verificação para aceitar trabalhos de manutenção de ar condicionado.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
Na agência de passes verificamos se os passes foram emitidos para representantes autorizados das empreiteiras, se passaram por manutenção no horário determinado e se leram as regras.

Documentação Processos estabelecidos para manutenção de sistemas e equipamentos são metade da batalha. Todos os procedimentos realizados por humanos no data center devem ser documentados. O objetivo é simples: para que tudo não se limite a uma determinada pessoa e, em caso de acidente, qualquer engenheiro possa seguir instruções claras e realizar todas as operações necessárias para eliminá-lo.

UI possui metodologia própria para tal documentação.

Para atividades simples e repetitivas, são estabelecidos procedimentos operacionais padrão (POPs). Por exemplo, existem POPs para ligar/desligar o chiller e configurar o UPS para bypass.

Para manutenção ou operações complexas, como substituição de baterias em um UPS, são criados procedimentos de manutenção (Métodos de Procedimentos, MOPs). Estes podem incluir POPs. Cada tipo de equipamento de engenharia deve ter seus próprios MOPs.

Finalmente, existem Procedimentos Operacionais de Emergência (EOPs) – instruções em caso de emergência. Uma lista de situações de emergência específicas é compilada e instruções são escritas para elas. Aqui faz parte da lista de situações de emergência, que detalham os indícios de acidente, ações, responsáveis ​​e pessoas a notificar:

  • desligamento do fornecimento de energia da cidade: grupos geradores a diesel iniciaram/não iniciaram;
  • Acidentes com UPS; 
  • acidentes no sistema de monitoramento do data center;
  • superaquecimento da sala de máquinas;
  • vazamento do sistema de refrigeração;
  • falha em equipamentos de rede e informática;

e assim por diante.

Compilar tal volume de documentação é por si só uma tarefa trabalhosa. É ainda mais difícil mantê-lo atualizado (aliás, os auditores também verificam isso). E o mais importante, a equipe deve conhecer essas instruções, trabalhar de acordo com elas e fazer melhorias, se necessário.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
Sim, as instruções devem estar disponíveis onde forem necessárias e não apenas acumulando poeira nos arquivos.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
Notas sobre alterações nas regulamentações de manutenção para sistemas de engenharia de data centers.

Durante a auditoria, eles também analisam a documentação técnica dos sistemas, a documentação executiva e de trabalho e os atos de colocação em operação dos sistemas. 

Marcação Enquanto caminhavam pelo data center, eles verificaram todos os lugares que puderam alcançar. Onde não conseguiam chegar, chegavam de uma escada :). Observamos sua presença em cada quadro de distribuição, máquina e válvula. Verificamos a singularidade, inequívoca e conformidade com os esquemas atuais da documentação as-built. Na foto abaixo: estamos na sala de bombas de armazenamento de combustível comparando as marcações nas válvulas solenóides com o diagrama da documentação as-built. 

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Tudo combinava com ela, mas com o diagrama axonométrico “decorativo” local na parede em um parâmetro não coincidia.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Os diagramas dos sistemas ali localizados também devem ser afixados nas instalações do data center. Em caso de acidente, ajudam-no a descobrir rapidamente onde está tudo e a tomar uma decisão informada. A foto, por exemplo, mostra um diagrama unifilar na sala da central telefônica principal.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

A relevância dos diagramas foi verificada da seguinte forma: nomearam a marcação do elemento no diagrama e pediram para mostrá-lo “na vida real”. 

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

É aqui que o auditor tira fotos das configurações (ajustes) do disjuntor de entrada do quadro principal, para posteriormente compará-las com os indicadores do diagrama unifilar em papel e cópias eletrônicas. Em uma das máquinas, QF-3, o indicador não correspondia ao diagrama em papel e ganhamos um ponto de penalidade. Agora dois engenheiros verificarão se as marcações nos diagramas unifilares correspondem ao fato.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Isto não foi tudo o que os auditores verificaram em termos de processos de serviço. Aqui está o que mais estava na agenda:

  • sistema de monitoramento. Aqui obtivemos benefícios de carma com boa visualização, presença de aplicativo mobile e telas situacionais colocadas nos corredores dos data centers. Aqui escrevemos detalhadamente sobre como trabalhamos monitoramento.

    E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute
    Este é o CCM com informações visuais sobre o status dos principais sistemas de engenharia do NORD-4 e de nossos demais data centers em operação no local.

  • planejamento do ciclo de vida de equipamentos de engenharia;
  • Gerenciamento de capacidade (Gerenciamento de capacidade);
  • orçamento (conversei um pouco aqui);
  • procedimento de análise de acidentes;
  • o processo de aceitação, comissionamento e teste de equipamentos (escrevemos sobre testes aqui).

O que mais a IU estava olhando?

Segurança e controle de acesso. A auditoria também verifica o funcionamento dos sistemas de segurança e proteção. Por exemplo, o auditor tentou entrar numa das instalações onde não tinha acesso e depois verificou se isso se reflectia no sistema de controlo de acesso e se a segurança foi notificada sobre isso (spoiler - foi).

Se nos nossos data centers a porta de qualquer sala permanecer aberta por mais de dois minutos, será acionado um alerta no posto de segurança. Para testar isso, os auditores abriram uma das portas com um extintor de incêndio. É verdade que nunca recebemos sirene - os seguranças viram que algo estava errado pelas câmeras de vídeo e chegaram à “cena do crime” mais cedo.

Ordem e limpeza. Os auditores procuram poeira, caixas de equipamentos espalhadas de forma caótica e a frequência com que as instalações são limpas. Aqui, por exemplo, os auditores se interessaram por um objeto não identificado no corredor de ventilação. Trata-se de um bloqueio do sistema de ventilação, que já se preparava para ocupar o seu lugar. Mas eles ainda me pediram para assinar.

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Ainda no tema pedido no data center - esses gabinetes com todas as ferramentas necessárias para trabalhos emergenciais nos equipamentos estão localizados na sala da central principal. 

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Localização O data center é avaliado com base nas condições de localização – se há bases militares, aeroportos, rios, vulcões e outros objetos perigosos nas proximidades. Na foto apenas mostramos que desde a última certificação em 2017, nenhuma usina nuclear ou instalação de armazenamento de petróleo cresceu ao redor do data center. Mas ali está sendo construído um novo data center NORD-5, que também terá que passar por todos os níveis da certificação Tier III do Uptime Institute. Mas essa é uma história completamente diferente).

E demonstre, ou como passamos na auditoria de Sustentabilidade Operacional do Uptime Institute

Fonte: habr.com

Adicionar um comentário