Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Le chef du service des opérations est monté dans la trappe du stockage souterrain de carburant pour montrer les marquages ​​sur l'électrovanne.

Début février, notre plus grand centre de données Tier III NORD-4 Recertifié par l'Uptime Institute (UI) selon la norme de durabilité opérationnelle. Aujourd'hui, nous vous dirons ce que les auditeurs examinent et avec quels résultats nous avons terminé.

Pour ceux qui sont familiers avec les centres de données, passons brièvement en revue le matériel. Normes de niveau évalue et certifie les centres de données en trois étapes :

  • projet (Conception) : l'ensemble de la documentation du projet est vérifié. Ici, le célèbre Niveau. Il y en a 4 au total : niveaux I à IV. Ce dernier est donc le plus élevé.
  • installation construite (Facility) : l'infrastructure d'ingénierie du centre de données est vérifiée et sa conformité avec le projet. Le centre de données est vérifié à pleine charge de conception à l'aide d'une variété de tests avec approximativement le contenu suivant : l'un des onduleurs (DGS, refroidisseurs, climatiseurs de précision, armoires de distribution, jeux de barres, etc.) est mis hors service pour maintenance ou réparation. , et l'alimentation électrique de la ville est coupée. . Les centres de données de niveau III et supérieur devraient être capables de gérer la situation sans aucun impact sur la charge utile informatique.

    L'installation peut être utilisée si le centre de données a déjà passé la certification de conception.
    NORD-4 a reçu son certificat de conception en 2015 et son installation en 2016.

  • Durabilité opérationnelle. En fait, la certification la plus importante et la plus complexe. Il évalue de manière exhaustive les processus et les compétences d'un opérateur dans la maintenance et la gestion d'un centre de données avec un niveau de niveau établi (pour réussir la durabilité opérationnelle, vous devez déjà disposer d'un certificat d'installation). Après tout, sans processus opérationnels correctement structurés et sans équipe qualifiée, même un centre de données de niveau IV peut se transformer en un bâtiment inutile doté d’équipements très coûteux.

    Il existe également des niveaux ici : Bronze, Argent et Or. Lors de la dernière recertification, nous avons terminé avec un score de 88,95 sur 100 points possibles, et c'est Argent. Il est tombé juste en dessous de l'or - 1,05 point. 

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Comment vérifier que les processus nécessaires sont construits et fonctionnent comme ils le devraient ? De plus, comment le faire en deux jours - c'est le temps qu'il faut pour la recertification. En bref, la certification repose sur une comparaison minutieuse de ce qui est écrit dans la réglementation, des histoires de « comment tout fonctionne » et des pratiques réelles. Les informations sur ces derniers sont obtenues à partir de visites guidées du centre de données et de conversations avec les ingénieurs du centre de données - des « confrontations », comme nous les appelons affectueusement. C'est ce qu'ils examinent.

Équipe

Tout d’abord, les auditeurs de l’interface utilisateur vérifient si le centre de données dispose de suffisamment de personnel d’assistance. Ils prennent le tableau des effectifs, le calendrier des tâches et le vérifient de manière sélective avec les rapports de quart de travail et les données de contrôle d'accès pour s'assurer que le nombre requis d'ingénieurs était effectivement sur place ce jour-là.

Les auditeurs examinent également de près le nombre d’heures supplémentaires. Cela se produit parfois lorsqu'un gros client arrive et que des dizaines de racks doivent être installés en même temps. Dans de tels moments, des gars d'autres équipes viennent à la rescousse et reçoivent de l'argent supplémentaire pour cela.

Il y a 4 ingénieurs travaillant sur NORD-7 par équipe : 6 de service et un ingénieur principal. Ce sont ceux qui surveillent la surveillance 24h/7 et 24j/7, rencontrent les clients, aident à l'installation des équipements et autres demandes de routine. Il s'agit de la première ligne d'assistance technique client. Leurs responsabilités incluent l’enregistrement des situations d’urgence et leur remontée vers des ingénieurs spécialisés. Les travaux de l'infrastructure d'ingénierie sont surveillés par des personnes individuelles - des agents de service de l'infrastructure. Également XNUMXh/XNUMX et XNUMXj/XNUMX.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Le directeur de production et le responsable du site de NORD indiquent aux auditeurs combien de personnes travaillent actuellement sur le site.

Lorsque les chiffres sont triés, les qualifications de l'équipe sont vérifiées. Les auditeurs examinent de manière aléatoire les dossiers du personnel des ingénieurs pour s'assurer qu'ils disposent des diplômes, certificats et documents d'autorisation (par exemple, certificats de sécurité électrique) nécessaires pour occuper un poste donné.

Ils vérifient également la manière dont nous formons notre personnel. Même lors du dernier audit, notre système de formation des nouveaux ingénieurs de service a impressionné les spécialistes de l'interface utilisateur. Nous passons trois mois pour eux formation sous forme de stage rémunéré, au cours duquel nous leur présentons les processus et principes de travail dans notre data center.

Les ingénieurs déjà en activité doivent également suivre une formation régulière, notamment sur le travail dans des situations d'urgence. Les auditeurs vérifieront certainement les programmes de formation et le matériel de ces formations, et examineront également les ingénieurs au hasard. Personne ne sera invité à passer à un groupe électrogène diesel, mais il lui sera demandé de vous expliquer étape par étape ce qu'il faut faire lorsque l'alimentation électrique de la ville est coupée. Sur la base des résultats de l'audit, nous regrouperons tous les programmes de formation et d'éducation selon une norme unique afin qu'ils ne diffèrent pas selon les équipes.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Nous montrons aux auditeurs la salle de repos des ingénieurs d'équipe.

Exploitation et maintenance de systèmes d'ingénierie 

Dans cette grande section de l'audit, nous montrons que tous les équipements et systèmes d'ingénierie font l'objet d'un entretien régulier selon le calendrier recommandé par les fournisseurs, que l'entrepôt dispose des pièces de rechange nécessaires, des accords de service valides avec les entrepreneurs et que chaque opération avec équipement a son propre procédures et algorithmes pour travailler sur différents cas.

SMS Lorsque vous exploitez des dizaines d'onduleurs, de groupes électrogènes diesel, de climatiseurs et autres, vous devez collecter toutes les informations sur cette installation quelque part. Nous créons approximativement le dossier suivant pour chaque équipement :

  • modèle et numéro de série ;
  • marquage;
  • caractéristiques techniques et réglages ;
  • Site d'installation;
  • dates de production, de mise en service, d'expiration de la garantie ;
  • contrats de services;
  • calendrier et historique de maintenance ;
  • et l'ensemble des « antécédents médicaux » - pannes, réparations.

Il appartient à chaque exploitant de centre de données de décider comment et où collecter toutes ces informations. L'interface utilisateur n'est pas limitée en outils. Il peut s'agir d'un simple Excel (nous avons commencé avec cela) ou d'un système de gestion de la maintenance (MMS) auto-écrit, comme nous l'avons actuellement. D'ailleurs, Bureau de service, la comptabilité d'entrepôt, le journal en ligne et le suivi sont également auto-écrits.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Il existe un tel « dossier personnel » pour chaque équipement.

Nous avons démontré nos pratiques à cet égard, notamment en utilisant l'exemple de cette infrastructure UPS (photo), qui a fait don d'une de ses parties à l'UPS desservant la charge informatique. Oui, selon la norme, un tel « don » ne peut être effectué que pour les équipements d'infrastructure qui alimentent les climatiseurs et l'éclairage de secours, mais pas pour la charge informatique.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Ensuite, les auditeurs ont demandé à présenter le ticket correspondant au Service Desk :

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Et le profil UPS dans MMS :

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

SPTA. Pour l'entretien en temps opportun et les réparations d'urgence des équipements d'ingénierie, nous conservons nos propres pièces de rechange et accessoires. Il y a un entrepôt général avec de grandes pièces de rechange pour les équipements et de petites armoires avec des pièces de rechange dans les salles d'ingénierie (pour que vous n'ayez pas à courir loin).

Sur la photo : nous vérifions la disponibilité des pièces détachées pour le groupe électrogène diesel. Nous avons compté 12 filtres. Ensuite, nous avons vérifié les données dans le MMS.  

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Un exercice similaire a été réalisé dans l'entrepôt principal, où sont stockées d'importantes pièces de rechange : compresseurs, contrôleurs, automatismes, ventilateurs, humidificateurs à vapeur et des centaines d'autres articles. Nous avons réécrit les marquages ​​de manière sélective et les avons « perforés » via MMS.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Données d'inventaire des pièces de rechange. Rouge - C'est ce qui manque et doit être acheté.

Entretien préventif. En plus de l'entretien et des réparations, UI recommande d'effectuer une maintenance préventive. Cela permet de transformer un accident potentiel en une réparation planifiée. Pour chaque paramètre, nous configurons des valeurs seuils en surveillance. En cas de dépassement, les responsables reçoivent des alarmes et prennent les mesures nécessaires. Par exemple, nous :

  • Nous vérifions les tableaux électriques avec une caméra thermique afin de détecter rapidement les défauts des installations électriques : mauvais contact, surchauffe locale d'un conducteur ou d'un disjoncteur. 
  • Nous surveillons les indicateurs de vibrations et la consommation électrique des pompes du système de réfrigération. Cela vous permet d'identifier les écarts dans les délais et de planifier les pièces de rechange sans hâte.
  • Nous effectuons des analyses de carburant et d’huile sur les groupes électrogènes et les compresseurs diesel.
  • Nous testons la concentration du glycol dans le système de réfrigération.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Diagramme de vibration de la pompe avant et après réparation.

Travailler avec des entrepreneurs. L'entretien et les réparations des équipements sont effectués par des prestataires externes. De notre côté, il existe des spécialistes distincts des groupes électrogènes diesel, des climatiseurs et des UPS qui contrôlent leur fonctionnement. Ils vérifient si les entrepreneurs disposent des outils et du matériel nécessaires aux travaux de réparation/entretien, des certificats professionnels, des certificats de sécurité électrique et des permis. Ils acceptent tout travail.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Voici à quoi ressemble la check-list pour accepter les travaux d’entretien du climatiseur.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Au bureau des laissez-passer, nous vérifions si les laissez-passer ont été délivrés aux représentants habilités des entrepreneurs, s'ils ont subi un entretien à l'heure indiquée et s'ils ont lu le règlement.

La documentation Les processus établis pour la maintenance des systèmes et des équipements représentent la moitié de la bataille. Toutes les procédures effectuées par des humains dans le centre de données doivent être documentées. Le but est simple : pour que tout ne se limite pas à une seule personne en particulier, et en cas d'accident, tout ingénieur peut prendre des instructions claires et effectuer toutes les opérations nécessaires pour l'éliminer.

L'interface utilisateur a sa propre méthodologie pour une telle documentation.

Pour les activités simples et répétitives, des procédures opérationnelles standard (SOP) sont établies. Par exemple, il existe des SOP pour allumer/éteindre le refroidisseur et configurer l'onduleur en mode contournement.

Pour la maintenance ou les opérations complexes, comme le remplacement des batteries d'un onduleur, des procédures de maintenance (Methods of Procedures, MOP) sont créées. Celles-ci peuvent inclure des SOP. Chaque type d'équipement d'ingénierie doit avoir ses propres MOP.

Enfin, il existe des procédures opérationnelles d'urgence (EOP) : des instructions en cas d'urgence. Une liste de situations d'urgence spécifiques est dressée et des instructions sont rédigées à leur intention. Voici une partie de la liste des situations d'urgence, qui détaille les signes d'un accident, les actions, les personnes responsables et les personnes à avertir :

  • coupure de l'alimentation électrique de la ville : les groupes électrogènes diesel ont démarré/n'ont pas démarré ;
  • Accidents UPS ; 
  • accidents sur le système de surveillance du centre de données ;
  • surchauffe de la salle des machines ;
  • fuite du système de réfrigération ;
  • panne sur le réseau et l'équipement informatique ;

et ainsi de suite.

La compilation d’un tel volume de documentation est en soi une tâche à forte intensité de main-d’œuvre. Il est encore plus difficile de le maintenir à jour (d'ailleurs, les auditeurs le vérifient également). Et surtout, le personnel doit connaître ces instructions, travailler selon elles et apporter des améliorations si nécessaire.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Oui, les instructions doivent être disponibles là où elles pourraient être nécessaires, et ne doivent pas simplement prendre la poussière dans les archives.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
Notes sur les modifications apportées aux règles de maintenance des systèmes d'ingénierie des centres de données.

Au cours de l'audit, ils examinent également la documentation technique sur les systèmes, la documentation de direction et de travail et les actes de mise en service des systèmes. 

Marquage En se promenant dans le centre de données, ils l’ont vérifié partout où ils pouvaient atteindre. Là où ils ne pouvaient pas atteindre, ils l'ont atteint depuis un escabeau :). Nous avons vérifié sa présence sur chaque tableau, machine et vanne. Nous avons vérifié le caractère unique, l'absence d'ambiguïté et la conformité aux schémas actuels de la documentation as-built. Sur la photo ci-dessous : nous sommes dans la salle des pompes de stockage de carburant en train de comparer les marquages ​​sur les électrovannes avec le schéma de la documentation conforme à l'exécution. 

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Tout était d'accord avec elle, mais avec le diagramme axonométrique « décoratif » local sur le mur dans un paramètre, cela ne coïncidait pas.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Les schémas des systèmes qui s'y trouvent doivent également être affichés dans les locaux du centre de données. En cas d'accident, ils vous aident à savoir rapidement où tout se trouve et à prendre une décision éclairée. La photo, par exemple, montre un schéma unifilaire dans la salle du tableau principal.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

La pertinence des schémas a été vérifiée de la manière suivante : ils ont nommé l'élément marquant sur le schéma et ont demandé de le montrer « en vrai ». 

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

C'est ici que l'auditeur prend des photographies des réglages (paramètres) du disjoncteur principal d'entrée du tableau, afin de les comparer ultérieurement avec les indicateurs du schéma unifilaire en copies papier et électroniques. Sur l'une des machines, QF-3, l'indicateur ne correspondait pas au schéma papier et nous avons gagné un point de pénalité. Deux ingénieurs vont maintenant vérifier si les marquages ​​des schémas unifilaires correspondent à la réalité.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Ce n'est pas tout ce que les auditeurs ont vérifié en termes de processus de service. Voici ce qu'il y avait d'autre à l'ordre du jour :

  • Système de surveillance. Ici, nous avons gagné des avantages karmiques avec une bonne visualisation, la présence d'une application mobile et des écrans de situation placés dans les couloirs des centres de données. Ici, nous avons écrit en détail sur notre façon de travailler surveillance.

    Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute
    Il s'agit du MCC avec des informations visuelles sur l'état des principaux systèmes d'ingénierie de NORD-4 et de nos autres centres de données travaillant sur le site.

  • planification du cycle de vie du matériel d'ingénierie;
  • gestion de la capacité (gestion de la capacité);
  • budgétisation (parlé un peu ici);
  • procédure d'analyse des accidents;
  • le processus d'acceptation, de mise en service et de test des équipements (nous avons écrit sur les tests ici).

Qu'est-ce que l'interface utilisateur recherchait d'autre ?

Sécurité et contrôle d'accès. L'audit vérifie également le fonctionnement des systèmes de sûreté et de sécurité. Par exemple, l'auditeur a tenté de pénétrer dans l'un des locaux auxquels il n'avait pas accès, puis a vérifié si cela se reflétait dans le système de contrôle d'accès et si la sécurité en avait été informée (spoiler - c'était le cas).

Si dans nos centres de données la porte d'une pièce reste ouverte pendant plus de deux minutes, une alerte est alors déclenchée au poste de sécurité. Pour tester cela, les auditeurs ont ouvert l’une des portes avec un extincteur. Il est vrai que nous n'avons jamais eu de sirène - les services de sécurité ont vu que quelque chose n'allait pas grâce aux caméras vidéo et sont arrivés sur la « scène du crime » plus tôt.

Ordre et propreté. Les auditeurs recherchent la poussière, les caisses d'équipement qui traînent de manière chaotique et la fréquence de nettoyage des locaux. Ici par exemple, les auditeurs se sont intéressés à un objet non identifié dans le couloir de ventilation. Il s'agit d'un bloc du système de ventilation, qui s'apprêtait déjà à prendre sa place. Mais ils m'ont quand même demandé de signer.

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Toujours sur le thème de l'ordre dans le centre de données, ces armoires contenant tous les outils nécessaires aux travaux d'urgence sur les équipements sont situées dans la salle principale du tableau électrique. 

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Lieu Le centre de données est évalué en fonction des conditions de localisation : s'il y a des bases militaires, des aéroports, des rivières, des volcans et d'autres objets dangereux à proximité. Sur la photo, nous montrons simplement que depuis la dernière certification en 2017, aucune centrale nucléaire ou installation de stockage de pétrole ne s'est développée autour du centre de données. Mais là-bas, un nouveau centre de données NORD-5 est en cours de construction, qui devra également passer tous les niveaux de certification Uptime Institute Tier III. Mais c'est une toute autre histoire).

Et démontrez, ou comment nous avons réussi l'audit de durabilité opérationnelle à l'Uptime Institute

Source: habr.com

Ajouter un commentaire