Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
Der Leiter der Betriebsabteilung kletterte in die Luke des unterirdischen Treibstofflagers, um die Markierungen auf dem Magnetventil zu zeigen.

Anfang Februar unser größtes Tier-III-Rechenzentrum NORD-4 Vom Uptime Institute (UI) erneut nach dem Operational Sustainability-Standard zertifiziert. Heute verraten wir Ihnen, worauf die Prüfer achten und mit welchen Ergebnissen wir abgeschlossen haben.

Für diejenigen, die sich mit Rechenzentren auskennen, lassen Sie uns kurz auf die Hardware eingehen. Tierstandards bewertet und zertifiziert Rechenzentren in drei Phasen:

  • Projekt (Design): Das Paket der Projektdokumentation wird überprüft. Hier das Bekannte Tier. Insgesamt gibt es 4 davon: Stufe I–IV. Letzteres ist dementsprechend das höchste.
  • errichtete Anlage (Facility): Die technische Infrastruktur des Rechenzentrums wird überprüft und auf Übereinstimmung mit dem Projekt überprüft. Das Rechenzentrum wird unter voller Auslegungslast durch verschiedene Tests mit ungefähr folgendem Inhalt überprüft: Eine der USVs (DGS, Kältemaschinen, Präzisionsklimageräte, Verteilerschränke, Sammelschienen usw.) wird zur Wartung oder Reparatur außer Betrieb genommen , und die Stadtstromversorgung wird abgeschaltet. . Rechenzentren der Stufe III und höher sollten in der Lage sein, die Situation ohne Auswirkungen auf die IT-Nutzlast zu bewältigen.

    Die Einrichtung kann in Anspruch genommen werden, wenn das Rechenzentrum bereits die Designzertifizierung bestanden hat.
    NORD-4 erhielt sein Designzertifikat im Jahr 2015 und Facility im Jahr 2016.

  • Operative Nachhaltigkeit. Tatsächlich die wichtigste und komplexeste Zertifizierung. Es bewertet umfassend die Prozesse und Kompetenzen eines Betreibers bei der Wartung und Verwaltung eines Rechenzentrums mit einem etablierten Tier-Level (um die Operational Sustainability zu bestehen, müssen Sie bereits über ein Facility-Zertifikat verfügen). Denn ohne ordnungsgemäß strukturierte Betriebsabläufe und ein qualifiziertes Team kann selbst ein Tier-IV-Rechenzentrum zu einem nutzlosen Gebäude mit sehr teurer Ausrüstung werden.

    Auch hier gibt es die Stufen Bronze, Silber und Gold. Bei der letzten Rezertifizierung haben wir mit 88,95 von 100 möglichen Punkten abgeschlossen, das ist Silber. Es blieb knapp hinter Gold zurück – 1,05 Punkte. 

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Wie kann überprüft werden, ob die erforderlichen Prozesse aufgebaut sind und ordnungsgemäß funktionieren? Und wie geht das in zwei Tagen? So lange dauert die Re-Zertifizierung. Kurz gesagt, die Zertifizierung basiert auf einem sorgfältigen Vergleich dessen, was in den Vorschriften steht, Geschichten darüber, „wie alles funktioniert“ und realen Praktiken. Informationen zu Letzterem erhalten wir aus Rundgängen durch das Rechenzentrum und Gesprächen mit Rechenzentrumsingenieuren – „Konfrontationen“, wie wir sie liebevoll nennen. Das ist es, was sie sehen.

Team

Zunächst prüfen UI-Auditoren, ob das Rechenzentrum über genügend Support-Personal verfügt. Sie prüfen anhand der Besetzungstabelle und des Dienstplans gezielt anhand von Schichtberichten und Zutrittskontrolldaten, ob an diesem Tag tatsächlich die erforderliche Anzahl an Ingenieuren vor Ort war.

Prüfer achten auch genau auf die Anzahl der Überstunden. Dies passiert manchmal, wenn ein großer Kunde eintrifft und Dutzende Racks gleichzeitig installiert werden müssen. In solchen Momenten kommen Leute aus anderen Schichten zu Hilfe, die dafür extra Geld bekommen.

Pro Schicht arbeiten 4 Ingenieure an NORD-7: 6 im Dienst und ein leitender Ingenieur. Dies sind diejenigen, die die Überwachung rund um die Uhr überwachen, Kunden treffen, bei der Geräteinstallation helfen und andere Routineanfragen erledigen. Dies ist die erste Anlaufstelle für den technischen Kundensupport. Zu ihren Aufgaben gehört es, Notfallsituationen zu erfassen und diese an spezialisierte Ingenieure weiterzuleiten. Die Arbeit der technischen Infrastruktur wird von einzelnen Personen – Infrastrukturdienstmitarbeitern – überwacht. Auch 24x7.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
Der Produktionsleiter und Bauleiter von NORD teilt den Auditoren mit, wie viele Menschen gerade vor Ort arbeiten.

Beim Aussortieren der Zahlen wird die Qualifikation der Mannschaft überprüft. Prüfer überprüfen stichprobenartig die Personalakten der Ingenieure, um sicherzustellen, dass sie über die erforderlichen Diplome, Zertifikate und Autorisierungsdokumente (z. B. Zertifikate zur elektrischen Sicherheit) verfügen, um in einer bestimmten Position arbeiten zu können.

Sie prüfen auch, wie wir unsere Mitarbeiter schulen. Bereits beim letzten Audit überzeugte unser System zur Ausbildung neuer Dienstingenieure die UI-Spezialisten. Wir verbringen drei Monate für sie Trainingskurs als bezahltes Praktikum, bei dem wir sie in die Abläufe und Arbeitsprinzipien in unserem Rechenzentrum einführen.

Auch bereits berufstätige Ingenieure müssen regelmäßig geschult werden, auch für den Einsatz in Notsituationen. Auditoren werden auf jeden Fall die Schulungsprogramme und Materialien solcher Schulungen überprüfen und auch Ingenieure stichprobenartig befragen. Niemand wird aufgefordert, auf ein Dieselaggregat umzusteigen, aber er wird gebeten, Ihnen Schritt für Schritt zu erklären, was zu tun ist, wenn die städtische Stromversorgung abgeschaltet wird. Basierend auf den Auditergebnissen werden wir alle Schulungs- und Schulungsprogramme auf einen einzigen Standard bringen, damit sie sich für verschiedene Teams nicht unterscheiden.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
Wir zeigen den Auditoren den Pausenraum für Schichtingenieure.

Betrieb und Wartung technischer Systeme 

In diesem großen Abschnitt des Audits zeigen wir, dass alle technischen Geräte und Systeme regelmäßig gemäß dem von den Anbietern empfohlenen Zeitplan gewartet werden, das Lager über die erforderlichen Ersatzteile verfügt, gültige Serviceverträge mit Auftragnehmern vorhanden sind und jeder Betrieb mit Geräten seine eigenen hat Verfahren und Algorithmen zur Bearbeitung verschiedener Fälle.

MMS Wenn Sie Dutzende USV-Anlagen, Dieselgeneratoren, Klimaanlagen und andere Geräte betreiben, müssen Sie alle Informationen über diese Anlage irgendwo sammeln. Für jedes Gerät erstellen wir ungefähr folgendes Dossier:

  • Modell- und Seriennummer;
  • Markierung;
  • technische Eigenschaften und Einstellungen;
  • Installationsort;
  • Produktions-, Inbetriebnahme- und Garantieablaufdaten;
  • Dienstleistungsverträge;
  • Wartungsplan und -historie;
  • und die gesamte „Krankengeschichte“ – Pannen, Reparaturen.

Wie und wo all diese Informationen gesammelt werden, ist jedem Rechenzentrumsbetreiber selbst überlassen. Die Benutzeroberfläche ist hinsichtlich der Tools nicht beschränkt. Das kann ein einfaches Excel sein (wir haben damit angefangen) oder ein selbst geschriebenes Maintenance Management System (MMS), wie wir es jetzt haben. Übrigens, Serviceschalter, Lagerbuchhaltung, Online-Protokoll, Überwachung sind ebenfalls selbst geschrieben.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
Für jedes Gerät gibt es eine solche „Personenakte“.

Wir demonstrierten unsere diesbezüglichen Praktiken, unter anderem am Beispiel dieser Infrastruktur-USV (im Bild), die einen ihrer Teile an die USV spendete, die die IT-Last versorgt. Ja, laut Norm kann eine solche „Spende“ nur von Infrastrukturgeräten durchgeführt werden, die Klimaanlagen und Notbeleuchtung betreiben, nicht jedoch von der IT-Last.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Anschließend verlangten die Prüfer die Vorlage des entsprechenden Tickets im Service Desk:

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Und das UPS-Profil in MMS:

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

SPTA. Für die rechtzeitige Wartung und Notfallreparatur von technischen Geräten verfügen wir über eigene Ersatzteile und Zubehör. Es gibt ein allgemeines Lager mit großen Ersatzteilen für Geräte und kleine Schränke mit Ersatzteilen in den Technikräumen (damit Sie nicht weit laufen müssen).

Auf dem Foto: Wir prüfen die Verfügbarkeit von Ersatzteilen für das Dieselaggregat. Wir haben 12 Filter gezählt. Dann überprüften sie die Daten im MMS.  

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Eine ähnliche Übung wurde im Hauptlager durchgeführt, wo große Ersatzteile gelagert werden: Kompressoren, Steuerungen, Automatisierung, Ventilatoren, Dampfbefeuchter und Hunderte anderer Artikel. Wir haben die Markierungen gezielt umgeschrieben und per MMS „gelocht“.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
Daten zum Ersatzteilbestand. Rot - Das ist es, was fehlt und gekauft werden muss.

Vorbeugende Wartung. Zusätzlich zu Wartung und Reparatur empfiehlt UI die Durchführung einer vorbeugenden Wartung. Es hilft dabei, einen möglichen Unfall in eine geplante Reparatur umzuwandeln. Für jeden Parameter konfigurieren wir Schwellenwerte im Monitoring. Bei Überschreitungen werden die Verantwortlichen alarmiert und ergreifen die notwendigen Maßnahmen. Zum Beispiel: Wir:

  • Wir überprüfen Schalttafeln mit einer Wärmebildkamera, um Mängel in Elektroinstallationen schnell zu erkennen: schlechter Kontakt, lokale Überhitzung eines Leiters oder Leistungsschalters. 
  • Wir überwachen Vibrationsindikatoren und den Stromverbrauch von Kühlsystempumpen. So können Sie Abweichungen rechtzeitig erkennen und Ersatzteile ohne Eile einplanen.
  • Wir führen Kraftstoff- und Ölanalysen von Dieselgeneratorsätzen und Kompressoren durch.
  • Wir testen Glykol im Kühlsystem auf Konzentration.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
Schwingungsdiagramm der Pumpe vor und nach der Reparatur.

Zusammenarbeit mit Auftragnehmern. Die Wartung und Reparatur der Geräte wird von externen Auftragnehmern durchgeführt. Auf unserer Seite gibt es separate Spezialisten für Dieselgeneratoren, Klimaanlagen und USV, die deren Betrieb steuern. Sie prüfen, ob Auftragnehmer über die erforderlichen Werkzeuge und Materialien für Reparatur-/Wartungsarbeiten, Berufszertifikate, elektrische Sicherheitszertifikate und Genehmigungen verfügen. Sie akzeptieren jede Arbeit.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
So sieht die Checkliste zur Abnahme von Wartungsarbeiten an Klimaanlagen aus.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
In der Ausweisstelle prüfen wir, ob die Ausweise an autorisierte Vertreter von Unternehmern ausgestellt wurden, ob diese zum angegebenen Zeitpunkt gewartet wurden und ob sie die Regeln gelesen haben.

Dokumentation. Etablierte Prozesse zur Wartung von Systemen und Geräten sind die halbe Miete. Alle von Menschen im Rechenzentrum durchgeführten Vorgänge müssen dokumentiert werden. Der Zweck ist einfach: Damit nicht alles auf eine bestimmte Person beschränkt ist und im Falle eines Unfalls jeder Ingenieur klare Anweisungen befolgen und alle erforderlichen Maßnahmen zur Beseitigung des Unfalls ergreifen kann.

UI verfügt über eine eigene Methodik für eine solche Dokumentation.

Für einfache und sich wiederholende Tätigkeiten werden Standardarbeitsanweisungen (SOPs) festgelegt. Beispielsweise gibt es SOPs zum Ein-/Ausschalten des Kühlers und zum Einstellen der USV auf Bypass.

Für Wartungsarbeiten oder komplexe Vorgänge, wie zum Beispiel den Austausch von Batterien in einer USV, werden Wartungsverfahren (Methods of Procedures, MOPs) erstellt. Dazu können SOPs gehören. Jede Art von technischer Ausrüstung muss über eigene MOPs verfügen.

Schließlich gibt es noch Emergency Operating Procedures (EOPs) – Anweisungen für den Notfall. Es wird eine Liste konkreter Notfallsituationen erstellt und entsprechende Handlungsanweisungen verfasst. Hier ist ein Teil der Liste der Notfallsituationen, in der die Anzeichen eines Unfalls, Maßnahmen, verantwortliche Personen und zu benachrichtigende Personen aufgeführt sind:

  • Abschaltung der Stadtstromversorgung: Dieselaggregate starteten/starteten nicht;
  • UPS-Unfälle; 
  • Unfälle im Überwachungssystem des Rechenzentrums;
  • Überhitzung des Maschinenraums;
  • Leckage des Kühlsystems;
  • Ausfall von Netzwerk- und Computergeräten;

und so weiter.

Die Zusammenstellung einer solchen Dokumentationsmenge ist an sich schon eine arbeitsintensive Aufgabe. Noch schwieriger ist es, es auf dem neuesten Stand zu halten (das prüfen übrigens auch Wirtschaftsprüfer). Und das Wichtigste: Die Mitarbeiter müssen diese Anweisungen kennen, danach arbeiten und bei Bedarf Verbesserungen vornehmen.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
Ja, Anleitungen sollten dort verfügbar sein, wo sie benötigt werden, und nicht nur in Archiven verstauben.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
Hinweise zu Änderungen der Wartungsvorschriften für Rechenzentrumstechnikanlagen.

Während des Audits prüfen sie auch die technische Dokumentation der Systeme, die Ausführungs- und Arbeitsdokumentation sowie die Inbetriebnahmehandlungen der Systeme. 

Markierung Während sie durch das Rechenzentrum gingen, überprüften sie alles, wo sie hinkamen. Wo sie nicht hinkamen, griffen sie über eine Trittleiter :). Wir haben uns die Präsenz auf jeder Schalttafel, Maschine und jedem Ventil angesehen. Wir haben die Eindeutigkeit, Eindeutigkeit und Übereinstimmung mit den aktuellen Schemata der Bestandsdokumentation überprüft. Auf dem Foto unten: Wir befinden uns im Pumpenraum des Kraftstofflagers und vergleichen die Markierungen auf den Magnetventilen mit dem Diagramm der Bestandsdokumentation. 

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Alles stimmte mit ihr überein, aber mit dem lokalen „dekorativen“ axonometrischen Diagramm an der Wand stimmte es in einem Parameter nicht überein.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Diagramme der dort befindlichen Systeme sollten auch in den Räumlichkeiten des Rechenzentrums ausgehängt werden. Im Falle eines Unfalls helfen sie Ihnen, schnell herauszufinden, wo sich alles befindet, und eine fundierte Entscheidung zu treffen. Das Foto zeigt beispielsweise ein Übersichtsschaltbild im Hauptschaltraum.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Die Relevanz der Diagramme wurde folgendermaßen überprüft: Sie benannten die Elementmarkierung im Diagramm und baten darum, sie „im wirklichen Leben“ zu zeigen. 

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Hier fotografiert der Prüfer die Einstellungen (Einstellungen) des Eingangsleistungsschalters der Hauptschaltanlage, um sie später mit den Anzeigen im Übersichtsschaltbild in Papierform und in elektronischen Kopien zu vergleichen. Bei einer der Maschinen, QF-3, stimmte der Indikator nicht mit dem Papierdiagramm überein und wir erhielten einen Strafpunkt. Nun prüfen zwei Ingenieure, ob die Markierungen in Übersichtsdiagrammen der Realität entsprechen.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Das ist aber noch nicht alles, was die Prüfer im Hinblick auf die Serviceprozesse geprüft haben. Was sonst noch auf der Tagesordnung stand:

  • Überwachungssystem. Hier haben wir Karma-Vorteile durch gute Visualisierung, das Vorhandensein einer mobilen Anwendung und situative Bildschirme in den Fluren von Rechenzentren erzielt. Hier haben wir ausführlich über unsere Arbeitsweise geschrieben Überwachung.

    Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben
    Dies ist das MCC mit visuellen Informationen über den Status der wichtigsten technischen Systeme von NORD-4 und unserer anderen auf dem Gelände arbeitenden Rechenzentren.

  • Lebenszyklusplanung von technischer Ausrüstung;
  • Kapazitätsmanagement (Kapazitätsmanagement);
  • Budgetierung (ein wenig geredet hier);
  • Unfallanalyseverfahren;
  • der Prozess der Abnahme, Inbetriebnahme und Prüfung von Geräten (wir haben über Tests geschrieben). hier).

Was hat die Benutzeroberfläche sonst noch angeschaut?

Sicherheit und Zugangskontrolle. Das Audit überprüft auch die Funktionsfähigkeit der Sicherheitssysteme. Beispielsweise versuchte der Prüfer, in eines der Räumlichkeiten zu gelangen, zu denen er keinen Zutritt hatte, und überprüfte dann, ob dies im Zutrittskontrollsystem widergespiegelt wurde und ob der Sicherheitsdienst darüber informiert wurde (Spoiler – das war der Fall).

Bleibt in unseren Rechenzentren die Tür zu einem Raum länger als zwei Minuten offen, wird am Sicherheitsposten eine Alarmierung ausgelöst. Um dies zu testen, öffneten Prüfer eine der Türen mit einem Feuerlöscher. Allerdings haben wir nie eine Sirene bekommen – der Sicherheitsdienst hat durch Videokameras gesehen, dass etwas nicht stimmt, und ist früher am „Tatort“ angekommen.

Ordnung und Sauberkeit. Prüfer achten auf Staub, chaotisch herumliegende Gerätekästen und darauf, wie oft die Räumlichkeiten gereinigt werden. Hier interessierten sich die Prüfer beispielsweise für ein unbekanntes Objekt im Lüftungskorridor. Dies ist eine Blockade des Lüftungssystems, das sich bereits darauf vorbereitete, seinen Platz einzunehmen. Aber sie forderten mich trotzdem auf, zu unterschreiben.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Auch zum Thema Ordnung im Rechenzentrum: Diese Schränke mit allen notwendigen Werkzeugen für Notarbeiten an den Geräten befinden sich im Hauptschaltraum. 

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Standort Das Rechenzentrum wird anhand der Standortbedingungen beurteilt – ob sich Militärstützpunkte, Flughäfen, Flüsse, Vulkane und andere gefährliche Objekte in der Nähe befinden. Auf dem Foto zeigen wir lediglich, dass seit der letzten Zertifizierung im Jahr 2017 keine Atomkraftwerke oder Öllager rund um das Rechenzentrum entstanden sind. Aber dort wird ein neues NORD-5-Rechenzentrum gebaut, das auch alle Stufen der Uptime Institute Tier III-Zertifizierung bestehen muss. Aber das ist eine ganz andere Geschichte.

Und demonstrieren Sie, wie wir das Audit zur betrieblichen Nachhaltigkeit am Uptime Institute bestanden haben

Source: habr.com

Kommentar hinzufügen