I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
Szef wydziału operacyjnego wszedł do włazu podziemnego magazynu paliwa, aby pokazać oznaczenia na elektrozaworze.

Na początku lutego nasze największe centrum danych Tier III NORD-4 Ponownie certyfikowany przez Uptime Institute (UI) zgodnie ze standardem zrównoważonego rozwoju operacyjnego. Dziś opowiemy na co patrzą audytorzy i z jakimi wynikami zakończyliśmy.

Dla tych, którzy są zaznajomieni z centrami danych, przyjrzyjmy się pokrótce sprzętowi. Standardy poziomu ocenia i certyfikuje centra danych w trzech etapach:

  • projekt (Design): sprawdzany jest pakiet dokumentacji projektowej.Tutaj dobrze znane Poziom. W sumie jest ich 4: Poziomy I–IV. Ta ostatnia jest zatem najwyższa.
  • budowany obiekt (Facility): sprawdzana jest infrastruktura inżynieryjna centrum danych i jej zgodność z projektem. Centrum danych jest sprawdzane pod pełnym obciążeniem projektowym za pomocą różnych testów o w przybliżeniu następującej treści: jeden z zasilaczy UPS (DGS, agregaty chłodnicze, klimatyzatory precyzyjne, szafy rozdzielcze, szyny zbiorcze itp.) zostaje wyłączony z eksploatacji w celu konserwacji lub naprawy , a zasilanie miejskie zostaje wyłączone. Centra danych poziomu III i wyższych powinny być w stanie poradzić sobie z tą sytuacją bez wpływu na obciążenie IT.

    Obiekt można odebrać, jeśli centrum danych przeszło już certyfikację projektu.
    NORD-4 otrzymał Certyfikat Projektu w 2015 roku, a Obiekt w 2016 roku.

  • Zrównoważony rozwój operacyjny. W rzeczywistości najważniejsza i najbardziej złożona certyfikacja. Kompleksowo ocenia procesy i kompetencje operatora w zakresie utrzymania i zarządzania centrum danych o ustalonym poziomie Tier (aby zaliczyć Operational Sustainability trzeba już posiadać certyfikat Facility). Przecież bez odpowiednio ustrukturyzowanych procesów operacyjnych i wykwalifikowanego zespołu nawet centrum danych Tier IV może zamienić się w bezużyteczny budynek z bardzo drogim sprzętem.

    Są tu również poziomy: Brązowy, Srebrny i Złoty. Ostatnią recertyfikację zakończyliśmy z notą 88,95 na 100 możliwych, co daje nam srebro. Niewiele zabrakło mu do złota - 1,05 punktu. 

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Jak sprawdzić, czy niezbędne procesy są zbudowane i działają tak, jak powinny? Poza tym jak to zrobić w dwa dni – tyle czasu zajmuje ponowna certyfikacja. Krótko mówiąc, certyfikacja opiera się na żmudnym porównaniu tego, co jest napisane w regulaminach, opowieści o tym, „jak wszystko działa” i rzeczywistych praktyk. Informacje o tym ostatnim czerpiemy z spacerów po data center i rozmów z inżynierami data center – „konfrontacjami”, jak je pieszczotliwie nazywamy. Właśnie na to patrzą.

Zespół

Przede wszystkim audytorzy UI sprawdzają, czy centrum danych dysponuje wystarczającą liczbą personelu pomocniczego. Biorą tabelę personelu, harmonogram obowiązków i wybiórczo sprawdzają je z raportami zmian i danymi kontroli dostępu, aby upewnić się, że wymagana liczba inżynierów była tego dnia na miejscu.

Audytorzy uważnie przyglądają się także liczbie godzin nadliczbowych. Czasami ma to miejsce, gdy przychodzi duży klient i trzeba zainstalować dziesiątki stojaków jednocześnie. W takich momentach na ratunek przychodzą chłopaki z innych zmian i dostają za to dodatkowe pieniądze.

Na każdej zmianie na NORD-4 pracuje 7 inżynierów: 6 na służbie i jeden starszy inżynier. To oni monitorują monitoring 24 godziny na dobę, 7 dni w tygodniu, spotykają się z klientami, pomagają w instalacji sprzętu i wykonują inne rutynowe prośby. Jest to pierwsza linia wsparcia technicznego klienta. Do ich obowiązków należy rejestrowanie sytuacji awaryjnych i eskalacja ich do wyspecjalizowanych inżynierów. Pracę infrastruktury inżynieryjnej monitorują poszczególne osoby – dyżurni infrastruktury. Również 24x7.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
Dyrektor produkcji i kierownik budowy NORD informuje audytorów, ile osób pracuje obecnie na miejscu.

Po uporządkowaniu liczb sprawdzane są kwalifikacje zespołu. Audytorzy losowo przeglądają akta osobowe inżynierów pod kątem posiadania przez nich niezbędnych dyplomów, certyfikatów i dokumentów upoważniających (np. świadectw bezpieczeństwa elektrycznego) do pracy na danym stanowisku.

Sprawdzają także, jak szkolimy naszą kadrę. Już podczas ostatniego audytu nasz system szkolenia nowych inżynierów zrobił wrażenie na specjalistach UI. Spędzamy dla nich trzy miesiące kurs treningowy w formie płatnego stażu, podczas którego zapoznajemy ich z procesami i zasadami pracy w naszym data center.

Już pracujący inżynierowie muszą także przechodzić regularne szkolenia, m.in. z zakresu pracy w sytuacjach awaryjnych. Audytorzy na pewno sprawdzą programy szkoleniowe i materiały z takich szkoleń, a także wyrywkowo przesłuchają inżynierów. Nikt nie zostanie poproszony o przejście na agregat prądotwórczy na olej napędowy, ale zostanie poproszony o opowiedzenie krok po kroku, co należy zrobić, gdy zasilanie miejskie zostanie wyłączone. Na podstawie wyników audytu doprowadzimy wszystkie programy szkoleniowe i edukacyjne do jednego standardu, tak aby nie różniły się one dla poszczególnych zespołów.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
Pokazujemy audytorom pomieszczenie socjalne dla inżynierów zmianowych.

Eksploatacja i konserwacja systemów inżynierskich 

W tej obszernej części audytu wykazujemy, że wszystkie urządzenia i systemy inżynieryjne są regularnie konserwowane zgodnie z harmonogramem zalecanym przez dostawców, magazyn posiada niezbędne części zamienne, ważne umowy serwisowe z wykonawcami, a każda operacja ze sprzętem ma swoje własne procedury i algorytmy pracy nad różnymi przypadkami.

MMS-y. Kiedy obsługujesz dziesiątki UPS-ów, agregatów prądotwórczych na olej napędowy, klimatyzatory i inne urządzenia, musisz gdzieś zebrać wszystkie informacje o tym obiekcie. Dla każdego urządzenia tworzymy w przybliżeniu następującą dokumentację:

  • model i numer seryjny;
  • cechowanie;
  • parametry techniczne i ustawienia;
  • miejsce instalacji;
  • daty produkcji, uruchomienia, wygaśnięcia gwarancji;
  • umowy o świadczenie usług;
  • harmonogram i historia konserwacji;
  • i cała „historia medyczna” - awarie, naprawy.

O tym, jak i gdzie zebrać wszystkie te informacje, decyduje każdy operator centrum danych. Interfejs użytkownika nie jest ograniczony pod względem narzędzi. Może to być prosty Excel (zaczęliśmy od tego) lub samodzielnie napisany system zarządzania konserwacją (MMS), tak jak mamy to teraz. Przy okazji, biuro obsługi, księgowość magazynowa, dziennik online, monitorowanie są również pisane samodzielnie.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
Dla każdego urządzenia istnieje taka „akta osobista”.

Pokazaliśmy nasze praktyki w tym zakresie, m.in. na przykładzie tej infrastruktury UPS (na zdjęciu), która przekazała jedną ze swoich części UPS-owi obsługującemu obciążenie IT. Tak, zgodnie z normą, taką „darowiznę” może przekazać wyłącznie sprzęt infrastrukturalny zasilający klimatyzatory i oświetlenie awaryjne, ale nie obciążenie IT.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Następnie audytorzy poprosili o okazanie odpowiedniego biletu w punkcie obsługi:

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Oraz profil UPS w MMS:

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Części zamienne W celu terminowej konserwacji i napraw awaryjnych sprzętu inżynieryjnego posiadamy własne części zamienne i akcesoria. W pomieszczeniach inżynieryjnych znajduje się magazyn ogólny z dużymi częściami zamiennymi do sprzętu oraz małymi szafkami z częściami zamiennymi w pomieszczeniach inżynieryjnych (aby nie trzeba było daleko uciekać).

Na zdjęciu: sprawdzamy dostępność części zamiennych do agregatu prądotwórczego Diesel. Naliczyliśmy 12 filtrów. Następnie sprawdziliśmy dane w MMS-ie.  

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Podobne ćwiczenie przeprowadzono w magazynie głównym, w którym przechowywane są duże części zamienne: sprężarki, sterowniki, automatyka, wentylatory, nawilżacze parowe i setki innych pozycji. Wybiórczo przepisaliśmy oznaczenia i „dziurkowaliśmy” je za pomocą wiadomości MMS.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
Dane dotyczące zapasów części zamiennych. Czerwony - Tego właśnie brakuje i trzeba dokupić.

Konserwacja zapobiegawcza. Oprócz konserwacji i napraw UI zaleca wykonywanie konserwacji zapobiegawczej. Pomaga zamienić potencjalny wypadek w zaplanowaną naprawę. Dla każdego parametru konfigurujemy wartości progowe w monitoringu. W przypadku ich przekroczenia osoby odpowiedzialne otrzymują alarm i podejmują niezbędne działania. Na przykład:

  • Sprawdzamy panele elektryczne kamerą termowizyjną, aby szybko wykryć wady instalacji elektrycznych: słaby styk, miejscowe przegrzanie przewodu lub wyłącznika. 
  • Monitorujemy wskaźniki drgań i pobór prądu pomp układu chłodniczego. Dzięki temu można zidentyfikować odchylenia w czasie i bez pośpiechu zaplanować części zamienne.
  • Wykonujemy analizy paliwowo-olejowe agregatów prądotwórczych i sprężarek diesla.
  • Badamy stężenie glikolu w układzie chłodniczym.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
Wykres drgań pompy przed i po naprawie.

Współpraca z wykonawcami. Konserwację i naprawy sprzętu wykonują firmy zewnętrzne. Po naszej stronie są wydzieleni specjaliści od agregatów prądotwórczych, klimatyzatorów i UPS, którzy kontrolują ich pracę. Sprawdzają, czy wykonawcy posiadają niezbędne narzędzia i materiały do ​​prac naprawczych/konserwacyjnych, certyfikaty zawodowe, certyfikaty bezpieczeństwa elektrycznego i pozwolenia. Przyjmują każdą pracę.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
Tak wygląda lista kontrolna do przyjęcia prac konserwacyjnych klimatyzatora.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
W kasie przepustek sprawdzamy, czy przepustki zostały wydane upoważnionym przedstawicielom wykonawców, czy we wskazanym terminie przeszły konserwację i czy zapoznali się z regulaminem.

Dokumentacja. Ustalone procesy konserwacji systemów i sprzętu to połowa sukcesu. Wszystkie procedury wykonywane przez ludzi w centrum danych muszą być udokumentowane. Cel tego jest prosty: aby wszystko nie ograniczało się do jednej konkretnej osoby, a w razie wypadku każdy inżynier mógł przyjąć jasne instrukcje i wykonać wszystkie niezbędne czynności, aby go wyeliminować.

Interfejs użytkownika ma własną metodologię takiej dokumentacji.

Dla prostych i powtarzalnych czynności ustalane są standardowe procedury operacyjne (SOP). Istnieją na przykład SOP dotyczące włączania/wyłączania agregatu chłodniczego i ustawiania UPS w trybie obejścia.

Na potrzeby konserwacji lub skomplikowanych operacji, takich jak wymiana akumulatorów w UPS, tworzone są procedury konserwacyjne (Metody Procedur, MOP). Mogą one obejmować standardowe procedury operacyjne. Każdy typ sprzętu inżynieryjnego musi mieć własne MOP.

Wreszcie istnieją awaryjne procedury operacyjne (EOP) – instrukcje na wypadek sytuacji awaryjnej. Sporządza się listę konkretnych sytuacji awaryjnych i sporządza się dla nich instrukcje. Oto część listy sytuacji awaryjnych, która szczegółowo opisuje oznaki wypadku, działania, osoby odpowiedzialne i osoby, które należy powiadomić:

  • wyłączenie zasilania miejskiego: agregaty prądotwórcze na olej napędowy uruchomiły/nie uruchomiły się;
  • wypadki UPS; 
  • awarie systemu monitorowania centrum danych;
  • przegrzanie maszynowni;
  • nieszczelność układu chłodniczego;
  • awaria sprzętu sieciowego i komputerowego;

i tak dalej.

Zebranie tak dużej ilości dokumentacji samo w sobie jest zadaniem pracochłonnym. Jeszcze trudniej jest to na bieżąco aktualizować (swoją drogą audytorzy też to sprawdzają). A co najważniejsze, personel musi znać te instrukcje, pracować zgodnie z nimi i wprowadzać ulepszenia, jeśli to konieczne.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
Tak, instrukcje powinny być dostępne tam, gdzie mogą być potrzebne, a nie tylko zbierać kurz w archiwach.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
Uwagi dotyczące zmian w przepisach dotyczących konserwacji systemów inżynieryjnych w centrach danych.

Podczas audytu przeglądają także dokumentację techniczną systemów, dokumentację wykonawczą i roboczą oraz akty uruchomienia systemów. 

Znakowanie Spacerując po centrum danych, sprawdzali je wszędzie, gdzie mogli dotrzeć. Tam, gdzie nie mogli dotrzeć, sięgali po drabinie :). Przyjrzeliśmy się jego obecności na każdej rozdzielnicy, maszynie i zaworze. Sprawdziliśmy niepowtarzalność, jednoznaczność i zgodność z obowiązującymi schematami dokumentacji powykonawczej. Na zdjęciu poniżej: jesteśmy w pompowni paliwa porównując oznaczenia na elektrozaworach ze schematem dokumentacji powykonawczej. 

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Wszystko się z nią zgadzało, jednak z lokalnym „dekoracyjnym” schematem aksonometrycznym na ścianie w jednym parametrze nie pasowało.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Schematy znajdujących się tam systemów należy także wywiesić na terenie centrum danych. W razie wypadku pomogą Ci szybko dowiedzieć się, gdzie wszystko jest i podjąć świadomą decyzję. Na zdjęciu przykładowo schemat jednokreskowy w pomieszczeniu rozdzielni głównej.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Trafność diagramów sprawdzono w następujący sposób: nazwali oznaczenie elementu na diagramie i poprosili o pokazanie go „w życiu”. 

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Tutaj audytor wykonuje zdjęcia ustawień (nastaw) wyłącznika wejściowego rozdzielnicy głównej, aby później porównać je ze wskaźnikami na schemacie jednokreskowym w kopiach papierowych i elektronicznych. Na jednej z maszyn QF-3 wskaźnik nie zgadzał się ze schematem papierowym, za co otrzymaliśmy punkt karny. Teraz dwóch inżynierów sprawdzi, czy oznaczenia na schematach jednokreskowych odpowiadają faktowi.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

To nie wszystko, co audytorzy sprawdzili w zakresie procesów obsługi. Oto, co jeszcze znalazło się w porządku obrad:

  • system monitorujący. Tutaj zapracowaliśmy na karmę dzięki dobrej wizualizacji, obecności aplikacji mobilnej i ekranom sytuacyjnym umieszczonym w korytarzach data center. Tutaj pisaliśmy szczegółowo o tym jak pracujemy monitoring.

    I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute
    To jest MCC z wizualną informacją o stanie głównych systemów inżynieryjnych NORD-4 i innych naszych centrów danych pracujących na miejscu.

  • planowanie cyklu życia sprzętu inżynieryjnego;
  • zarządzanie wydajnością (zarządzanie wydajnością);
  • budżetowanie (trochę rozmawiałem tutaj);
  • procedura analizy wypadku;
  • proces odbioru, uruchomienia i testowania sprzętu (o testach pisaliśmy tutaj).

Na co jeszcze zwracał uwagę interfejs użytkownika?

Bezpieczeństwo i kontrola dostępu. Audyt sprawdza także działanie systemów bezpieczeństwa i ochrony. Przykładowo audytor próbował dostać się do jednego z lokali, do którego nie miał dostępu, a następnie sprawdzał, czy znalazło to odzwierciedlenie w systemie kontroli dostępu i czy została o tym powiadomiona ochrona (spoiler – było).

Jeśli w naszych centrach danych drzwi do dowolnego pomieszczenia pozostaną otwarte dłużej niż dwie minuty, na stanowisku ochrony zostanie uruchomiony alarm. Aby to sprawdzić, audytorzy otworzyli jedno z drzwi gaśnicą. To prawda, że ​​nigdy nie włączyła się syrena – ochrona zauważyła za pomocą kamer wideo, że coś jest nie tak i przybyła na „miejsce zbrodni” wcześniej.

Porządek i czystość. Audytorzy sprawdzają, czy nie ma kurzu, nieuporządkowanych skrzynek ze sprzętem i jak często sprzątane są pomieszczenia. Tutaj audytorzy zainteresowali się na przykład niezidentyfikowanym obiektem w korytarzu wentylacyjnym. Jest to blok od instalacji wentylacyjnej, która już przygotowywała się do zajęcia jej miejsca. Ale i tak poprosili mnie o podpisanie.

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

A jeśli chodzi o porządek w data center - te szafy ze wszystkimi niezbędnymi narzędziami do awaryjnej pracy na sprzęcie znajdują się w rozdzielni głównej. 

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Lokalizacja Centrum danych oceniane jest na podstawie warunków lokalizacji – czy w pobliżu znajdują się bazy wojskowe, lotniska, rzeki, wulkany i inne niebezpieczne obiekty. Na zdjęciu pokazujemy tylko, że od ostatniej certyfikacji w 2017 r. wokół centrum danych nie wyrosły żadne elektrownie jądrowe ani magazyny ropy. Ale tam budowane jest nowe centrum danych NORD-5, które również będzie musiało przejść wszystkie poziomy certyfikacji Uptime Institute Tier III. Ale to zupełnie inna historia).

I zademonstruj, czyli Jak przeszliśmy audyt zrównoważonego rozwoju operacyjnego w Uptime Institute

Źródło: www.habr.com

Dodaj komentarz