A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Vedoucí provozního oddělení vlezl do poklopu podzemního skladu paliva, aby ukázal značení na elektromagnetickém ventilu.

Začátkem února naše největší datové centrum Tier III NORD-4 Znovu certifikováno Uptime Institute (UI) na standard Operational Sustainability. Dnes vám prozradíme, na co se auditoři dívají a s jakými výsledky jsme skončili.

Pro ty, kteří jsou obeznámeni s datovými centry, pojďme krátce na hardware. Normy úrovní hodnotí a certifikuje datová centra ve třech fázích:

  • projekt (Design): kontroluje se balík projektové dokumentace Zde známé stupeň. Jsou celkem 4: Tier I–IV. Poslední jmenovaný je tedy nejvyšší.
  • vybudované zařízení (Facility): kontroluje se inženýrská infrastruktura datového centra a její soulad s projektem. Datové centrum je kontrolováno při plném projektovém zatížení pomocí různých testů s přibližně následujícím obsahem: jeden z UPS (DGS, chladiče, přesné klimatizace, rozvodné skříně, přípojnice atd.) je vyřazen z provozu kvůli údržbě nebo opravě a městské napájení se vypne. Datová centra úrovně III a vyšší by měla být schopna zvládnout situaci bez jakéhokoli dopadu na užitečné zatížení IT.

    Zařízení lze využít, pokud datové centrum již prošlo certifikací designu.
    NORD-4 získal certifikát Design v roce 2015 a Facility v roce 2016.

  • Provozní udržitelnost. Ve skutečnosti nejdůležitější a nejkomplexnější certifikace. Komplexně hodnotí procesy a kompetence operátora při údržbě a správě datového centra se zavedenou úrovní Tier (pro absolvování Operational Sustainability musíte mít již Facility certifikát). Bez správně strukturovaných provozních procesů a kvalifikovaného týmu se totiž i datové centrum Tier IV může proměnit ve zbytečnou budovu s velmi drahým vybavením.

    Jsou zde také úrovně: Bronzová, Stříbrná a Zlatá. Na poslední recertifikaci jsme skončili se skóre 88,95 ze 100 možných bodů a to je stříbro. Zaostalo těsně za zlatem – 1,05 bodu. 

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Jak zkontrolovat, zda jsou potřebné procesy vybudovány a fungují tak, jak mají? Navíc, jak to udělat za dva dny - tak dlouho trvá recertifikace. Stručně řečeno, certifikace je založena na pečlivém srovnání toho, co je napsáno v předpisech, příbězích „jak všechno funguje“ a skutečných praktikách. Informace o posledně jmenovaném se získávají z procházek datovým centrem a rozhovorů s inženýry datových center – „konfrontací“, jak jim s láskou říkáme. To je to, na co se dívají.

Tým

Auditoři uživatelského rozhraní nejprve zkontrolují, zda má datové centrum dostatek podpůrného personálu. Vezmou si pracovní stůl, rozvrh služeb a selektivně jej zkontrolují pomocí hlášení o směnách a údajů o kontrole přístupu, aby se ujistili, že požadovaný počet inženýrů byl skutečně ten den na místě.

Auditoři bedlivě sledují i ​​počet přesčasových hodin. To se někdy stává, když přijde velký klient a je potřeba nainstalovat desítky racků současně. V takových chvílích přicházejí na pomoc kluci z jiných směn a za to jsou placeni navíc.

Na NORD-4 pracuje 7 inženýrů za směnu: 6 ve službě a jeden starší inženýr. To jsou ti, kteří monitorují 24x7 monitoring, setkávají se s klienty, pomáhají s instalací zařízení a dalšími rutinními požadavky. Toto je první řada zákaznické technické podpory. Mezi jejich povinnosti patří zaznamenávání mimořádných situací a jejich eskalování specializovaným inženýrům. Práce inženýrské infrastruktury sledují jednotliví lidé - pracovníci infrastruktury. Také 24x7.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Výrobní ředitel a site manager společnosti NORD sdělí auditorům, kolik lidí právě pracuje na místě.

Po seřazení čísel se zkontroluje kvalifikace týmu. Auditoři náhodně kontrolují personální složky inženýrů, aby se ujistili, že mají potřebné diplomy, certifikáty a autorizační dokumenty (například certifikáty elektrické bezpečnosti) pro práci na dané pozici.

Kontrolují také, jak školíme naše zaměstnance. I během posledního auditu náš systém pro školení nových techniků zapůsobil na specialisty na uživatelské rozhraní. Trávíme za ně tři měsíce výcvikový kurz jako placenou stáž, během které je seznámíme s procesy a principy práce v našem datovém centru.

Již pracující inženýři musí také absolvovat pravidelná školení, včetně práce v nouzových situacích. Auditoři určitě prověří školicí programy a materiály takových školení a také namátkově prověří inženýry. Nikdo nebude požádán, aby přešel na dieselagregát, ale bude požádán, aby vám krok za krokem řekl, co je třeba udělat, když se vypne městské napájení. Na základě výsledků auditu sjednotíme všechny tréninkové a vzdělávací programy do jednotného standardu, aby se u různých týmů nelišily.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Ukazujeme auditorům odpočinkovou místnost pro směnové inženýry.

Provoz a údržba inženýrských systémů 

V této rozsáhlé části auditu prokazujeme, že všechna strojírenská zařízení a systémy procházejí pravidelnou údržbou podle harmonogramu doporučeného prodejci, sklad má potřebné náhradní díly, platné servisní smlouvy s dodavateli a každý provoz s vybavením má vlastní postupy a algoritmy pro práci na různých případech.

MMS Když provozujete desítky UPS, dieselagregátů, klimatizací a dalších věcí, musíte někde shromáždit všechny informace o tomto zařízení. Pro každé zařízení vytváříme přibližně následující dokumentaci:

  • číslo modelu a sériové číslo;
  • označení;
  • technické vlastnosti a nastavení;
  • místo instalace;
  • data výroby, uvedení do provozu, vypršení záruky;
  • servisní smlouvy;
  • plán údržby a historie;
  • a celá „lékařská historie“ - poruchy, opravy.

Jak a kde všechny tyto informace sbírat, je na rozhodnutí každého provozovatele datového centra sám. Uživatelské rozhraní není omezeno na nástroje. Může to být jednoduchý Excel (s tím jsme začínali) nebo samostatně psaný systém správy údržby (MMS), jako máme nyní. Mimochodem, servisní pult, skladové účetnictví, online log, monitoring jsou také samoobslužné.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Ke každému zařízení existuje taková „osobní složka“.

V tomto ohledu jsme demonstrovali naše postupy, včetně použití příkladu této infrastruktury UPS (na obrázku), která darovala jednu ze svých částí UPS obsluhující IT zátěž. Ano, podle normy může takové „darování“ provádět pouze infrastrukturní zařízení, které napájí klimatizaci a nouzové osvětlení, nikoli však zátěž IT.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Poté revizoři požádali o předložení příslušné jízdenky v Service Desk:

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

A profil UPS v MMS:

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Náhradní díly Pro včasnou údržbu a havarijní opravy strojních zařízení si ponecháváme vlastní náhradní díly a příslušenství. K dispozici je všeobecný sklad s velkými náhradními díly pro vybavení a malé skříně s náhradními díly ve strojírnách (abyste nemuseli daleko běhat).

Na fotografii: ověřujeme dostupnost náhradních dílů pro dieselagregát. Napočítali jsme 12 filtrů. Poté jsme zkontrolovali údaje v MMS.  

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Podobné cvičení bylo provedeno na hlavním skladu, kde jsou uloženy velké náhradní díly: kompresory, ovladače, automatika, ventilátory, parní zvlhčovače a stovky dalších položek. Označení jsme selektivně přepsali a „vyrazili“ přes MMS.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Údaje o zásobách náhradních dílů. Červené - To je to, co chybí a je třeba to dokoupit.

Preventivní údržba. Kromě údržby a oprav doporučuje UI provádět preventivní údržbu. Pomáhá proměnit případnou nehodu v plánovanou opravu. Pro každý parametr konfigurujeme prahové hodnoty v monitorování. Pokud jsou překročeny, odpovědné osoby obdrží poplach a provedou nezbytná opatření. Například my:

  • Elektrické panely kontrolujeme termokamerou, abychom rychle odhalili závady v elektroinstalaci: špatný kontakt, lokální přehřátí vodiče nebo jističe. 
  • Sledujeme indikátory vibrací a aktuální spotřebu čerpadel chladicího systému. To vám umožní včas identifikovat odchylky a bez spěchu naplánovat náhradní díly.
  • Provádíme analýzy paliv a olejů dieselagregátů a kompresorů.
  • Testujeme koncentraci glykolu v chladicím systému.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Diagram vibrací čerpadla před a po opravě.

Práce s dodavateli. Údržbu a opravy zařízení provádějí externí dodavatelé. Na naší straně jsou samostatní specialisté na dieselagregáty, klimatizace a UPS, kteří řídí jejich provoz. Kontrolují, zda dodavatelé mají potřebné nářadí a materiál pro opravy/údržbu, odborné certifikáty, certifikáty elektrické bezpečnosti a povolení. Přijímají veškerou práci.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Takto vypadá kontrolní seznam pro akceptování prací údržby klimatizace.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Na pasovně kontrolujeme, zda byly průkazy vydány oprávněným zástupcům zhotovitelů, zda prošli údržbou ve stanoveném čase a zda se seznámili s pravidly.

Dokumentace. Zavedené procesy pro údržbu systémů a vybavení jsou polovinou úspěchu. Všechny postupy prováděné lidmi v datovém centru musí být zdokumentovány. Účel je jednoduchý: aby vše nebylo omezeno na jednu konkrétní osobu a v případě nehody mohl každý inženýr přijmout jasné pokyny a provést všechny potřebné operace k jejímu odstranění.

UI má pro takovou dokumentaci svou vlastní metodiku.

Pro jednoduché a opakující se činnosti jsou stanoveny standardní operační postupy (SOP). Například existují SOP pro zapnutí/vypnutí chladiče a nastavení UPS na bypass.

Pro údržbu nebo složité operace, jako je výměna baterií v UPS, jsou vytvořeny postupy údržby (Methods of Procedures, MOP). Ty mohou zahrnovat SOP. Každý typ ženijního zařízení musí mít své vlastní MOP.

Nakonec jsou zde nouzové provozní postupy (EOP) – pokyny pro případ nouze. Je sestaven seznam konkrétních mimořádných situací a jsou k nim sepsány pokyny. Zde je část seznamu mimořádných situací, která podrobně popisuje příznaky nehody, činnosti, odpovědné osoby a osoby, které je třeba oznámit:

  • odstávka městského napájení: dieselagregáty spuštěny/nestartovaly;
  • nehody UPS; 
  • nehody na monitorovacím systému datového centra;
  • přehřívání strojovny;
  • netěsnost chladicího systému;
  • selhání sítě a výpočetního zařízení;

a tak dále.

Sestavení takového objemu dokumentace je samo o sobě pracný úkol. Ještě obtížnější je udržovat ji aktuální (ostatně kontrolují to i auditoři). A co je nejdůležitější, personál musí znát tyto pokyny, pracovat podle nich a v případě potřeby provést vylepšení.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Ano, návody by měly být dostupné tam, kde by mohly být potřeba, a ne jen sklízet prach v archivech.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
Poznámky ke změnám v předpisech údržby pro inženýrské systémy datových center.

Při auditu nahlížejí také do technické dokumentace systémů, výkonné a pracovní dokumentace a úkonů uvádění systémů do provozu. 

Označení Při procházce kolem datového centra jej kontrolovali všude, kam dosáhli. Kam nedosáhli, sahali ze štaflí :). Podívali jsme se na jeho přítomnost na každém rozvaděči, stroji a ventilu. Prověřili jsme jedinečnost, jednoznačnost a soulad s aktuálními schématy dokumentace skutečného provedení. Na fotografii níže: jsme v čerpací stanici skladu paliva a porovnáváme značení na elektromagnetických ventilech se schématem dokumentace skutečného provedení. 

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Vše s ní souhlasilo, ale s místním „ozdobným“ axonometrickým diagramem na stěně se v jednom parametru neshodovala.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Schémata tam umístěných systémů by měla být také vyvěšena v prostorách datového centra. V případě nehody vám pomohou rychle zjistit, kde se co nachází, a učinit informované rozhodnutí. Na fotografii je například jednolinkové schéma v místnosti hlavního rozvaděče.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Relevantnost diagramů byla kontrolována následujícím způsobem: pojmenovali označení prvku na diagramu a požádali o jeho zobrazení „ve skutečnosti“. 

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Zde auditor vyfotografuje nastavení (nastavení) vstupního jističe hlavního rozvaděče, aby je mohl později porovnat s indikátory na jednořádkovém schématu v papírové i elektronické kopii. Na jednom ze strojů, QF-3, indikátor neodpovídal papírovému diagramu a my jsme získali trestný bod. Nyní dva inženýři zkontrolují, zda značení v jednořádkových schématech odpovídá skutečnosti.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

To není vše, co auditoři z hlediska servisních procesů zkontrolovali. Co dalšího bylo na programu:

  • monitorovací systém. Zde jsme si vysloužili karmické výhody dobrou vizualizací, přítomností mobilní aplikace a situačními obrazovkami umístěnými na chodbách datových center. Zde jsme podrobně psali o tom, jak pracujeme monitoring.

    A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute
    Toto je MCC s vizuálními informacemi o stavu hlavních inženýrských systémů NORD-4 a našich dalších datových center pracujících na místě.

  • plánování životního cyklu inženýrských zařízení;
  • řízení kapacity (řízení kapacity);
  • rozpočtování (trochu mluvil zde);
  • postup analýzy nehod;
  • proces přejímky, uvedení do provozu a testování zařízení (psali jsme o testech zde).

Na co dalšího se uživatelské rozhraní dívalo?

Zabezpečení a kontrola přístupu. Audit také kontroluje fungování bezpečnostních a zabezpečovacích systémů. Auditor se například pokusil dostat do jednoho z prostor, kam neměl přístup, a poté zkontroloval, zda se to odráží v systému kontroly vstupu a zda na to byla upozorněna ostraha (spoiler - byl).

Pokud v našich datových centrech zůstanou dveře do kterékoli místnosti otevřené déle než dvě minuty, spustí se upozornění na bezpečnostním stanovišti. Aby to auditoři otestovali, otevřeli jedny dveře pomocí hasicího přístroje. Pravda, sirénu jsme nikdy nedostali - ochranka viděla prostřednictvím videokamer, že něco není v pořádku, a dorazila na „místo činu“ dříve.

Pořádek a čistota. Auditoři hledají prach, chaoticky se povalující krabice s vybavením a jak často jsou prostory uklízeny. Zde se například revizoři začali zajímat o nezjištěný objekt ve větrací chodbě. Jedná se o blok z ventilačního systému, který se již připravoval na jeho místo. Ale přesto mě požádali o podpis.

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Také na téma pořádek v datovém centru – tyto skříně se všemi potřebnými nástroji pro nouzové práce na zařízení jsou umístěny v hlavní rozvaděčové místnosti. 

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Umístění. Datové centrum je posuzováno na základě podmínek umístění – zda ​​se v blízkosti nacházejí vojenské základny, letiště, řeky, sopky a další nebezpečné objekty. Na fotografii jen ukazujeme, že od poslední certifikace v roce 2017 kolem datového centra nevyrostly žádné jaderné elektrárny ani sklady ropy. Ale tam se staví nové datové centrum NORD-5, které také bude muset projít všemi úrovněmi certifikace Uptime Institute Tier III. Ale to je úplně jiný příběh).

A demonstrovat aneb Jak jsme prošli auditem Operational Sustainability v Uptime Institute

Zdroj: www.habr.com

Přidat komentář