A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Vedúci prevádzkového oddelenia vyliezol do poklopu podzemného skladu paliva, aby ukázal značky na solenoidovom ventile.

Začiatkom februára naše najväčšie dátové centrum Tier III NORD-4 Recertifikované Uptime Institute (UI) na štandard Operational Sustainability. Dnes vám prezradíme, na čo sa audítori pozerajú a s akými výsledkami sme skončili.

Pre tých, ktorí sú oboznámení s dátovými centrami, stručne prejdeme k hardvéru. Normy úrovní hodnotí a certifikuje dátové centrá v troch fázach:

  • projekt (Design): skontroluje sa balík projektovej dokumentácie Tu známe Stupeň. Sú 4 z nich: Tier I–IV. Posledná uvedená hodnota je teda najvyššia.
  • vybudované zariadenie (Facility): kontroluje sa inžinierska infraštruktúra dátového centra a jej súlad s projektom. Dátové centrum sa kontroluje pri plnom konštrukčnom zaťažení pomocou rôznych testov s približne nasledujúcim obsahom: jeden z UPS (DGS, chladiče, presné klimatizačné zariadenia, rozvodné skrine, prípojnice atď.) je vyradený z prevádzky kvôli údržbe alebo oprave a mestské napájanie je vypnuté. Dátové centrá úrovne III a vyššie by mali byť schopné zvládnuť situáciu bez akéhokoľvek vplyvu na užitočné zaťaženie IT.

    Zariadenie je možné využiť, ak dátové centrum už prešlo certifikáciou dizajnu.
    NORD-4 získal certifikát dizajnu v roku 2015 a Facility v roku 2016.

  • Prevádzková udržateľnosť. V skutočnosti najdôležitejšia a najkomplexnejšia certifikácia. Komplexne hodnotí procesy a kompetencie operátora pri údržbe a správe dátového centra so zavedenou úrovňou Tier (na absolvovanie Operational Sustainability už musíte mať Facility certifikát). Veď bez správne štruktúrovaných prevádzkových procesov a kvalifikovaného tímu sa aj dátové centrum Tier IV môže zmeniť na zbytočnú budovu s veľmi drahým vybavením.

    Sú tu aj úrovne: Bronzová, Strieborná a Zlatá. Na poslednej recertifikácii sme skončili so skóre 88,95 zo 100 možných bodov a toto je striebro. Zaostalo tesne za zlatom – 1,05 bodu. 

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Ako skontrolovať, či sú potrebné procesy vybudované a fungujú tak, ako majú? Navyše, ako to urobiť za dva dni - toľko trvá opätovná certifikácia. Stručne povedané, certifikácia je založená na starostlivom porovnaní toho, čo je napísané v predpisoch, príbehoch o tom, „ako všetko funguje“ a skutočných postupoch. Informácie o tom druhom sa získavajú z prehliadok dátového centra a rozhovorov s inžiniermi dátového centra – „konfrontácie“, ako ich s láskou nazývame. To je to, na čo sa pozerajú.

Tím

V prvom rade audítori používateľského rozhrania skontrolujú, či má dátové centrum dostatok podporného personálu. Zoberú si pracovný stôl, rozvrh práce a selektívne ho skontrolujú pomocou hlásení o zmenách a údajov o kontrole prístupu, aby sa uistili, že požadovaný počet inžinierov bol skutočne na mieste v ten deň.

Revízori pozorne sledujú aj počet nadčasových hodín. To sa niekedy stáva, keď príde veľký klient a súčasne je potrebné nainštalovať desiatky stojanov. V takých chvíľach prichádzajú na pomoc chalani z iných zmien a za to sú platení navyše.

Na NORD-4 pracuje 7 inžinierov za zmenu: 6 v službe a jeden starší inžinier. Sú to tí, ktorí monitorujú 24x7 monitoring, stretávajú sa s klientmi, pomáhajú s inštaláciou zariadení a inými bežnými požiadavkami. Toto je prvá línia zákazníckej technickej podpory. Medzi ich povinnosti patrí zaznamenávanie núdzových situácií a ich eskalovanie špecializovaným inžinierom. Prácu inžinierskej infraštruktúry monitorujú jednotliví ľudia - pracovníci v službe infraštruktúry. Tiež 24x7.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Výrobný riaditeľ a vedúci stavby spoločnosti NORD informuje audítorov, koľko ľudí práve pracuje na stavbe.

Keď sú čísla roztriedené, skontroluje sa kvalifikácia tímu. Audítori náhodne kontrolujú personálne spisy inžinierov, aby sa uistili, že majú potrebné diplomy, certifikáty a autorizačné dokumenty (napríklad osvedčenia o elektrickej bezpečnosti) na prácu na danej pozícii.

Kontrolujú aj to, ako školíme našich zamestnancov. Dokonca aj počas posledného auditu náš systém na školenie nových inžinierov zapôsobil na špecialistov používateľského rozhrania. Trávime na ne tri mesiace výcvikový kurz ako platenú stáž, počas ktorej ich oboznámime s procesmi a princípmi práce v našom dátovom centre.

Už pracujúci inžinieri musia tiež absolvovať pravidelné školenia, vrátane práce v núdzových situáciách. Audítori určite skontrolujú školiace programy a materiály takýchto školení a tiež náhodne preveria inžinierov. Nikto nebude požiadaný o prechod na súpravu dieselagregátu, ale bude požiadaný, aby vám krok za krokom povedal, čo je potrebné urobiť, keď je mestské napájanie vypnuté. Na základe výsledkov auditu zjednotíme všetky tréningové a vzdelávacie programy do jedného štandardu, aby sa nelíšili pre rôzne tímy.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Ukážeme revízorom prestávku pre zmenových inžinierov.

Prevádzka a údržba inžinierskych systémov 

V tejto rozsiahlej časti auditu ukazujeme, že všetky inžinierske zariadenia a systémy dostávajú pravidelnú údržbu podľa harmonogramu odporúčaného predajcami, sklad má potrebné náhradné diely, platné servisné zmluvy s dodávateľmi a každá prevádzka so zariadeniami má svoje vlastné postupy a algoritmy pre prácu na rôznych prípadoch.

MMS Keď prevádzkujete desiatky UPS, dieselagregátov, klimatizácií a iných vecí, musíte niekde zozbierať všetky informácie o tomto zariadení. Pre každý kus zariadenia vytvárame približne nasledujúcu dokumentáciu:

  • číslo modelu a sériové číslo;
  • označovanie;
  • technické charakteristiky a nastavenia;
  • miesto inštalácie;
  • dátumy výroby, uvedenie do prevádzky, uplynutie záruky;
  • servisné zmluvy;
  • plán údržby a história;
  • a celú „lekársku históriu“ - poruchy, opravy.

Ako a kde zbierať všetky tieto informácie je na rozhodnutí každého prevádzkovateľa dátového centra. Používateľské rozhranie nie je obmedzené na nástroje. Môže to byť jednoduchý Excel (začali sme s tým) alebo samostatne napísaný systém riadenia údržby (MMS), ako máme teraz. Mimochodom, servisný pult, skladové účtovníctvo, on-line denník, monitoring sú tiež vlastné.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Ku každému zariadeniu existuje taký „osobný spis“.

V tomto ohľade sme demonštrovali naše postupy vrátane použitia príkladu tejto infraštruktúry UPS (na obrázku), ktorý daroval jednu zo svojich častí UPS slúžiacim na IT záťaž. Áno, podľa normy takéto „darovanie“ môže realizovať len infraštruktúrne zariadenie, ktoré napája klimatizáciu a núdzové osvetlenie, ale nie IT záťaž.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Potom revízori požiadali, aby sa príslušný lístok ukázal v servisnom pulte:

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

A profil UPS v MMS:

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Náhradné diely Pre včasnú údržbu a havarijné opravy strojárskych zariadení uchovávame vlastné náhradné diely a príslušenstvo. K dispozícii je všeobecný sklad s veľkými náhradnými dielmi pre vybavenie a malé skrine s náhradnými dielmi v technických miestnostiach (aby ste nemuseli behať ďaleko).

Na fotografii: kontrolujeme dostupnosť náhradných dielov pre dieselagregát. Napočítali sme 12 filtrov. Potom sme skontrolovali údaje v MMS.  

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Podobné cvičenie sa uskutočnilo v hlavnom sklade, kde sú uložené veľké náhradné diely: kompresory, ovládače, automatizácia, ventilátory, parné zvlhčovače a stovky ďalších položiek. Značky sme selektívne prepisovali a „vypichovali“ cez MMS.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Údaje o zásobe náhradných dielov. Červená - To je to, čo chýba a treba to dokúpiť.

Preventívna údržba. Okrem údržby a opráv UI odporúča vykonávať preventívnu údržbu. Pomáha premeniť potenciálnu nehodu na plánovanú opravu. Pre každý parameter konfigurujeme prahové hodnoty v monitorovaní. Ak sú prekročené, zodpovedné osoby dostanú alarm a vykonajú potrebné opatrenia. Napríklad my:

  • Elektrické panely kontrolujeme termokamerou, aby sme rýchlo odhalili poruchy elektroinštalácie: zlý kontakt, lokálne prehriatie vodiča alebo ističa. 
  • Sledujeme indikátory vibrácií a aktuálnu spotrebu čerpadiel chladiaceho systému. To vám umožní včas identifikovať odchýlky a bez spěchu naplánovať náhradné diely.
  • Vykonávame analýzy paliva a oleja dieselagregátov a kompresorov.
  • Testujeme koncentráciu glykolu v chladiacom systéme.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Diagram vibrácií čerpadla pred a po oprave.

Práca s dodávateľmi. Údržbu a opravy zariadení vykonávajú externí dodávatelia. Na našej strane sú samostatní špecialisti na dieselagregáty, klimatizácie a UPS, ktorí riadia ich prevádzku. Kontrolujú, či dodávatelia majú potrebné nástroje a materiál na opravy/údržbu, odborné osvedčenia, osvedčenia o elektrickej bezpečnosti a povolenia. Prijímajú všetku prácu.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Takto vyzerá kontrolný zoznam pre akceptovanie údržby klimatizácie.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Na priepustke kontrolujeme, či boli preukazy vydané oprávneným zástupcom zhotoviteľov, či prešli údržbou v určenom čase a či si prečítali pravidlá.

Dokumentácia. Zavedené procesy na údržbu systémov a vybavenia sú polovicou úspechu. Všetky postupy vykonávané ľuďmi v dátovom centre musia byť zdokumentované. Účel je jednoduchý: aby sa všetko neobmedzovalo na jednu konkrétnu osobu a v prípade nehody mohol každý inžinier prijať jasné pokyny a urobiť všetky potrebné operácie na jej odstránenie.

UI má vlastnú metodiku pre takúto dokumentáciu.

Pre jednoduché a opakujúce sa činnosti sú stanovené štandardné prevádzkové postupy (SOP). Napríklad existujú SOP na zapnutie/vypnutie chladiča a nastavenie UPS na bypass.

Pre údržbu alebo zložité operácie, ako je výmena batérií v UPS, sú vytvorené postupy údržby (metódy postupov, MOP). Tieto môžu zahŕňať SOP. Každý typ inžinierskeho zariadenia musí mať svoje vlastné MOP.

Nakoniec sú tu núdzové prevádzkové postupy (EOP) – pokyny pre prípad núdze. Zostaví sa zoznam konkrétnych núdzových situácií a napíšu sa k nim pokyny. Tu je časť zoznamu mimoriadnych situácií, v ktorej sú podrobne uvedené príznaky nehody, činnosti, zodpovedné osoby a osoby, ktoré treba upozorniť:

  • vypnutie mestského napájania: dieselagregáty spustené/nespustené;
  • nehody UPS; 
  • nehody na monitorovacom systéme dátového centra;
  • prehrievanie strojovne;
  • netesnosť chladiaceho systému;
  • porucha na sieťovom a výpočtovom zariadení;

a tak ďalej.

Zostavenie takého objemu dokumentácie je samo o sebe náročnou úlohou. Ešte ťažšie je udržiavať ho aktuálny (mimochodom, kontrolujú to aj audítori). A čo je najdôležitejšie, personál musí poznať tieto pokyny, pracovať podľa nich a v prípade potreby vykonať vylepšenia.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Áno, návody by mali byť dostupné tam, kde by mohli byť potrebné, a nielen zapadať prachom v archívoch.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
Poznámky k zmenám v predpisoch o údržbe inžinierskych systémov dátových centier.

Pri audite prezerajú aj technickú dokumentáciu k systémom, výkonnú a pracovnú dokumentáciu a úkony uvádzania systémov do prevádzky. 

Značenie. Pri prechádzke po dátovom centre ho kontrolovali všade, kam sa dostali. Kam nedočiahli, dosiahli zo štafle :). Pozreli sme sa na jeho prítomnosť na každom rozvádzači, stroji a ventile. Preverili sme jedinečnosť, jednoznačnosť a súlad s aktuálnymi schémami dokumentácie skutočného vyhotovenia. Na fotografii nižšie: nachádzame sa v čerpacej miestnosti na skladovanie paliva a porovnávame značky na elektromagnetických ventiloch so schémou dokumentácie skutočného vyhotovenia. 

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Všetko s ňou súhlasilo, ale s miestnym „dekoratívnym“ axonometrickým diagramom na stene sa v jednom parametri nezhodoval.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

V priestoroch dátového centra by mali byť umiestnené aj schémy systémov, ktoré sa tam nachádzajú. V prípade nehody vám pomôžu rýchlo zistiť, kde sa čo nachádza, a urobiť informované rozhodnutie. Na fotografii je napríklad znázornená jednoriadková schéma v miestnosti hlavného rozvádzača.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Relevantnosť diagramov bola skontrolovaná nasledujúcim spôsobom: pomenovali označenie prvku na diagrame a požiadali ho ukázať „v reálnom živote“. 

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Tu si revízor odfotografuje nastavenia (nastavenia) vstupného ističa hlavného rozvádzača, aby ich neskôr porovnal s indikátormi na jednoriadkovej schéme v papierovej a elektronickej kópii. Na jednom zo strojov, QF-3, sa indikátor nezhodoval s papierovým diagramom a získali sme trestný bod. Teraz dvaja inžinieri skontrolujú, či označenia v jednoriadkových diagramoch zodpovedajú skutočnosti.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

To nie je všetko, čo audítori skontrolovali z hľadiska servisných procesov. Tu je to, čo bolo na programe ešte:

  • monitorovací systém. Tu sme si karma benefity zaslúžili dobrou vizualizáciou, prítomnosťou mobilnej aplikácie a situačnými obrazovkami umiestnenými na chodbách dátových centier. Tu sme podrobne písali o tom, ako pracujeme monitorovanie.

    A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute
    Toto je MCC s vizuálnymi informáciami o stave hlavných inžinierskych systémov NORD-4 a našich ďalších dátových centier pracujúcich na mieste.

  • plánovanie životného cyklu inžinierskych zariadení;
  • riadenie kapacity (riadenie kapacity);
  • rozpočtovanie (trochu hovoril tu);
  • postup analýzy nehôd;
  • proces prevzatia, uvedenia do prevádzky a testovania zariadení (písali sme o testoch tu).

Na čo sa používateľské rozhranie ešte pozeralo?

Bezpečnosť a kontrola prístupu. Auditom sa kontroluje aj fungovanie bezpečnostných a zabezpečovacích systémov. Audítor sa napríklad pokúsil dostať do jedného z priestorov, kde nemal prístup, a potom skontroloval, či sa to prejavilo v systéme kontroly vstupu a či na to bola upozornená bezpečnostná služba (spoiler - bol).

Ak v našich dátových centrách zostanú dvere do ktorejkoľvek miestnosti otvorené dlhšie ako dve minúty, na bezpečnostnom stanovišti sa spustí výstraha. Aby to audítori otestovali, otvorili jedny z dverí hasiacim prístrojom. Pravda, sirénu sme nikdy nedostali – ochranka videla cez videokamery, že niečo nie je v poriadku, a dorazila na „miesto činu“ skôr.

Poriadok a čistota. Audítori hľadajú prach, chaoticky povaľujúce sa krabice s vybavením a ako často sa priestory čistia. Tu sa revízori začali zaujímať napríklad o nezistený objekt na vetracej chodbe. Ide o blok z ventilačného systému, ktorý sa už pripravoval na jeho miesto. Ale aj tak ma požiadali o podpis.

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Aj k téme poriadok v dátovom centre - tieto skrine so všetkým potrebným náradím pre núdzové práce na zariadení sú umiestnené v miestnosti hlavného rozvádzača. 

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Lokalita. Dátové centrum sa posudzuje na základe podmienok umiestnenia – či sa v blízkosti nachádzajú vojenské základne, letiská, rieky, sopky a iné nebezpečné objekty. Na fotografii len ukazujeme, že od poslednej certifikácie v roku 2017 nevyrástli okolo dátového centra žiadne jadrové elektrárne ani sklady ropy. Ale tam sa buduje nové dátové centrum NORD-5, ktoré tiež bude musieť prejsť všetkými úrovňami certifikácie Uptime Institute Tier III. Ale to je úplne iný príbeh).

A demonštrovať alebo ako sme prešli auditom udržateľnosti prevádzky v Uptime Institute

Zdroj: hab.com

Pridať komentár