Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Shefi i departamentit të operacioneve u ngjit në kapakun e objektit të magazinimit nëntokësor të karburantit për të treguar shenjat në valvulën solenoid.

Në fillim të shkurtit, qendra jonë më e madhe e të dhënave Tier III NORD-4 Ricertifikuar nga Instituti Uptime (UI) për standardin e Qëndrueshmërisë Operacionale. Sot do t'ju tregojmë se çfarë po shikojnë auditorët dhe me cilat rezultate kemi përfunduar.

Për ata që janë të njohur me qendrat e të dhënave, le të kalojmë shkurtimisht harduerin. Standardet e nivelit vlerëson dhe certifikon qendrat e të dhënave në tre faza:

  • projekt (Dizajn): kontrollohet paketa e dokumentacionit të projektit.Këtu e njohura rresht. Janë 4 prej tyre gjithsej: Niveli I–IV. Kjo e fundit është, në përputhje me rrethanat, më e larta.
  • objekti i ndërtuar (Facility): kontrollohet infrastruktura inxhinierike e qendrës së të dhënave dhe përputhshmëria e saj me projektin. Qendra e të dhënave kontrollohet nën ngarkesën e plotë të projektimit duke përdorur një sërë testesh me përafërsisht përmbajtjen e mëposhtme: një nga UPS-të (DGS, ftohësit, kondicionerët preciz, kabinetet e shpërndarjes, shiritat, etj.) hiqet jashtë shërbimit për mirëmbajtje ose riparim , dhe furnizimi me energji i qytetit është i fikur. . Qendrat e të dhënave të nivelit III dhe më lart duhet të jenë në gjendje të trajtojnë situatën pa ndonjë ndikim në ngarkesën e TI-së.

    Lehtësia mund të merret nëse qendra e të dhënave ka kaluar tashmë certifikimin e Dizajnit.
    NORD-4 mori certifikatën e projektimit në 2015, dhe Facility në 2016.

  • Qëndrueshmëria Operative. Në fakt, certifikimi më i rëndësishëm dhe kompleks. Ai vlerëson në mënyrë gjithëpërfshirëse proceset dhe kompetencat e një operatori në mirëmbajtjen dhe menaxhimin e një qendre të dhënash me një nivel të vendosur të nivelit (për të kaluar Qëndrueshmërinë Operacionale, duhet të keni tashmë një certifikatë Facility). Në fund të fundit, pa procese operacionale të strukturuara siç duhet dhe një ekip të kualifikuar, edhe një qendër e të dhënave e nivelit IV mund të kthehet në një ndërtesë të padobishme me pajisje shumë të shtrenjta.

    Këtu ka edhe nivele: Bronzi, Argjendi dhe Ari. Në ricertifikimin e fundit ne përfunduam me një rezultat prej 88,95 nga 100 pikë të mundshme, dhe ky është Argjendi. Ai ra vetëm më pak se Ari - 1,05 pikë. 

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Si të kontrolloni që proceset e nevojshme janë ndërtuar dhe funksionojnë siç duhet? Për më tepër, si ta bëni atë në dy ditë - kjo është sa kohë duhet për riçertifikim. Shkurtimisht, certifikimi bazohet në një krahasim të mundimshëm të asaj që shkruhet në rregullore, tregimeve se "si funksionon gjithçka" dhe praktikave reale. Informacioni për këtë të fundit merret nga shëtitjet e qendrës së të dhënave dhe bisedat me inxhinierët e qendrës së të dhënave - "konfrontime", siç i quajmë me dashuri. Kjo është ajo që ata po shikojnë.

Ekip

Para së gjithash, auditorët e UI kontrollojnë nëse qendra e të dhënave ka staf të mjaftueshëm mbështetës. Ata marrin tabelën e personelit, orarin e detyrave dhe e kontrollojnë në mënyrë selektive me raportet e turneve dhe të dhënat e kontrollit të aksesit për t'u siguruar që numri i kërkuar i inxhinierëve ishte në të vërtetë në vend atë ditë.

Auditorët gjithashtu shikojnë nga afër numrin e orëve jashtë orarit. Kjo ndodh ndonjëherë kur një klient i madh vjen dhe dhjetëra rafte duhet të instalohen në të njëjtën kohë. Në momente të tilla, djemtë nga ndërrimet e tjera vijnë në shpëtim, dhe atyre u paguhen para shtesë për këtë.

Ka 4 inxhinierë që punojnë në NORD-7 për ndërrim: 6 në detyrë dhe një inxhinier i lartë. Këta janë ata që monitorojnë monitorimin 24x7, takohen me klientët, ndihmojnë me instalimin e pajisjeve dhe kërkesa të tjera rutinë. Kjo është linja e parë e mbështetjes teknike të klientit. Përgjegjësitë e tyre përfshijnë regjistrimin e situatave emergjente dhe përshkallëzimin e tyre tek inxhinierët e specializuar. Puna e infrastrukturës inxhinierike monitorohet nga persona individualë - punonjës të shërbimit të infrastrukturës. Gjithashtu 24x7.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Drejtori i prodhimit dhe menaxheri i kantierit të NORD u tregon auditorëve se sa njerëz janë duke punuar në kantier për momentin.

Kur renditen numrat, kontrollohen kualifikimet e ekipit. Auditorët shqyrtojnë rastësisht dosjet e personelit të inxhinierëve për t'u siguruar që ata kanë diplomat e nevojshme, certifikatat dhe dokumentet e autorizimit (për shembull, certifikatat e sigurisë elektrike) për të punuar në një pozicion të caktuar.

Ata gjithashtu kontrollojnë se si ne trajnojmë stafin tonë. Edhe gjatë auditimit të fundit, sistemi ynë për trajnimin e inxhinierëve të rinj në detyrë i bëri përshtypje specialistëve të UI. Ne kalojmë tre muaj për ta kurs trajnimi si një praktikë me pagesë, gjatë së cilës i njohim me proceset dhe parimet e punës në qendrën tonë të të dhënave.

Inxhinierët që punojnë tashmë duhet gjithashtu t'i nënshtrohen trajnimit të rregullt, duke përfshirë punën në situata emergjente. Auditorët patjetër do të kontrollojnë programet e trajnimit dhe materialet e trajnimeve të tilla, dhe gjithashtu do të ekzaminojnë rastësisht inxhinierët. Askujt nuk do t'i kërkohet të kalojë në një komplet gjeneratori me naftë, por do t'ju kërkohet t'ju tregojnë hap pas hapi se çfarë duhet bërë kur furnizimi me energji i qytetit është i fikur. Bazuar në rezultatet e auditimit, ne do t'i sjellim të gjitha programet e trajnimit dhe edukimit në një standard të vetëm, në mënyrë që ato të mos ndryshojnë për ekipe të ndryshme.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Ne u tregojmë auditorëve dhomën e pushimit për inxhinierët e turnit.

Funksionimi dhe mirëmbajtja e sistemeve inxhinierike 

Në këtë pjesë të madhe të auditimit, ne tregojmë se të gjitha pajisjet dhe sistemet inxhinierike marrin mirëmbajtje të rregullt sipas orarit të rekomanduar nga shitësit, magazina ka pjesët e nevojshme të këmbimit, marrëveshje të vlefshme shërbimi me kontraktorët dhe çdo operacion me pajisje ka të vetën. procedurat dhe algoritmet për të punuar në raste të ndryshme.

MMS Kur përdorni dhjetëra UPS, komplete gjeneratorësh me naftë, kondicionerë dhe gjëra të tjera, duhet t'i mbledhni diku të gjitha informacionet për këtë objekt. Ne krijojmë përafërsisht dosjen e mëposhtme për secilën pjesë të pajisjes:

  • modeli dhe numri serial;
  • shënimi;
  • karakteristikat teknike dhe cilësimet;
  • vendndodhja e instalimit;
  • datat e prodhimit, vënia në punë, skadimi i garancisë;
  • kontratat e shërbimit;
  • orari dhe historia e mirëmbajtjes;
  • dhe e gjithë "historia mjekësore" - prishjet, riparimet.

Se si dhe ku të mblidhen të gjitha këto informacione i takon secilit operator të qendrës së të dhënave të vendosë vetë. UI nuk është i kufizuar në mjete. Ky mund të jetë një Excel i thjeshtë (filluam me këtë) ose një Sistem i Menaxhimit të Mirëmbajtjes (MMS) i shkruar vetë, siç kemi tani. Meqe ra fjala, tavolina e sherbimit, kontabiliteti i magazinës, regjistri i rrjetit, monitorimi janë gjithashtu të shkruara vetë.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Ekziston një "skedar personal" i tillë për secilën pjesë të pajisjes.

Ne demonstruam praktikat tona në këtë drejtim, duke përfshirë përdorimin e shembullit të kësaj infrastrukture UPS (në foto), i cili i dhuroi një pjesë të tij UPS-së që shërben për ngarkesën e IT-së. Po, sipas standardit, një "dhurim" i tillë mund të kryhet vetëm nga pajisjet infrastrukturore që fuqizojnë kondicionerët dhe ndriçimin e emergjencës, por jo nga ngarkesa e IT.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Më pas, auditorët kërkuan të tregonin biletën përkatëse në Tavolinën e Shërbimit:

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Dhe profili UPS në MMS:

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Pjesë këmbimi Për mirëmbajtjen në kohë dhe riparimet emergjente të pajisjeve inxhinierike, ne mbajmë pjesët tona rezervë dhe aksesorët. Ka një magazinë të përgjithshme me pjesë të mëdha rezervë për pajisje dhe kabinete të vogla me pjesë këmbimi në dhomat e inxhinierisë (që të mos keni nevojë të vraponi larg).

Në foto: ne po kontrollojmë disponueshmërinë e pjesëve rezervë për grupin e gjeneratorit me naftë. Ne numëruam 12 filtra. Më pas kontrolluam të dhënat në MMS.  

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Një ushtrim i ngjashëm u krye në magazinën kryesore, ku ruhen pjesë të mëdha rezervë: kompresorë, kontrollorë, automatizim, ventilatorë, lagështues me avull dhe qindra artikuj të tjerë. Ne i rishkruam në mënyrë selektive shenjat dhe i "grushtuam" ato përmes MMS.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Të dhënat e inventarit të pjesëve të këmbimit. E kuqe - Kjo është ajo që mungon dhe duhet blerë.

Mirëmbajtja parandaluese. Përveç mirëmbajtjes dhe riparimeve, UI rekomandon kryerjen e mirëmbajtjes parandaluese. Ndihmon në shndërrimin e një aksidenti të mundshëm në një riparim të planifikuar. Për çdo parametër, ne konfigurojmë vlerat e pragut në monitorim. Në rast të tejkalimit, përgjegjësit marrin alarme dhe marrin masat e nevojshme. Për shembull, ne:

  • Ne kontrollojmë panelet elektrike me një imazher termik për të zbuluar shpejt defektet në instalimet elektrike: kontakt të dobët, mbinxehje lokale të një përcjellësi ose ndërprerës. 
  • Ne monitorojmë treguesit e dridhjeve dhe konsumin aktual të pompave të sistemit të ftohjes. Kjo ju lejon të identifikoni devijimet në kohë dhe të planifikoni pjesët e zëvendësimit pa nxitim.
  • Bëjmë analiza të karburantit dhe vajit të kompresorëve dhe kompresorëve të gjeneratorëve me naftë.
  • Ne testojmë glikolin në sistemin e ftohjes për përqendrim.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Diagrami i dridhjeve të pompës para dhe pas riparimit.

Puna me kontraktorët. Mirëmbajtja dhe riparimi i pajisjeve kryhen nga kontraktorë të jashtëm. Nga ana jonë ka specialistë të veçantë të kompleteve të gjeneratorëve me naftë, kondicionerëve dhe UPS-ve që kontrollojnë funksionimin e tyre. Ata kontrollojnë nëse kontraktorët kanë mjetet dhe materialet e nevojshme për punë riparimi/mirëmbajtjeje, certifikata profesionale, certifikata të sigurisë elektrike dhe leje. Ata pranojnë të gjitha punët.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Kështu duket lista e kontrollit për pranimin e punës së mirëmbajtjes së kondicionerit.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Në zyrën e kalimit kontrollojmë nëse lejet u janë lëshuar përfaqësuesve të autorizuar të kontraktorëve, nëse i janë nënshtruar mirëmbajtjes në kohën e caktuar dhe nëse i kanë lexuar rregullat.

Dokumentacionin. Proceset e vendosura për mirëmbajtjen e sistemeve dhe pajisjeve janë gjysma e betejës. Të gjitha procedurat e kryera nga njerëzit në qendrën e të dhënave duhet të dokumentohen. Qëllimi i kësaj është i thjeshtë: në mënyrë që gjithçka të mos kufizohet në një person specifik, dhe në rast aksidenti, çdo inxhinier mund të marrë udhëzime të qarta dhe të bëjë të gjitha operacionet e nevojshme për ta eliminuar atë.

UI ka metodologjinë e vet për një dokumentacion të tillë.

Për aktivitete të thjeshta dhe të përsëritura, përcaktohen procedura standarde të funksionimit (PSV). Për shembull, ka SOP për ndezjen/fikjen e ftohësit dhe vendosjen e UPS-së për të anashkaluar.

Për mirëmbajtjen ose operacionet komplekse, të tilla si zëvendësimi i baterive në një UPS, krijohen procedurat e mirëmbajtjes (Metodat e Procedurave, MOPs). Këto mund të përfshijnë PSV-të. Çdo lloj pajisje inxhinierike duhet të ketë MOP-et e veta.

Së fundi, ka Procedurat Operative Emergjente (EOP) - udhëzime në rast emergjence. Përpilohet një listë e situatave specifike emergjente dhe shkruhen udhëzime për to. Këtu është një pjesë e listës së situatave emergjente, ku detajohen shenjat e një aksidenti, veprimet, personat përgjegjës dhe personat që duhen njoftuar:

  • mbyllja e furnizimit me energji elektrike të qytetit: grupet e gjeneratorëve me naftë kanë filluar/nuk janë ndezur;
  • Aksidentet UPS; 
  • aksidente në sistemin e monitorimit të qendrës së të dhënave;
  • mbinxehja e dhomës së makinerisë;
  • rrjedhje e sistemit të ftohjes;
  • dështim në rrjet dhe pajisje kompjuterike;

dhe kështu me radhë.

Përpilimi i një vëllimi të tillë dokumentacioni është një detyrë intensive në vetvete. Është edhe më e vështirë ta mbash atë të përditësuar (meqë ra fjala, auditorët gjithashtu e kontrollojnë këtë). Dhe më e rëndësishmja, stafi duhet t'i dijë këto udhëzime, të punojë sipas tyre dhe të bëjë përmirësime nëse është e nevojshme.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Po, udhëzimet duhet të jenë të disponueshme aty ku mund të nevojiten, dhe jo vetëm për të mbledhur pluhur në arkiva.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
Shënime mbi ndryshimet në rregulloret e mirëmbajtjes për sistemet inxhinierike të qendrave të të dhënave.

Gjatë auditimit, ata shikojnë edhe dokumentacionin teknik për sistemet, dokumentacionin ekzekutiv dhe të punës, si dhe aktet e vënies në funksion të sistemeve. 

Shënuar. Ndërsa ecnin nëpër qendrën e të dhënave, ata e kontrolluan atë kudo që mund të arrinin. Aty ku nuk arritën, arritën nga një shkallë :). Ne shikuam praninë e tij në çdo central, makinë dhe valvul. Ne kontrolluam veçantinë, paqartësinë dhe përputhshmërinë me skemat aktuale të dokumentacionit të ndërtuar. Në foton më poshtë: jemi në dhomën e pompës së depozitimit të karburantit duke krahasuar shenjat në valvulat solenoid me diagramin e dokumentacionit të ndërtuar. 

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Gjithçka ishte dakord me të, por me diagramin aksonometrik "dekorativ" lokal në mur në një parametër nuk përkonte.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Në ambientet e qendrës së të dhënave duhet të vendosen edhe diagramet e sistemeve të vendosura aty. Në rast aksidenti, ata ju ndihmojnë të zbuloni shpejt se ku është gjithçka dhe të merrni një vendim të informuar. Fotografia, për shembull, tregon një diagram me një linjë në dhomën kryesore të centralit.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Rëndësia e diagrameve u kontrollua në mënyrën e mëposhtme: ata emëruan shënimin e elementit në diagram dhe kërkuan ta tregonin atë "në jetën reale". 

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Këtu auditori fotografon cilësimet (cilësimet) e ndërprerësit të hyrjes së centralit kryesor, në mënyrë që më vonë t'i krahasojë ato me treguesit në diagramin me një linjë në letër dhe kopje elektronike. Në njërën nga makinat, QF-3, treguesi nuk përputhej me diagramin e letrës dhe fituam një pikë dënimi. Tani dy inxhinierë do të kontrollojnë nëse shenjat në diagramet me një linjë korrespondojnë me faktin.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Kjo nuk është gjithçka që kontrolluan auditorët për sa i përket proceseve të shërbimit. Ja çfarë tjetër ishte në rendin e ditës:

  • sistemi i monitorimit. Këtu kemi fituar përfitime karma me vizualizim të mirë, praninë e një aplikacioni celular dhe ekranet e situatës të vendosura në korridoret e qendrave të të dhënave. Këtu kemi shkruar në detaje se si ne punojmë monitorimi.

    Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime
    Ky është MCC me informacion vizual në lidhje me statusin e sistemeve kryesore inxhinierike të NORD-4 dhe qendrave tona të tjera të të dhënave që punojnë në sit.

  • planifikimi i ciklit jetësor të pajisjeve inxhinierike;
  • menaxhimi i kapaciteteve (menaxhimin e kapaciteteve);
  • buxhetimi (foli pak këtu);
  • procedura e analizës së aksidenteve;
  • procesi i pranimit, komisionimit dhe testimit të pajisjeve (ne kemi shkruar për testet këtu).

Çfarë tjetër po shikonte UI?

Siguria dhe kontrolli i aksesit. Auditimi kontrollon gjithashtu funksionimin e sistemeve të sigurisë dhe sigurisë. Për shembull, auditori u përpoq të futej në një nga ambientet ku ai nuk kishte akses, dhe më pas kontrolloi nëse kjo pasqyrohej në sistemin e kontrollit të hyrjes dhe nëse sigurimi ishte njoftuar për këtë (spoiler - ishte).

Nëse në qendrat tona të të dhënave dera e çdo dhome mbetet e hapur për më shumë se dy minuta, atëherë një alarm aktivizohet në postën e sigurisë. Për ta testuar këtë, auditorët hapën njërën nga dyert me një zjarrfikës. Vërtetë, ne kurrë nuk morëm një sirenë - sigurimi pa se diçka nuk ishte në rregull përmes kamerave video dhe mbërriti në "skenën e krimit" më herët.

Rendi dhe pastërtia. Auditorët kërkojnë pluhur, kuti pajisjesh të shtrira në mënyrë kaotike dhe sa shpesh pastrohen ambientet. Këtu, për shembull, auditorët u interesuan për një objekt të paidentifikuar në korridorin e ventilimit. Ky është një bllok nga sistemi i ventilimit, i cili tashmë po përgatitej të zinte vendin e tij. Por ata gjithsesi më kërkuan të firmosja.

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Gjithashtu në temën e rendit në qendrën e të dhënave - këto kabinete me të gjitha mjetet e nevojshme për punë emergjente në pajisje janë të vendosura në dhomën kryesore të centralit. 

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Vendndodhja. Qendra e të dhënave vlerësohet bazuar në kushtet e vendndodhjes - nëse ka baza ushtarake, aeroporte, lumenj, vullkane dhe objekte të tjera të rrezikshme aty pranë. Në foto thjesht tregojmë se që nga certifikimi i fundit në 2017, asnjë central bërthamor apo objekt ruajtjeje nafte nuk është rritur rreth qendrës së të dhënave. Por atje po ndërtohet një qendër e re e të dhënave NORD-5, e cila gjithashtu do të duhet të kalojë të gjitha nivelet e certifikimit të nivelit III të Institutit Uptime. Por kjo është një histori krejtësisht tjetër).

Dhe demonstroni, ose si e kaluam auditimin e Qëndrueshmërisë Operacionale në Institutin Uptime

Burimi: www.habr.com

Shto një koment