А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
Керівник відділу експлуатації заліз у люк підземного сховища, щоб показати маркування на електромагнітному клапані.

На початку лютого наш найбільший дата-центр Tier III NORD-4 пройшов повторну сертифікацію Uptime institute (UI) за стандартом Operational Sustainability. Сьогодні розповімо, на що дивляться аудитори та з якими результатами ми фінішували.

Для тих, хто з дата-центрами на «ви», коротко пройдемося по матчі. Tier Standards оцінює та сертифікує дата-центри на трьох етапах:

  • проект (Dеsign): перевіряється пакет проектної документації. Тут якраз присвоюються всім відомі Рівень. Усього їх 4: Tier I-IV. Останній, відповідно, найвищий.
  • збудований об'єкт (Facility): перевіряється інженерна інфраструктура дата-центру та її відповідність проекту. Дата-центр перевіряють під повним проектним завантаженням за допомогою безлічі тестів приблизно такого змісту: один із ДБЖ (ДГУ, чилерів, прецизійних кондиціонерів, розподільчих шаф, шинопроводів тощо) виводиться з експлуатації на обслуговування або ремонт, при цьому відключається міське енергопостачання . ЦОД рівня Tier III і вище має впоратися із ситуацією без наслідків для корисного ІТ-навантаження.

    Facility можна складати, якщо дата-центр вже пройшов сертифікацію Design.
    NORD-4 отримав свій сертифікат Design у 2015 році, а Facility – у 2016 році.

  • експлуатація (Operational Sustainability). По суті, найголовніша та найскладніша сертифікація. Вона в комплексі оцінює процеси та компетенції оператора з обслуговування та управління дата-центром із встановленим рівнем Tier (щоб здати Operational Sustainability, ви вже повинні мати сертифікат Facility). Адже без правильно збудованих процесів експлуатації та кваліфікованої команди навіть дата-центр Tier IV може перетворитися на марну будівлю з дуже дорогим обладнанням.

    Тут теж свої рівні: Bronze, Silver та Gold. На останній ресертифікації фінішували з результатом 88,95 із 100 можливих балів, і це Silver. До Gold не вистачило трохи - 1,05 бала. 

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

Як перевірити, що необхідні процеси збудовані і працюють як слід? Тим більше, як це зробити за два дні — саме стільки йде повторна сертифікація. Якщо коротко, то сертифікація будується на копіткому зіставленні написаного в регламентах, оповідань «як усе влаштовано» та реальних практик. Інформація про останні виходить з обходів дата-центру та розмов з інженерами дата-центру — «очних ставок», як ми їх ласкаво називаємо. Ось на що дивляться.

Команда

Насамперед аудитори UI перевіряють, чи вистачає в дата-центрі обслуговуючого персоналу. Беруть штатний розклад, графік чергування та вибірково звіряють зі звітами змін та даними СКУД, щоб переконатися, що потрібна кількість інженерів справді була того дня на майданчику.

Також аудитори пильно дивляться на кількість годин переробки. Таке іноді трапляється, коли заїжджає великий клієнт і водночас потрібно поставити десятки стійок. У такі моменти хлопці з інших змін приходять на допомогу і їм за це виплачують додаткові гроші.

У зміні на NORD-4 працюють 7 інженерів: 6 чергових та один старший інженер. Це ті, хто стежить за моніторингом 24х7, зустрічають клієнтів, допомагають із встановленням обладнання та іншими штатними запитами. Це перша лінія клієнтської техпідтримки. До їхніх обов'язків входить фіксація аварійних ситуацій та ескалація на спеціалізованих інженерів. За роботою інженерної інфраструктури стежать окремі люди — чергові з інфраструктури. Також 24х7.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
Директор з виробництва та старший на майданчику NORD розповідає аудиторам, скільки людей працює на майданчику прямо зараз.

Коли із чисельністю розібралися, перевіряють кваліфікацію команди. Аудитори випадково переглядають особисті справи інженерів, щоб переконатися, що вони мають необхідні дипломи, сертифікати, що дозволяють документи (наприклад, посвідчення з електробезпеки) до роботи на даної позиції.

А ще перевіряють, як ми навчаємо персонал. Наша система підготовки нових чергових інженерів ще під час минулого аудиту вразила спеціалістів UI. Для них ми проводимо тримісячний курс підготовки в режимі оплачуваного стажування, в ході якого знайомимо їх із процесами та принципами роботи саме у нашому дата-центрі.

Вже працюють інженери теж повинні регулярно проходити тренінги, у тому числі і по роботі в аварійних ситуаціях. Аудитори обов'язково перевірять навчальні програми та матеріали таких тренінгів, а ще вибірково проекзаменують інженерів. Перемикатися на ДДУ нікого не проситимуть, а от розповісти покроково, що треба робити при відключенні міського електропостачання, попросять. За результатами аудиту ми наводитимемо всі програми навчання та тренувань до єдиного стандарту, щоб вони не відрізнялися для різних команд.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
Показуємо аудиторам кімнату для змінних інженерів.

Експлуатація та обслуговування інженерних систем 

У цьому великому розділі аудиту ми показуємо, що все інженерне обладнання та системи отримують регулярне технічне обслуговування за графіком, що рекомендується вендорами, на складі є необхідний ЗІП, діючі договори з підрядниками на обслуговування, а для кожної операції з обладнанням прописані свої процедури та алгоритми роботи на різні випадки.

MMS. Коли експлуатуєш десятки ДБЖ, ДДУ, кондиціонерів та іншого, потрібно десь збирати всю інформацію про це господарство. Ось приблизно таке досьє створюється на кожну одиницю обладнання у нас:

  • модель та серійний номер;
  • маркування;
  • технічні характеристики та налаштування;
  • Місце встановлення;
  • дати виробництва, введення в експлуатацію, закінчення гарантії;
  • договори обслуговування;
  • розклад та історія ТО;
  • і вся "історія хвороби" - поломки, ремонти.

Як і де збирати всю цю інформацію кожен оператор дата-центру вирішує сам. UI не обмежує інструменти. Це може бути проста Excel (ми починали з такого) або самописний Maintenance Management System (MMS), як у нас тепер. До речі, сервіс-деск, складський облік, мережевий журнал, моніторинг теж самописні.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
Ось така «особиста справа» є на кожну одиницю обладнання.

Свої практики щодо цієї частини ми показували в тому числі на прикладі ось цього інфраструктурного ДБЖ (на фото), який пожертвував одну зі своїх деталей ДБЖ, що обслуговує ІТ-навантаження. Так, за стандартом таким "донорством" може займатися лише інфраструктурне обладнання, яке живить кондиціонери, аварійне освітлення, але не ІТ-навантаження.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

Після аудитори попросили показати відповідний тикет у Service Desk:

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

І профіль ДБЖ у MMS:

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

ЗІП. Для своєчасного обслуговування та аварійних ремонтів інженерного обладнання ми тримаємо свій ЗІП. Є загальний склад із великими запчастинами для обладнання та невеликі шафи із ЗІП в інженерних приміщеннях (щоб не треба було далеко тікати).

На фото: ми перевіряємо наявність ЗІП для ДДУ. Нарахували 12 фільтрів. Потім звірялися з даними MMS.  

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

Аналогічну вправу виконали на основному складі, де зберігаються великі запчастини: компресори, контролери, автоматика, вентилятори, парозволожувачі та ще сотні позицій. Вибірково переписали маркування та «пробили» їх за MMS.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
Дані щодо запасів ЗІП. Червоне - це те, чого не вистачає, і потрібно докупити.

Попереджувальне обслуговування. Крім ТО та ремонтів UI рекомендує займатися запобіжним обслуговуванням. Воно допомагає перетворити потенційну аварію на плановий ремонт. За кожним параметром ми налаштовуємо граничні значення в моніторингу. Якщо вони перевищуються, відповідальні отримують аларми і вживають необхідних дій. Наприклад, ми:

  • Перевіряємо тепловізором електричні щити, щоб вчасно знайти дефект електроустановок: поганий контакт, локальний перегрів провідника або автомата. 
  • Слідкуємо за показниками вібрації та споживаного струму насосів системи холодопостачання. Це дозволяє вчасно виявити відхилення і без поспіху запланувати заміну деталей.
  • Робимо аналізи палива та олії ДГУ, компресорів.
  • Тестуємо гліколь у системі холодопостачання на концентрацію.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
Графік вібрації насосів до та після ремонту.

Робота із підрядниками. ТО та ремонти обладнання роблять зовнішні підрядники. З нашого ж боку є окремі фахівці з ДДУ, кондиціонерів, ДБЖ, які контролюють їхню роботу. Вони перевіряють, чи є у підрядників необхідні інструменти та матеріали для ремонтних робіт/ТО, професійні сертифікати, кірочки електробезпеки, допуски. Вони ж беруть усі роботи.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
Приблизно так виглядає чек-лист для приймання робіт з кондиціонера.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
У бюро перепусток перевіряємо, чи оформлені перепустки на авторизованих представників підрядників, чи проходили вони у вказаний час ТО та чи ознайомилися вони з правилами.

Документація. Вибудовані процеси з обслуговування систем та обладнання – це півсправи. Усі процедури, які виконуються людиною у дата-центрі, мають бути задокументовані. Мета цього проста: щоб усе не замикалося на одній конкретній людині і у разі аварії будь-який інженер міг взяти зрозумілу інструкцію та зробити всі необхідні операції для її ліквідації.

У UI своя методологія щодо такої документації.

Для простих та повторюваних дій становлять стандартні експлуатаційні процедури (Standard Operational Procedure, SOP). Наприклад, SOP'и є для включення/вимкнення чиллера, постановки ДБЖ на bypass.

Для технічного обслуговування або складних операцій, наприклад, заміни батарей у ДБЖ, створюються процедури ведення обслуговуючих робіт (Methods of Procedures, MOP). Вони можуть включати SOP'и. У кожного типу інженерного обладнання мають бути свої MOP'и.

Нарешті є аварійні експлуатаційні процедури (Emergency Operating Procedures, EOP) — інструкції на випадок аварії. Складається список конкретних аварійних ситуацій, і їм пишуться інструкції. Ось частина списку аварійних ситуацій, за якими докладно розписуються ознаки аварії, дії, відповідальні особи та особи для повідомлення:

  • відключення міського електропостачання: ДДУ запустилися/не запустилися;
  • аварії на ДБЖ; 
  • аварії на системі моніторингу ЦОД;
  • перегрів машинного залу;
  • протікання системи холодопостачання;
  • аварія на мережному та обчислювальному устаткуванні;

та інше.

Скласти такий обсяг документації — сама трудомістка робота. Ще складніше підтримувати її у актуальному стані (це, до речі, аудитори теж перевіряють). І головне — персонал повинен знати ці інструкції, працювати за ними та вносити покращення за потреби.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
Так, інструкції повинні бути доступні там, де вони можуть знадобитися, а не просто припадати пилом в архівах.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
Відмітки про зміни у регламенті обслуговування інженерних систем дата-центру.

У ході аудиту також дивляться на технічну документацію щодо систем, виконавчу та робочу документацію, акти здачі систем в експлуатацію. 

Маркування. Під час обходу дата-центром перевіряли її скрізь, куди тільки могли дотягтися. Куди не могли дотягнутися — дотягувалися зі драбини:). Дивилися на її наявність на кожному щиті, автоматі, клапані. Перевіряли унікальність, однозначність та відповідність актуальним схемам виконавчої документації. На фото нижче: ми насосне паливосховище порівнюємо маркування на електромагнітних клапанах зі схемою виконавчої документації. 

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

З нею все зійшлося, а ось із місцевою «декоративною» аксонометричною схемою на стіні в одному параметрі не співпало.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

У приміщеннях дата-центру також мають висіти схеми систем, які там розташовані. У разі аварій вони допомагають швидко зорієнтуватися, де що знаходиться, та ухвалити поінформоване рішення. На фото, наприклад, однолінійна схема у приміщенні ГРЩ.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

Актуальність схем перевіряли так: називали маркування елемента на схемі та просили показати «на натурі». 

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

Ось тут аудитор фотографує налаштування (уставки) розчеплювача вступного автомата ГРЩ, щоб потім звірити з показниками на однолінійній схемі у паперовому та електронному примірниках. На одному з автоматів, QF-3, показник не співпав із паперовою схемою, і ми заробили штрафний бал. Тепер два інженери перевірятимуть на відповідність маркування в однолінійних схемах із фактом.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

Це далеко не все, що перевіряли аудитори щодо процесів обслуговування. Ось що ще було на порядку денному:

  • система моніторингу. Тут ми заробили плюси в карму гарною візуалізацією, наявністю мобільного додатка та ситуаційними екранами, розставленими в коридорах дата-центрів. Тут докладно писали про те, як у нас влаштований моніторинг.

    А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute
    Ось такий ЦУП із наочною інформацією про стан основних інженерних систем NORD-4 та інших наших дата-центрів працює на майданчику.

  • планування життєвого циклу інженерного устаткування;
  • управління потужностями (управління потужністю);
  • бюджетування (трохи розповідали тут);
  • процедура аналізу аварій;
  • процес приймання, введення в експлуатацію та тестування обладнання (про тести писали тут).

На що ще дивився UI

Безпека та контроль доступу. Під час аудиту також перевіряють роботу систем охорони та безпеки. Наприклад, аудитор спробував потрапити в одне з приміщень, куди в нього немає доступу, а потім перевірив, чи це в системі СКУД позначилося і чи було сповіщення про це в охорони (спойлер — було).

Якщо в наших дата-центрах двері до будь-якого приміщення залишаються відчиненими більше двох хвилин, то на посаді охорони спрацьовує оповіщення. Щоб перевірити це, аудитори підперли одне з дверей вогнегасником. Щоправда, сирени ми так і не дочекалися — охорона побачила недобре через відеокамери і прибула на місце злочину раніше.

Порядок та чистота. Аудитори дивляться, чи немає пилу, коробок, що хаотично валяються, від обладнання, з якою періодичністю прибирають приміщення. Ось тут, наприклад, аудиторів зацікавив невідомий об'єкт у вентиляційному коридорі. Це блок від системи вентиляції, який готувався зайняти своє місце. Але все одно попросили підписати.

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

Ще в тему порядку в дата-центрі — такі шафи з усіма необхідними інструментами для аварійних робіт на устаткуванні стоять у приміщенні ГРЩ. 

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

Місцезнаходження. Дата-центр оцінюють за умовами розташування — чи поблизу військових баз, аеропортів, річок, вулканів та інших небезпечних об'єктів немає. На фото ми показуємо, що з моменту минулої сертифікації в 2017 році навколо дата-центру не виросло жодних АЕС і нафтосховищ. Зате он там будується новий дата-центр NORD-5, який теж має пройти всі ступені сертифікації Uptime Institute Tier III. Але це вже зовсім інша історія).

А продемонструйте, або Як ми проходили аудит Operational Sustainability в Uptime Institute

Джерело: habr.com

Додати коментар або відгук