و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
رئیس بخش عملیات برای نشان دادن علائم روی شیر برقی به داخل دریچه تأسیسات ذخیره سوخت زیرزمینی رفت.

در اوایل فوریه، بزرگترین مرکز داده Tier III ما NORD-4 توسط مؤسسه Uptime (UI) به استاندارد پایداری عملیاتی تأیید شده است. امروز به شما خواهیم گفت که حسابرسان به چه چیزی نگاه می کنند و با چه نتایجی به پایان رسیدیم.

برای کسانی که با مراکز داده آشنا هستند، اجازه دهید به طور خلاصه به سخت افزار بپردازیم. استانداردهای ردیف مراکز داده را در سه مرحله ارزیابی و تایید می کند:

  • پروژه (طراحی): بسته مستندات پروژه بررسی می شود.در اینجا معروف است درجه. در مجموع 4 مورد وجود دارد: ردیف I–IV. بر این اساس دومی بالاترین است.
  • تاسیسات ساخته شده (Facility): زیرساخت های مهندسی مرکز داده بررسی می شود و مطابقت آن با پروژه انجام می شود. مرکز داده تحت بار طراحی کامل با استفاده از انواع آزمایشات با محتوای تقریباً زیر بررسی می شود: یکی از UPS ها (DGS، چیلرها، تهویه مطبوع دقیق، کابینت های توزیع، شینه ها و غیره) برای نگهداری یا تعمیر از سرویس خارج می شود. و برق شهر قطع می شود. مراکز داده سطح III و بالاتر باید بتوانند بدون هیچ تاثیری بر بار IT وضعیت را مدیریت کنند.

    اگر مرکز داده قبلاً گواهی طراحی را گذرانده باشد، می توان از تسهیلات استفاده کرد.
    NORD-4 گواهی طراحی خود را در سال 2015 و Facility در سال 2016 دریافت کرد.

  • پایداری عملیاتی در واقع مهمترین و پیچیده ترین گواهینامه است. این به طور جامع فرآیندها و شایستگی‌های یک اپراتور را در نگهداری و مدیریت یک مرکز داده با یک سطح تعیین‌شده ارزیابی می‌کند (برای گذراندن پایداری عملیاتی، باید قبلاً یک گواهی تسهیلات داشته باشید). از این گذشته، بدون فرآیندهای عملیاتی با ساختار مناسب و یک تیم واجد شرایط، حتی یک مرکز داده Tier IV می تواند به یک ساختمان بی فایده با تجهیزات بسیار گران قیمت تبدیل شود.

    سطوح نیز در اینجا وجود دارد: برنز، نقره و طلا. در آخرین گواهینامه مجدد ما با امتیاز 88,95 از 100 امتیاز ممکن به پایان رسیدیم و این نقره است. فقط کمتر از طلا - 1,05 امتیاز. 

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

چگونه می توان بررسی کرد که فرآیندهای لازم ساخته شده اند و همانطور که باید کار می کنند؟ علاوه بر این، نحوه انجام آن در دو روز - این مدت زمان لازم برای صدور گواهینامه مجدد است. به طور خلاصه، صدور گواهینامه مبتنی بر یک مقایسه پر زحمت از آنچه در مقررات نوشته شده است، داستان های "چگونه همه چیز کار می کند" و شیوه های واقعی است. اطلاعات مربوط به دومی از طریق بازدید از مرکز داده و گفتگو با مهندسان مرکز داده به دست می آید - همانطور که ما با محبت آنها را "مقابله" می نامیم. این چیزی است که آنها به آن نگاه می کنند.

تیم

اول از همه، حسابرسان UI بررسی می کنند که آیا مرکز داده کارکنان پشتیبانی کافی دارد یا خیر. آنها جدول پرسنل، برنامه وظایف را می گیرند و به طور انتخابی آن را با گزارش های شیفت کاری و داده های کنترل دسترسی بررسی می کنند تا مطمئن شوند که تعداد مورد نیاز مهندسان واقعاً در آن روز در محل بوده اند.

حسابرسان همچنین به تعداد ساعات اضافه کاری دقت می کنند. این گاهی اوقات زمانی اتفاق می‌افتد که یک کلاینت بزرگ وارد می‌شود و ده‌ها رک باید همزمان نصب شوند. در چنین لحظاتی، بچه های شیفت های دیگر به کمک می آیند و برای این کار پول اضافی به آنها پرداخت می شود.

4 مهندس در هر شیفت روی NORD-7 کار می کنند: 6 نفر در وظیفه و یک مهندس ارشد. اینها کسانی هستند که نظارت 24x7 را نظارت می کنند، با مشتریان ملاقات می کنند، به نصب تجهیزات و سایر درخواست های معمول کمک می کنند. این اولین خط پشتیبانی فنی مشتری است. مسئولیت آنها شامل ثبت شرایط اضطراری و رساندن آنها به مهندسان متخصص است. کار زیرساخت های مهندسی توسط افراد فردی - افسران وظیفه زیرساخت نظارت می شود. همچنین 24x7.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
مدیر تولید و مدیر سایت NORD به حسابرسان می گوید که در حال حاضر چند نفر در سایت کار می کنند.

وقتی اعداد مرتب می شوند، شرایط تیم بررسی می شود. ممیزان به طور تصادفی پرونده های پرسنل مهندسان را بررسی می کنند تا اطمینان حاصل کنند که آنها مدارک، گواهینامه ها و مدارک مجوز لازم (به عنوان مثال، گواهینامه های ایمنی الکتریکی) را برای کار در یک موقعیت خاص دارند.

آنها همچنین بررسی می کنند که چگونه کارکنان خود را آموزش می دهیم. حتی در آخرین ممیزی، سیستم ما برای آموزش مهندسان وظیفه جدید متخصصان UI را تحت تأثیر قرار داد. ما سه ماه برای آنها وقت می گذاریم دوره آموزشی به عنوان یک کارآموزی با حقوق، که طی آن ما آنها را با فرآیندها و اصول کار در مرکز داده خود آشنا می کنیم.

مهندسانی که قبلاً مشغول به کار هستند نیز باید آموزش های منظمی را از جمله کار در شرایط اضطراری ببینند. ممیزان قطعا برنامه ها و مواد آموزشی این گونه آموزش ها را بررسی می کنند و مهندسان را نیز به صورت تصادفی بررسی می کنند. از هیچ‌کس خواسته نمی‌شود که به مجموعه دیزل ژنراتور سوئیچ کند، اما از آنها خواسته می‌شود که قدم به قدم به شما بگویند وقتی منبع برق شهری خاموش است چه کاری باید انجام دهید. بر اساس نتایج ممیزی، ما همه برنامه های آموزشی و آموزشی را به یک استاندارد واحد خواهیم رساند تا برای تیم های مختلف تفاوتی نداشته باشد.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
ما اتاق استراحت برای مهندسان شیفت را به حسابرسان نشان می دهیم.

بهره برداری و نگهداری سیستم های مهندسی 

در این بخش بزرگ از حسابرسی، نشان می‌دهیم که کلیه تجهیزات و سیستم‌های مهندسی طبق برنامه زمانی توصیه شده توسط فروشندگان، تعمیر و نگهداری منظم را دریافت می‌کنند، انبار دارای قطعات یدکی لازم، قراردادهای خدمات معتبر با پیمانکاران است و هر عملیات با تجهیزات خاص خود را دارد. رویه ها و الگوریتم ها برای کار بر روی موارد مختلف.

فراپیام هنگامی که ده ها یو پی اس، مجموعه دیزل ژنراتور، تهویه مطبوع و موارد دیگر را کار می کنید، باید تمام اطلاعات مربوط به این تاسیسات را در جایی جمع آوری کنید. ما تقریباً پرونده زیر را برای هر قطعه از تجهیزات ایجاد می کنیم:

  • مدل و شماره سریال؛
  • علامت گذاری؛
  • مشخصات فنی و تنظیمات؛
  • محل نصب؛
  • تاریخ تولید، راه اندازی، انقضای گارانتی؛
  • قراردادهای خدمات؛
  • برنامه و تاریخچه تعمیر و نگهداری؛
  • و کل "تاریخچه پزشکی" - خرابی ها، تعمیرات.

نحوه و مکان جمع آوری تمام این اطلاعات به هر اپراتور مرکز داده بستگی دارد که خودش تصمیم بگیرد. UI در ابزارها محدود نیست. این می تواند یک اکسل ساده (ما با این شروع کردیم) یا یک سیستم مدیریت تعمیر و نگهداری (MMS) خود نوشته باشد، همانطور که اکنون داریم. راستی، میز خدمات، حسابداری انبار، ورود آنلاین، نظارت نیز به صورت خودنویس هستند.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
چنین "پرونده شخصی" برای هر قطعه از تجهیزات وجود دارد.

ما اقدامات خود را در این زمینه نشان دادیم، از جمله با استفاده از مثال این UPS زیرساخت (تصویر)، که یکی از قطعات خود را به UPS ارائه دهنده بار IT اهدا کرد. بله، طبق استاندارد، چنین "اهدا" فقط می تواند توسط تجهیزات زیرساختی انجام شود که تهویه مطبوع و روشنایی اضطراری را تامین می کند، اما نه بار IT.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

پس از آن، حسابرسان درخواست کردند که بلیط مربوطه را در میز خدمات نشان دهند:

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

و مشخصات UPS در MMS:

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

قطعات یدکی برای تعمیر و نگهداری به موقع و تعمیرات اضطراری تجهیزات مهندسی، ما قطعات یدکی و لوازم جانبی خود را نگه می داریم. یک انبار عمومی با قطعات یدکی بزرگ برای تجهیزات و کابینت های کوچک با قطعات یدکی در اتاق های مهندسی وجود دارد (به طوری که شما مجبور به دویدن دور نباشید).

در عکس: ما در حال بررسی در دسترس بودن قطعات یدکی برای مجموعه دیزل ژنراتور هستیم. 12 فیلتر شمردیم. سپس داده های موجود در MMS را بررسی کردیم.  

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

تمرین مشابهی در انبار اصلی انجام شد، جایی که قطعات یدکی بزرگ ذخیره می شود: کمپرسورها، کنترلرها، اتوماسیون، فن ها، مرطوب کننده های بخار و صدها مورد دیگر. ما به‌طور انتخابی علامت‌ها را بازنویسی کردیم و آنها را از طریق MMS «پانچ» کردیم.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
داده های موجودی قطعات یدکی قرمز - این چیزی است که گم شده و باید خریداری شود.

نگهداری پیشگیرانه علاوه بر نگهداری و تعمیرات، UI انجام تعمیرات پیشگیرانه را توصیه می کند. این کمک می کند تا یک حادثه بالقوه به یک تعمیر برنامه ریزی شده تبدیل شود. برای هر پارامتر، مقادیر آستانه را در مانیتورینگ پیکربندی می کنیم. در صورت تجاوز به آنها، مسئولین هشدار دریافت می کنند و اقدامات لازم را انجام می دهند. به عنوان مثال، ما:

  • ما تابلوهای برق را با یک تصویرگر حرارتی بررسی می کنیم تا به سرعت عیوب تاسیسات الکتریکی را تشخیص دهیم: تماس ضعیف، گرمای بیش از حد موضعی هادی یا قطع کننده مدار. 
  • ما نشانگرهای ارتعاش و مصرف فعلی پمپ های سیستم تبرید را نظارت می کنیم. این به شما امکان می دهد انحرافات را در زمان شناسایی کنید و بدون عجله برای تعویض قطعات برنامه ریزی کنید.
  • ما آنالیز سوخت و روغن مجموعه ها و کمپرسورهای دیزل ژنراتور را انجام می دهیم.
  • ما گلیکول را در سیستم تبرید برای غلظت آزمایش می کنیم.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
نمودار ارتعاش پمپ قبل و بعد از تعمیر.

کار با پیمانکاران. تعمیر و نگهداری تجهیزات توسط پیمانکاران خارجی انجام می شود. در سمت ما، متخصصان جداگانه ای در مجموعه دیزل ژنراتور، تهویه مطبوع و یو پی اس وجود دارند که عملکرد آنها را کنترل می کنند. آنها بررسی می کنند که آیا پیمانکاران ابزار و مواد لازم برای تعمیر / نگهداری، گواهینامه های حرفه ای، گواهینامه های ایمنی الکتریکی و مجوزها را دارند یا خیر. همه کارها را قبول می کنند.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
چک لیست پذیرش کار تعمیر و نگهداری کولر گازی به این صورت است.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
در اداره پاس، بررسی می کنیم که آیا مجوزها برای نمایندگان مجاز پیمانکاران صادر شده است یا خیر، آیا در زمان مشخص شده تحت تعمیر و نگهداری قرار گرفته اند و آیا قوانین را خوانده اند یا خیر.

مستندات. فرآیندهای ایجاد شده برای نگهداری سیستم ها و تجهیزات نیمی از کار است. تمام مراحل انجام شده توسط انسان در مرکز داده باید مستند باشد. هدف از این کار ساده است: به طوری که همه چیز محدود به یک فرد خاص نیست و در صورت بروز حادثه، هر مهندس می تواند دستورالعمل های روشنی را اتخاذ کند و تمام عملیات لازم را برای از بین بردن آن انجام دهد.

UI روش خاص خود را برای چنین اسنادی دارد.

برای فعالیت های ساده و تکراری، رویه های عملیاتی استاندارد (SOP) ایجاد شده است. برای مثال، SOPهایی برای روشن/خاموش کردن چیلر و تنظیم UPS برای دور زدن وجود دارد.

برای تعمیر و نگهداری یا عملیات پیچیده، مانند تعویض باتری ها در یک UPS، روش های تعمیر و نگهداری (روش ها، MOP) ایجاد می شود. اینها ممکن است شامل SOPها باشند. هر نوع تجهیزات مهندسی باید MOP های مخصوص به خود را داشته باشد.

در نهایت، روش‌های عملیاتی اضطراری (EOPs) وجود دارد - دستورالعمل‌هایی در مواقع اضطراری. فهرستی از موقعیت های اضطراری خاص تهیه شده و دستورالعمل هایی برای آنها نوشته شده است. در اینجا بخشی از لیست موقعیت های اضطراری آمده است که علائم حادثه، اقدامات، افراد مسئول و افرادی که باید به آنها اطلاع دهند را به تفصیل بیان می کند:

  • خاموش شدن منبع تغذیه شهری: مجموعه دیزل ژنراتور شروع به کار کرد / شروع نشد.
  • تصادفات یو پی اس؛ 
  • حوادث در سیستم نظارت مرکز داده؛
  • گرمای بیش از حد اتاق ماشین؛
  • نشت سیستم تبرید؛
  • خرابی در شبکه و تجهیزات محاسباتی؛

و غیره

گردآوری چنین حجمی از اسناد به خودی خود یک کار پر زحمت است. به روز نگه داشتن آن حتی دشوارتر است (به هر حال، حسابرسان نیز این را بررسی می کنند). و مهمتر از همه، کارکنان باید این دستورالعمل ها را بدانند، بر اساس آنها کار کنند و در صورت لزوم اصلاحاتی را انجام دهند.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
بله، دستورالعمل ها باید در جایی که ممکن است مورد نیاز باشد در دسترس باشد، نه فقط گرد و غبار در بایگانی ها جمع آوری شود.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
نکاتی در مورد تغییرات در مقررات نگهداری سیستم های مهندسی مرکز داده.

در طول ممیزی، آنها همچنین به مستندات فنی سیستم ها، اسناد اجرایی و کاری و اقدامات راه اندازی سیستم ها نگاه می کنند. 

علامت گذاری در حالی که در اطراف مرکز داده قدم می زدند، هر کجا که می توانستند آن را بررسی می کردند. به جایی که نمی توانستند برسند، از یک نردبان رسیدند :). ما به وجود آن در هر تابلو، ماشین و شیر نگاه کردیم. ما منحصر به فرد بودن، عدم ابهام و انطباق با طرح های فعلی اسناد ساخته شده را بررسی کردیم. در عکس زیر: ما در اتاق پمپ ذخیره سوخت هستیم و علائم روی شیرهای برقی را با نمودار اسناد ساخته شده مقایسه می کنیم. 

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

همه چیز با او موافق بود ، اما با نمودار آکسونومتری "تزیینی" محلی روی دیوار در یک پارامتر مطابقت نداشت.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

نمودارهای سیستم های مستقر در آنجا نیز باید در محل مرکز داده ارسال شود. در صورت بروز حادثه، آنها به شما کمک می کنند تا به سرعت بفهمید همه چیز کجاست و تصمیمی آگاهانه بگیرید. به عنوان مثال، عکس یک نمودار تک خطی را در اتاق اصلی تابلو نشان می دهد.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

ارتباط نمودارها به روش زیر بررسی شد: آنها علامت عنصر روی نمودار را نامگذاری کردند و از آنها خواستند که آن را "در زندگی واقعی" نشان دهند. 

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

اینجاست که حسابرس از تنظیمات (تنظیمات) کلید اصلی ورودی تابلوی برق عکس می گیرد تا بعداً آنها را با نشانگرهای نمودار تک خطی در نسخه های کاغذی و الکترونیکی مقایسه کند. در یکی از ماشین ها، QF-3، نشانگر با نمودار کاغذی مطابقت نداشت و ما یک امتیاز جریمه گرفتیم. اکنون دو مهندس بررسی خواهند کرد که آیا علامت گذاری در نمودارهای تک خطی با واقعیت مطابقت دارد یا خیر.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

این تمام چیزی نیست که حسابرسان از نظر فرآیندهای خدماتی بررسی کردند. موارد دیگری در دستور کار به شرح زیر است:

  • سیستم نظارت. در اینجا ما مزایای کارما را با تجسم خوب، وجود یک برنامه تلفن همراه و صفحه های موقعیتی قرار داده شده در راهروهای مراکز داده به دست آوردیم. در اینجا به طور مفصل در مورد نحوه کار خود نوشتیم نظارت بر.

    و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
    این MCC با اطلاعات بصری در مورد وضعیت سیستم های مهندسی اصلی NORD-4 و سایر مراکز داده ما که در سایت کار می کنند است.

  • برنامه ریزی چرخه عمر تجهیزات مهندسی؛
  • مدیریت ظرفیت (مدیریت ظرفیت);
  • بودجه بندی (کمی صحبت کرد اینجا);
  • روش تجزیه و تحلیل تصادف؛
  • فرآیند پذیرش، راه اندازی و آزمایش تجهیزات (ما در مورد آزمایشات نوشتیم اینجا).

رابط کاربری به چه چیز دیگری نگاه می کرد؟

امنیت و کنترل دسترسی. ممیزی همچنین عملکرد سیستم های ایمنی و امنیتی را بررسی می کند. به عنوان مثال، حسابرس سعی کرد وارد یکی از محل هایی شود که در آن دسترسی نداشت، و سپس بررسی کرد که آیا این در سیستم کنترل دسترسی منعکس شده است و آیا امنیت در این مورد اطلاع داده شده است (اسپویلر - این بود).

اگر در مراکز داده ما درب هر اتاقی بیش از دو دقیقه باز بماند، در پست امنیتی یک هشدار ایجاد می شود. برای آزمایش این موضوع، حسابرسان یکی از درها را با یک کپسول آتش نشانی باز کردند. درست است، ما هرگز آژیر دریافت نکردیم - امنیتی از طریق دوربین های ویدئویی مشکلی را مشاهده کرد و زودتر به "محل جنایت" رسید.

نظم و نظافت. حسابرسان به دنبال گرد و غبار، جعبه‌های تجهیزاتی هستند که به‌طور آشفته در اطراف قرار گرفته‌اند، و هر چند وقت یک‌بار محل‌ها تمیز می‌شوند. در اینجا، برای مثال، حسابرسان به یک شی ناشناس در راهرو تهویه علاقه مند شدند. این یک بلوک از سیستم تهویه است که از قبل آماده می شد تا جای خود را بگیرد. اما باز هم از من خواستند که امضا کنم.

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

همچنین در مورد موضوع سفارش در مرکز داده - این کابینت ها با تمام ابزار لازم برای کارهای اضطراری روی تجهیزات در اتاق اصلی تابلو قرار دارند. 

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

محل سکونت مرکز داده بر اساس شرایط مکان ارزیابی می‌شود - آیا پایگاه‌های نظامی، فرودگاه‌ها، رودخانه‌ها، آتشفشان‌ها و سایر اشیاء خطرناک در این نزدیکی وجود دارد یا خیر. در عکس فقط نشان می دهیم که از زمان آخرین گواهینامه در سال 2017، هیچ نیروگاه هسته ای یا تأسیسات ذخیره نفت در اطراف مرکز داده رشد نکرده است. اما در آنجا یک مرکز داده جدید NORD-5 در حال ساخت است که همچنین باید تمام سطوح گواهینامه Tier III موسسه Uptime را بگذراند. اما این یک داستان کاملا متفاوت است).

و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم

منبع: www.habr.com

اضافه کردن نظر