ProHoster > وبلاگ > اداره > و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
و نشان دهید، یا چگونه حسابرسی پایداری عملیاتی را در مؤسسه Uptime پشت سر گذاشتیم
رئیس بخش عملیات برای نشان دادن علائم روی شیر برقی به داخل دریچه تأسیسات ذخیره سوخت زیرزمینی رفت.
در اوایل فوریه، بزرگترین مرکز داده Tier III ما NORD-4 توسط مؤسسه Uptime (UI) به استاندارد پایداری عملیاتی تأیید شده است. امروز به شما خواهیم گفت که حسابرسان به چه چیزی نگاه می کنند و با چه نتایجی به پایان رسیدیم.
برای کسانی که با مراکز داده آشنا هستند، اجازه دهید به طور خلاصه به سخت افزار بپردازیم. استانداردهای ردیف مراکز داده را در سه مرحله ارزیابی و تایید می کند:
پروژه (طراحی): بسته مستندات پروژه بررسی می شود.در اینجا معروف است درجه. در مجموع 4 مورد وجود دارد: ردیف I–IV. بر این اساس دومی بالاترین است.
تاسیسات ساخته شده (Facility): زیرساخت های مهندسی مرکز داده بررسی می شود و مطابقت آن با پروژه انجام می شود. مرکز داده تحت بار طراحی کامل با استفاده از انواع آزمایشات با محتوای تقریباً زیر بررسی می شود: یکی از UPS ها (DGS، چیلرها، تهویه مطبوع دقیق، کابینت های توزیع، شینه ها و غیره) برای نگهداری یا تعمیر از سرویس خارج می شود. و برق شهر قطع می شود. مراکز داده سطح III و بالاتر باید بتوانند بدون هیچ تاثیری بر بار IT وضعیت را مدیریت کنند.
اگر مرکز داده قبلاً گواهی طراحی را گذرانده باشد، می توان از تسهیلات استفاده کرد.
NORD-4 گواهی طراحی خود را در سال 2015 و Facility در سال 2016 دریافت کرد.
پایداری عملیاتی در واقع مهمترین و پیچیده ترین گواهینامه است. این به طور جامع فرآیندها و شایستگیهای یک اپراتور را در نگهداری و مدیریت یک مرکز داده با یک سطح تعیینشده ارزیابی میکند (برای گذراندن پایداری عملیاتی، باید قبلاً یک گواهی تسهیلات داشته باشید). از این گذشته، بدون فرآیندهای عملیاتی با ساختار مناسب و یک تیم واجد شرایط، حتی یک مرکز داده Tier IV می تواند به یک ساختمان بی فایده با تجهیزات بسیار گران قیمت تبدیل شود.
سطوح نیز در اینجا وجود دارد: برنز، نقره و طلا. در آخرین گواهینامه مجدد ما با امتیاز 88,95 از 100 امتیاز ممکن به پایان رسیدیم و این نقره است. فقط کمتر از طلا - 1,05 امتیاز.
چگونه می توان بررسی کرد که فرآیندهای لازم ساخته شده اند و همانطور که باید کار می کنند؟ علاوه بر این، نحوه انجام آن در دو روز - این مدت زمان لازم برای صدور گواهینامه مجدد است. به طور خلاصه، صدور گواهینامه مبتنی بر یک مقایسه پر زحمت از آنچه در مقررات نوشته شده است، داستان های "چگونه همه چیز کار می کند" و شیوه های واقعی است. اطلاعات مربوط به دومی از طریق بازدید از مرکز داده و گفتگو با مهندسان مرکز داده به دست می آید - همانطور که ما با محبت آنها را "مقابله" می نامیم. این چیزی است که آنها به آن نگاه می کنند.
تیم
اول از همه، حسابرسان UI بررسی می کنند که آیا مرکز داده کارکنان پشتیبانی کافی دارد یا خیر. آنها جدول پرسنل، برنامه وظایف را می گیرند و به طور انتخابی آن را با گزارش های شیفت کاری و داده های کنترل دسترسی بررسی می کنند تا مطمئن شوند که تعداد مورد نیاز مهندسان واقعاً در آن روز در محل بوده اند.
حسابرسان همچنین به تعداد ساعات اضافه کاری دقت می کنند. این گاهی اوقات زمانی اتفاق میافتد که یک کلاینت بزرگ وارد میشود و دهها رک باید همزمان نصب شوند. در چنین لحظاتی، بچه های شیفت های دیگر به کمک می آیند و برای این کار پول اضافی به آنها پرداخت می شود.
4 مهندس در هر شیفت روی NORD-7 کار می کنند: 6 نفر در وظیفه و یک مهندس ارشد. اینها کسانی هستند که نظارت 24x7 را نظارت می کنند، با مشتریان ملاقات می کنند، به نصب تجهیزات و سایر درخواست های معمول کمک می کنند. این اولین خط پشتیبانی فنی مشتری است. مسئولیت آنها شامل ثبت شرایط اضطراری و رساندن آنها به مهندسان متخصص است. کار زیرساخت های مهندسی توسط افراد فردی - افسران وظیفه زیرساخت نظارت می شود. همچنین 24x7.
مدیر تولید و مدیر سایت NORD به حسابرسان می گوید که در حال حاضر چند نفر در سایت کار می کنند.
وقتی اعداد مرتب می شوند، شرایط تیم بررسی می شود. ممیزان به طور تصادفی پرونده های پرسنل مهندسان را بررسی می کنند تا اطمینان حاصل کنند که آنها مدارک، گواهینامه ها و مدارک مجوز لازم (به عنوان مثال، گواهینامه های ایمنی الکتریکی) را برای کار در یک موقعیت خاص دارند.
آنها همچنین بررسی می کنند که چگونه کارکنان خود را آموزش می دهیم. حتی در آخرین ممیزی، سیستم ما برای آموزش مهندسان وظیفه جدید متخصصان UI را تحت تأثیر قرار داد. ما سه ماه برای آنها وقت می گذاریم دوره آموزشی به عنوان یک کارآموزی با حقوق، که طی آن ما آنها را با فرآیندها و اصول کار در مرکز داده خود آشنا می کنیم.
مهندسانی که قبلاً مشغول به کار هستند نیز باید آموزش های منظمی را از جمله کار در شرایط اضطراری ببینند. ممیزان قطعا برنامه ها و مواد آموزشی این گونه آموزش ها را بررسی می کنند و مهندسان را نیز به صورت تصادفی بررسی می کنند. از هیچکس خواسته نمیشود که به مجموعه دیزل ژنراتور سوئیچ کند، اما از آنها خواسته میشود که قدم به قدم به شما بگویند وقتی منبع برق شهری خاموش است چه کاری باید انجام دهید. بر اساس نتایج ممیزی، ما همه برنامه های آموزشی و آموزشی را به یک استاندارد واحد خواهیم رساند تا برای تیم های مختلف تفاوتی نداشته باشد.
ما اتاق استراحت برای مهندسان شیفت را به حسابرسان نشان می دهیم.
بهره برداری و نگهداری سیستم های مهندسی
در این بخش بزرگ از حسابرسی، نشان میدهیم که کلیه تجهیزات و سیستمهای مهندسی طبق برنامه زمانی توصیه شده توسط فروشندگان، تعمیر و نگهداری منظم را دریافت میکنند، انبار دارای قطعات یدکی لازم، قراردادهای خدمات معتبر با پیمانکاران است و هر عملیات با تجهیزات خاص خود را دارد. رویه ها و الگوریتم ها برای کار بر روی موارد مختلف.
فراپیام هنگامی که ده ها یو پی اس، مجموعه دیزل ژنراتور، تهویه مطبوع و موارد دیگر را کار می کنید، باید تمام اطلاعات مربوط به این تاسیسات را در جایی جمع آوری کنید. ما تقریباً پرونده زیر را برای هر قطعه از تجهیزات ایجاد می کنیم:
مدل و شماره سریال؛
علامت گذاری؛
مشخصات فنی و تنظیمات؛
محل نصب؛
تاریخ تولید، راه اندازی، انقضای گارانتی؛
قراردادهای خدمات؛
برنامه و تاریخچه تعمیر و نگهداری؛
و کل "تاریخچه پزشکی" - خرابی ها، تعمیرات.
نحوه و مکان جمع آوری تمام این اطلاعات به هر اپراتور مرکز داده بستگی دارد که خودش تصمیم بگیرد. UI در ابزارها محدود نیست. این می تواند یک اکسل ساده (ما با این شروع کردیم) یا یک سیستم مدیریت تعمیر و نگهداری (MMS) خود نوشته باشد، همانطور که اکنون داریم. راستی، میز خدمات، حسابداری انبار، ورود آنلاین، نظارت نیز به صورت خودنویس هستند.
چنین "پرونده شخصی" برای هر قطعه از تجهیزات وجود دارد.
ما اقدامات خود را در این زمینه نشان دادیم، از جمله با استفاده از مثال این UPS زیرساخت (تصویر)، که یکی از قطعات خود را به UPS ارائه دهنده بار IT اهدا کرد. بله، طبق استاندارد، چنین "اهدا" فقط می تواند توسط تجهیزات زیرساختی انجام شود که تهویه مطبوع و روشنایی اضطراری را تامین می کند، اما نه بار IT.
پس از آن، حسابرسان درخواست کردند که بلیط مربوطه را در میز خدمات نشان دهند:
و مشخصات UPS در MMS:
قطعات یدکی برای تعمیر و نگهداری به موقع و تعمیرات اضطراری تجهیزات مهندسی، ما قطعات یدکی و لوازم جانبی خود را نگه می داریم. یک انبار عمومی با قطعات یدکی بزرگ برای تجهیزات و کابینت های کوچک با قطعات یدکی در اتاق های مهندسی وجود دارد (به طوری که شما مجبور به دویدن دور نباشید).
در عکس: ما در حال بررسی در دسترس بودن قطعات یدکی برای مجموعه دیزل ژنراتور هستیم. 12 فیلتر شمردیم. سپس داده های موجود در MMS را بررسی کردیم.
تمرین مشابهی در انبار اصلی انجام شد، جایی که قطعات یدکی بزرگ ذخیره می شود: کمپرسورها، کنترلرها، اتوماسیون، فن ها، مرطوب کننده های بخار و صدها مورد دیگر. ما بهطور انتخابی علامتها را بازنویسی کردیم و آنها را از طریق MMS «پانچ» کردیم.
داده های موجودی قطعات یدکی قرمز - این چیزی است که گم شده و باید خریداری شود.
نگهداری پیشگیرانه علاوه بر نگهداری و تعمیرات، UI انجام تعمیرات پیشگیرانه را توصیه می کند. این کمک می کند تا یک حادثه بالقوه به یک تعمیر برنامه ریزی شده تبدیل شود. برای هر پارامتر، مقادیر آستانه را در مانیتورینگ پیکربندی می کنیم. در صورت تجاوز به آنها، مسئولین هشدار دریافت می کنند و اقدامات لازم را انجام می دهند. به عنوان مثال، ما:
ما تابلوهای برق را با یک تصویرگر حرارتی بررسی می کنیم تا به سرعت عیوب تاسیسات الکتریکی را تشخیص دهیم: تماس ضعیف، گرمای بیش از حد موضعی هادی یا قطع کننده مدار.
ما نشانگرهای ارتعاش و مصرف فعلی پمپ های سیستم تبرید را نظارت می کنیم. این به شما امکان می دهد انحرافات را در زمان شناسایی کنید و بدون عجله برای تعویض قطعات برنامه ریزی کنید.
ما آنالیز سوخت و روغن مجموعه ها و کمپرسورهای دیزل ژنراتور را انجام می دهیم.
ما گلیکول را در سیستم تبرید برای غلظت آزمایش می کنیم.
نمودار ارتعاش پمپ قبل و بعد از تعمیر.
کار با پیمانکاران. تعمیر و نگهداری تجهیزات توسط پیمانکاران خارجی انجام می شود. در سمت ما، متخصصان جداگانه ای در مجموعه دیزل ژنراتور، تهویه مطبوع و یو پی اس وجود دارند که عملکرد آنها را کنترل می کنند. آنها بررسی می کنند که آیا پیمانکاران ابزار و مواد لازم برای تعمیر / نگهداری، گواهینامه های حرفه ای، گواهینامه های ایمنی الکتریکی و مجوزها را دارند یا خیر. همه کارها را قبول می کنند.
چک لیست پذیرش کار تعمیر و نگهداری کولر گازی به این صورت است.
در اداره پاس، بررسی می کنیم که آیا مجوزها برای نمایندگان مجاز پیمانکاران صادر شده است یا خیر، آیا در زمان مشخص شده تحت تعمیر و نگهداری قرار گرفته اند و آیا قوانین را خوانده اند یا خیر.
مستندات. فرآیندهای ایجاد شده برای نگهداری سیستم ها و تجهیزات نیمی از کار است. تمام مراحل انجام شده توسط انسان در مرکز داده باید مستند باشد. هدف از این کار ساده است: به طوری که همه چیز محدود به یک فرد خاص نیست و در صورت بروز حادثه، هر مهندس می تواند دستورالعمل های روشنی را اتخاذ کند و تمام عملیات لازم را برای از بین بردن آن انجام دهد.
UI روش خاص خود را برای چنین اسنادی دارد.
برای فعالیت های ساده و تکراری، رویه های عملیاتی استاندارد (SOP) ایجاد شده است. برای مثال، SOPهایی برای روشن/خاموش کردن چیلر و تنظیم UPS برای دور زدن وجود دارد.
برای تعمیر و نگهداری یا عملیات پیچیده، مانند تعویض باتری ها در یک UPS، روش های تعمیر و نگهداری (روش ها، MOP) ایجاد می شود. اینها ممکن است شامل SOPها باشند. هر نوع تجهیزات مهندسی باید MOP های مخصوص به خود را داشته باشد.
در نهایت، روشهای عملیاتی اضطراری (EOPs) وجود دارد - دستورالعملهایی در مواقع اضطراری. فهرستی از موقعیت های اضطراری خاص تهیه شده و دستورالعمل هایی برای آنها نوشته شده است. در اینجا بخشی از لیست موقعیت های اضطراری آمده است که علائم حادثه، اقدامات، افراد مسئول و افرادی که باید به آنها اطلاع دهند را به تفصیل بیان می کند:
خاموش شدن منبع تغذیه شهری: مجموعه دیزل ژنراتور شروع به کار کرد / شروع نشد.
تصادفات یو پی اس؛
حوادث در سیستم نظارت مرکز داده؛
گرمای بیش از حد اتاق ماشین؛
نشت سیستم تبرید؛
خرابی در شبکه و تجهیزات محاسباتی؛
و غیره
گردآوری چنین حجمی از اسناد به خودی خود یک کار پر زحمت است. به روز نگه داشتن آن حتی دشوارتر است (به هر حال، حسابرسان نیز این را بررسی می کنند). و مهمتر از همه، کارکنان باید این دستورالعمل ها را بدانند، بر اساس آنها کار کنند و در صورت لزوم اصلاحاتی را انجام دهند.
بله، دستورالعمل ها باید در جایی که ممکن است مورد نیاز باشد در دسترس باشد، نه فقط گرد و غبار در بایگانی ها جمع آوری شود.
نکاتی در مورد تغییرات در مقررات نگهداری سیستم های مهندسی مرکز داده.
در طول ممیزی، آنها همچنین به مستندات فنی سیستم ها، اسناد اجرایی و کاری و اقدامات راه اندازی سیستم ها نگاه می کنند.
علامت گذاری در حالی که در اطراف مرکز داده قدم می زدند، هر کجا که می توانستند آن را بررسی می کردند. به جایی که نمی توانستند برسند، از یک نردبان رسیدند :). ما به وجود آن در هر تابلو، ماشین و شیر نگاه کردیم. ما منحصر به فرد بودن، عدم ابهام و انطباق با طرح های فعلی اسناد ساخته شده را بررسی کردیم. در عکس زیر: ما در اتاق پمپ ذخیره سوخت هستیم و علائم روی شیرهای برقی را با نمودار اسناد ساخته شده مقایسه می کنیم.
همه چیز با او موافق بود ، اما با نمودار آکسونومتری "تزیینی" محلی روی دیوار در یک پارامتر مطابقت نداشت.
نمودارهای سیستم های مستقر در آنجا نیز باید در محل مرکز داده ارسال شود. در صورت بروز حادثه، آنها به شما کمک می کنند تا به سرعت بفهمید همه چیز کجاست و تصمیمی آگاهانه بگیرید. به عنوان مثال، عکس یک نمودار تک خطی را در اتاق اصلی تابلو نشان می دهد.
ارتباط نمودارها به روش زیر بررسی شد: آنها علامت عنصر روی نمودار را نامگذاری کردند و از آنها خواستند که آن را "در زندگی واقعی" نشان دهند.
اینجاست که حسابرس از تنظیمات (تنظیمات) کلید اصلی ورودی تابلوی برق عکس می گیرد تا بعداً آنها را با نشانگرهای نمودار تک خطی در نسخه های کاغذی و الکترونیکی مقایسه کند. در یکی از ماشین ها، QF-3، نشانگر با نمودار کاغذی مطابقت نداشت و ما یک امتیاز جریمه گرفتیم. اکنون دو مهندس بررسی خواهند کرد که آیا علامت گذاری در نمودارهای تک خطی با واقعیت مطابقت دارد یا خیر.
این تمام چیزی نیست که حسابرسان از نظر فرآیندهای خدماتی بررسی کردند. موارد دیگری در دستور کار به شرح زیر است:
سیستم نظارت. در اینجا ما مزایای کارما را با تجسم خوب، وجود یک برنامه تلفن همراه و صفحه های موقعیتی قرار داده شده در راهروهای مراکز داده به دست آوردیم. در اینجا به طور مفصل در مورد نحوه کار خود نوشتیم نظارت بر.
این MCC با اطلاعات بصری در مورد وضعیت سیستم های مهندسی اصلی NORD-4 و سایر مراکز داده ما که در سایت کار می کنند است.
فرآیند پذیرش، راه اندازی و آزمایش تجهیزات (ما در مورد آزمایشات نوشتیم اینجا).
رابط کاربری به چه چیز دیگری نگاه می کرد؟
امنیت و کنترل دسترسی. ممیزی همچنین عملکرد سیستم های ایمنی و امنیتی را بررسی می کند. به عنوان مثال، حسابرس سعی کرد وارد یکی از محل هایی شود که در آن دسترسی نداشت، و سپس بررسی کرد که آیا این در سیستم کنترل دسترسی منعکس شده است و آیا امنیت در این مورد اطلاع داده شده است (اسپویلر - این بود).
اگر در مراکز داده ما درب هر اتاقی بیش از دو دقیقه باز بماند، در پست امنیتی یک هشدار ایجاد می شود. برای آزمایش این موضوع، حسابرسان یکی از درها را با یک کپسول آتش نشانی باز کردند. درست است، ما هرگز آژیر دریافت نکردیم - امنیتی از طریق دوربین های ویدئویی مشکلی را مشاهده کرد و زودتر به "محل جنایت" رسید.
نظم و نظافت. حسابرسان به دنبال گرد و غبار، جعبههای تجهیزاتی هستند که بهطور آشفته در اطراف قرار گرفتهاند، و هر چند وقت یکبار محلها تمیز میشوند. در اینجا، برای مثال، حسابرسان به یک شی ناشناس در راهرو تهویه علاقه مند شدند. این یک بلوک از سیستم تهویه است که از قبل آماده می شد تا جای خود را بگیرد. اما باز هم از من خواستند که امضا کنم.
همچنین در مورد موضوع سفارش در مرکز داده - این کابینت ها با تمام ابزار لازم برای کارهای اضطراری روی تجهیزات در اتاق اصلی تابلو قرار دارند.
محل سکونت مرکز داده بر اساس شرایط مکان ارزیابی میشود - آیا پایگاههای نظامی، فرودگاهها، رودخانهها، آتشفشانها و سایر اشیاء خطرناک در این نزدیکی وجود دارد یا خیر. در عکس فقط نشان می دهیم که از زمان آخرین گواهینامه در سال 2017، هیچ نیروگاه هسته ای یا تأسیسات ذخیره نفت در اطراف مرکز داده رشد نکرده است. اما در آنجا یک مرکز داده جدید NORD-5 در حال ساخت است که همچنین باید تمام سطوح گواهینامه Tier III موسسه Uptime را بگذراند. اما این یک داستان کاملا متفاوت است).