وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
صعد رئيس قسم العمليات إلى فتحة مخزن الوقود تحت الأرض لإظهار العلامات الموجودة على صمام الملف اللولبي.

في أوائل شهر فبراير، كان أكبر مركز بيانات لدينا من المستوى الثالث نورد-4 تم إعادة اعتماده من قبل معهد Uptime (UI) وفقًا لمعايير الاستدامة التشغيلية. سنخبرك اليوم بما ينظر إليه المدققون وما هي النتائج التي انتهينا منها.

بالنسبة لأولئك الذين هم على دراية بمراكز البيانات، فلنتناول الأجهزة بإيجاز. معايير الطبقة يتم تقييم واعتماد مراكز البيانات على ثلاث مراحل:

  • المشروع (التصميم): يتم فحص حزمة وثائق المشروع هنا المعروفة الطبقة. هناك 4 منهم في المجموع: المستوى الأول إلى الرابع. وهذا الأخير، وفقا لذلك، هو الأعلى.
  • المنشأة المنشأة (المنشأة): يتم فحص البنية التحتية الهندسية لمركز البيانات ومدى مطابقتها للمشروع. يتم فحص مركز البيانات تحت حمل التصميم الكامل باستخدام مجموعة متنوعة من الاختبارات مع المحتوى التالي تقريبًا: يتم إخراج إحدى وحدات UPS (DGS، والمبردات، ومكيفات الهواء الدقيقة، وخزائن التوزيع، وقضبان التوصيل، وما إلى ذلك) من الخدمة للصيانة أو الإصلاح و انقطع التيار الكهربائي عن المدينة.. يجب أن تكون مراكز البيانات من المستوى III وما فوق قادرة على التعامل مع الموقف دون أي تأثير على حمولة تكنولوجيا المعلومات.

    يمكن الحصول على التسهيلات إذا كان مركز البيانات قد اجتاز بالفعل شهادة التصميم.
    حصل NORD-4 على شهادة التصميم في عام 2015، والمنشأة في عام 2016.

  • الاستدامة التشغيلية. في الواقع، الشهادة الأكثر أهمية وتعقيدا. إنه يقيم بشكل شامل العمليات والكفاءات الخاصة بالمشغل في صيانة وإدارة مركز البيانات بمستوى مستوى محدد (لاجتياز الاستدامة التشغيلية، يجب أن يكون لديك بالفعل شهادة منشأة). بعد كل شيء، بدون عمليات تشغيلية منظمة بشكل صحيح وفريق مؤهل، حتى مركز بيانات المستوى الرابع يمكن أن يتحول إلى مبنى عديم الفائدة بمعدات باهظة الثمن.

    هناك أيضًا مستويات هنا: البرونزية والفضية والذهبية. في عملية إعادة الاعتماد الأخيرة، حصلنا على درجة 88,95 من أصل 100 نقطة محتملة، وهذه هي الدرجة الفضية. لقد انخفض قليلاً عن الذهب - 1,05 نقطة. 

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

كيف يمكن التحقق من أن العمليات الضرورية مبنية وتعمل كما ينبغي؟ علاوة على ذلك، كيفية القيام بذلك في يومين - هذا هو الوقت الذي تستغرقه عملية إعادة الاعتماد. باختصار، تعتمد الشهادة على مقارنة مضنية لما هو مكتوب في اللوائح، وقصص "كيف يعمل كل شيء" والممارسات الحقيقية. يتم الحصول على المعلومات حول هذا الأخير من خلال جولات مركز البيانات والمحادثات مع مهندسي مركز البيانات - "المواجهات"، كما نسميها بمودة. هذا ما ينظرون إليه.

فريق

أولاً، يتحقق مدققو واجهة المستخدم مما إذا كان مركز البيانات لديه عدد كافٍ من موظفي الدعم. يأخذون جدول التوظيف وجدول المهام ويتحققون منه بشكل انتقائي من خلال تقارير الورديات وبيانات التحكم في الوصول للتأكد من أن العدد المطلوب من المهندسين كانوا موجودين بالفعل في الموقع في ذلك اليوم.

وينظر المدققون أيضًا عن كثب في عدد ساعات العمل الإضافي. يحدث هذا أحيانًا عندما يأتي عميل كبير ويلزم تثبيت عشرات الرفوف في نفس الوقت. في مثل هذه اللحظات، يأتي الرجال من التحولات الأخرى إلى الإنقاذ، ويتم دفع أموال إضافية لهم مقابل ذلك.

هناك 4 مهندسين يعملون على NORD-7 في كل وردية: 6 في الخدمة ومهندس واحد كبير. هؤلاء هم الأشخاص الذين يراقبون المراقبة على مدار 24 ساعة طوال أيام الأسبوع، ويلتقون بالعملاء، ويساعدون في تركيب المعدات والطلبات الروتينية الأخرى. هذا هو السطر الأول من الدعم الفني للعملاء. وتشمل مسؤولياتهم تسجيل حالات الطوارئ وتصعيدها إلى المهندسين المتخصصين. تتم مراقبة عمل البنية التحتية الهندسية من قبل الأفراد - ضباط البنية التحتية المناوبين. أيضا 7x24.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
يخبر مدير الإنتاج ومدير الموقع في NORD المدققين بعدد الأشخاص الذين يعملون في الموقع الآن.

عندما يتم فرز الأرقام، يتم التحقق من مؤهلات الفريق. يقوم المدققون بمراجعة ملفات موظفي المهندسين بشكل عشوائي للتأكد من حصولهم على الدبلومات والشهادات ووثائق الترخيص اللازمة (على سبيل المثال، شهادات السلامة الكهربائية) للعمل في منصب معين.

كما أنهم يتحققون من كيفية تدريب موظفينا. حتى أثناء المراجعة الأخيرة، أثار نظامنا لتدريب المهندسين الجدد إعجاب متخصصي واجهة المستخدم. نقضي ثلاثة أشهر لهم دورة تدريبية كتدريب مدفوع الأجر، نعرّفهم من خلاله على عمليات ومبادئ العمل في مركز البيانات لدينا.

ويجب على المهندسين العاملين بالفعل أن يخضعوا أيضًا لتدريب منتظم، بما في ذلك العمل في حالات الطوارئ. سيقوم المدققون بالتأكيد بفحص البرامج والمواد التدريبية لهذه الدورات التدريبية، وكذلك فحص المهندسين بشكل عشوائي. لن يُطلب من أحد التبديل إلى مجموعة مولدات الديزل، ولكن سيُطلب منهم إخبارك خطوة بخطوة بما يجب القيام به عند إيقاف تشغيل مصدر الطاقة بالمدينة. واستنادًا إلى نتائج التدقيق، سنجمع جميع برامج التدريب والتعليم في معيار واحد بحيث لا تختلف باختلاف الفرق.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
نعرض للمدققين غرفة الاستراحة لمهندسي الورديات.

تشغيل وصيانة الأنظمة الهندسية 

في هذا القسم الكبير من التدقيق، نبين أن جميع المعدات والأنظمة الهندسية تتلقى صيانة منتظمة وفقًا للجدول الزمني الموصى به من قبل البائعين، ويحتوي المستودع على قطع الغيار اللازمة، واتفاقيات خدمة سارية مع المقاولين، وكل عملية مع المعدات لها خاصيتها الإجراءات والخوارزميات للعمل في حالات مختلفة.

رسائل الوسائط المتعددة. عندما تقوم بتشغيل العشرات من وحدات UPS، ومجموعات مولدات الديزل، ومكيفات الهواء وأشياء أخرى، فإنك تحتاج إلى جمع كل المعلومات حول هذا المرفق في مكان ما. نقوم بإنشاء الملف التالي تقريبًا لكل قطعة من المعدات:

  • النموذج والرقم التسلسلي؛
  • العلامات؛
  • الخصائص والإعدادات التقنية؛
  • موقع التثبيت؛
  • مواعيد الإنتاج، والتكليف، وانتهاء الضمان؛
  • عقود الخدمة؛
  • جدول الصيانة والتاريخ؛
  • و"التاريخ الطبي" بأكمله - الأعطال والإصلاحات.

إن كيفية ومكان جمع كل هذه المعلومات متروك لكل مشغل مركز بيانات ليقرره بنفسه. واجهة المستخدم لا تقتصر على الأدوات. يمكن أن يكون هذا برنامج Excel بسيطًا (بدأنا بهذا) أو نظام إدارة الصيانة (MMS) المكتوب ذاتيًا، كما لدينا الآن. بالمناسبة، مكتب الخدماتومحاسبة المستودعات والسجل عبر الإنترنت والمراقبة مكتوبة ذاتيًا أيضًا.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
يوجد مثل هذا "الملف الشخصي" لكل قطعة من المعدات.

لقد أظهرنا ممارساتنا في هذا الصدد، بما في ذلك استخدام مثال UPS للبنية التحتية (في الصورة)، والتي تبرعت بأحد أجزائها إلى UPS التي تخدم حمل تكنولوجيا المعلومات. نعم، وفقًا للمعايير، لا يمكن تنفيذ هذا "التبرع" إلا من خلال معدات البنية التحتية التي تعمل على تشغيل مكيفات الهواء وإضاءة الطوارئ، ولكن ليس من خلال حمل تكنولوجيا المعلومات.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

بعد ذلك، طلب المدققون إبراز التذكرة المقابلة في مكتب الخدمة:

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

وملف تعريف UPS في رسائل الوسائط المتعددة:

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

APP. من أجل الصيانة في الوقت المناسب والإصلاحات الطارئة للمعدات الهندسية، فإننا نحتفظ بقطع الغيار والملحقات الخاصة بنا. يوجد مستودع عام به قطع غيار كبيرة للمعدات وخزائن صغيرة بها قطع غيار في غرف الهندسة (حتى لا تضطر إلى الركض بعيدًا).

في الصورة: نتحقق من توفر قطع الغيار لمجموعة مولدات الديزل. أحصينا 12 مرشحًا. ثم قمنا بفحص البيانات في رسالة الوسائط المتعددة.  

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

تم تنفيذ تمرين مماثل في المستودع الرئيسي، حيث يتم تخزين قطع غيار كبيرة: الضواغط، وأجهزة التحكم، والأتمتة، والمراوح، وأجهزة ترطيب البخار ومئات العناصر الأخرى. لقد قمنا بإعادة كتابة العلامات بشكل انتقائي و"ثقبها" عبر رسائل الوسائط المتعددة.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
بيانات مخزون قطع الغيار. أحمر - وهذا هو ما هو مفقود ويجب شراؤه.

الصيانة الوقائية. بالإضافة إلى الصيانة والإصلاحات، توصي واجهة المستخدم بإجراء الصيانة الوقائية. فهو يساعد على تحويل حادث محتمل إلى إصلاح مخطط له. لكل معلمة، نقوم بتكوين قيم العتبة في المراقبة. وفي حالة تجاوزها، يتلقى المسؤولون الإنذارات ويتخذون الإجراءات اللازمة. على سبيل المثال، نحن:

  • نقوم بفحص اللوحات الكهربائية باستخدام جهاز تصوير حراري من أجل اكتشاف العيوب في التركيبات الكهربائية بسرعة: ضعف الاتصال أو ارتفاع درجة حرارة الموصل أو قاطع الدائرة الكهربائية. 
  • نقوم بمراقبة مؤشرات الاهتزاز والاستهلاك الحالي لمضخات نظام التبريد. يتيح لك ذلك تحديد الانحرافات في الوقت المناسب والتخطيط لاستبدال قطع الغيار دون تسرع.
  • نقوم بتحليل الوقود والزيت لمجموعات مولدات الديزل والضواغط.
  • نقوم باختبار الجليكول في نظام التبريد للتركيز.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
مخطط اهتزاز المضخة قبل وبعد الإصلاح.

العمل مع المقاولين. يتم تنفيذ صيانة وإصلاح المعدات من قبل مقاولين خارجيين. من جانبنا، هناك متخصصون منفصلون في مجموعات مولدات الديزل، ومكيفات الهواء، وأجهزة UPS الذين يتحكمون في تشغيلها. يقومون بالتحقق مما إذا كان لدى المقاولين الأدوات والمواد اللازمة لأعمال الإصلاح/الصيانة والشهادات المهنية وشهادات السلامة الكهربائية والتصاريح. يقبلون كافة الأعمال.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
هذا ما تبدو عليه القائمة المرجعية لقبول أعمال صيانة مكيفات الهواء.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
في مكتب المرور، نتحقق مما إذا كان قد تم إصدار تصاريح المرور لممثلي المقاولين المعتمدين، وما إذا كانوا قد خضعوا للصيانة في الوقت المحدد وما إذا كانوا قد قرأوا القواعد.

توثيق. تمثل العمليات المعمول بها لصيانة الأنظمة والمعدات نصف المعركة. يجب توثيق كافة الإجراءات التي يقوم بها البشر في مركز البيانات. والغرض من ذلك بسيط: بحيث لا يقتصر كل شيء على شخص واحد محدد، وفي حالة وقوع حادث، يمكن لأي مهندس أن يأخذ تعليمات واضحة ويقوم بجميع العمليات اللازمة للقضاء عليه.

واجهة المستخدم لديها منهجيتها الخاصة لمثل هذه الوثائق.

بالنسبة للأنشطة البسيطة والمتكررة، يتم وضع إجراءات التشغيل القياسية (SOPs). على سبيل المثال، هناك إجراءات تشغيل موحدة لتشغيل/إيقاف تشغيل المبرد وضبط UPS على وضع التجاوز.

بالنسبة للصيانة أو العمليات المعقدة، مثل استبدال البطاريات في UPS، يتم إنشاء إجراءات الصيانة (طرق الإجراءات، MOPs). قد تشمل هذه الإجراءات التشغيلية الموحدة. يجب أن يكون لكل نوع من المعدات الهندسية MOPs الخاصة به.

وأخيرًا، هناك إجراءات التشغيل في حالات الطوارئ (EOPs)، وهي تعليمات في حالة الطوارئ. يتم تجميع قائمة بحالات الطوارئ المحددة وكتابة التعليمات لها. فيما يلي جزء من قائمة حالات الطوارئ، والتي توضح بالتفصيل علامات الحادث والإجراءات والأشخاص المسؤولين والأشخاص الذين يجب إخطارهم:

  • إيقاف تشغيل مصدر الطاقة بالمدينة: مجموعات مولدات الديزل تعمل/لم تبدأ؛
  • حوادث UPS؛ 
  • الحوادث على نظام مراقبة مركز البيانات؛
  • ارتفاع درجة حرارة غرفة الآلة.
  • تسرب نظام التبريد.
  • الفشل في معدات الشبكات والحوسبة؛

وهلم جرا.

يعد تجميع مثل هذا الحجم من الوثائق مهمة كثيفة العمالة في حد ذاتها. بل إن الحفاظ على تحديثه أكثر صعوبة (بالمناسبة، يقوم المدققون أيضًا بالتحقق من ذلك). والأهم من ذلك، يجب على الموظفين معرفة هذه التعليمات والعمل وفقًا لها وإجراء التحسينات إذا لزم الأمر.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
نعم، يجب أن تكون التعليمات متاحة حيثما تكون هناك حاجة إليها، وليس مجرد تراكم الغبار في الأرشيف.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
ملاحظات حول التغييرات في لوائح الصيانة للأنظمة الهندسية لمراكز البيانات.

أثناء التدقيق، يقومون أيضًا بالاطلاع على الوثائق الفنية الخاصة بالأنظمة، والوثائق التنفيذية ووثائق العمل، وأعمال تشغيل الأنظمة. 

الوسم. وأثناء تجولهم في مركز البيانات، قاموا بفحصه في كل مكان يمكنهم الوصول إليه. حيث لم يتمكنوا من الوصول، وصلوا من سلم :). لقد نظرنا إلى وجودها على كل لوحة مفاتيح وآلة وصمام. لقد تحققنا من التفرد وعدم الغموض والامتثال للمخططات الحالية للوثائق المضمنة. في الصورة أدناه: نحن في غرفة مضخة تخزين الوقود نقارن العلامات الموجودة على صمامات الملف اللولبي مع الرسم التخطيطي للوثائق المبنية. 

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

اتفق كل شيء معها، ولكن مع المخطط المحوري "الزخرفي" المحلي على الحائط في معلمة واحدة لم يتطابق.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

وينبغي أيضًا نشر الرسوم البيانية للأنظمة الموجودة هناك في مقر مركز البيانات. في حالة وقوع حادث، فإنها تساعدك على معرفة مكان كل شيء بسرعة واتخاذ قرار مستنير. تُظهر الصورة، على سبيل المثال، رسمًا تخطيطيًا من سطر واحد في غرفة لوحة المفاتيح الرئيسية.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

تم التحقق من أهمية المخططات بالطريقة التالية: قاموا بتسمية العنصر الذي تم وضع علامة عليه في المخطط وطلبوا إظهاره "في الحياة الواقعية". 

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

هذا هو المكان الذي يلتقط فيه المدقق صورًا فوتوغرافية للإعدادات (الإعدادات) لقاطع دائرة الإدخال الرئيسي للوحة المفاتيح، وذلك من أجل مقارنتها لاحقًا مع المؤشرات الموجودة على المخطط أحادي الخط في النسخ الورقية والإلكترونية. في إحدى الآلات، QF-3، لم يتطابق المؤشر مع الرسم التخطيطي الورقي، وحصلنا على نقطة جزاء. الآن سيتحقق مهندسان مما إذا كانت العلامات الموجودة في المخططات ذات الخط الواحد تتوافق مع الحقيقة.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

وهذا ليس كل ما فحصه المدققون من حيث عمليات الخدمة. إليك ما كان على جدول الأعمال أيضًا:

  • نظام مراقبة. لقد حصلنا هنا على فوائد الكارما من خلال التصور الجيد ووجود تطبيقات الهاتف المحمول والشاشات الظرفية الموضوعة في أروقة مراكز البيانات. لقد كتبنا هنا بالتفصيل عن كيفية عملنا رصد.

    وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime
    هذا هو مركز عملائي (MCC) الذي يحتوي على معلومات مرئية حول حالة الأنظمة الهندسية الرئيسية لـ NORD-4 ومراكز البيانات الأخرى العاملة في الموقع.

  • تخطيط دورة حياة المعدات الهندسية؛
  • إدارة القدرات (إدارة القدرات);
  • الميزانية (تحدث قليلا هنا);
  • إجراءات تحليل الحوادث؛
  • عملية قبول المعدات وتشغيلها واختبارها (كتبنا عن الاختبارات هنا).

ما الذي كانت تبحث عنه واجهة المستخدم أيضًا؟

الأمن والتحكم في الوصول. يتحقق التدقيق أيضًا من تشغيل أنظمة السلامة والأمن. على سبيل المثال، حاول المدقق الدخول إلى أحد المباني التي لم يتمكن من الوصول إليها، ثم تحقق مما إذا كان ذلك ينعكس في نظام التحكم في الوصول وما إذا كان قد تم إخطار الأمن بهذا (المفسد - كان).

إذا بقي باب أي غرفة في مراكز البيانات لدينا مفتوحًا لأكثر من دقيقتين، فسيتم إطلاق تنبيه في مركز الأمن. ولاختبار ذلك، قام المدققون بفتح أحد الأبواب بطفاية حريق. صحيح أننا لم نحصل على صفارات الإنذار مطلقًا - فقد رأى الأمن خطأ ما من خلال كاميرات الفيديو ووصل إلى "مسرح الجريمة" في وقت سابق.

النظام والنظافة. يبحث المدققون عن الغبار وصناديق المعدات المنتشرة بشكل فوضوي وعدد مرات تنظيف المبنى. هنا، على سبيل المثال، أصبح المدققون مهتمين بجسم مجهول في ممر التهوية. هذه كتلة من نظام التهوية الذي كان يستعد بالفعل ليحل محله. لكنهم ما زالوا يطلبون مني التوقيع.

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

أيضًا فيما يتعلق بموضوع الطلب في مركز البيانات - توجد هذه الخزانات التي تحتوي على جميع الأدوات اللازمة للعمل في حالات الطوارئ على المعدات في غرفة لوحة المفاتيح الرئيسية. 

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

الموقع. يتم تقييم مركز البيانات بناءً على ظروف الموقع - ما إذا كانت هناك قواعد عسكرية ومطارات وأنهار وبراكين وغيرها من الأشياء الخطرة القريبة. في الصورة نوضح أنه منذ آخر شهادة في عام 2017، لم تنمو أي محطات للطاقة النووية أو مرافق تخزين النفط حول مركز البيانات. ولكن هناك يتم إنشاء مركز بيانات NORD-5 جديد، والذي سيتعين عليه أيضًا اجتياز جميع مستويات شهادة Uptime Institute Tier III. لكن هذه قصة مختلفة تمامًا).

وإظهار كيف اجتزنا تدقيق الاستدامة التشغيلية في معهد Uptime

المصدر: www.habr.com

إضافة تعليق