إعداد DRP - لا تنس أن تأخذ في الاعتبار النيزك

إعداد DRP - لا تنس أن تأخذ في الاعتبار النيزك
حتى أثناء وقوع الكارثة ، هناك دائمًا وقت لتناول فنجان من الشاي.

DRP (خطة التعافي من الكوارث) شيء مثالي لن تكون هناك حاجة إليه أبدًا. ولكن إذا هاجر القنادس فجأة خلال موسم التزاوج من خلال الألياف الضوئية الرئيسية أو قام مسؤول مبتدئ بإسقاط قاعدة إنتاجية ، فأنت بالتأكيد تريد أن تتأكد من أنه سيكون لديك خطة مسبقة الصنع لما يجب القيام به مع كل هذا العار.

بينما يبدأ العملاء المذعورون في الاتصال بالدعم الفني ، يبحث أحد المبتدئين عن السيانيد ، تفتح الظرف الأحمر بحكمة وتبدأ في ترتيب كل شيء.

في هذا المنشور ، أرغب في مشاركة التوصيات حول كيفية كتابة DRP وما يجب أن يحتوي عليه. سننظر أيضًا في ما يلي:

  1. تعلم أن تفكر مثل الشرير.
  2. دعنا نحلل فوائد كوب الشاي خلال نهاية العالم.
  3. فكر في بنية DRP ملائمة
  4. دعونا نرى كيفية اختباره

ما الشركات التي قد تستفيد من هذا؟

من الصعب جدًا رسم خط عندما يبدأ قسم تكنولوجيا المعلومات في الحاجة إلى هذه الأشياء. أود أن أقول إنك تضمن أنك بحاجة إلى DRP إذا:

  • سيؤدي إيقاف خادم أو تطبيق أو فقدان بعض قواعد البيانات إلى خسائر كبيرة للشركة ككل.
  • لديك قسم كامل لتكنولوجيا المعلومات. أعني ، قسم كوحدة كاملة للشركة ، بميزانيته الخاصة ، وليس مجرد عدد قليل من الموظفين المتعبين الذين يقومون بإنشاء شبكة وتنظيف الفيروسات وإعادة تعبئة الطابعات.
  • لديك ميزانية واقعية للتكرار الجزئي على الأقل في حالة الطوارئ.

عندما يطلب قسم تكنولوجيا المعلومات ما لا يقل عن اثنين من محركات الأقراص الصلبة لخادم قديم للنسخ الاحتياطي لعدة أشهر ، فمن غير المحتمل أن تكون قادرًا على تنظيم نقل كامل للخدمة المنهارة إلى سعات احتياطية. على الرغم من أن التوثيق لن يكون ضروريًا هنا أيضًا.

التوثيق مهم

ابدأ بالوثائق. لنفترض أن خدمتك تعمل على نص برل تمت كتابته قبل ثلاثة أجيال من المسؤولين ، ولا أحد يعرف كيف يعمل. الديون التقنية المتراكمة وعدم وجود وثائق سوف تصيبك حتما ليس فقط في الركبة ، ولكن أيضًا في أطراف أخرى ، إنها بالأحرى مسألة وقت.

بمجرد أن يكون لديك وصف جيد لمكونات الخدمة في متناول اليد ، قم برفع إحصائيات الأعطال. يكاد يكون من المؤكد أنها ستكون نموذجية تمامًا. على سبيل المثال ، لديك قرص ممتلئ من وقت لآخر ، مما يؤدي إلى فشل العقدة حتى يتم تنظيفها يدويًا. أو تصبح خدمة العملاء غير متاحة بسبب حقيقة أن شخصًا ما نسي تجديد الشهادة مرة أخرى ، لكنه لم يستطع أو لم يرغب في إعداد Let's Encrypt.

أفكار مثل المخرب

يتمثل الجزء الأصعب في توقع تلك الحوادث التي لم تحدث من قبل ، ولكنها قد تؤدي إلى تدمير خدمتك تمامًا. هنا عادة نلعب دور الأشرار مع الزملاء. خذ الكثير من القهوة وشيء لذيذ وأغلق نفسك في غرفة الاجتماعات. فقط تأكد من أنك في نفس الاجتماع قد أغلقت المهندسين الذين رفعوا الخدمة المستهدفة بأنفسهم أو يعملون معها بانتظام. بعد ذلك ، سواء على السبورة أو على الورق ، تبدأ في رسم كل الأهوال المحتملة التي يمكن أن تحدث لخدمتك. ليس من الضروري تقديم التفاصيل إلى عاملة تنظيف معينة وسحب الكابلات ، يكفي النظر في سيناريو "انتهاك سلامة الشبكة المحلية".

عادة ، تتناسب حالات الطوارئ الأكثر شيوعًا مع الأنواع التالية:

  • فشل في الشبكة
  • فشل خدمة نظام التشغيل
  • فشل التطبيق
  • فشل الحديد
  • فشل المحاكاة الافتراضية

ما عليك سوى استعراض كل عرض ومعرفة ما ينطبق على خدمتك. على سبيل المثال ، قد ينخفض ​​برنامج Nginx الخفي ولا يرتفع - وهذا فشل من جانب نظام التشغيل. هناك موقف نادر يدفع تطبيق الويب الخاص بك إلى حالة عدم العمل وهو فشل البرنامج. أثناء تطور هذه المرحلة ، من المهم العمل على تشخيص المشكلة. كيفية التمييز بين الواجهة المعلقة في المحاكاة الافتراضية وبين سقوط سيسكو وانهيار الشبكة ، على سبيل المثال. هذا مهم للعثور بسرعة على المسؤولين والبدء في سحب ذيلهم حتى يتم إصلاح الحادث.

بعد تدوين المشكلات النموذجية ، نسكب المزيد من القهوة ونبدأ في التفكير في أغرب السيناريوهات ، عندما تبدأ بعض المعايير في تجاوز القاعدة. على سبيل المثال:

  • ماذا يحدث إذا تحرك الوقت على العقدة النشطة للوراء دقيقة واحدة بالنسبة للآخرين في الكتلة؟
  • وإذا مضى الوقت إلى الأمام ، وإذا كان بمقدار 10 سنوات؟
  • ماذا يحدث إذا فقدت العقدة العنقودية الشبكة فجأة أثناء المزامنة؟
  • وماذا يحدث إذا لم تشترك عقدتان في القيادة بسبب العزلة المؤقتة لبعضهما البعض عبر الشبكة؟

في هذه المرحلة ، يساعد النهج العكسي كثيرًا. خذ أكثر أعضاء الفريق عنادًا بخيال مريض وامنحه مهمة ترتيب التحويل في أقصر وقت ممكن ، مما سيؤدي إلى توقف الخدمة. إذا كان من الصعب التشخيص ، فهذا أفضل. لن تصدق الأفكار الغريبة والرائعة التي يبتكرها المهندسون عند إعطائهم فكرة كسر شيء ما. وإذا وعدتهم بموقف اختبار لهذا ، فهذا جيد جدًا.

ما هو هذا DRP لك ؟!

إذاً لقد حددت نموذج التهديد. كما أخذوا في الاعتبار السكان المحليين الذين قطعوا كابلات الألياف الضوئية بحثًا عن النحاس ، ورادارًا عسكريًا يسقط خط ترحيل لاسلكي بدقة يوم الجمعة الساعة 16:46. الآن نحن بحاجة إلى معرفة ما يجب فعله بكل ذلك.

مهمتك هي كتابة نفس المظاريف الحمراء التي سيتم فتحها في حالة الطوارئ. توقع على الفور أنه عندما (ليس إذا!) يتم إفساد كل شيء ، فقط المتدرب الأقل خبرة سيكون في الجوار ، والذي ستهتز يداه بعنف من رعب ما يحدث. شاهد كيف يتم تنفيذ علامات الطوارئ في المكاتب الطبية. على سبيل المثال ، ما يجب القيام به مع صدمة الحساسية. يعرف الطاقم الطبي جميع البروتوكولات عن ظهر قلب ، ولكن عندما يبدأ شخص قريب في الموت ، غالبًا ما يمسك الجميع بلا حول ولا قوة في كل شيء. للقيام بذلك ، يتم تعليق تعليمات واضحة على الحائط بأشياء مثل "افتح عبوة كذا وكذا" و "حقن الكثير من وحدات الدواء عن طريق الوريد".

من الصعب التفكير في حالة الطوارئ! يجب أن تكون هناك تعليمات بسيطة لتحليل العمود الفقري.

يتكون DRP الجيد من بضع كتل بسيطة:

  1. من يخطر ببداية الحادث. هذا مهم من أجل موازنة عملية الاستبعاد قدر الإمكان.
  2. كيفية التشخيص بشكل صحيح - نتتبع ونبحث في اسم خدمة حالة systemctl وما إلى ذلك.
  3. كم من الوقت يمكن أن يقضيه في كل مرحلة. إذا لم يكن لديك الوقت لإصلاحها بيديك أثناء وقت اتفاقية مستوى الخدمة ، فسيتم قتل الجهاز الظاهري وإزالته من النسخة الاحتياطية بالأمس.
  4. كيفية التأكد من انتهاء العطل.

تذكر أن DRP يبدأ عندما تفشل الخدمة تمامًا ويكتمل عن طريق الاسترداد ، حتى مع انخفاض الكفاءة. يجب ألا يؤدي فقدان الحجز ببساطة إلى تنشيط DRP. يمكنك أيضًا وصف كوب من الشاي في DRP. بجد. وفقًا للإحصاءات ، تنتقل العديد من الحوادث من غير سارة إلى كارثية نظرًا لحقيقة أن الموظفين في حالة ذعر يندفعون لإصلاح شيء ما ، وفي نفس الوقت يقتلون العقدة الحية الوحيدة بالبيانات أو ينتهي بهم الأمر في النهاية من التجمع. كقاعدة عامة ، ستمنحك 5 دقائق لكوب من الشاي القليل من الوقت لتهدأ وتحلل ما يحدث.

لا تخلط بين DRP وجواز سفر النظام! لا تفرط في تحميله ببيانات غير ضرورية. ما عليك سوى إعطاء الفرصة للانتقال بسرعة وسهولة إلى القسم المطلوب من الوثائق عبر الارتباطات التشعبية والقراءة بتنسيق موسع حول الأقسام الضرورية لبنية الخدمة. وفي DRP نفسه ، لا توجد سوى إرشادات مباشرة حول مكان وكيفية الاتصال بأوامر محددة للنسخ واللصق.

كيف تختبر بشكل صحيح

تأكد من أن أي موظف مسؤول قادر على إكمال جميع العناصر. في اللحظة الأكثر أهمية ، قد يتضح أن المهندس ليس لديه حقوق الوصول إلى النظام المطلوب ، أو لا توجد كلمات مرور للحساب المطلوب ، أو ليس لديه أي فكرة عن "الاتصال بوحدة تحكم إدارة الخدمة من خلال وكيل في المكتب الرئيسي ". يجب أن يكون كل عنصر بسيطًا قدر الإمكان.

خاطئ - "انتقل إلى الظاهرية وأعد تشغيل العقدة الميتة"
حق - "اتصل عبر واجهة الويب بـ Virt.example.com ، في قسم العقدة ، أعد تحميل العقدة التي تسبب الخطأ."

تجنب الغموض. تذكر المتدرب الخائف.

تأكد من اختبار DRP. هذه ليست مجرد خطة للعرض - إنها شيء سيسمح لك ولعملائك بالخروج بسرعة من موقف حرج. من الأفضل القيام بذلك عدة مرات:

  • يعمل أحد الخبراء والعديد من المتدربين على منصة اختبار تقلد خدمة حقيقية قدر الإمكان. يقوم الخبير بتقسيم الخدمة بطرق مختلفة ويمكن المتدربين من استعادتها حسب DRP. يتم تسجيل جميع المشاكل والغموض في التوثيق والأخطاء. بعد تدريب المتدربين ، يتم استكمال وتبسيط DRP في أماكن غامضة.
  • اختبار على خدمة حقيقية. في الواقع ، لا يمكنك أبدًا إنشاء نسخة كاملة من خدمة حقيقية. لذلك ، من الضروري مرتين في السنة إيقاف تشغيل جزء من الخوادم على أساس مخطط ، وقطع الاتصالات وترتيب الحوادث الأخرى من قائمة التهديدات من أجل تقييم أمر الاسترداد. من الأفضل أن يكون لديك انقطاع مخطط لمدة 10 دقائق في منتصف الليل بدلاً من الفشل المفاجئ لعدة ساعات في ذروة التحميل مع فقدان البيانات.
  • القضاء الحقيقي على الحادث. نعم ، هذا أيضًا جزء من الاختبار. في حالة وقوع حادث لم يكن مدرجًا في قائمة التهديدات ، فمن الضروري استكمال وإنهاء DRP استنادًا إلى نتائج التحقيق.

النقاط الرئيسية

  1. إذا كان من الممكن حدوث هراء ، فلن يحدث ذلك فقط ، ولكنه سيفعل ذلك في أكثر السيناريوهات كارثية.
  2. تأكد من أن لديك الموارد اللازمة لتجاوز الفشل.
  3. تأكد من أن لديك نسخ احتياطية ، يتم إنشاؤها تلقائيًا والتحقق بانتظام من الاتساق.
  4. ضع في اعتبارك سيناريوهات التهديد النموذجية.
  5. امنح المهندسين الفرصة للتوصل إلى خيارات غير قياسية لوضع الخدمة.
  6. يجب أن يكون DRP تعليمات بسيطة وغبية. جميع التشخيصات المعقدة فقط بعد استعادة العملاء الخدمة. حتى لو كانت في وضع الاستعداد.
  7. سرد أرقام الهواتف الرئيسية وجهات الاتصال في DRP.
  8. اختبر الموظفين بانتظام لفهم DRP.
  9. ترتيب الحوادث المخطط لها على المنتج. لا يمكن للحوامل أن تحل محل كل شيء.

إعداد DRP - لا تنس أن تأخذ في الاعتبار النيزك

إعداد DRP - لا تنس أن تأخذ في الاعتبار النيزك

المصدر: www.habr.com

إضافة تعليق