محرك AERODISK: التعافي من الكوارث. الجزء 1

محرك AERODISK: التعافي من الكوارث. الجزء 1

مرحباً بقراء حبر! سيكون موضوع هذه المقالة هو تطبيق أدوات التعافي من الكوارث في أنظمة تخزين محرك AERODISK. في البداية أردنا أن نكتب في مقال واحد عن كلتا الأداتين: النسخ المتماثل والمتروكلاستر، لكن للأسف تبين أن المقال طويل جدًا، لذلك قسمنا المقال إلى جزأين. دعنا ننتقل من البسيط إلى المعقد. في هذه المقالة، سنقوم بإعداد واختبار النسخ المتماثل المتزامن - سنقوم بإسقاط مركز بيانات واحد، وسنقوم أيضًا بكسر قناة الاتصال بين مراكز البيانات ونرى ما سيحدث.

غالبًا ما يطرح علينا عملاؤنا أسئلة مختلفة حول النسخ المتماثل، لذا قبل الانتقال إلى إعداد واختبار تنفيذ النسخ المتماثلة، سنخبرك قليلاً عن ماهية النسخ المتماثل في التخزين.

بعض نظرية

يعد النسخ المتماثل في أنظمة التخزين عملية مستمرة لضمان هوية البيانات على العديد من أنظمة التخزين في وقت واحد. من الناحية الفنية، يتم النسخ المتماثل بطريقتين.

النسخ المتزامن – وهو نسخ البيانات من نظام التخزين الرئيسي إلى النظام الاحتياطي، يليه تأكيد إلزامي من كلا نظامي التخزين بأنه تم تسجيل البيانات وتأكيدها. وبعد التأكيد على كلا الجانبين (كلا نظامي التخزين) تعتبر البيانات مسجلة ويمكن التعامل معها. وهذا يضمن هوية البيانات المضمونة على كافة أنظمة التخزين المشاركة في النسخة المتماثلة.

مزايا هذه الطريقة:

  • البيانات متطابقة دائمًا في جميع أنظمة التخزين

سلبيات:

  • التكلفة العالية للحل (قنوات الاتصال السريعة، والألياف الضوئية باهظة الثمن، وأجهزة الإرسال والاستقبال ذات الموجات الطويلة، وما إلى ذلك)
  • قيود المسافة (ضمن عدة عشرات من الكيلومترات)
  • لا توجد حماية ضد تلف البيانات المنطقية (إذا كانت البيانات تالفة (عن عمد أو عن غير قصد) على نظام التخزين الرئيسي، فسوف تتلف تلقائيًا وعلى الفور على النظام الاحتياطي، نظرًا لأن البيانات متطابقة دائمًا (وهذه هي المفارقة)

النسخ المتماثل غير المتزامن – ويتم أيضًا نسخ البيانات من نظام التخزين الرئيسي إلى النظام الاحتياطي، ولكن مع تأخير معين ودون الحاجة إلى تأكيد الكتابة على الجانب الآخر. يمكنك العمل مع البيانات مباشرة بعد تسجيلها على نظام التخزين الرئيسي، وعلى نظام التخزين الاحتياطي ستكون البيانات متاحة بعد مرور بعض الوقت. هوية البيانات في هذه الحالة، بطبيعة الحال، ليست مضمونة على الإطلاق. البيانات الموجودة على نظام تخزين النسخ الاحتياطي تكون دائمًا "من الماضي" قليلًا.

إيجابيات النسخ المتماثل غير المتزامن:

  • حل منخفض التكلفة (أي قنوات اتصال، بصريات اختيارية)
  • لا قيود المسافة
  • في نظام تخزين النسخ الاحتياطي، لا تتدهور البيانات إذا تعرضت للتلف في النظام الرئيسي (على الأقل لبعض الوقت)؛ وإذا أصبحت البيانات تالفة، فيمكنك دائمًا إيقاف النسخة المتماثلة لمنع تلف البيانات في نظام تخزين النسخ الاحتياطي

سلبيات:

  • البيانات الموجودة في مراكز البيانات المختلفة ليست متطابقة دائمًا

وبالتالي، فإن اختيار وضع النسخ المتماثل يعتمد على أهداف العمل. إذا كان من المهم بالنسبة لك أن يحتوي مركز البيانات الاحتياطية على نفس البيانات تمامًا مثل مركز البيانات الرئيسي (أي متطلبات العمل لـ RPO = 0)، فسيتعين عليك التخلص من الأموال النقدية وتحمل قيود المزامنة نسخة مطابقة للأصل. وإذا كان التأخير في حالة البيانات مقبولا أو ببساطة لا يوجد أموال، فأنت بالتأكيد بحاجة إلى استخدام الطريقة غير المتزامنة.

دعونا أيضًا نسلط الضوء بشكل منفصل على مثل هذا الوضع (بتعبير أدق، الطوبولوجيا) باعتباره مجموعة مترو. في وضع المجموعة الكبرى، يتم استخدام النسخ المتماثل المتزامن، ولكن، على عكس النسخة المتماثلة العادية، تسمح الكتلة الكبرى لكلا نظامي التخزين بالعمل في الوضع النشط. أولئك. ليس لديك فصل بين مراكز البيانات النشطة والاحتياطية. تعمل التطبيقات في وقت واحد مع نظامي تخزين موجودين فعليًا في مراكز بيانات مختلفة. فترات التوقف أثناء الحوادث في مثل هذه الهيكل تكون صغيرة جدًا (RTO، عادةً دقائق). في هذه المقالة، لن نفكر في تنفيذنا للمترو، لأن هذا موضوع كبير للغاية ورحيب، لذلك سنخصص له مقالة منفصلة منفصلة، ​​\uXNUMXb\uXNUMXbاستمرارًا لهذا المقال.

أيضًا، في كثير من الأحيان، عندما نتحدث عن النسخ المتماثل باستخدام أنظمة التخزين، يكون لدى الكثير من الأشخاص سؤال معقول: > "العديد من التطبيقات لديها أدوات النسخ المتماثل الخاصة بها، لماذا نستخدم النسخ المتماثل على أنظمة التخزين؟" هل هو أفضل أو أسوأ؟

لا توجد إجابة واضحة هنا، لذا إليك الحجج المؤيدة والحجج:

وسائط النسخ المتماثل للتخزين:

  • بساطة الحل. باستخدام أداة واحدة، يمكنك نسخ مجموعة البيانات بأكملها، بغض النظر عن نوع التحميل والتطبيق. إذا كنت تستخدم نسخة متماثلة من التطبيقات، فسيتعين عليك تكوين كل تطبيق على حدة. إذا كان هناك أكثر من 2 منهم، فهذا يتطلب عمالة كثيفة ومكلفة للغاية (يتطلب النسخ المتماثل للتطبيق عادةً ترخيصًا منفصلاً وليس مجانيًا لكل تطبيق. ولكن المزيد عن ذلك أدناه).
  • يمكنك نسخ أي شيء - أي تطبيق، وأي بيانات - وسيكون دائمًا متسقًا. العديد من (معظم) التطبيقات لا تتمتع بقدرات النسخ المتماثل، والنسخ المتماثلة من نظام التخزين هي الطريقة الوحيدة لتوفير الحماية من الكوارث.
  • ليست هناك حاجة إلى دفع مبالغ زائدة مقابل وظيفة النسخ المتماثل للتطبيق. كقاعدة عامة، فهي ليست رخيصة، تمامًا مثل تراخيص النسخ المتماثلة لنظام التخزين. ولكن عليك أن تدفع مقابل ترخيص النسخ المتماثل للتخزين مرة واحدة، ويجب شراء ترخيص النسخ المتماثلة للتطبيق لكل تطبيق على حدة. إذا كان هناك الكثير من هذه التطبيقات، فستكون تكلفة فلسا واحدا جميلا وتصبح تكلفة تراخيص النسخ المتماثل للتخزين قطرة في الدلو.

الحجج ضد النسخ المتماثل للتخزين:

  • تحتوي النسخة المتماثلة من خلال التطبيقات على المزيد من الوظائف من وجهة نظر التطبيقات نفسها، والتطبيق يعرف بياناته بشكل أفضل (من الواضح)، لذلك هناك المزيد من الخيارات للعمل معهم.
  • لا تضمن الشركات المصنعة لبعض التطبيقات اتساق بياناتها إذا تم النسخ باستخدام أدوات تابعة لجهات خارجية. *

* - أطروحة مثيرة للجدل . على سبيل المثال، أعلنت إحدى الشركات المصنعة المعروفة لنظام إدارة قواعد البيانات (DBMS) رسميًا منذ فترة طويلة جدًا أنه لا يمكن نسخ نظام إدارة قواعد البيانات (DBMS) الخاص بها إلا بشكل طبيعي باستخدام وسائلها، وأن بقية النسخ المتماثل (بما في ذلك أنظمة التخزين) "غير صحيح". لكن الحياة أظهرت أن الأمر ليس كذلك. على الأرجح (ولكن هذا ليس مؤكدًا) هذه ببساطة ليست المحاولة الأكثر صدقًا لبيع المزيد من التراخيص للعملاء.

ونتيجة لذلك، في معظم الحالات، يكون النسخ المتماثل من نظام التخزين أفضل، لأنه يعد هذا خيارًا أبسط وأقل تكلفة، ولكن هناك حالات معقدة عندما تكون هناك حاجة إلى وظيفة تطبيق معينة، ومن الضروري العمل مع النسخ المتماثل على مستوى التطبيق.

انتهيت من النظرية، والآن الممارسة

سنقوم بتكوين النسخة المتماثلة في مختبرنا. في ظروف المختبر، قمنا بمحاكاة مركزين للبيانات (في الواقع، رفين متجاورين يبدو أنهما موجودان في بنايتين مختلفتين). يتكون الاستاند من نظامي تخزين Engine N2، متصلين ببعضهما البعض بواسطة الكابلات الضوئية. يتصل الخادم الفعلي الذي يعمل بنظام التشغيل Windows Server 2016 بكلا نظامي التخزين باستخدام شبكة إيثرنت بسرعة 10 جيجابت. الموقف بسيط للغاية، لكن هذا لا يغير الجوهر.

تخطيطيا يبدو مثل هذا:

محرك AERODISK: التعافي من الكوارث. الجزء 1

منطقيا، يتم تنظيم النسخ على النحو التالي:

محرك AERODISK: التعافي من الكوارث. الجزء 1

الآن دعونا نلقي نظرة على وظيفة النسخ المتماثل التي لدينا الآن.
يتم دعم وضعين: غير متزامن ومتزامن. ومن المنطقي أن يكون الوضع المتزامن محدودًا بالمسافة وقناة الاتصال. على وجه الخصوص، يتطلب الوضع المتزامن استخدام الألياف مثل الفيزياء و10 جيجابت إيثرنت (أو أعلى).

تبلغ المسافة المدعومة للنسخ المتزامن 40 كيلومترًا، وتصل قيمة تأخير القناة الضوئية بين مراكز البيانات إلى 2 مللي ثانية. بشكل عام، سيعمل مع تأخيرات كبيرة، ولكن بعد ذلك سيكون هناك تباطؤ قوي أثناء التسجيل (وهو أمر منطقي أيضًا)، لذلك إذا كنت تخطط للنسخ المتماثل المتزامن بين مراكز البيانات، فيجب عليك التحقق من جودة البصريات والتأخير.

متطلبات النسخ المتماثل غير المتزامن ليست خطيرة للغاية. بتعبير أدق، فهي ليست هناك على الإطلاق. أي اتصال إيثرنت فعال سيفي بالغرض.

حاليًا، يدعم نظام التخزين AERODISK ENGINE النسخ المتماثل لأجهزة الكتلة (LUNs) عبر بروتوكول Ethernet (عبر النحاس أو الضوء). بالنسبة للمشروعات التي تتطلب النسخ المتماثل من خلال شبكة SAN عبر قناة ليفية، فإننا نقوم حاليًا بإضافة حل مناسب، ولكنه ليس جاهزًا بعد، لذلك في حالتنا فقط Ethernet.

يمكن أن يعمل النسخ المتماثل بين أي أنظمة تخزين من سلسلة ENGINE (N1، N2، N4) بدءًا من الأنظمة المبتدئة وحتى الأنظمة الأقدم والعكس.

وظيفة كلا وضعي النسخ المتماثل متطابقة تمامًا. فيما يلي مزيد من التفاصيل حول ما هو متاح:

  • النسخ المتماثل "واحد لواحد" أو "واحد لواحد"، أي الإصدار الكلاسيكي الذي يحتوي على مركزي بيانات، رئيسي واحتياطي
  • النسخ المتماثل هو "واحد لكثير" أو "واحد لكثير"، أي. يمكن نسخ رقم LUN واحد إلى عدة أنظمة تخزين في وقت واحد
  • تنشيط وإلغاء تنشيط و"عكس" النسخ المتماثل، على التوالي، لتمكين أو تعطيل أو تغيير اتجاه النسخ المتماثل
  • يتوفر النسخ المتماثل لكل من تجمعات RDG (مجموعة Raid الموزعة) وDDP (تجمع الأقراص الديناميكية). ومع ذلك، لا يمكن نسخ LUNs الخاصة بتجميع RDG إلا إلى RDG آخر. الشيء نفسه مع DDP.

هناك العديد من الميزات الصغيرة، ولكن ليس هناك فائدة معينة من ذكرها، سنذكرها أثناء إعدادنا.

إعداد النسخ المتماثل

عملية الإعداد بسيطة للغاية وتتكون من ثلاث مراحل.

  1. تكوين شبكة
  2. إعداد التخزين
  3. إعداد القواعد (الاتصالات) ورسم الخرائط

نقطة مهمة في إعداد النسخ المتماثل هي أنه يجب تكرار المرحلتين الأوليين على نظام التخزين عن بعد، والمرحلة الثالثة - فقط على المرحلة الرئيسية.

إعداد موارد الشبكة

الخطوة الأولى هي تكوين منافذ الشبكة التي سيتم من خلالها نقل حركة النسخ المتماثل. للقيام بذلك، تحتاج إلى تمكين المنافذ وتعيين عناوين IP الخاصة بها في قسم محولات الواجهة الأمامية.

بعد ذلك، نحتاج إلى إنشاء تجمع (في حالتنا RDG) وIP افتراضي للنسخ المتماثل (VIP). VIP هو عنوان IP عائم مرتبط بعنوانين "فعليين" لوحدات تحكم التخزين (المنافذ التي قمنا بتكوينها للتو). وستكون هذه واجهة النسخ المتماثل الرئيسية. لا يمكنك أيضًا العمل باستخدام VIP، ولكن باستخدام شبكة VLAN، إذا كنت بحاجة إلى العمل مع حركة المرور الموسومة.

محرك AERODISK: التعافي من الكوارث. الجزء 1

لا تختلف عملية إنشاء VIP للنسخة المتماثلة كثيرًا عن إنشاء VIP للإدخال/الإخراج (NFS، وSMB، وiSCSI). في هذه الحالة، نقوم بإنشاء VIP عادي (بدون VLAN)، ولكن تأكد من الإشارة إلى أنه مخصص للنسخ المتماثل (بدون هذا المؤشر لن نتمكن من إضافة VIP إلى القاعدة في الخطوة التالية).

محرك AERODISK: التعافي من الكوارث. الجزء 1

يجب أن يكون VIP في نفس الشبكة الفرعية مثل منافذ IP التي يطفو بينها.

محرك AERODISK: التعافي من الكوارث. الجزء 1

نكرر هذه الإعدادات على نظام تخزين بعيد، مع عنوان IP مختلف بالطبع.
يمكن أن تكون الشخصيات المهمة من أنظمة تخزين مختلفة في شبكات فرعية مختلفة، والشيء الرئيسي هو وجود توجيه بينها. في حالتنا يظهر هذا المثال بالضبط (192.168.3.XX و 192.168.2.XX)

محرك AERODISK: التعافي من الكوارث. الجزء 1

هذا يكمل إعداد جزء الشبكة.

إعداد التخزين

يختلف إعداد التخزين للنسخة المتماثلة عن المعتاد فقط حيث أننا نقوم بالتعيين من خلال قائمة خاصة "تعيين النسخ المتماثل". خلاف ذلك، كل شيء هو نفسه كما هو الحال مع الإعداد العادي. الآن بالترتيب.

في التجمع R02 الذي تم إنشاؤه مسبقًا، تحتاج إلى إنشاء LUN. لنقم بإنشائه ونطلق عليه اسم LUN1.

محرك AERODISK: التعافي من الكوارث. الجزء 1

نحتاج أيضًا إلى إنشاء نفس رقم LUN على نظام تخزين بعيد بنفس الحجم. نخلق. لتجنب الارتباك، دعنا نتصل بجهاز LUN LUN1R البعيد

محرك AERODISK: التعافي من الكوارث. الجزء 1

إذا أردنا أخذ رقم LUN موجود بالفعل، فعند إعداد النسخة المتماثلة، سنحتاج إلى إلغاء تحميل رقم LUN الإنتاجي هذا من المضيف، وإنشاء رقم LUN فارغ بنفس الحجم على نظام التخزين البعيد.

اكتمل إعداد التخزين، فلننتقل إلى إنشاء قاعدة النسخ المتماثل.

إعداد قواعد النسخ المتماثل أو ارتباطات النسخ المتماثل

بعد إنشاء LUNs على نظام التخزين، والتي ستكون الأساسية في الوقت الحالي، نقوم بتكوين قاعدة النسخ المتماثل LUN1 على نظام التخزين 1 إلى LUN1R على نظام التخزين 2.

يتم الإعداد في قائمة "النسخ المتماثل عن بعد".

دعونا ننشئ قاعدة. للقيام بذلك، تحتاج إلى تحديد مستلم النسخة المتماثلة. هناك أيضًا قمنا بتعيين اسم الاتصال ونوع النسخ المتماثل (متزامن أو غير متزامن).

محرك AERODISK: التعافي من الكوارث. الجزء 1

في حقل "الأنظمة البعيدة" نضيف نظام التخزين الخاص بنا2. للإضافة، تحتاج إلى استخدام أنظمة تخزين IP الإدارية (MGR) واسم LUN البعيد الذي سنقوم بإجراء النسخ المتماثل فيه (في حالتنا، LUN1R). هناك حاجة إلى عناوين IP للتحكم فقط في مرحلة إضافة اتصال، ولن يتم نقل حركة النسخ المتماثل من خلالها، وسيتم استخدام VIP الذي تم تكوينه مسبقًا لهذا الغرض.

بالفعل في هذه المرحلة يمكننا إضافة أكثر من نظام عن بعد لطوبولوجيا "واحد إلى متعدد": انقر فوق الزر "إضافة عقدة"، كما في الشكل أدناه.

محرك AERODISK: التعافي من الكوارث. الجزء 1

في حالتنا، يوجد نظام بعيد واحد فقط، لذلك نقتصر على هذا.

القاعدة جاهزة. يرجى ملاحظة أنه يتم إضافته تلقائيًا إلى جميع المشاركين في النسخ المتماثل (في حالتنا يوجد اثنان منهم). يمكنك إنشاء أي عدد تريده من القواعد لأي عدد من وحدات LUN وفي أي اتجاه. على سبيل المثال، لموازنة الحمل، يمكننا نسخ جزء من LUNs من نظام التخزين 1 إلى نظام التخزين 2، والجزء الآخر، على العكس من ذلك، من نظام التخزين 2 إلى نظام التخزين 1.

نظام التخزين1. مباشرة بعد الإنشاء، بدأت المزامنة.

محرك AERODISK: التعافي من الكوارث. الجزء 1

نظام التخزين2. نحن نرى نفس القاعدة، ولكن المزامنة قد انتهت بالفعل.

محرك AERODISK: التعافي من الكوارث. الجزء 1

LUN1 في نظام التخزين 1 موجود في الدور الأساسي، أي أنه نشط. LUN1R في نظام التخزين 2 يقوم بدور ثانوي، أي أنه في وضع الاستعداد في حالة فشل نظام التخزين 1.
الآن يمكننا توصيل LUN الخاص بنا بالمضيف.

سوف نقوم بالاتصال عبر بروتوكول iSCSI، على الرغم من إمكانية القيام بذلك أيضًا عبر FC. لا يختلف إعداد التعيين عبر iSCSI LUN في نسخة متماثلة عمليا عن السيناريو المعتاد، لذلك لن نفكر في هذا بالتفصيل هنا. إذا كان هناك أي شيء، فهذه العملية موصوفة في المقالة "التثبيت السريع".

والفرق الوحيد هو أننا نقوم بإنشاء التعيين في قائمة "تعيين النسخ المتماثل".

محرك AERODISK: التعافي من الكوارث. الجزء 1

قمنا بإعداد الخرائط وأعطينا رقم LUN للمضيف. رأى المضيف LUN.

محرك AERODISK: التعافي من الكوارث. الجزء 1

نقوم بتنسيقه في نظام ملفات محلي.

محرك AERODISK: التعافي من الكوارث. الجزء 1

هذا كل شيء، اكتمل الإعداد. الاختبارات سوف تأتي بعد ذلك.

تجريب

سنقوم باختبار ثلاثة سيناريوهات رئيسية.

  1. تبديل الأدوار العادية ثانوي> أساسي. هناك حاجة إلى تبديل الأدوار بشكل منتظم في حالة احتياجنا، على سبيل المثال، إلى تنفيذ بعض العمليات الوقائية في مركز البيانات الرئيسي وخلال هذا الوقت، حتى تكون البيانات متاحة، نقوم بنقل الحمل إلى مركز البيانات الاحتياطية.
  2. تبديل دور الطوارئ ثانوي > أساسي (فشل مركز البيانات). هذا هو السيناريو الرئيسي الذي يوجد به النسخ المتماثل، والذي يمكن أن يساعد في النجاة من فشل مركز البيانات الكامل دون إيقاف الشركة لفترة ممتدة.
  3. انهيار قنوات الاتصال بين مراكز البيانات. التحقق من السلوك الصحيح لنظامي تخزين في ظروف تكون فيها قناة الاتصال بين مراكز البيانات غير متوفرة لسبب ما (على سبيل المثال، حفرت حفارة في المكان الخطأ وكسرت البصريات المظلمة).

أولاً، سنبدأ في كتابة البيانات إلى LUN (كتابة الملفات التي تحتوي على بيانات عشوائية). نرى على الفور أنه يتم استخدام قناة الاتصال بين أنظمة التخزين. من السهل فهم ذلك إذا قمت بفتح مراقبة تحميل المنافذ المسؤولة عن النسخ المتماثل.

محرك AERODISK: التعافي من الكوارث. الجزء 1

يحتوي كلا نظامي التخزين الآن على بيانات "مفيدة"، ويمكننا بدء الاختبار.

محرك AERODISK: التعافي من الكوارث. الجزء 1

فقط في حالة حدوث ذلك، دعونا نلقي نظرة على مجموع التجزئة لأحد الملفات ونكتبها.

محرك AERODISK: التعافي من الكوارث. الجزء 1

تبديل الأدوار العادية

يمكن إجراء عملية تبديل الأدوار (تغيير اتجاه النسخ) باستخدام أي نظام تخزين، ولكنك ستظل بحاجة إلى الانتقال إلى كليهما، حيث ستحتاج إلى تعطيل التعيين على النظام الأساسي، وتمكينه على النظام الثانوي (الذي سيصبح أساسيًا) ).

ربما يطرح سؤال معقول الآن: لماذا لا يتم أتمتة هذا؟ الجواب هو: الأمر بسيط، التكرار هو وسيلة بسيطة للصمود في وجه الكوارث، ويعتمد فقط على العمليات اليدوية. لأتمتة هذه العمليات، هناك وضع Metrocluster، وهو مؤتمت بالكامل، ولكن تكوينه أكثر تعقيدا. سنكتب عن إنشاء مجموعة مترو في المقالة التالية.

في نظام التخزين الرئيسي، نقوم بتعطيل التعيين لضمان توقف التسجيل.

محرك AERODISK: التعافي من الكوارث. الجزء 1

ثم في أحد أنظمة التخزين (لا يهم، رئيسي أو احتياطي) في قائمة "النسخ المتماثل عن بعد"، حدد اتصالنا REPL1 وانقر فوق "تغيير الدور".

محرك AERODISK: التعافي من الكوارث. الجزء 1

بعد بضع ثوانٍ، يصبح LUN1R (نظام تخزين النسخ الاحتياطي) أساسيًا.

محرك AERODISK: التعافي من الكوارث. الجزء 1

نقوم بتعيين LUN1R مع نظام التخزين 2.

محرك AERODISK: التعافي من الكوارث. الجزء 1

بعد ذلك، يتم توصيل محرك الأقراص E: الخاص بنا تلقائيًا بالمضيف، ولكن هذه المرة فقط "وصل" من LUN1R.

فقط في حالة، نقوم بمقارنة مبالغ التجزئة.

محرك AERODISK: التعافي من الكوارث. الجزء 1

بشكل مماثل. نجح الاختبار.

تجاوز الفشل. فشل مركز البيانات

في الوقت الحالي، نظام التخزين الرئيسي بعد التبديل المنتظم هو نظام التخزين 2 وLUN1R، على التوالي. لمحاكاة وقوع حادث، سنقوم بإيقاف تشغيل الطاقة على كلا وحدتي التحكم في التخزين2.
لم يعد هناك إمكانية الوصول إليها.

دعونا نرى ما يحدث في نظام التخزين 1 (النظام الاحتياطي في الوقت الحالي).

محرك AERODISK: التعافي من الكوارث. الجزء 1

نرى أن رقم LUN الأساسي (LUN1R) غير متوفر. ظهرت رسالة خطأ في السجلات وفي لوحة المعلومات وأيضًا في قاعدة النسخ المتماثل نفسها. وبناء على ذلك، فإن البيانات من المضيف غير متوفرة حاليا.

قم بتغيير دور LUN1 إلى الأساسي.

محرك AERODISK: التعافي من الكوارث. الجزء 1

أنا أقوم برسم الخرائط للمضيف.

محرك AERODISK: التعافي من الكوارث. الجزء 1

تأكد من ظهور محرك الأقراص E على المضيف.

محرك AERODISK: التعافي من الكوارث. الجزء 1

نحن نتحقق من التجزئة.

محرك AERODISK: التعافي من الكوارث. الجزء 1

كل شيء على ما يرام. نجح نظام التخزين في النجاة من سقوط مركز البيانات الذي كان نشطًا. كان الوقت التقريبي الذي أمضيناه في توصيل "عكس" النسخ المتماثل وتوصيل LUN من مركز بيانات النسخ الاحتياطي حوالي 3 دقائق. من الواضح أنه في الإنتاج الحقيقي، كل شيء أكثر تعقيدا، بالإضافة إلى الإجراءات مع أنظمة التخزين، تحتاج إلى إجراء العديد من العمليات على الشبكة، على المضيفين، في التطبيقات. وفي الحياة ستكون هذه الفترة أطول بكثير.

هنا أود أن أكتب أن كل شيء، تم الانتهاء من الاختبار بنجاح، ولكن دعونا لا نتعجل. نظام التخزين الرئيسي "كاذب"، ونحن نعلم أنه عندما "سقط"، كان في الدور الأساسي. ماذا يحدث إذا تم تشغيله فجأة؟ سيكون هناك دورين أساسيين، أيهما يساوي تلف البيانات؟ دعونا التحقق من ذلك الآن.
لنقم فجأة بتشغيل نظام التخزين الأساسي.

يتم تحميله لبضع دقائق ثم يعود إلى الخدمة بعد مزامنة قصيرة، ولكن في دور ثانوي.

محرك AERODISK: التعافي من الكوارث. الجزء 1

كل شيء جيد. انقسام الدماغ لم يحدث. لقد فكرنا في هذا، ودائمًا بعد السقوط، يرتقي نظام التخزين إلى دور ثانوي، بغض النظر عن الدور الذي كان يلعبه "أثناء الحياة". الآن يمكننا أن نقول على وجه اليقين أن اختبار فشل مركز البيانات كان ناجحًا.

فشل قنوات الاتصال بين مراكز البيانات

تتمثل المهمة الرئيسية لهذا الاختبار في التأكد من أن نظام التخزين لا يبدأ في التصرف بشكل غريب إذا فقد قنوات الاتصال بين نظامي تخزين مؤقتًا ثم ظهر مرة أخرى.
لذا. نقوم بفصل الأسلاك بين أنظمة التخزين (لنتخيل أنه تم حفرها بواسطة حفارة).

في المرحلة الابتدائية نرى أنه لا يوجد أي اتصال مع المرحلة الثانوية.

محرك AERODISK: التعافي من الكوارث. الجزء 1

في المرحلة الثانوية نرى أنه لا يوجد أي اتصال مع المرحلة الابتدائية.

محرك AERODISK: التعافي من الكوارث. الجزء 1

كل شيء يعمل بشكل جيد، ونواصل كتابة البيانات إلى نظام التخزين الرئيسي، أي أنها مضمونة لتكون مختلفة عن النسخة الاحتياطية، أي أنها "منفصلة".

في بضع دقائق نقوم "بإصلاح" قناة الاتصال. بمجرد أن ترى أنظمة التخزين بعضها البعض، يتم تنشيط مزامنة البيانات تلقائيًا. لا شيء مطلوب من المسؤول هنا.

محرك AERODISK: التعافي من الكوارث. الجزء 1

بعد مرور بعض الوقت، تكتمل المزامنة.

محرك AERODISK: التعافي من الكوارث. الجزء 1

تمت استعادة الاتصال، ولم يتسبب فقدان قنوات الاتصال في أي حالات طوارئ، وبعد التشغيل تمت المزامنة تلقائيًا.

النتائج

قمنا بتحليل النظرية - ما هو المطلوب ولماذا، وأين الإيجابيات وأين السلبيات. ثم قمنا بإعداد النسخ المتماثل المتزامن بين نظامي تخزين.

بعد ذلك، تم إجراء الاختبارات الأساسية للتبديل العادي وفشل مركز البيانات وفشل قناة الاتصال. وفي جميع الحالات، كان نظام التخزين يعمل بشكل جيد. لا يوجد فقدان للبيانات ويتم الاحتفاظ بالعمليات الإدارية عند الحد الأدنى للسيناريو اليدوي.

في المرة القادمة سنقوم بتعقيد الوضع وإظهار كيف يعمل كل هذا المنطق في مجموعة مترو آلية في الوضع النشط النشط، أي عندما يكون كلا نظامي التخزين أساسيين، ويكون السلوك في حالة فشل نظام التخزين مؤتمتًا بالكامل.

يرجى كتابة التعليقات، وسنكون سعداء لتلقي النقد السليم والمشورة العملية.

حتى المرة القادمة.

المصدر: www.habr.com

إضافة تعليق