السحابة المرنة للكوارث: كيف تعمل

يا هبر!

بعد عطلة رأس السنة الجديدة، قمنا بإعادة إطلاق السحابة المقاومة للكوارث استنادًا إلى موقعين. سنخبرك اليوم كيف يعمل ونعرض ما يحدث للأجهزة الافتراضية العميلة عندما تفشل العناصر الفردية للمجموعة ويتعطل الموقع بأكمله (حرق المعلومات – كل شيء على ما يرام معهم).

السحابة المرنة للكوارث: كيف تعمل
نظام تخزين سحابي مقاوم للكوارث على موقع OST.

ما بالداخل

تحت الغطاء، تحتوي المجموعة على خوادم Cisco UCS مع برنامج VMware ESXi Hypervisor، ونظامي تخزين INFINIDAT InfiniBox F2240، ومعدات شبكة Cisco Nexus، بالإضافة إلى محولات Brocade SAN. تنقسم المجموعة إلى موقعين - OST وNORD، أي أن كل مركز بيانات لديه مجموعة متطابقة من المعدات. في الواقع، هذا ما يجعلها مقاومة للكوارث.

داخل موقع واحد، يتم أيضًا تكرار العناصر الرئيسية (المضيفون، ومحولات SAN، والشبكات).
ويرتبط الموقعان عبر خطوط ألياف ضوئية مخصصة، محجوزة أيضًا.

بضع كلمات عن أنظمة التخزين. قمنا ببناء الإصدار الأول من السحابة المقاومة للكوارث على NetApp. لقد اخترنا هنا INFINIDAT، ولهذا السبب:

  • خيار النسخ المتماثل النشط النشط. فهو يسمح للجهاز الظاهري بالبقاء قيد التشغيل حتى في حالة فشل أحد أنظمة التخزين تمامًا. سأخبرك المزيد عن النسخ لاحقًا.
  • ثلاث وحدات تحكم للأقراص لزيادة تحمل أخطاء النظام. عادة هناك اثنان.
  • حل جاهز. لقد تلقينا حاملًا تم تجميعه مسبقًا ويحتاج فقط إلى توصيله بالشبكة وتهيئته.
  • الدعم الفني اليقظة. يقوم مهندسو INFINIDAT بتحليل سجلات وأحداث نظام التخزين باستمرار، وتثبيت إصدارات البرامج الثابتة الجديدة، والمساعدة في التكوين.

وهذه بعض الصور من التفريغ:

السحابة المرنة للكوارث: كيف تعمل

السحابة المرنة للكوارث: كيف تعمل

كيف يعمل

السحابة متسامحة بالفعل مع الأخطاء داخل نفسها. إنه يحمي العميل من فشل الأجهزة والبرامج الفردية. ستساعد المقاومة للكوارث في الحماية من حالات الفشل الهائلة داخل موقع واحد: على سبيل المثال، فشل نظام التخزين (أو مجموعة SDS، وهو ما يحدث كثيرًا 🙂)، والأخطاء الهائلة في شبكة التخزين، وما إلى ذلك. حسنًا، والأهم من ذلك: يتم حفظ هذه السحابة عندما يتعذر الوصول إلى الموقع بأكمله بسبب حريق أو انقطاع التيار الكهربائي أو سيطرة المهاجم أو هبوط كائن فضائي.

في كل هذه الحالات، تستمر الأجهزة الافتراضية للعميل في العمل، وإليكم السبب.

تم تصميم تصميم المجموعة بحيث يمكن لأي مضيف ESXi لديه أجهزة افتراضية للعميل الوصول إلى أي من نظامي التخزين. إذا فشل نظام التخزين على موقع OST، فستستمر الأجهزة الافتراضية في العمل: سيتمكن المضيفون الذين تعمل عليهم من الوصول إلى نظام التخزين على NORD للبيانات.

السحابة المرنة للكوارث: كيف تعمل
هذا ما يبدو عليه مخطط الاتصال في المجموعة.

يعد هذا ممكنًا نظرًا لتكوين رابط Inter-Switch بين أنسجة SAN في الموقعين: يتم توصيل محول Fabric A OST SAN بمحول Fabric A NORD SAN، وبالمثل بالنسبة لمحولات Fabric B SAN.

حسنًا، لكي تكون كل هذه التعقيدات في مصانع SAN منطقية، يتم تكوين النسخ المتماثل النشط النشط بين نظامي التخزين: تتم كتابة المعلومات في وقت واحد تقريبًا إلى أنظمة التخزين المحلية والبعيدة، RPO = 0. وتبين أن البيانات الأصلية يتم تخزينها على نظام تخزين واحد، ويتم تخزين النسخة المتماثلة منها على الآخر. يتم نسخ البيانات على مستوى وحدات التخزين، ويتم تخزين بيانات VM (الأقراص الخاصة بها، وملف التكوين، وملف المبادلة، وما إلى ذلك) عليها.

يرى مضيف ESXi وحدة التخزين الأساسية والنسخة المتماثلة الخاصة بها كجهاز قرص واحد (جهاز تخزين). يوجد 24 مسارًا من مضيف ESXi إلى كل جهاز قرص:

12 مسارًا تربطه بنظام التخزين المحلي (المسارات المثالية)، والـ 12 المتبقية إلى نظام التخزين البعيد (المسارات غير المثالية). في الوضع الطبيعي، يصل ESXi إلى البيانات الموجودة على نظام التخزين المحلي باستخدام المسارات "المثلى". عندما يفشل نظام التخزين هذا، يفقد ESXi المسارات المثالية ويتحول إلى مسارات "غير مثالية". وهذا ما يبدو على الرسم البياني.

السحابة المرنة للكوارث: كيف تعمل
مخطط مجموعة مقاومة للكوارث.

ترتبط جميع شبكات العملاء بكلا الموقعين من خلال نسيج شبكي مشترك. يقوم كل موقع بتشغيل Provider Edge (PE)، حيث يتم إنهاء شبكات العميل. يتم توحيد PEs في مجموعة مشتركة. إذا فشل PE في موقع واحد، تتم إعادة توجيه كل حركة المرور إلى الموقع الثاني. بفضل هذا، تظل الأجهزة الافتراضية من الموقع دون PE متاحة للعميل عبر الشبكة.

دعونا الآن نرى ما سيحدث للأجهزة الافتراضية العميلة أثناء حالات الفشل المختلفة. لنبدأ بالخيارات الأخف وزنًا وننتهي بالخيارات الأكثر خطورة - فشل الموقع بأكمله. في الأمثلة، النظام الأساسي الرئيسي سيكون OST، والنظام الأساسي الاحتياطي، مع النسخ المتماثلة للبيانات، سيكون NORD.

ماذا يحدث للجهاز الظاهري للعميل إذا...

فشل ارتباط النسخ المتماثل. يتوقف النسخ المتماثل بين أنظمة التخزين الخاصة بالموقعين.
لن يعمل ESXi إلا مع أجهزة القرص المحلية (عبر المسارات المثلى).
تستمر الأجهزة الافتراضية في العمل.

السحابة المرنة للكوارث: كيف تعمل

ينقطع ISL (رابط Inter-Switch). هذه القضية غير محتملة. ما لم يحفر بعض الحفار المجنون عدة طرق بصرية في وقت واحد، والتي تعمل على طرق مستقلة ويتم إحضارها إلى المواقع من خلال مدخلات مختلفة. لكن على اي حال. في هذه الحالة، يفقد مضيفو ESXi نصف المسارات ويمكنهم فقط الوصول إلى أنظمة التخزين المحلية الخاصة بهم. يتم جمع النسخ المتماثلة، لكن لن يتمكن المضيفون من الوصول إليها.

الأجهزة الافتراضية تعمل بشكل طبيعي.

السحابة المرنة للكوارث: كيف تعمل

فشل مفتاح SAN في أحد المواقع. يفقد مضيفو ESXi بعض المسارات المؤدية إلى نظام التخزين. في هذه الحالة، لن يعمل المضيفون الموجودون في الموقع الذي فشل فيه المحول إلا من خلال أحد أجهزة HBA الخاصة بهم.

تستمر الأجهزة الافتراضية في العمل بشكل طبيعي.

السحابة المرنة للكوارث: كيف تعمل

تفشل كافة مفاتيح SAN الموجودة على أحد المواقع. لنفترض أن مثل هذه الكارثة حدثت على موقع OST. في هذه الحالة، سيفقد مضيفو ESXi على هذا الموقع كافة المسارات المؤدية إلى أجهزة الأقراص الخاصة بهم. يتم تشغيل آلية VMware vSphere HA القياسية: حيث ستعيد تشغيل جميع الأجهزة الافتراضية لموقع OST في NORD خلال 140 ثانية كحد أقصى.

الأجهزة الافتراضية التي تعمل على مضيفي موقع NORD تعمل بشكل طبيعي.

السحابة المرنة للكوارث: كيف تعمل

فشل مضيف ESXi في موقع واحد. هنا تعمل آلية vSphere HA مرة أخرى: تتم إعادة تشغيل الأجهزة الافتراضية من المضيف الفاشل على مضيفين آخرين - على نفس الموقع أو الموقع البعيد. يصل وقت إعادة تشغيل الجهاز الظاهري إلى دقيقة واحدة.

إذا فشل جميع مضيفي ESXi على موقع OST، فلن تكون هناك خيارات: تتم إعادة تشغيل الأجهزة الافتراضية على جهاز آخر. وقت إعادة التشغيل هو نفسه.

السحابة المرنة للكوارث: كيف تعمل

فشل نظام التخزين في موقع واحد. لنفترض أن نظام التخزين فشل في موقع OST. ثم يتحول مضيفو ESXi لموقع OST إلى العمل مع النسخ المتماثلة للتخزين في NORD. بعد عودة نظام التخزين الفاشل إلى الخدمة، سيحدث النسخ المتماثل القسري وسيبدأ مضيفو ESXi OST مرة أخرى في الوصول إلى نظام التخزين المحلي.

تعمل الأجهزة الافتراضية بشكل طبيعي طوال هذا الوقت.

السحابة المرنة للكوارث: كيف تعمل

فشل أحد المواقع. في هذه الحالة، سيتم إعادة تشغيل جميع الأجهزة الافتراضية على موقع النسخ الاحتياطي من خلال آلية vSphere HA. وقت إعادة تشغيل الجهاز الافتراضي هو 140 ثانية. في هذه الحالة، سيتم حفظ جميع إعدادات الشبكة الخاصة بالجهاز الظاهري، وسيظل العميل في متناوله عبر الشبكة.

لضمان سير عملية إعادة تشغيل الأجهزة في موقع النسخ الاحتياطي بسلاسة، يكون كل موقع ممتلئًا إلى النصف فقط. النصف الثاني احتياطي في حالة انتقال جميع الأجهزة الافتراضية من الموقع الثاني التالف.

السحابة المرنة للكوارث: كيف تعمل

تعمل السحابة المقاومة للكوارث والمبنية على مركزي بيانات على الحماية من مثل هذه الإخفاقات.

هذه المتعة ليست رخيصة، لأنه بالإضافة إلى الموارد الرئيسية، هناك حاجة إلى احتياطي في الموقع الثاني. ولذلك، يتم وضع الخدمات الحيوية للأعمال في مثل هذه السحابة، مما يؤدي توقفها على المدى الطويل إلى خسائر مالية كبيرة وخسارة السمعة، أو إذا كان نظام المعلومات خاضعًا لمتطلبات القدرة على مواجهة الكوارث من الجهات التنظيمية أو اللوائح الداخلية للشركة.

مصادر:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

المصدر: www.habr.com

إضافة تعليق