AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

هيلو، حبر پڙهندڙ! گذريل مضمون ۾، اسان AERODISK ENGINE اسٽوريج سسٽم ۾ آفت جي بحالي جي هڪ سادي وسيلا بابت ڳالهايو - نقل. هن آرٽيڪل ۾، اسان هڪ وڌيڪ پيچيده ۽ دلچسپ موضوع تي غور ڪنداسين - ميٽرو ڪلستر، اهو آهي، ٻن ڊيٽا سينٽرن لاء خودڪار آفت جي تحفظ جو هڪ ذريعو، ڊيٽا مرڪز کي فعال-فعال موڊ ۾ هلائڻ جي اجازت ڏئي ٿو. اسان توهان کي ٻڌائينداسين، توهان کي ڏيکاريو، ان کي ٽوڙيو ۽ ان کي درست ڪريو.

هميشه وانگر، پهريون نظريو

هڪ ميٽرو ڪلستر هڪ ڪلستر آهي جيڪو شهر يا علائقي جي ڪيترن ئي سائيٽن تي پکڙيل آهي. لفظ "ڪلسٽر" واضح طور تي اسان کي اشارو ڪري ٿو ته پيچيده خودڪار آهي، اهو آهي، ڪلستر نوڊس کي تبديل ڪرڻ جي ناڪامي جي صورت ۾ خودڪار طور تي ٿيندي آهي.

هي اهو آهي جتي هڪ ميٽرو ڪلستر ۽ باقاعده نقل جي وچ ۾ بنيادي فرق آهي. آپريشن جي خودڪار. اهو آهي، ڪجهه واقعن جي صورت ۾ (ڊيٽا سينٽر جي ناڪامي، ٽوٽل چينلز، وغيره)، اسٽوريج سسٽم آزاد طور تي ضروري ڪارناما انجام ڏيندو، ڊيٽا جي دستيابي کي برقرار رکڻ لاء. جڏهن باقاعده replicas استعمال ڪندي، اهي ڪارناما مڪمل طور تي يا جزوي طور تي دستي طور تي منتظم طرفان ڪيا ويندا آهن.

هي ڇا آهي؟

بنيادي مقصد جيڪو گراهڪ تعاقب ڪندا آهن جڏهن مخصوص ميٽرو ڪلستر لاڳو ڪرڻ استعمال ڪندا آهن RTO (Recovery Time Objective) کي گھٽائڻ. اهو آهي، ناڪامي کان پوء آئي ٽي خدمتن جي بحالي واري وقت کي گهٽائڻ لاء. جيڪڏهن توهان باقاعده نقل استعمال ڪندا آهيو، وصولي جو وقت هميشه ميٽرو ڪلستر سان بحالي واري وقت کان وڌيڪ هوندو. ڇو؟ تمام سادو. منتظم کي لازمي طور تي پنهنجي ڊيسڪ تي هجڻ گهرجي ۽ نقل کي دستي طور تي تبديل ڪرڻ گهرجي، ۽ ميٽرو ڪلستر اهو خودڪار طريقي سان ڪندو آهي.

جيڪڏهن توهان وٽ ڊيوٽي تي هڪ وقف منتظم نه آهي جيڪو ننڊ نٿو ڪري، نه کائي ٿو، نه تماڪ نه ٿو ڪري يا بيمار ٿئي ٿو، ۽ اسٽوريج سسٽم جي حالت کي 24 ڪلاڪ ڏسندو آهي، پوء ان جي ضمانت ڏيڻ جو ڪو طريقو ناهي ته منتظم دستياب ٿيڻ جي ناڪامي دوران دستي سوئچنگ لاءِ.

ان مطابق، آر ٽي او ميٽرو ڪلستر جي غير موجودگيءَ ۾ يا ايڊمنسٽريٽر ڊيوٽي سروس جي 99 هين ليول جي هڪ لافاني ايڊمن، سڀني سسٽم جي مٽاسٽا وقت جي رقم ۽ وڌ ۾ وڌ وقت جي برابر هوندو جنهن کان پوءِ ايڊمنسٽريٽر کي ڪم شروع ڪرڻ جي ضمانت ڏني وئي آهي. اسٽوريج سسٽم ۽ لاڳاپيل سسٽم سان.

ان ڪري، اسان واضح نتيجي تي پهتا آهيون ته ميٽرو ڪلستر استعمال ڪيو وڃي جيڪڏهن RTO جي ضرورت منٽن جي هجي، نه ڪلاڪن يا ڏينهن جي، اهو آهي، جڏهن بدترين ڊيٽا سينٽر جي ناڪامي جي صورت ۾، آئي ٽي ڊپارٽمينٽ کي ڪاروبار کي وقت سان مهيا ڪرڻ گهرجي. IT-services تائين پهچ بحال ڪرڻ لاءِ منٽن، يا سيڪنڊن اندر.

ان کي ڪيئن ڪم ڪندو؟

هيٺين سطح تي، ميٽرو ڪلستر هڪ ميکانيزم استعمال ڪري ٿو هم وقت سازي ڊيٽا جي نقل لاءِ، جنهن کي اسان اڳئين مضمون ۾ بيان ڪيو آهي (ڏسو. لنڪ). جيئن ته نقل هم وقت سازي آهي، ان لاءِ گهربل گهربل آهن، يا بلڪه:

  • آپٽيڪل فائبر جيئن فزڪس، 10 گيگابٽ ايٿرنيٽ (يا وڌيڪ)؛
  • ڊيٽا مرڪز جي وچ ۾ فاصلو 40 ڪلوميٽر کان وڌيڪ نه آهي؛
  • ڊيٽا سينٽرن جي وچ ۾ آپٽيڪل چينل جي دير (اسٽوريج سسٽم جي وچ ۾) 5 مليسيڪنڊ تائين آهي (بهترين طور تي 2).

اهي سڀ ضرورتون فطرت ۾ مشوري آهن، يعني ميٽرو ڪلستر ڪم ڪندو جيتوڻيڪ اهي ضرورتون پوريون نه ٿيون ٿين، پر اسان کي اهو سمجهڻ گهرجي ته انهن ضرورتن جي عدم تعميل جا نتيجا ٻنهي اسٽوريج سسٽم جي آپريشن ۾ سست رفتاري جي برابر آهن. ميٽرو ڪلستر.

تنهن ڪري، اسٽوريج سسٽم جي وچ ۾ ڊيٽا کي منتقل ڪرڻ لاء هڪ هم وقت سازي ريپليڪا استعمال ڪيو ويندو آهي، ۽ ريپليڪس خودڪار طريقي سان ڪيئن سوئچ ڪندا آهن، ۽ سڀ کان اهم، تقسيم دماغ کان ڪيئن بچجي؟ هن کي ڪرڻ لاء، هڪ اعلي سطح تي، هڪ اضافي ادارو استعمال ڪيو ويندو آهي - هڪ ثالث.

هڪ ثالث ڪيئن ڪم ڪندو آهي ۽ هن جو ڪم ڇا آهي؟

آربيٽر هڪ ننڍڙي ورچوئل مشين يا هارڊويئر ڪلسٽر آهي جيڪو ٽين سائيٽ تي شروع ڪيو وڃي (مثال طور، هڪ آفيس ۾) ۽ ICMP ۽ SSH ذريعي اسٽوريج سسٽم تائين رسائي فراهم ڪري. لانچ ڪرڻ کان پوء، ثالث کي IP سيٽ ڪرڻ گهرجي، ۽ پوء اسٽوريج واري پاسي کان ان جي ايڊريس کي ظاهر ڪرڻ، گڏوگڏ ريموٽ ڪنٽرولرز جا پتا جيڪي ميٽرو ڪلستر ۾ حصو وٺندا آهن. ان کان پوء، ريفري ڪم ڪرڻ لاء تيار آهي.

ثالث مسلسل ميٽرو ڪلستر ۾ سڀني اسٽوريج سسٽم جي نگراني ڪندو آهي ۽ جيڪڏهن ڪو خاص اسٽوريج سسٽم دستياب ناهي، ڪلستر جي ڪنهن ٻئي ميمبر (جيڪو "لائيو" اسٽوريج سسٽم مان هڪ) کان غير موجودگي جي تصديق ڪرڻ کان پوء، هو نقل ڪرڻ جي ضابطن کي تبديل ڪرڻ لاء طريقيڪار شروع ڪرڻ جو فيصلو ڪري ٿو. ۽ نقشي سازي.

هڪ تمام اهم نقطو. ثالث هميشه سائيٽ تي واقع هجڻ گهرجي انهن کان مختلف جنهن تي اسٽوريج سسٽم واقع آهن، اهو آهي، نه ته ڊيٽا سينٽر 1 ۾، جتي اسٽوريج سسٽم 1 نصب ٿيل آهي، ۽ نه ئي ڊيٽا سينٽر 2 ۾، جتي اسٽوريج سسٽم 2 نصب ٿيل آهي.

ڇو؟ ڇو ته اهو ئي واحد طريقو آهي، جيڪو ثالث، بچاءُ واري اسٽوريج سسٽم مان هڪ جي مدد سان، ٻن سائيٽن مان ڪنهن به هڪ جي زوال جو غير واضح ۽ صحيح اندازو لڳائي سگهي ٿو، جتي اسٽوريج سسٽم نصب ٿيل آهن. ثالث کي رکڻ جا ٻيا طريقا شايد تقسيم دماغ جي نتيجي ۾.

هاڻي اچو ته ثالث جي ڪم جي تفصيل ۾ وڃو.

ثالث ڪيترن ئي خدمتن کي هلائي ٿو جيڪو مسلسل سڀني اسٽوريج ڪنٽرولرز کي پول ڪري ٿو. جيڪڏهن راءِ شماري جو نتيجو اڳئين (دستياب/غير موجود) کان مختلف آهي، ته پوءِ اهو هڪ ننڍڙي ڊيٽابيس ۾ رڪارڊ ڪيو ويندو آهي، جيڪو پڻ ثالث تي ڪم ڪندو آهي.

اچو ته ثالث جي ڪم جي منطق کي وڌيڪ تفصيل سان ڏسو.

قدم 1: غير موجودگي جو اندازو لڳايو. هڪ اسٽوريج سسٽم جي ناڪامي واقعي 5 سيڪنڊن اندر ساڳئي اسٽوريج سسٽم جي ٻنهي ڪنٽرولرز کان پنگ جي غير موجودگي آهي.

قدم 2. سوئچنگ جي عمل کي شروع ڪريو. بعد ۾ ثالث اهو محسوس ڪيو ته اسٽوريج سسٽم مان هڪ دستياب ناهي، هو "لائيو" اسٽوريج سسٽم ڏانهن هڪ درخواست موڪلي ٿو انهي کي يقيني بڻائڻ لاء ته "مردار" اسٽوريج سسٽم واقعي مري ويو آهي.

ثالث کان اهڙي حڪم حاصل ڪرڻ کان پوء، ٻيو (لائيو) اسٽوريج سسٽم اضافي طور تي گريل فرسٽ اسٽوريج سسٽم جي دستيابي جي جانچ ڪري ٿو ۽، جيڪڏهن اهو موجود ناهي، پنهنجي اندازي جي ثالث کي تصديق موڪلي ٿو. اسٽوريج سسٽم واقعي دستياب ناهي.

اهڙي تصديق حاصل ڪرڻ کان پوءِ، ثالث انهن نقلن کي مٽائڻ لاءِ هڪ ريموٽ طريقيڪار شروع ڪري ٿو ۽ انهن نقلن تي نقشن کي وڌائڻ لاءِ جيڪي زوال واري اسٽوريج سسٽم تي فعال (پرائمري) هئا، ۽ انهن نقلن کي سيڪنڊري کان پرائمري ۾ تبديل ڪرڻ لاءِ سيڪنڊ اسٽوريج سسٽم کي حڪم موڪلي ٿو. نقشو وڌائڻ. خير، ٻيو اسٽوريج سسٽم، مطابق، انهن طريقيڪار کي انجام ڏئي ٿو، ۽ پوء پاڻ کان گم ٿيل LUNs تائين رسائي فراهم ڪري ٿو.

اضافي تصديق جي ضرورت ڇو آهي؟ ڪورم لاءِ. اهو آهي، ڪل بي جي اڪثريت (3) ڪلستر ميمبرن جي تعداد کي ڪلستر نوڊس مان هڪ جي زوال جي تصديق ڪرڻ گهرجي. ان کان پوءِ ئي اهو فيصلو يقيني طور تي درست ٿيندو. اهو ضروري آهي ته غلط سوئچنگ کان بچڻ لاء ۽، مطابق، تقسيم دماغ.

وقت جو مرحلو 2 لڳ ڀڳ 5 - 10 سيڪنڊن ۾ لڳندو آهي، اهڙيءَ طرح، غير موجودگيءَ جو تعين ڪرڻ لاءِ گهربل وقت (5 سيڪنڊن) کي نظر ۾ رکندي، حادثي کان 10 - 15 سيڪنڊن جي اندر، گريل اسٽوريج سسٽم مان LUNs خودڪار طريقي سان دستياب ٿي ويندا. اسٽوريج سسٽم.

اهو واضح آهي ته لشڪر سان رابطن کي وڃائڻ کان بچڻ لاء، توهان کي پڻ خيال رکڻو پوندو ته هوسٽن تي ٽائيم آئوٽ صحيح طريقي سان ترتيب ڏيو. تجويز ڪيل وقت گھٽ ۾ گھٽ 30 سيڪنڊ آھي. هي ميزبان کي آفت جي صورت ۾ لوڊ سوئچنگ دوران اسٽوريج سسٽم سان ڪنيڪشن ٽوڙڻ کان روڪيندو ۽ انهي ڳالهه کي يقيني بڻائي سگهندو ته ڪو به I/O رڪاوٽون نه آهن.

هڪ سيڪنڊ انتظار ڪريو، اهو ظاهر ٿئي ٿو ته جيڪڏهن ميٽرو ڪلستر سان تمام سٺو آهي، اسان کي باقاعده نقل جي ضرورت ڇو آهي؟

حقيقت ۾، سڀڪنھن شيء کي ايترو سادو نه آهي.

اچو ته ميٽرو ڪلستر جي فائدن ۽ نقصان تي غور ڪريو

تنهن ڪري، اسان محسوس ڪيو ته روايتي نقل جي مقابلي ۾ ميٽرو ڪلستر جا واضح فائدا آهن:

  • مڪمل آٽوميشن، آفت جي صورت ۾ گھٽ ۾ گھٽ بحالي واري وقت کي يقيني بڻائڻ؛
  • اهو ئي سڀ ڪجهه آهي :-).

۽ هاڻي، ڌيان، نقصان:

  • حل جي قيمت. جيتوڻيڪ Aerodisk سسٽم ۾ ميٽرو ڪلستر کي اضافي لائسنس جي ضرورت نه آهي (ساڳي لائسنس استعمال ڪيو ويندو آهي ريپليڪا لاءِ)، حل جي قيمت اڃا به هم وقت سازي جي نقل استعمال ڪرڻ کان وڌيڪ هوندي. توهان کي هڪ هم وقت سازي جي نقل لاءِ سڀني ضرورتن کي لاڳو ڪرڻ جي ضرورت پوندي، اضافي سوئچنگ ۽ اضافي سائيٽ سان لاڳاپيل ميٽرو ڪلستر جون گهرجون (ڏسو ميٽرو ڪلستر پلاننگ)؛
  • حل جي پيچيدگي. ميٽرو ڪلستر هڪ باقاعده نقل کان گهڻو وڌيڪ پيچيده آهي، ۽ پلاننگ، ترتيب ۽ دستاويزن لاء تمام گهڻو ڌيان ۽ ڪوشش جي ضرورت آهي.

آخرڪار. Metrocluster يقيني طور تي هڪ تمام ٽيڪنالاجي طور ترقي يافته ۽ سٺو حل آهي جڏهن توهان واقعي کي سيڪنڊن يا منٽن ۾ RTO مهيا ڪرڻ جي ضرورت آهي. پر جيڪڏهن اهڙو ڪو به ڪم نه آهي، ۽ ڪلاڪن ۾ RTO ڪاروبار لاءِ ٺيڪ آهي، ته پوءِ تپ مان گوليون هڻڻ جو ڪو به فائدو ناهي. عام مزدور ۽ هارين جي نقل ڪافي آهي، ڇاڪاڻ ته ميٽرو ڪلسٽر اضافي خرچن ۽ آئي ٽي انفراسٽرڪچر جي پيچيدگي جو سبب بڻجندو.

ميٽرو ڪلستر پلاننگ

هي سيڪشن ميٽرو ڪلستر ڊيزائن لاءِ هڪ جامع گائيڊ هجڻ جي دعويٰ نٿو ڪري، پر صرف اهي مکيه هدايتون ڏيکاري ٿو جيڪي ڪم ڪرڻ گهرجن جيڪڏهن توهان اهڙي سسٽم ٺاهڻ جو فيصلو ڪيو. تنهن ڪري، جڏهن حقيقت ۾ ميٽرو ڪلستر کي لاڳو ڪيو وڃي، پڪ ڪريو ته اسٽوريج سسٽم ٺاهيندڙ (جيڪو آهي، اسان) ۽ ٻين لاڳاپيل سسٽم کي مشاورت لاء شامل ڪيو وڃي.

پليٽ فارم

جيئن مٿي بيان ڪيو ويو آهي، هڪ ميٽرو ڪلستر کي گهٽ ۾ گهٽ ٽن سائيٽن جي ضرورت آهي. ٻه ڊيٽا مرڪز جتي اسٽوريج سسٽم ۽ لاڳاپيل سسٽم ڪم ڪندو، انهي سان گڏ هڪ ٽيون سائيٽ جتي ثالث ڪم ڪندو.

ڊيٽا سينٽرن جي وچ ۾ تجويز ڪيل فاصلو 40 ڪلوميٽرن کان وڌيڪ نه آهي. هڪ وڏو فاصلو گهڻو ڪري اضافي دير جو سبب بڻجڻ جو امڪان آهي، جيڪو ميٽرو ڪلستر جي صورت ۾ انتهائي ناپسنديده آهي. اچو ته توهان کي ياد ڏياريون ته دير ٿيڻ گهرجي 5 مليسيڪنڊن تائين، جيتوڻيڪ اهو مشورو ڏنو ويو آهي ته انهن کي 2 اندر رکو.

اهو تجويز ڪيل آهي ته دير جي جانچ ڪرڻ جي پلاننگ جي عمل دوران پڻ. ڪو به وڌيڪ يا گهٽ بالغ فراهم ڪندڙ جيڪو مهيا ڪري ٿو آپٽيڪل فائبر ڊيٽا سينٽرن جي وچ ۾ هڪ معيار جي چڪاس کي منظم ڪري سگهي ٿو تمام جلدي.

جيئن ته ثالث کان اڳ ۾ دير جي لاءِ (يعني ٽئين سائيٽ ۽ پهرين ٻن جي وچ ۾)، تجويز ڪيل دير جي حد 200 ملي سيڪنڊن تائين آهي، اهو آهي، انٽرنيٽ تي باقاعده ڪارپوريٽ وي پي اين ڪنيڪشن مناسب آهي.

سوئچنگ ۽ نيٽورڪنگ

نقل ڪرڻ واري اسڪيم جي برعڪس، جتي مختلف سائيٽن کان اسٽوريج سسٽم کي ڳنڍڻ لاءِ ڪافي آهي، ميٽرو ڪلستر اسڪيم کي مختلف سائيٽن تي ٻنهي اسٽوريج سسٽم سان ميزبانن کي ڳنڍڻ جي ضرورت آهي. اهو واضح ڪرڻ لاءِ ته فرق ڇا آهي، ٻئي اسڪيمون هيٺ ڏجن ٿيون.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

جيئن ڊراگرام مان ڏسي سگھجي ٿو، اسان جي سائيٽ 1 ميزبان ٻنهي اسٽوريج سسٽم 1 ۽ اسٽوريج سسٽم 2 تي نظر اچن ٿا. گڏوگڏ، ان جي برعڪس، سائيٽ 2 ميزبان ٻنهي اسٽوريج سسٽم 2 ۽ اسٽوريج سسٽم 1 تي نظر اچن ٿا. اهو آهي، هر ميزبان ٻنهي اسٽوريج سسٽم کي ڏسي ٿو. هي metrocluster جي آپريشن لاء هڪ شرط آهي.

يقينا، هر ميزبان کي هڪ نظرياتي ڪنڊ سان ٻئي ڊيٽا سينٽر سان ڳنڍڻ جي ڪا ضرورت ناهي؛ ڪو به بندرگاهن يا ڪنڊ ڪافي نه هوندو. اهي سڀئي ڪنيڪشن Ethernet 10G+ يا FibreChannel 8G+ سوئچز ذريعي ٿيڻ گهرجن (FC صرف IO لاءِ ميزبانن ۽ اسٽوريج سسٽم کي ڳنڍڻ لاءِ آهي، نقل ڪرڻ وارو چينل هن وقت صرف IP (Ethernet 10G+) ذريعي موجود آهي.

هاڻي نيٽ ورڪ ٽوپولوجي جي باري ۾ چند لفظ. هڪ اهم نقطو subnets جي صحيح تشڪيل آهي. اهو ضروري آهي ته فوري طور تي هيٺين قسم جي ٽريفڪ لاءِ ڪيترن ئي سبنيٽس کي بيان ڪيو وڃي:

  • نقل ڪرڻ وارو ذيلي نيٽ جنهن تي ڊيٽا اسٽوريج سسٽم جي وچ ۾ هم وقت سازي ڪئي ويندي. انهن مان ڪيترائي ٿي سگهن ٿا، انهي صورت ۾ اهو مسئلو ناهي، اهو سڀ ڪجهه منحصر آهي موجوده (اڳ ۾ لاڳو ٿيل) نيٽ ورڪ ٽوپولوجي تي. جيڪڏهن انهن مان ٻه آهن، پوء واضح طور تي انهن جي وچ ۾ روٽنگ ترتيب ڏيڻ گهرجي؛
  • ذخيرا ذيلي نيٽ جن جي ذريعي ميزبان اسٽوريج وسيلن تائين رسائي ڪندا (جيڪڏهن اهو iSCSI آهي). هر ڊيٽا سينٽر ۾ هڪ اهڙو سبٽ هجڻ گهرجي؛
  • ڪنٽرول سبنيٽس، يعني، ٽن سائيٽن تي ٽي روٽيبل سبنيٽس جن مان اسٽوريج سسٽم منظم ڪيا ويا آهن، ۽ ثالث پڻ اتي موجود آهي.

اسان هتي ميزبان وسيلن تائين رسائي حاصل ڪرڻ لاءِ ذيلي نيٽ تي غور نه ڪندا آهيون، ڇاڪاڻ ته اهي ڪمن تي تمام گهڻو منحصر آهن.

مختلف ٽريفڪ کي مختلف سبنيٽس ۾ الڳ ڪرڻ انتهائي ضروري آهي (اهو خاص طور تي ضروري آهي ته نقل کي I/O کان الڳ ڪرڻ)، ڇاڪاڻ ته جيڪڏهن توهان سموري ٽرئفڪ کي هڪ ”ٿلهي“ سب نيٽ ۾ ملايو ته پوءِ هن ٽرئفڪ کي منظم ڪرڻ ناممڪن ٿي ويندو، ۽ ٻن ڊيٽا سينٽرن جون حالتون هي اڃا تائين مختلف نيٽ ورڪ ٽوڙ آپشن جو سبب بڻجي سگهن ٿيون. اسان هن مضمون جي فريم ورڪ جي اندر هن مسئلي تي تمام گهڻي غور نه ڪنداسين، ڇو ته توهان نيٽ ورڪ سازوسامان ٺاهيندڙن جي وسيلن تي ڊيٽا سينٽرن جي وچ ۾ نيٽ ورڪ جي منصوبابندي ڪرڻ بابت پڙهي سگهو ٿا، جتي اهو تفصيل سان بيان ڪيو ويو آهي.

آربيٽر جي ترتيب

ثالث کي ICMP ۽ SSH پروٽوڪول ذريعي اسٽوريج سسٽم جي سڀني مئنيجمينٽ انٽرفيس تائين رسائي فراهم ڪرڻ گهرجي. توهان کي ثالث جي ناڪامي بابت پڻ سوچڻ گهرجي. هتي هڪ nuance آهي.

Arbiter failover انتهائي گهربل آهي، پر گهربل ناهي. ڇا ٿيندو جيڪڏهن ريفري غلط وقت تي حادثو ٿئي؟

  • عام موڊ ۾ ميٽرو ڪلستر جو آپريشن تبديل نه ٿيندو، ڇاڪاڻ ته arbtir جو عام موڊ ۾ ميٽرو ڪلستر جي آپريشن تي بلڪل ڪو اثر نه آهي (ان جو ڪم بروقت ڊيٽا سينٽرن جي وچ ۾ لوڊ کي تبديل ڪرڻ آهي)
  • ان کان علاوه، جيڪڏهن ثالث هڪ سبب يا ٻئي سبب ڪري ٿو ۽ ڊيٽا سينٽر ۾ هڪ حادثي جي ذريعي "سمجهي" آهي، پوء ڪو به سوئچنگ نه ٿيندو، ڇاڪاڻ ته اتي ڪو به نه هوندو جيڪو ضروري سوئچنگ حڪمن کي ڏئي ۽ ڪورم کي منظم ڪري. انهي صورت ۾، ميٽرو ڪلستر نقل سان هڪ باقاعده اسڪيم ۾ تبديل ٿي ويندو، جنهن کي آفت جي دوران دستي طور تي تبديل ڪرڻو پوندو، جيڪو آر ٽي او کي متاثر ڪندو.

ان مان ڇا ٿو نڪري؟ جيڪڏهن توهان واقعي کي يقيني بڻائڻ جي ضرورت آهي گهٽ ۾ گهٽ RTO، توهان کي يقيني بڻائڻ جي ضرورت آهي ته ثالث غلطي برداشت ڪندڙ آهي. ھن لاء ٻه اختيار آھن:

  • هڪ ورچوئل مشين لانچ ڪريو هڪ ثالث سان هڪ غلطي برداشت ڪندڙ هائپر وائيزر تي، خوش قسمتي سان سڀئي بالغ هائپر وائزر غلطي رواداري جي حمايت ڪن ٿا؛
  • جيڪڏهن ٽئين سائيٽ تي (هڪ روايتي آفيس ۾) توهان هڪ عام ڪلستر کي نصب ڪرڻ ۾ تمام سست آهيو ۽ اتي موجود ڪو به هائپر ويزر ڪلسٽر موجود ناهي، ته پوء اسان آربيٽر جو هڪ هارڊويئر ورزن مهيا ڪيو آهي، جيڪو هڪ 2U باڪس ۾ ٺاهيو ويو آهي جنهن ۾ ٻه عام. x-86 سرور ڪم ڪري ٿو ۽ جيڪو مقامي ناڪامي کان بچي سگھي ٿو.

اسان زور ڀريو ته ثالث جي غلطي رواداري کي يقيني بڻائڻ جي باوجود، حقيقت اها آهي ته ميٽرو ڪلستر کي عام موڊ ۾ ان جي ضرورت ناهي. پر جيئن ته ٻنهي جو نظريو ۽ مشق ڏيکاريو، جيڪڏهن توهان واقعي هڪ قابل اعتماد آفت-پروف انفراسٽرڪچر ٺاهيندا آهيو، ته پوءِ اهو بهتر آهي ته ان کي محفوظ کيڏجي. اهو بهتر آهي ته پنهنجو پاڻ کي ۽ توهان جي ڪاروبار کي "معنيٰ جي قانون" کان بچائڻ، اهو آهي، ٻنهي ثالث جي ناڪامي کان ۽ انهن سائيٽن مان هڪ جتي اسٽوريج سسٽم واقع آهي.

حل فن تعمير

مٿي ڏنل ضرورتن تي غور ڪندي، اسان هيٺ ڏنل عام حل فن تعمير حاصل ڪندا آهيون.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

LUNs کي هڪجهڙائي سان ٻن سائيٽن تي ورهايو وڃي ته جيئن شديد اوور لوڊ ٿيڻ کان بچڻ لاءِ. ساڳي ئي وقت، جڏهن ٻنهي ڊيٽا سينٽرن ۾ سائيز ڪرڻ گهرجي، توهان کي نه رڳو ڊبل حجم شامل ڪرڻ گهرجي (جيڪو هڪ ئي وقت ٻن اسٽوريج سسٽم تي ڊيٽا کي ذخيرو ڪرڻ لاء ضروري آهي)، پر IOPS ۽ MB/s ۾ ٻيڻو ڪارڪردگي پڻ شامل ڪرڻ گهرجي ته جيئن ايپليڪيشن جي خرابي کي روڪڻ لاء. ڊيٽا سينٽرن مان هڪ جي ناڪامي جي واقعي.

الڳ الڳ، اسان نوٽ ڪريون ٿا ته سائيز جي مناسب طريقي سان (يعني، مهيا ڪئي وئي آهي ته اسان IOPS ۽ MB/s جي مناسب اپر حدون مهيا ڪيون آهن، انهي سان گڏ ضروري CPU ۽ RAM وسيلن)، جيڪڏهن اسٽوريج سسٽم مان هڪ آهي. ميٽرو ڪلستر ناڪام ٿئي ٿو، ڪارڪردگي ۾ سنگين گهٽتائي نه ٿيندي حالتن جي تحت هڪ اسٽوريج سسٽم تي عارضي ڪم.

اها حقيقت اها وضاحت ڪئي وئي آهي ته جڏهن ٻه سائيٽون هڪ ئي وقت ڪم ڪري رهيا آهن، هم وقت سازي نقل "کائي" لکڻ جي ڪارڪردگي جو اڌ، ڇو ته هر ٽرانزيڪشن کي ٻن اسٽوريج سسٽم ڏانهن لکيو وڃي ٿو (RAID-1/10 وانگر). تنهن ڪري، جيڪڏهن اسٽوريج سسٽم مان هڪ ناڪام ٿئي ٿو، نقل جو اثر عارضي طور تي (جيستائين ناڪام اسٽوريج سسٽم بحال ٿئي) غائب ٿي ويندو آهي، ۽ اسان لکڻ جي ڪارڪردگي ۾ ٻه ڀيرا اضافو حاصل ڪندا آهيون. ناڪام اسٽوريج سسٽم جا LUNs ڪم ڪندڙ اسٽوريج سسٽم تي ٻيهر شروع ٿيڻ کان پوء، هي ٻه ڀيرا اضافو ان حقيقت جي ڪري غائب ٿي ويو آهي ته لوڊ ٻئي اسٽوريج سسٽم جي LUNs مان ظاهر ٿئي ٿي، ۽ اسان ڪارڪردگي جي ساڳئي سطح تي واپس وڃون ٿا جيڪو اسان اڳ ۾ ڪيو هو. "گر"، پر صرف هڪ سائيٽ جي فريم ورڪ ۾.

قابل sizing جي مدد سان، توهان شرطن کي يقيني بڻائي سگهو ٿا جنهن جي تحت صارفين کي مڪمل اسٽوريج سسٽم جي ناڪامي محسوس نه ٿيندي. پر اسان هڪ ڀيرو ٻيهر ورجائيندا آهيون، اهو تمام محتاط انداز جي ضرورت آهي، جنهن لاء، رستي جي ذريعي، توهان اسان سان مفت ۾ رابطو ڪري سگهو ٿا :-).

هڪ ميٽرو ڪلستر قائم ڪرڻ

هڪ ميٽرو ڪلستر کي ترتيب ڏيڻ بلڪل ساڳيو آهي باقاعده نقل قائم ڪرڻ، جنهن ۾ اسان بيان ڪيو آهي اڳوڻو مضمون. تنهن ڪري، اچو ته صرف اختلافن تي ڌيان ڏيو. اسان مٿي ڏنل فن تعمير جي بنياد تي ليبارٽري ۾ هڪ بينچ قائم ڪئي، صرف گهٽ ۾ گهٽ ورزن ۾: ٻه اسٽوريج سسٽم 10G ايٿرنيٽ ذريعي ڳنڍيل آهن، ٻه 10G سوئچز ۽ هڪ ميزبان جيڪو 10G بندرگاهن سان ٻنهي اسٽوريج سسٽم تي سوئچ ذريعي ڏسڻ ۾ اچي ٿو. ثالث هڪ مجازي مشين تي هلندو آهي.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

جڏهن ترتيب ڏيڻ مجازي IPs (VIPs) هڪ نقل لاءِ، توهان کي چونڊڻ گهرجي VIP قسم - ميٽرو ڪلستر لاءِ.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

اسان ٻن LUNs لاءِ ٻه نقل لنڪس ٺاهيا ۽ انهن کي ٻن اسٽوريج سسٽم ۾ ورهايو: LUN TEST پرائمري آن اسٽوريج سسٽم 1 (METRO لنڪ)، LUN TEST2 پرائمري لاءِ اسٽوريج سسٽم 2 (METRO2 لنڪ).

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

انهن لاءِ، اسان ٻه هڪجهڙا هدف ٺاهيا آهن (اسان جي صورت ۾ iSCSI، پر FC پڻ سپورٽ ڪئي وئي آهي، سيٽ اپ منطق ساڳيو آهي).

اسٽوريج سسٽم 1:

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

اسٽوريج سسٽم 2:

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

نقل ڪنيڪشن لاءِ، هر اسٽوريج سسٽم تي نقشا ٺاهيا ويا.

اسٽوريج سسٽم 1:

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

اسٽوريج سسٽم 2:

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

اسان multipath قائم ڪيو ۽ ان کي ميزبان کي پيش ڪيو.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

ثالث قائم ڪرڻ

توهان کي ثالث پاڻ سان ڪجهه خاص ڪرڻ جي ضرورت ناهي؛ توهان کي صرف ان کي ٽين سائيٽ تي چالو ڪرڻ جي ضرورت آهي، ان کي هڪ IP ڏيو ۽ ICMP ۽ SSH ذريعي ان تائين رسائي ترتيب ڏيو. سيٽ اپ پاڻ کي اسٽوريج سسٽم مان ڪيو ويندو آهي. انهي حالت ۾، اهو ڪافي آهي ته ثالث کي هڪ ڀيرو ميٽرو ڪلستر ۾ ڪنهن به اسٽوريج ڪنٽرولرز تي ترتيب ڏيو؛ اهي سيٽنگون خودڪار طريقي سان سڀني ڪنٽرولرز کي ورهائي وينديون.

سيڪشن ۾ Remote replication>> Metrocluster (ڪنهن به ڪنٽرولر تي)>> "Configure" بٽڻ.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

اسان ثالث جي IP داخل ڪندا آهيون، انهي سان گڏ ٻه ريموٽ اسٽوريج ڪنٽرولرز جي ڪنٽرول انٽرفيس.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

ان کان پوء، توهان کي سڀني خدمتن کي فعال ڪرڻ جي ضرورت آهي ("ٻيهر شروع ڪريو" بٽڻ). جيڪڏهن مستقبل ۾ ٻيهر ترتيب ڏني وئي، سيٽنگون اثر انداز ٿيڻ لاء خدمتون ٻيهر شروع ٿيڻ گهرجن.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

اسان چيڪ ڪريون ٿا ته سڀئي خدمتون هلي رهيون آهن.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

هي ميٽرو ڪلستر سيٽ اپ مڪمل ڪري ٿو.

حادثي جو امتحان

اسان جي ڪيس ۾ حادثي جو امتحان بلڪل سادو ۽ تيز هوندو، ڇاڪاڻ ته نقل جي ڪارڪردگي (سوئچنگ، مستقل مزاجي، وغيره) تي بحث ڪيو ويو آهي. آخري مضمون. تنهن ڪري، ميٽرو ڪلستر جي اعتبار کي جانچڻ لاءِ، اهو اسان لاءِ ڪافي آهي ته اسان ناڪامي جي سڃاڻپ، سوئچنگ ۽ رڪارڊنگ نقصانن جي غير موجودگي (I/O اسٽاپ) جي آٽوميشن کي چيڪ ڪريون.

هن کي ڪرڻ لاء، اسان هڪ اسٽوريج سسٽم جي مڪمل ناڪامي کي جسماني طور تي ان جي ٻنهي ڪنٽرولرز کي بند ڪندي، پهريون ڀيرو هڪ وڏي فائل کي LUN ڏانهن نقل ڪرڻ شروع ڪيو، جيڪو ٻئي اسٽوريج سسٽم تي چالو ڪيو وڃي.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

ھڪڙي اسٽوريج سسٽم کي بند ڪريو. ٻئي اسٽوريج سسٽم تي اسان لاگز ۾ الرٽ ۽ پيغام ڏسون ٿا ته پاڙيسري سسٽم سان ڪنيڪشن گم ٿي ويو آهي. جيڪڏهن اطلاعن ذريعي SMTP يا SNMP مانيٽرنگ ترتيب ڏني وئي آهي، منتظم کي لاڳاپيل اطلاع ملندي.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

بلڪل 10 سيڪنڊن بعد (ٻنهي اسڪرين شاٽ ۾ نظر اچي ٿو)، ميٽرو ريپليڪشن ڪنيڪشن (جيڪو ناڪام ٿيل اسٽوريج سسٽم تي پرائمري هو) خودڪار طور تي ڪم ڪندڙ اسٽوريج سسٽم تي پرائمري بڻجي ويو. موجوده ميپنگ کي استعمال ڪندي، LUN TEST ميزبان لاءِ دستياب رهي، رڪارڊنگ ٿوري گھٽجي وئي (واعدو ڪيل 10 سيڪڙو جي اندر)، پر مداخلت نه ڪئي وئي.

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

AERODISK انجڻ: آفت جي مزاحمت. حصو 2. Metrocluster

ٽيسٽ ڪاميابي سان مڪمل ٿي وئي.

مختصر ڪرڻ لاء

AERODISK Engine N-series اسٽوريج سسٽم ۾ ميٽرو ڪلستر جو موجوده عمل مڪمل طور تي مسئلن کي حل ڪرڻ جي اجازت ڏئي ٿو جتي IT خدمتن لاءِ وقت ختم ڪرڻ يا گھٽ ڪرڻ ضروري آهي ۽ انهن جي آپريشن 24/7/365 کي گهٽ ۾ گهٽ مزدورن جي خرچن سان يقيني بڻائي ٿي.

اسان چئي سگهون ٿا، يقينا، اهو سڀ ڪجهه نظريو آهي، مثالي ليبارٽري حالتون، ۽ ائين ئي ... پر اسان وٽ ڪيترائي لاڳو ڪيل منصوبا آهن جن ۾ اسان آفت جي لچڪدار ڪارڪردگي تي عمل ڪيو آهي، ۽ سسٽم مڪمل طور تي ڪم ڪن ٿا. اسان جي منصفانه سڃاتل گراهڪن مان هڪ، جيڪو آفت جي ثبوت جي ترتيب ۾ صرف ٻه اسٽوريج سسٽم استعمال ڪري ٿو، اڳ ۾ ئي منصوبي بابت معلومات شايع ڪرڻ تي اتفاق ڪيو آهي، تنهنڪري ايندڙ حصي ۾ اسين جنگي عمل جي باري ۾ ڳالهائينداسين.

توهان جي مهرباني، اسان هڪ پيداوار بحث جي منتظر آهيون.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو