آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

اي حبر!

نئين سال جي موڪلن کان پوء، اسان ٻن سائيٽن جي بنياد تي هڪ آفت پروف ڪلائوڊ ٻيهر شروع ڪيو. اڄ اسان توهان کي ٻڌائينداسين ته اهو ڪيئن ڪم ڪري ٿو ۽ ڏيکاريو ته ڪلائنٽ ورچوئل مشينن کي ڇا ٿئي ٿو جڏهن ڪلستر جا انفرادي عنصر ناڪام ٿين ٿا ۽ پوري سائيٽ حادثو ٿي وڃي ٿي (اسپائلر - انهن سان هر شي ٺيڪ آهي).

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو
OST سائيٽ تي آفت جي مزاحمتي بادل اسٽوريج سسٽم.

اندر ڇا آهي

هود جي هيٺان، ڪلستر ۾ سسڪو يو سي ايس سرورز آهن هڪ VMware ESXi هائپر وائيزر سان، ٻه INFINIDAT InfiniBox F2240 اسٽوريج سسٽم، Cisco Nexus نيٽ ورڪ سامان، ۽ Brocade SAN سوئچز. ڪلستر ٻن سائيٽن ۾ ورهايل آهي - OST ۽ NORD، يعني هر ڊيٽا سينٽر وٽ سامان جو هڪجهڙو سيٽ آهي. دراصل، اهو ئي آهي جيڪو ان کي آفت جو ثبوت ڏئي ٿو.

ھڪڙي سائيٽ جي اندر، مکيه عناصر پڻ نقل ٿيل آھن (ميزبان، SAN سوئچ، نيٽ ورڪنگ).
ٻئي سائيٽون وقف ٿيل فائبر آپٽڪ رستن سان ڳنڍيل آهن، پڻ محفوظ آهن.

اسٽوريج سسٽم جي باري ۾ چند لفظ. اسان NetApp تي ڊزاسٽر پروف ڪلائوڊ جو پھريون ورجن ٺاھيو آھي. هتي اسان چونڊيو INFINIDAT، ۽ هتي ڇو آهي:

  • فعال-فعال نقل جا اختيار. اهو مجازي مشين کي آپريشنل رهڻ جي اجازت ڏئي ٿو جيتوڻيڪ اسٽوريج سسٽم مان هڪ مڪمل طور تي ناڪام ٿي. مان توهان کي نقل ڪرڻ بابت وڌيڪ بعد ۾ ٻڌائيندس.
  • سسٽم جي غلطي رواداري کي وڌائڻ لاء ٽي ڊسڪ ڪنٽرولرز. عام طور تي ٻه آهن.
  • تيار حل. اسان هڪ اڳ ۾ گڏ ٿيل ريڪ حاصل ڪيو جنهن کي صرف نيٽ ورڪ سان ڳنڍڻ ۽ ترتيب ڏيڻ جي ضرورت آهي.
  • ڌيان فني حمايت. INFINIDAT انجنيئر مسلسل اسٽوريج سسٽم لاگز ۽ واقعن جو تجزيو ڪن ٿا، نئين فرم ويئر ورزن کي انسٽال ڪريو، ۽ ترتيب سان مدد ڪريو.

هتي پيڪنگ مان ڪجهه تصويرون آهن:

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

اهو ڪيئن ڪم ڪندو آهي

بادل اڳ ۾ ئي پاڻ ۾ غلطي برداشت ڪري ٿو. اهو ڪلائنٽ کي اڪيلو هارڊويئر ۽ سافٽ ويئر جي ناڪامين کان بچائيندو آهي. ڊزاسٽر مزاحم هڪ سائيٽ جي اندر وڏي ناڪامي کان بچاءُ ۾ مدد ڪندو: مثال طور، اسٽوريج سسٽم جي ناڪامي (يا هڪ SDS ڪلستر، جيڪو گهڻو ڪري ٿئي ٿو 🙂)، اسٽوريج نيٽ ورڪ ۾ وڏيون غلطيون وغيره. خير، ۽ سڀ کان اهم: اهڙو ڪڪر بچي ٿو جڏهن باهه، بليڪ آئوٽ، ريڊر ٽيڪ اوور، يا اجنبي لينڊنگ جي ڪري پوري سائيٽ ناقابل رسائي ٿي وڃي ٿي.

انهن سڀني حالتن ۾، ڪلائنٽ ورچوئل مشينون ڪم ڪرڻ جاري رکنديون آهن، ۽ هتي ئي آهي.

ڪلسٽر ڊيزائن ٺهيل آهي ته جيئن ڪو به ESXi ميزبان ڪلائنٽ ورچوئل مشينن سان گڏ ڪنهن به ٻن اسٽوريج سسٽم تائين رسائي ڪري سگهي. جيڪڏهن OST سائيٽ تي اسٽوريج سسٽم ناڪام ٿئي ٿي، ورچوئل مشينون ڪم ڪنديون رهنديون: اهي ميزبان جن تي اهي هلائي رهيا آهن ڊيٽا لاءِ NORD تي اسٽوريج سسٽم تائين رسائي ڪندا.

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو
ھي اھو آھي جيڪو ھڪڙي ڪلستر ۾ ڪنيڪشن ڊراگرام وانگر ڏسڻ ۾ اچي ٿو.

اهو ان حقيقت جي ڪري ممڪن آهي ته هڪ Inter-Switch Link ٻن سائيٽن جي SAN ڪپڙن جي وچ ۾ ترتيب ڏنل آهي: Fabric A OST SAN سوئچ Fabric A NORD SAN سوئچ سان ڳنڍيل آهي، ۽ ساڳئي طرح Fabric B SAN سوئچز لاءِ.

خير، ته جيئن SAN فيڪٽريز جون اهي سڀ پيچيدگيون سمجهه ۾ اچن، Active-Active replication ٻن اسٽوريج سسٽم جي وچ ۾ ترتيب ڏنل آهي: معلومات تقريبن هڪ ئي وقت مقامي ۽ ريموٽ اسٽوريج سسٽم ڏانهن لکيل آهي، RPO = 0. اهو ظاهر ٿئي ٿو ته اصل ڊيٽا هڪ اسٽوريج سسٽم تي ذخيرو ٿيل آهي، ۽ ان جي نقل ٻئي تي ذخيرو ٿيل آهي. ڊيٽا اسٽوريج جي مقدار جي سطح تي نقل ڪئي وئي آهي، ۽ VM ڊيٽا (ان جي ڊسڪ، ترتيب واري فائيل، سوپ فائل، وغيره) انهن تي ذخيرو ٿيل آهي.

ESXi ميزبان بنيادي حجم ۽ ان جي نقل کي ھڪڙي ڊسڪ ڊيوائس (اسٽوريج ڊيوائس) طور ڏسي ٿو. ESXi ميزبان کان هر ڊسڪ ڊوائيس تائين 24 رستا آهن:

12 رستا ان کي مقامي اسٽوريج سسٽم سان ڳنڍيندا آهن (بهترين رستا)، ۽ باقي 12 ريموٽ اسٽوريج سسٽم سان (غير بهتر رستا). عام صورتحال ۾، ESXi "بهترين" رستا استعمال ڪندي مقامي اسٽوريج سسٽم تي ڊيٽا تائين رسائي ڪري ٿو. جڏهن هي اسٽوريج سسٽم ناڪام ٿئي ٿو، ESXi بهتر رستو وڃائي ٿو ۽ "غير بهتر" وارن ڏانهن سوئچ ڪري ٿو. اھو اھو آھي جيڪو ڊاگرام تي نظر اچي ٿو.

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو
آفت کان بچاءُ واري ڪلستر جي اسڪيم.

سڀ ڪلائنٽ نيٽ ورڪ ٻنهي سائيٽن سان ڳنڍيل آهن هڪ عام نيٽ ورڪ ڪپڙي ذريعي. هر سائيٽ هڪ فراهم ڪندڙ ايج (PE) هلائي ٿو، جنهن تي ڪلائنٽ جا نيٽ ورڪ ختم ٿي ويا آهن. پي ايز هڪ عام ڪلستر ۾ متحد آهن. جيڪڏهن هڪ پي اي هڪ سائيٽ تي ناڪام ٿئي ٿي، سڀني ٽرئفڪ کي ٻي سائيٽ ڏانهن منتقل ڪيو ويندو آهي. انهي جي مهرباني، سائيٽ کان مجازي مشينون پي اي کان سواء ڇڏيل آهن نيٽ ورڪ تي ڪلائنٽ تائين رسائي.

اچو ته هاڻي ڏسو ته ڇا ٿيندو ڪلائنٽ ورچوئل مشينن کي مختلف ناڪامين دوران. اچو ته هلڪو اختيارن سان شروع ڪريون ۽ سڀ کان وڌيڪ سنجيده سان ختم ڪريون - پوري سائيٽ جي ناڪامي. مثالن ۾، مکيه پليٽ فارم OST هوندو، ۽ بيڪ اپ پليٽ فارم، ڊيٽا جي نقلن سان، NORD هوندو.

ڪلائنٽ ورچوئل مشين کي ڇا ٿيندو جيڪڏهن...

نقل ڪرڻ واري لنڪ ناڪام ٿي. ٻن سائيٽن جي اسٽوريج سسٽم جي وچ ۾ نقل بند ٿي وڃي ٿي.
ESXi صرف مقامي ڊسڪ ڊوائيسز سان ڪم ڪندو (بهترين رستن ذريعي).
ورچوئل مشينون ڪم جاري رکن ٿيون.

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

ISL (Inter-Switch Link) بريڪ. ڪيس ممڪن ناهي. جيستائين ڪي چريو excavator هڪ ئي وقت ڪيترن ئي آپٽيڪل رستا کوٽيندا آهن، جيڪي آزاد رستن تي هلندا آهن ۽ مختلف انپٽس ذريعي سائيٽن تائين پهچندا آهن. پر بهرحال. انهي حالت ۾، ESXi ميزبان اڌ رستا وڃائي ٿو ۽ صرف انهن جي مقامي اسٽوريج سسٽم تائين رسائي ڪري سگهن ٿا. Replicas گڏ ڪيا ويا آهن، پر ميزبان انهن تائين رسائي نه سگهندا.

ورچوئل مشينون عام طور تي ڪم ڪري رهيون آهن.

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

SAN سوئچ ھڪڙي سائيٽن تي ناڪام ٿئي ٿو. ESXi لشڪر اسٽوريج سسٽم ڏانهن ڪجهه رستا وڃائي ٿو. انهي صورت ۾، سائيٽ تي ميزبان جتي سوئچ ناڪام ٿي صرف انهن جي HBAs مان هڪ ذريعي ڪم ڪندو.

مجازي مشينون عام طور تي هلائڻ لاء جاري آهن.

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

ھڪڙي سائيٽ تي سڀ SAN سوئچز ناڪام آھن. اچو ته او ايس ٽي سائيٽ تي اهڙي آفت جو واقعو ٿيو. انهي صورت ۾، هن سائيٽ تي ESXi هوسٽ انهن جي ڊسڪ ڊوائيسز لاء سڀئي رستا وڃائي ڇڏيندو. معياري VMware vSphere HA ميڪانيزم راند ۾ اچي ٿو: اهو وڌ ۾ وڌ 140 سيڪنڊن ۾ NORD ۾ OST سائيٽ جي سڀني ورچوئل مشينن کي ٻيهر شروع ڪندو.

NORD سائيٽ هوسٽس تي هلندڙ ورچوئل مشينون عام طور تي ڪم ڪري رهيون آهن.

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

ESXi ميزبان ھڪڙي سائيٽ تي ناڪام ٿي. هتي vSphere HA ميڪانيزم ٻيهر ڪم ڪري ٿو: ناڪام ميزبان کان ورچوئل مشينون ٻين ميزبانن تي ٻيهر شروع ٿينديون آهن - ساڳئي يا ريموٽ سائيٽ تي. ورچوئل مشين جي ٻيهر شروع ٿيڻ جو وقت 1 منٽ تائين آهي.

جيڪڏهن OST سائيٽ تي سڀئي ESXi ميزبان ناڪام ٿين ٿا، اتي ڪي به اختيار نه آهن: VMs ٻئي هڪ تي ٻيهر شروع ڪيا ويا آهن. ٻيهر شروع ڪرڻ جو وقت ساڳيو آهي.

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

اسٽوريج سسٽم هڪ سائيٽ تي ناڪام ٿي. اچو ته چوندا آهن اسٽوريج سسٽم OST سائيٽ تي ناڪام ٿئي ٿو. پوءِ او ايس ٽي سائيٽ جا ESXi ميزبان NORD ۾ اسٽوريج ريپليڪس سان ڪم ڪرڻ لاءِ سوئچ ڪن ٿا. ناڪام اسٽوريج سسٽم جي خدمت ۾ واپسي کان پوء، زبردستي نقل ٿيندي ۽ ESXi OST ميزبان ٻيهر مقامي اسٽوريج سسٽم تائين رسائي شروع ڪندا.

ورچوئل مشينون هن وقت عام طور تي ڪم ڪري رهيون آهن.

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

سائيٽن مان هڪ ناڪام ٿي. انهي صورت ۾، سڀئي مجازي مشينون بيڪ اپ سائيٽ تي vSphere HA ميڪانيزم ذريعي ٻيهر شروع ڪيون وينديون. VM ٻيهر شروع ڪرڻ جو وقت 140 سيڪنڊ آهي. انهي حالت ۾، مجازي مشين جي سڀني نيٽ ورڪ سيٽنگون محفوظ ڪيون وينديون، ۽ اهو نيٽ ورڪ تي ڪلائنٽ تائين رسائي رهي ٿو.

انهي کي يقيني بڻائڻ لاءِ ته بيڪ اپ سائيٽ تي مشينن جي ٻيهر شروعات آساني سان ٿي وڃي ، هر سائيٽ صرف اڌ ڀريل آهي. ٻيو اڌ هڪ رزرو آهي جڏهن ته سڀئي ورچوئل مشينون ٻئي، خراب ٿيل سائيٽ تان هلن ٿيون.

آفت جي لچڪدار بادل: اهو ڪيئن ڪم ڪري ٿو

هڪ آفت-مزاحمتي بادل جي بنياد تي ٻن ڊيٽا سينٽرن کي اهڙين ناڪامين کان بچائيندو آهي.

هي خوشي سستو ناهي، ڇو ته، مکيه وسيلن کان علاوه، ٻي سائيٽ تي هڪ رزرو جي ضرورت آهي. تنهن ڪري، ڪاروباري-نازڪ خدمتون اهڙي بادل ۾ رکيل آهن، جن جي ڊگهي مدت جي گهٽتائي وڏي مالي ۽ شهرت جي نقصان جو سبب بڻائيندو آهي، يا جيڪڏهن معلومات سسٽم ريگيوليٽرز يا اندروني ڪمپني جي ضابطن کان آفت جي لچڪ جي ضرورتن جي تابع آهي.

ذريعن:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-best-practices-guides

جو ذريعو: www.habr.com

تبصرو شامل ڪريو