توهان جي اعلي دستيابي اسٽوريج سسٽم تي سافٽ ويئر کي جانچڻ ڇو ضروري آهي (99,9999٪)

توهان جي اعلي دستيابي اسٽوريج سسٽم تي سافٽ ويئر کي جانچڻ ڇو ضروري آهي (99,9999٪)

ڪهڙو firmware نسخو سڀ کان وڌيڪ "صحيح" ۽ "ڪم ڪندڙ" آهي؟ جيڪڏهن هڪ اسٽوريج سسٽم 99,9999٪ جي غلطي رواداري جي ضمانت ڏئي ٿي، ڇا ان جو مطلب اهو آهي ته اهو بغير ڪنهن سافٽ ويئر اپڊيٽ جي بغير ڪم ڪندو؟ يا، ان جي ابتڙ، وڌ ۾ وڌ غلطي رواداري حاصل ڪرڻ لاء، توهان کي هميشه جديد firmware انسٽال ڪرڻ گهرجي؟ اسان ڪوشش ڪنداسين ته انهن سوالن جا جواب اسان جي تجربي جي بنياد تي.

هڪ نن introductionڙو تعارف

اسان سڀ سمجهون ٿا ته سافٽ ويئر جو هر ورزن، چاهي اهو آپريٽنگ سسٽم هجي يا ڪنهن ڊوائيس لاءِ ڊرائيور، اڪثر ڪري نقص/بگ ۽ ٻيون ”خصوصيتون“ هونديون آهن جيڪي شايد ”ظاهر“ نه ٿينديون آهن جيستائين سامان جي سروس لائف جي آخر تائين، يا ”اوپن“. صرف ڪجهه حالتن هيٺ. اهڙي nuances جو تعداد ۽ اهميت سافٽ ويئر جي پيچيدگي (ڪارڪردگي) ۽ ان جي ترقي دوران جاچ جي معيار تي دارومدار. 

گهڻو ڪري، صارفين "فيڪٽري کان فرم ویئر" تي رهندا آهن (مشهور "اهو ڪم ڪري ٿو، تنهنڪري ان سان گڏ نه ڪريو") يا هميشه جديد ورزن کي انسٽال ڪريو (انهن جي سمجھ ۾، جديد جو مطلب آهي سڀ کان وڌيڪ ڪم ڪندڙ). اسان هڪ مختلف طريقو استعمال ڪندا آهيون - اسان استعمال ٿيل هر شي لاءِ رليز نوٽس ڏسون ٿا mCloud بادل ۾ سامان ۽ احتياط سان سامان جي هر ٽڪرا لاء مناسب firmware چونڊيو.

اسان ان نتيجي تي پهتاسين، جيئن چون ٿا، تجربي سان. اسان جي آپريشن جو مثال استعمال ڪندي، اسان توهان کي ٻڌائينداسين ته ڇو واعدو ڪيل 99,9999٪ اسٽوريج سسٽم جي اعتبار جو مطلب ڪجھ به نه آهي جيڪڏهن توهان فوري طور تي سافٽ ويئر اپڊيٽس ۽ وضاحتن جي نگراني نه ڪندا. اسان جو ڪيس ڪنهن به وينڊر کان اسٽوريج سسٽم جي استعمال ڪندڙن لاءِ موزون آهي، ڇو ته اهڙي صورتحال ڪنهن به ڪاريگر جي هارڊويئر سان ٿي سگهي ٿي.

نئون اسٽوريج سسٽم چونڊيو

گذريل سال جي آخر ۾، اسان جي انفراسٽرڪچر ۾ هڪ دلچسپ ڊيٽا اسٽوريج سسٽم شامل ڪيو ويو آهي: IBM FlashSystem 5000 لائن مان هڪ جونيئر ماڊل، جنهن کي خريداري جي وقت Storwize V5010e سڏيو ويندو هو. هاڻي اهو FlashSystem 5010 جي نالي سان وڪرو ڪيو ويو آهي، پر حقيقت ۾ اهو ساڳيو هارڊويئر بيس آهي جيڪو اندر ساڳيو Spectrum Virtualize سان. 

هڪ متحد مئنيجمينٽ سسٽم جي موجودگي، رستي جي ذريعي، IBM FlashSystem جي وچ ۾ بنيادي فرق آهي. ننڍي سيريز جي ماڊلز لاء، اهو عملي طور تي وڌيڪ پيداوار جي ماڊلز کان مختلف ناهي. هڪ مخصوص ماڊل چونڊڻ صرف مناسب هارڊويئر جو بنياد مهيا ڪري ٿو، جنهن جون خاصيتون هڪ يا ٻئي ڪارڪردگي کي استعمال ڪرڻ يا اعلي سطحي اسڪالبل مهيا ڪرڻ ممڪن بڻائي ٿي. سافٽ ويئر هارڊويئر کي سڃاڻي ٿو ۽ هن پليٽ فارم لاءِ ضروري ۽ ڪافي ڪارڪردگي مهيا ڪري ٿو.

توهان جي اعلي دستيابي اسٽوريج سسٽم تي سافٽ ويئر کي جانچڻ ڇو ضروري آهي (99,9999٪)آئي بي ايم فليش سسٽم 5010

اسان جي ماڊل 5010 جي باري ۾ مختصر طور. هي هڪ داخلا-سطح ڊبل ڪنٽرولر بلاڪ اسٽوريج سسٽم آهي. اهو NLSAS، SAS، SSD ڊسڪ کي ترتيب ڏئي سگھي ٿو. NVMe جاءِ ان ۾ موجود ناهي، ڇاڪاڻ ته هي اسٽوريج ماڊل انهن مسئلن کي حل ڪرڻ لاءِ پوزيشن ۾ آهي جيڪي NVMe ڊرائيو جي ڪارڪردگي جي ضرورت نه ڪندا آهن.

اسٽوريج سسٽم خريد ڪيو ويو آرڪائيو معلومات يا ڊيٽا کي گڏ ڪرڻ لاءِ جيڪو بار بار نه پهچندو آهي. تنهن ڪري، ان جي ڪارڪردگي جو معياري سيٽ اسان لاء ڪافي هو: ٽائرنگ (آسان ٽائر)، پتلي رزق. 1000-2000 IOPS جي سطح تي NLSAS ڊسڪ تي ڪارڪردگي پڻ اسان لاء ڪافي اطمينان بخش هئي.

اسان جو تجربو - ڪيئن اسان وقت تي firmware تازه ڪاري نه ڪيو

هاڻي سافٽ ويئر جي تازه ڪاري بابت. خريداري جي وقت تي، سسٽم اڳ ۾ ئي اسپيڪٽرم ورچوئلائيز سافٽ ويئر جو ٿورو پراڻو نسخو هو، يعني، 8.2.1.3.

اسان فرم ویئر جي تفصيلن جو اڀياس ڪيو ۽ هڪ تازه ڪاري جي منصوبابندي ڪئي 8.2.1.9. جيڪڏهن اسان ٿورو وڌيڪ ڪارائتو هجون ها، ته هي آرٽيڪل موجود نه هجي ها - بگ وڌيڪ تازو فرم ویئر تي نه ٿئي ها. تنهن هوندي به، ڪجهه سببن لاء، هن نظام جي تازه ڪاري ملتوي ڪيو ويو.

نتيجي طور، ٿورڙي تازه ڪاري جي دير ٿي وئي هڪ انتهائي ناپسنديده تصوير، جيئن لنڪ تي تفصيل ۾: https://www.ibm.com/support/pages/node/6172341

ها، انهي نسخي جي فرم ویئر ۾ نام نهاد APAR (اختيار ٿيل پروگرام تجزيي رپورٽ) HU02104 لاڳاپيل هو. اهو هن ريت ظاهر ٿئي ٿو. لوڊ جي تحت، ڪجهه حالتن ۾، ڪيش اوور فلو ٿيڻ شروع ٿئي ٿو، پوء سسٽم حفاظتي موڊ ۾ وڃي ٿو، جنهن ۾ اهو پول لاء I / O کي غير فعال ڪري ٿو. اسان جي حالت ۾، اهو RAID 3 موڊ ۾ RAID گروپ لاءِ 6 ڊسڪ ڊسڪنيڪٽ ڪرڻ وانگر نظر اچي ٿو. ڪنيڪشن 6 منٽن لاءِ ٿئي ٿو. اڳيون، پول ۾ حجم تائين رسائي بحال ڪئي وئي آهي.

جيڪڏهن ڪو به IBM Spectrum Virtualize جي حوالي سان منطقي ادارن جي جوڙجڪ ۽ نالن کان واقف نه آهي، ته آئون هاڻي مختصر طور تي وضاحت ڪندس.

توهان جي اعلي دستيابي اسٽوريج سسٽم تي سافٽ ويئر کي جانچڻ ڇو ضروري آهي (99,9999٪)اسٽوريج سسٽم جي جوڙجڪ منطقي عناصر

ڊسڪ گروپن ۾ گڏ ڪيا ويا آهن جن کي MDisk (منظم ٿيل ڊسڪ) سڏيو ويندو آهي. MDisk ٿي سگهي ٿو هڪ کلاسک RAID (0,1,10,5,6) يا هڪ مجازي هڪ - DRAID (تقسيم ٿيل RAID). DRAID استعمال ڪندي توهان کي صف جي ڪارڪردگي وڌائڻ جي اجازت ڏئي ٿي، ڇاڪاڻ ته ... گروپ ۾ سڀئي ڊسڪ استعمال ڪيا ويندا، ۽ ٻيهر تعمير جو وقت گھٽجي ويندو، حقيقت اها آهي ته صرف ڪجهه بلاڪ کي بحال ڪرڻ جي ضرورت پوندي، ۽ ناڪام ڊسڪ مان سڀ ڊيٽا نه.

توهان جي اعلي دستيابي اسٽوريج سسٽم تي سافٽ ويئر کي جانچڻ ڇو ضروري آهي (99,9999٪)RAID-5 موڊ ۾ تقسيم ٿيل RAID (DRAID) استعمال ڪندي ڊسڪ ۾ ڊيٽا بلاڪ جي ورڇ.

۽ هي ڊراگرام منطق ڏيکاري ٿو ته هڪ ڊسڪ ناڪامي جي صورت ۾ هڪ DRAID ٻيهر تعمير ڪيئن ڪم ڪري ٿو:

توهان جي اعلي دستيابي اسٽوريج سسٽم تي سافٽ ويئر کي جانچڻ ڇو ضروري آهي (99,9999٪)DRAID جو منطق ٻيهر تعمير ڪيو جڏهن هڪ ڊسڪ ناڪام ٿئي ٿي

اڳيون، هڪ يا وڌيڪ MDisks هڪ نام نهاد پول ٺاهيندا آهن. ساڳئي تلاءَ جي اندر، اها سفارش نه ڪئي وئي آهي ته MDisk کي مختلف RAID/DRAID ليولن سان ساڳي قسم جي ڊسڪ تي استعمال ڪيو وڃي. اسان ان ۾ تمام گهڻي نه وينداسين، ڇاڪاڻ ته ... اسان هن کي هيٺ ڏنل مضمونن مان هڪ ۾ ڍڪڻ جو منصوبو ڪريون ٿا. يقينن، حقيقت ۾، پول حجمن ۾ ورهايل آهي، جيڪي ميزبان کي هڪ يا ٻئي بلاڪ رسائي پروٽوڪول استعمال ڪندي پيش ڪيا ويا آهن.

تنهن ڪري، اسان، نتيجي ۾ بيان ڪيل صورتحال جي نتيجي ۾ APAR HU02104، ٽن ڊسڪ جي منطقي ناڪامي جي ڪري، MDisk ڪم ڪرڻ بند ٿي ويو، جنهن جي نتيجي ۾، پول ۽ لاڳاپيل حجمن جي ناڪامي جي نتيجي ۾.

ڇاڪاڻ ته اهي سسٽم ڪافي سمارٽ آهن، اهي IBM اسٽوريج انسائٽس ڪلائوڊ بيسڊ مانيٽرنگ سسٽم سان ڳنڍجي سگھجن ٿا، جيڪو خود بخود IBM سپورٽ ڏانهن سروس جي درخواست موڪلي ٿو جيڪڏهن ڪو مسئلو ٿئي ٿو. هڪ ايپليڪيشن ٺاهي وئي آهي ۽ IBM ماهرن پري کان تشخيص ڪن ٿا ۽ سسٽم استعمال ڪندڙ سان رابطو ڪريو. 

انهي جي مهرباني، اهو مسئلو تمام جلدي حل ڪيو ويو ۽ هڪ فوري سفارش حاصل ڪئي وئي سپورٽ سروس کان اسان جي سسٽم کي اپڊيٽ ڪرڻ لاء اڳوڻي چونڊيل فرم ویئر 8.2.1.9، جيڪو ان وقت اڳ ۾ ئي مقرر ڪيو ويو هو. اها تصديق ڪري ٿي ملندڙ رليز نوٽ.

نتيجا ۽ اسان جون سفارشون

جيئن چوڻي آهي: "سڀ ٺيڪ آهي جيڪو سٺو ختم ٿئي ٿو." فرم ویئر ۾ بگ سنگين مسئلا پيدا نه ڪيو - سرورز کي جلدي ممڪن طور تي بحال ڪيو ويو ۽ ڊيٽا جي نقصان کان سواء. ڪجهه گراهڪن کي ورچوئل مشينن کي ٻيهر شروع ڪرڻو پوندو هو، پر عام طور تي اسان وڌيڪ منفي نتيجن لاءِ تيار هئاسين، ڇو ته اسان هر روز انفراسٽرڪچر عناصر ۽ ڪلائنٽ مشينن جو بيڪ اپ ڪندا آهيون. 

اسان کي تصديق ملي آهي ته 99,9999٪ واعدو ٿيل دستيابي سان پڻ قابل اعتماد سسٽم ڌيان ۽ بروقت سار سنڀال جي ضرورت آهي. صورتحال جي بنياد تي، اسان پاڻ لاء ڪيترائي نتيجا ڪڍيا آهن ۽ اسان جون سفارشون حصيداري ڪيون آهن:

  • اهو ضروري آهي ته تازه ڪارين جي جاري ٿيڻ جي نگراني ڪرڻ، ممڪن طور تي نازڪ مسئلن جي سڌارن لاء ريليز نوٽس جو مطالعو، ۽ بروقت انداز ۾ منصوبابندي ڪيل تازه ڪاريون انجام ڏيو.

    اهو هڪ تنظيمي ۽ اڃا به واضح نقطو آهي، جنهن کي، اهو لڳي ٿو، تي ڌيان ڏيڻ جي قابل ناهي. تنهن هوندي، هن "سطح جي ميدان" تي توهان بلڪل آساني سان ٿڪجي سگهو ٿا. دراصل، اھو اھو لمحو ھو جنھن مٿي بيان ڪيل مشڪلاتن کي وڌايو. تمام محتاط رھو جڏھن تازه ڪاري جي ضابطن کي ٺاھيو ۽ انھن جي تعميل جي نگراني ڪريو گھٽ احتياط سان. هن نقطي جو تعلق وڌيڪ ”نظم“ جي تصور سان آهي.

  • اهو هميشه بهتر آهي ته سسٽم کي جديد سافٽ ويئر ورزن سان گڏ رکو. ان کان علاوه، موجوده هڪ اهو نه آهي جنهن ۾ وڏي عددي نامزدگي آهي، بلڪه هڪ بعد ۾ ڇڏڻ جي تاريخ سان. 

    مثال طور، IBM پنهنجي اسٽوريج سسٽم لاءِ گهٽ ۾ گهٽ ٻه سافٽ ويئر رليز تازه ڪاري ڪري ٿو. هن لکڻ جي وقت تي، اهي 8.2 ۽ 8.3 آهن. 8.2 لاءِ تازه ڪاريون اڳ ۾ اچن ٿيون. 8.3 لاءِ ساڳي تازه ڪاري عام طور تي ٿوري دير سان جاري ڪئي وئي آهي.

    رليز 8.3 ۾ ڪيترائي فنڪشنل فائدا آھن، مثال طور، ھڪڙي يا وڌيڪ نيون ڊسڪون شامل ڪندي MDisk (DRAID موڊ ۾) وڌائڻ جي صلاحيت (ھي خصوصيت 8.3.1 ورجن کان وٺي ظاهر ٿي چڪي آھي). هي هڪ انتهائي بنيادي ڪارڪردگي آهي، پر 8.2 ۾، بدقسمتي سان، اهڙي ڪا به خاصيت ناهي.

  • جيڪڏهن ڪنهن سبب جي ڪري اپڊيٽ ڪرڻ ممڪن نه آهي، ته پوءِ Spectrum Virtualize سافٽ ويئر جي ورزن 8.2.1.9 ۽ 8.3.1.0 کان اڳ واري ورزن لاءِ (جتي مٿي بيان ڪيل بگ لاڳاپيل آهي)، ان جي وقوع جي خطري کي گهٽائڻ لاءِ، IBM ٽيڪنيڪل سپورٽ جي سفارش ڪري ٿو. پول سطح تي سسٽم جي ڪارڪردگي کي محدود ڪرڻ، جيئن هيٺ ڏنل شڪل ۾ ڏيکاريل آهي (تصوير GUI جي Russified ورزن ۾ ورتو ويو آهي). 10000 IOPS جي قيمت هڪ مثال طور ڏيکاريل آهي ۽ توهان جي سسٽم جي خاصيتن جي مطابق چونڊيو ويو آهي.

توهان جي اعلي دستيابي اسٽوريج سسٽم تي سافٽ ويئر کي جانچڻ ڇو ضروري آهي (99,9999٪)IBM اسٽوريج ڪارڪردگي کي محدود ڪرڻ

  • اهو ضروري آهي ته صحيح طور تي اسٽوريج سسٽم تي لوڊ حساب ڪرڻ ۽ اوورلوڊنگ کان بچڻ لاء. هن کي ڪرڻ لاء، توهان استعمال ڪري سگهو ٿا يا ته IBM سيزر (جيڪڏهن توهان وٽ ان تائين رسائي آهي)، يا ڀائيوارن جي مدد، يا ٽئين پارٽي وسيلن. اهو ضروري آهي ته اسٽوريج سسٽم تي لوڊ پروفائل کي سمجهڻ لاء، ڇاڪاڻ ته MB/s ۽ IOPS ۾ ڪارڪردگي گھٽ ۾ گھٽ ھيٺين پيراگرافن جي لحاظ کان تمام گھڻو مختلف آھي:

    • آپريشن جو قسم: پڙهڻ يا لکڻ،

    • آپريشن بلاڪ سائيز،

    • ڪل I/O اسٽريم ۾ پڙهڻ ۽ لکڻ جي عملن جو سيڪڙو.

    انهي سان گڏ، آپريشن جي رفتار متاثر ٿيندي آهي ته ڪيئن ڊيٽا بلاڪ پڙهيا وڃن ٿا: ترتيب سان يا بي ترتيب ترتيب ۾. جڏهن ايپليڪيشن جي پاسي تي ڪيترن ئي ڊيٽا جي رسائي جي عملن کي انجام ڏيو، اتي انحصار آپريشن جو تصور آهي. اهو پڻ مشورو ڏنو ويو آهي ته اهو حساب ۾ رکڻ گهرجي. هي سڀ OS، اسٽوريج سسٽم، سرورز/هائيپروائزرز جي ڪارڪردگي ڳڻپيندڙن مان ڊيٽا جي مجموعي کي ڏسڻ ۾ مدد ڪري سگھن ٿا، انهي سان گڏ ايپليڪيشنن جي آپريٽنگ خاصيتن، ڊي بي ايم ايس ۽ ڊسڪ وسيلن جي ٻين "صارفين" جي سمجھڻ ۾.

  • ۽ آخرڪار، پڪ ڪريو ته بيڪ اپ کي تاريخ ۽ ڪم ڪرڻ لاء. بيڪ اپ شيڊول ڪاروبار لاءِ قابل قبول RPO قدرن جي بنياد تي ترتيب ڏنو وڃي، ۽ بيڪ اپ جي وقتي سالميت جي چڪاس جي تصديق ٿيڻ گهرجي (ڪجهه بيڪ اپ سافٽ ويئر وينڊرز انهن جي پروڊڪٽس ۾ خودڪار تصديق لاڳو ڪئي آهي) هڪ قابل قبول RTO قدر کي يقيني بڻائڻ لاءِ.

آخر تائين پڙهڻ لاءِ مهرباني.
اسان توهان جي سوالن ۽ تبصرن ۾ جواب ڏيڻ لاء تيار آهيون. پڻ اسان توهان کي اسان جي ٽيليگرام چينل کي سبسڪرائيب ڪرڻ جي دعوت ڏيون ٿا، جنهن ۾ اسان باقاعده پروموشنز رکون ٿا (IaaS تي رعايتون ۽ VPS تي 100٪ تائين پروموشنل ڪوڊس لاءِ تحفا)، دلچسپ خبرون لکون ۽ Habr بلاگ تي نوان مضمونن جو اعلان ڪريو.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو