Habré تي اڳوڻو آرٽيڪل آرڪيٽيڪچر ۽ اسٽوريج سسٽم جي بنيادي تشڪيل بابت سوالن تي بحث ڪيو. هن آرٽيڪل ۾ اسان هڪ سوال تي غور ڪنداسين جيڪو اڳ ۾ ڍڪيل نه آهي، پر اڪثر پڇيو ويندو آهي - AERODISK ENGINE اسٽوريج سسٽم جي غلطي رواداري بابت. اسان جي ٽيم ان ڳالهه کي يقيني بڻائڻ لاءِ سڀ ڪجهه ڪندي ته AERODISK اسٽوريج سسٽم ڪم ڪرڻ بند ڪري، يعني. ان کي ٽوڙيو.
اهو ائين ٿيو آهي ته اسان جي ڪمپني جي تاريخ بابت آرٽيڪل، اسان جي شين جي باري ۾، ۽ انهي سان گڏ ڪامياب عملدرآمد جو هڪ مثال اڳ ۾ ئي Habré تي لٽڪيل آهي، جنهن لاء اسان جي ڀائيوارن جي وڏي مهرباني - TS حل ۽ سافٽ لائن ڪمپنيون.
تنهن ڪري، مان هتي ڪاپي پيسٽ مينيجمينٽ جي مهارتن جي تربيت نه ڪندس، پر صرف انهن مضمونن جي اصل لنڪس مهيا ڪندس:
مان پڻ خوشخبري حصيداري ڪرڻ چاهيان ٿو. پر مان شروع ڪندس، يقينا، مسئلي سان. اسان، هڪ نوجوان وينڊر جي حيثيت ۾، ٻين قيمتن جي وچ ۾، مسلسل حقيقت سان منهن ڏيڻو پوي ٿو ته ڪيترن ئي انجنيئرن ۽ منتظمين کي صرف اهو معلوم ناهي ته اسان جي اسٽوريج سسٽم کي ڪيئن صحيح طريقي سان هلائڻ.
اهو واضح آهي ته اڪثر اسٽوريج سسٽم کي منظم ڪرڻ لڳ ڀڳ هڪ ئي نظر اچي ٿو منتظم جي نقطي نظر کان، پر هر ڪارخاني جي پنهنجي خاصيتون آهن. ۽ اسان هتي ڪو به استثنا نه آهيون.
تنهن ڪري، IT ماهرن جي تربيت جي ڪم کي آسان ڪرڻ لاء، اسان هن سال کي مفت تعليم ڏيڻ لاء وقف ڪرڻ جو فيصلو ڪيو. ائين ڪرڻ لاءِ، روس جي ڪيترن ئي وڏن شهرن ۾ اسان AERODISK Competence سينٽرن جو هڪ نيٽ ورڪ کولي رهيا آهيون، جنهن ۾ ڪو به دلچسپي رکندڙ ٽيڪنيڪل ماهر ڪورس ڪري سگهي ٿو بلڪل مفت ۽ AERODISK ENGINE اسٽوريج سسٽم جي انتظام ۾ سرٽيفڪيٽ حاصل ڪري سگهي ٿو.
هر هڪ قابليت سينٽر ۾ اسان AERODISK اسٽوريج سسٽم ۽ هڪ فزيڪل سرور مان هڪ مڪمل ڊيمو اسٽينڊ نصب ڪنداسين، جنهن تي اسان جو استاد منهن ڏيڻ واري تربيت ڏيندو. اسان انهن جي ظاهر ٿيڻ تي قابليت سينٽرن جي ڪم جي شيڊول کي شايع ڪنداسين، پر اسان اڳ ۾ ئي نزني نوگوروڊ ۾ هڪ مرڪز کوليو آهي ۽ ڪراسنوڊار جو شهر اڳتي آهي. توھان ھيٺ ڏنل لنڪ استعمال ڪندي تربيت لاءِ سائن اپ ڪري سگھو ٿا. هتي شهرن ۽ تاريخن بابت هن وقت ڄاڻايل ڄاڻ آهي:
Nizny Novgorod (اڳ ۾ ئي کليل آهي - توهان هتي سائن اپ ڪري سگهو ٿا https://aerodisk.promo/nn/);
16 اپريل 2019 تائين، توهان ڪنهن به ڪم جي وقت تي مرڪز جو دورو ڪري سگهو ٿا، ۽ 16 اپريل 2019 تي، هڪ وڏو تربيتي ڪورس منعقد ڪيو ويندو.
اسان سرور کي FC ۽ 10G Ethernet ذريعي سوئچ ذريعي اسٽوريج سسٽم سان ڳنڍيو. اسٽينڊ ڊراگرام هيٺ ڏنل آهي.
اجزاء جيڪي اسان کي گهربل آهن، جهڙوڪ MPIO ۽ iSCSI شروعاتي، ونڊوز سرور تي نصب ٿيل آهن.
زونز FC سوئچز تي ترتيب ڏنل آهن، لاڳاپيل VLANs LAN سوئچز تي ترتيب ڏنل آهن، ۽ MTU 9000 اسٽوريج بندرگاهن، سوئچز ۽ ميزبان تي نصب ٿيل آهي (اهو سڀ ڪيئن ڪجي اسان جي دستاويزن ۾ بيان ڪيل آهي، تنهنڪري اسان بيان نه ڪنداسين. اهو عمل هتي).
ٽيسٽ جو طريقو
حادثي جي جاچ جو منصوبو هن ريت آهي:
FC ۽ Ethernet بندرگاهن جي ناڪامي جي چڪاس.
پاور ناڪامي جي چڪاس.
ڪنٽرولر جي ناڪامي جي چڪاس.
ھڪڙي گروپ / پول ۾ ڊسڪ جي ناڪامي جي جانچ ڪندي.
سڀئي تجربا مصنوعي لوڊ جي حالتن تحت ڪيا ويندا، جيڪي اسان IOMETER پروگرام ذريعي ٺاهينداسين. متوازي طور تي، اسان ساڳيون ٽيسٽ ڪنداسين، پر وڏي فائلن کي نقل ڪرڻ جي شرطن جي تحت اسٽوريج سسٽم ڏانهن.
IOmeter جي ترتيب هن ريت آهي:
پڙهو/لکيو - 70/30
بلاڪ - 128k (اسان وڏي بلاڪ ۾ اسٽوريج سسٽم کي ڌوئڻ جو فيصلو ڪيو)
موضوعن جو تعداد - 128 (جيڪو پيداواري لوڊ سان تمام گهڻو ملندو آهي)
مڪمل بي ترتيب
مزدورن جو تعداد - 4 (2 ايف سي لاءِ، 2 iSCSI لاءِ)
امتحان جا هيٺيان مقصد آهن:
پڪ ڪريو ته مصنوعي لوڊ ۽ ڪاپي جي عمل ۾ مداخلت نه ٿيندي يا مختلف ناڪامي منظرنامن ۾ غلطيون پيدا ٿينديون.
پڪ ڪريو ته بندرگاهن، ڪنٽرولرز، وغيره کي تبديل ڪرڻ جو عمل ڪافي خودڪار آهي ۽ ناڪامي جي صورت ۾ منتظم جي عملن جي ضرورت ناهي (اهو آهي، ناڪامي جي دوران، اسان ناڪامي جي باري ۾ نه ڳالهائي رهيا آهيون، يقينا).
پڪ ڪريو ته لاگن ۾ معلومات صحيح طور تي ڏيکاريل آهي.
ميزبان ۽ اسٽوريج سسٽم تيار ڪرڻ
اسان FC ۽ Ethernet بندرگاهن کي استعمال ڪندي اسٽوريج سسٽم تي بلاڪ رسائي ترتيب ڏني آهي (ترتيب سان FC ۽ iSCSI). TS حل جا ماڻهو تفصيل سان بيان ڪيا ويا آهن ته اهو ڪيئن ڪجي پوئين آرٽيڪل ۾ (https://habr.com/ru/company/tssolution/blog/432876/). ۽، يقينا، ڪو به دستياب ۽ ڪورس منسوخ نه ڪيو.
اسان ھائبرڊ گروپ قائم ڪيو آھي جيڪي اسان وٽ ھيون سڀئي ڊرائيو استعمال ڪندي. 2 ايس ايس ڊي ڊسڪ ڪيش ۾ شامل ڪيا ويا، 2 ايس ايس ڊي ڊسڪ اضافي اسٽوريج ٽائر (آن لائن ٽائر) طور شامل ڪيا ويا. اسان گروپ ڪيو 12 SAS10k ڊرائيوز RAID-60P (ٽريپل برابري) ۾ هڪ ئي وقت ۾ ٽن ڊرائيو جي ناڪامي کي جانچڻ لاءِ. هڪ ڊسڪ خودڪار متبادل لاء ڇڏي ويو.
اسان ٻه LUNs ڳنڍيو (هڪ FC ذريعي، هڪ iSCSI ذريعي).
ٻنهي LUNs جو مالڪ انجڻ-0 ڪنٽرولر آهي
اچو ته امتحان شروع ڪريون
اسان مٿي ڏنل ترتيب سان IOMETER کي چالو ڪيو.
اسان 1.8 GB/s جي هڪ throughput ۽ 3 milliseconds جي دير سان رڪارڊ ڪيو. ڪو به نقص نه آهي (مجموعي غلطي ڳڻپ).
ساڳئي وقت، اسان جي ميزبان جي مقامي ڊرائيو "سي" کان، اسان متوازي طور تي ٻه وڏيون 100GB فائلن کي نقل ڪرڻ شروع ڪندا آهيون FC ۽ iSCSI اسٽوريج LUNs (ڊرائيوز E ۽ G ونڊوز ۾)، ٻين انٽرفيس استعمال ڪندي.
مٿي نقل ڪرڻ وارو عمل آهي LUN FC ڏانهن، هيٺ iSCSI ڏانهن.
ٽيسٽ #1: I/O بندرگاهن کي غير فعال ڪرڻ
اسان پوئتي کان اسٽوريج سسٽم تائين پهچون ٿا))) ۽ هٿ جي معمولي حرڪت سان اسان انجڻ-10 ڪنٽرولر مان سڀ FC ۽ Ethernet 0G ڪيبل ڪڍون ٿا. اهو ائين آهي ڄڻ هڪ صفائي ڪندڙ عورت هڪ موپ سان گڏ هلي رهي هئي ۽ فرش کي صحيح طور تي ڌوئڻ جو فيصلو ڪيو جتي سنوٽ بيٺو هو ۽ ڪيبل بيٺا هئا (يعني ڪنٽرولر اڃا ڪم ڪري ٿو، پر I/O بندرگاهن مري ويا آهن).
اچو ته ڏسو IOMETER ۽ ڪاپي فائلن کي. 0,5 GB / s تائين گھٽجي ويو، پر جلدي پنھنجي پوئين سطح ڏانھن موٽيو (اٽڪل 4-5 سيڪنڊن ۾). ڪي به غلطيون نه آهن.
فائلن کي نقل ڪرڻ بند نه ڪيو ويو آهي، رفتار ۾ گهٽتائي آهي، پر اهو تمام نازڪ ناهي (840 MB / s کان اهو 720 MB / s تائين گهٽجي ويو). ڪاپي ڪرڻ بند نه ٿيو آهي.
اسان اسٽوريج سسٽم جي لاگن تي نظر رکون ٿا ۽ بندرگاهن جي غير موجودگي ۽ گروپ جي خودڪار منتقلي بابت هڪ پيغام ڏسو.
معلومات پينل پڻ اسان کي ٻڌائي ٿو ته هر شي ايف سي بندرگاهن سان تمام سٺو ناهي.
اسٽوريج سسٽم I / O بندرگاهن جي ناڪامي کان بچي ويو ڪاميابيءَ سان.
ٽيسٽ نمبر 2. اسٽوريج ڪنٽرولر کي غير فعال ڪرڻ
لڳ ڀڳ فوري طور تي (ڪيبل کي واپس اسٽوريج سسٽم ۾ پلگ ان ڪرڻ کان پوء) اسان ڪنٽرولر کي چيسس مان ڪڍڻ سان اسٽوريج سسٽم کي ختم ڪرڻ جو فيصلو ڪيو.
ٻيهر اسان پوئتي کان اسٽوريج سسٽم ڏانهن وڃو (اسان ان کي پسند ڪيو))) ۽ هن ڀيري اسان انجڻ-1 ڪنٽرولر کي ڪڍي ڇڏيو، جيڪو هن وقت RDG جو مالڪ آهي (جنهن ڏانهن گروپ منتقل ڪيو ويو).
IOmeter ۾ صورتحال هن ريت آهي. I/O اٽڪل 5 سيڪنڊن لاءِ بند ٿي ويو. غلطيون جمع نه ٿيون ٿين.
5 سيڪنڊن کان پوءِ، I/O وري شروع ٿيو اٽڪل ساڳئي ٿروپٽ سان، پر 35 ملي سيڪنڊن جي دير سان (تقريبا ڪجهه منٽن کان پوءِ دير سان درست ڪيو ويو). جيئن ته اسڪرين شاٽ مان ڏسي سگھجي ٿو، مجموعي غلطي جي ڳڻپ جو قدر 0 آھي، اھو آھي، لکڻ يا پڙھڻ جون غلطيون ڪونھي.
اچو ته اسان جي فائلن کي نقل ڪرڻ تي نظر رکون. جئين توهان ڏسي سگهو ٿا، اهو مداخلت نه ڪيو ويو، ڪارڪردگي ۾ معمولي گهٽتائي هئي، پر مجموعي طور تي هر شيء ساڳئي ~ 800 MB / s ڏانهن موٽيو.
پڻ سينسر مينيو ۾ اسان ڏسون ٿا ته سينسرز سان لاڳاپيل بجلي جي فراهمي سان ڳنڍيل آهي ڳاڙهو ٿي ويو آهي.
اسٽوريج سسٽم ڪم جاري رکي ٿو. پاور سپلائي يونٽ جي ناڪامي ڪنهن به طريقي سان اسٽوريج سسٽم جي آپريشن تي اثر انداز نٿو ڪري؛ ميزبان جي نقطي نظر کان، نقل جي رفتار ۽ IOMETER اشارن ۾ تبديلي نه رهي.
پاور ناڪامي جو امتحان پاس ڪيو ڪاميابيءَ سان.
فائنل ٽيسٽ کان اڳ، اسان فيصلو ڪيو ته اسٽوريج سسٽم کي ٿورو بحال ڪيو وڃي، ڪنٽرولر ۽ پاور سپلائي يونٽ کي واپس رکون، ۽ ڪيبل پڻ ترتيب ڏيو، جنهن جي اسٽوريج سسٽم اسان کي خوشيء سان پنهنجي صحت جي پينل ۾ سائي آئڪن سان ٻڌايو. .
ٽيسٽ نمبر 4. هڪ گروپ ۾ ٽن ڊسڪ جي ناڪامي
هن امتحان کان اڳ، اسان هڪ اضافي تيار ڪرڻ وارو قدم ڪيو. حقيقت اها آهي ته انجڻ اسٽوريج سسٽم هڪ تمام مفيد شيء مهيا ڪري ٿو - مختلف ٻيهر تعميراتي پاليسين. TS حل هن مضمون بابت اڳ ۾ لکيو، پر اچو ته ان جي جوهر کي ياد ڪريون. اسٽوريج ايڊمنسٽريٽر ٻيهر تعمير ڪرڻ دوران وسيلن جي تخصيص لاءِ ترجيح بيان ڪري سگهي ٿو. يا ته I/O ڪارڪردگي جي هدايت ۾، اهو آهي، ٻيهر تعمير وڌيڪ وقت وٺندو آهي، پر ڪارڪردگي جي ڪا به گهٽتائي ناهي. يا وري تعمير جي رفتار جي هدايت ۾، پر پيداوار گھٽجي ويندي. يا هڪ متوازن اختيار. جيئن ته ڊسڪ گروپ جي ٻيهر تعمير دوران اسٽوريج ڪارڪردگي هميشه هڪ منتظم جي سر درد آهي، اسان I/O ڪارڪردگي جي طرف ۽ ٻيهر تعمير جي رفتار جي خرچ تي تعصب سان پاليسي جي جانچ ڪنداسين.
هاڻي اچو ته ڊسڪ جي ناڪامي لاء چيڪ ڪريو. اسان پڻ LUNs (فائلون ۽ IOMETER) تي رڪارڊنگ کي فعال ڪريون ٿا. جيئن ته اسان وٽ ٽرپل برابري (RAID-60P) سان گڏ هڪ گروپ آهي، ان جو مطلب اهو آهي ته سسٽم کي ٽن ڊسڪ جي ناڪامي کي برداشت ڪرڻ گهرجي، ۽ ناڪام ٿيڻ کان پوء، خودڪار متبادل ڪم ڪرڻ گهرجي، هڪ ڊسڪ کي ناڪام ٿيڻ جي هڪ جاء وٺڻ گهرجي. RDG ۾، ۽ ان تي ٻيهر تعمير شروع ٿيڻ گهرجي.
شروع. پهرين، اسٽوريج انٽرفيس ذريعي، اچو ته انهن ڊسڪ کي نمايان ڪريون جيڪي اسان ڪڍڻ چاهيون ٿا (جيئن نه وڃجي ۽ آٽو چينج ڊسڪ کي ڇڪيو).
هن موقعي تي، اسان اسٽوريج سسٽم جي خلاف تشدد کي روڪڻ جو فيصلو ڪيو. اچو ته اختصار ڪريون:
ايف سي پورٽ ناڪامي چيڪ - ڪامياب
Ethernet پورٽ ناڪامي چيڪ - ڪامياب
ڪنٽرولر ناڪامي چيڪ - ڪامياب
پاور ناڪامي ٽيسٽ - ڪامياب
گروپ پول ۾ ڊسڪ جي ناڪامي جي چڪاس - ڪامياب
ڪنهن به ناڪامي رڪارڊنگ کي روڪيو يا مصنوعي لوڊ ۾ غلطي جو سبب بڻيو؛ يقينا، اتي هڪ ڪارڪردگي جو شڪار هو (۽ اسان ڄاڻون ٿا ته ان تي قابو ڪيئن ڪجي، جيڪو اسان جلد ڪنداسين)، پر ڏنو ويو آهي ته اهي سيڪنڊ آهن، اهو ڪافي قابل قبول آهي. نتيجو: AERODISK اسٽوريج سسٽم جي سڀني اجزاء جي غلطي رواداري سطح تي ڪم ڪيو، ناڪامي جا ڪي نقطا نه هئا.
ظاهر آهي، هڪ مضمون ۾ اسان سڀني ناڪامي منظرنامي کي جانچ نه ٿا ڪري سگهون، پر اسان سڀ کان وڌيڪ مقبوليت کي ڍڪڻ جي ڪوشش ڪئي. تنهن ڪري، مهرباني ڪري پنهنجا رايا، مستقبل جي اشاعتن لاءِ تجويزون ۽، يقيناً، مناسب تنقيد موڪليو. اسان کي بحث ڪرڻ ۾ خوشي ٿي ويندي (يا اڃا بهتر، ٽريننگ تي اچو، آئون شيڊول کي صرف صورت ۾ نقل ڪريان ٿو)! نئين ٽيسٽ تائين!
Nizny Novgorod (اڳ ۾ ئي کليل آهي - توهان هتي سائن اپ ڪري سگهو ٿا https://aerodisk.promo/nn/);
16 اپريل 2019 تائين، توهان ڪنهن به ڪم جي وقت تي مرڪز جو دورو ڪري سگهو ٿا، ۽ 16 اپريل 2019 تي، هڪ وڏو تربيتي ڪورس منعقد ڪيو ويندو.