تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

ڪنهن به وڏي ڊيٽا جي آپريشن کي تمام گهڻو ڪمپيوٽنگ پاور جي ضرورت آهي. ڊيٽابيس کان هڊوپ تائين ڊيٽا جي هڪ عام حرڪت ۾ هفتا لڳي سگهن ٿا يا هوائي جهاز جي ونگ جيتري قيمت. انتظار ڪرڻ ۽ پئسا خرچ ڪرڻ نٿا چاهيو؟ مختلف پليٽ فارمن تي لوڊ بيلنس ڪريو. ھڪڙو طريقو آھي pushdown optimization.

مون انفارميٽيڪا پراڊڪٽس جي ترقي ۽ انتظاميه لاءِ روس جي معروف ٽرينر، اليڪسي انانيف کان پڇيو ته، انفارميٽيڪا بگ ڊيٽا مئنيجمينٽ (BDM) ۾ پش ڊائون آپٽمائيزيشن فنڪشن بابت ڳالهائڻ لاءِ. ڇا توهان ڪڏهن انفارميٽيڪا پروڊڪٽس سان ڪم ڪرڻ سکيو آهي؟ گهڻو ڪري، اهو Alexey هو جنهن توهان کي پاور سينٽر جي بنياديات ٻڌايو ۽ وضاحت ڪئي ته ميپنگ ڪيئن ٺاهيو.

Alexey Ananyev، DIS گروپ ۾ تربيت جو سربراهه

pushdown ڇا آهي؟

توھان مان گھڻا اڳي ئي واقف آھن انفارميٽيڪا بگ ڊيٽا مئنيجمينٽ (BDM). پراڊڪٽ مختلف ذريعن کان وڏي ڊيٽا کي ضم ڪري سگهي ٿو، ان کي مختلف سسٽم جي وچ ۾ منتقل ڪري ٿو، ان کي آسان رسائي فراهم ڪري ٿو، توهان کي ان کي پروفائل ڪرڻ جي اجازت ڏئي ٿو، ۽ گهڻو ڪجهه.
ساڄي ھٿن ۾، بي ڊي ايم ڪم ڪري سگھي ٿو عجب: ڪم جلد مڪمل ڪيا ويندا ۽ گھٽ ۾ گھٽ ڪمپيوٽنگ وسيلن سان.

ڇا توهان اهو پڻ چاهيو ٿا؟ ڪمپيوٽنگ لوڊ کي مختلف پليٽ فارمن تي ورهائڻ لاءِ BDM ۾ pushdown فيچر استعمال ڪرڻ سکو. Pushdown ٽيڪنالاجي توهان کي ميپنگ کي اسڪرپٽ ۾ تبديل ڪرڻ جي اجازت ڏئي ٿي ۽ ماحول کي چونڊيو جنهن ۾ هي اسڪرپٽ هلندي. هي اختيار توهان کي مختلف پليٽ فارمن جي طاقت کي گڏ ڪرڻ ۽ انهن جي وڌ ۾ وڌ ڪارڪردگي حاصل ڪرڻ جي اجازت ڏئي ٿو.

اسڪرپٽ جي عمل جي ماحول کي ترتيب ڏيڻ لاء، توھان کي چونڊڻ جي ضرورت آھي pushdown قسم. اسڪرپٽ مڪمل طور تي Hadoop تي هلائي سگھجي ٿو يا جزوي طور تي ماخذ ۽ سنڪ جي وچ ۾ ورهائي سگھجي ٿو. اتي 4 ممڪن pushdown قسم آهن. نقشي سازي کي اسڪرپٽ ۾ تبديل ڪرڻ جي ضرورت ناهي (ملي). ميپنگ کي ممڪن طور تي ذريعو (ذريعو) يا مڪمل طور تي ماخذ (مڪمل) تي ڪري سگهجي ٿو. ميپنگ پڻ تبديل ڪري سگھجي ٿو Hadoop اسڪرپٽ (ڪو به نه).

Pushdown اصلاح

ڏنل 4 قسمن کي مختلف طريقن سان گڏ ڪري سگھجي ٿو - pushdown سسٽم جي مخصوص ضرورتن لاءِ بهتر ڪري سگھجي ٿو. مثال طور، اهو اڪثر ڪري وڌيڪ مناسب آهي ڊيٽا کي ڪڍڻ لاء ڊيٽابيس مان پنهنجي صلاحيتن کي استعمال ڪندي. ۽ ڊيٽا کي Hadoop استعمال ڪندي تبديل ڪيو ويندو، جيئن ته ڊيٽابيس کي اوورلوڊ نه ڪيو وڃي.

اچو ته ان معاملي تي غور ڪريون جڏهن ماخذ ۽ منزل ٻئي ڊيٽابيس ۾ آهن، ۽ تبديليءَ جي عمل جي پليٽ فارم کي منتخب ڪري سگهجي ٿو: سيٽنگن تي منحصر ڪري، اهو هوندو انفارميٽيڪا، ڊيٽابيس سرور، يا هڊوپ. اهڙي مثال توهان کي سڀ کان وڌيڪ صحيح طور تي هن مشين جي آپريشن جي ٽيڪنيڪل پاسي کي سمجهڻ جي اجازت ڏيندو. قدرتي طور تي، حقيقي زندگي ۾، اها صورتحال پيدا نه ٿيندي آهي، پر ڪارڪردگي جي نمائش لاء اهو بهترين آهي.

اچو ته هڪ Oracle ڊيٽابيس ۾ ٻه ٽيبل پڙهڻ لاءِ ميپنگ وٺون. ۽ پڙهڻ جا نتيجا ساڳي ڊيٽابيس ۾ ٽيبل ۾ رڪارڊ ڪيا وڃن. نقشي جي اسڪيم هن طرح هوندي:

تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

انفارميٽيڪا BDM 10.2.1 تي نقشي جي صورت ۾ اهو هن طرح نظر اچي ٿو:

تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

Pushdown قسم - اصلي

جيڪڏهن اسان pushdown اصلي قسم کي چونڊيو، پوء ميپنگ انفارميٽيڪا سرور تي ڪيو ويندو. ڊيٽا کي Oracle سرور مان پڙهيو ويندو، انفارميٽيڪا سرور ڏانهن منتقل ڪيو ويندو، اتي تبديل ڪيو ويو ۽ Hadoop ڏانهن منتقل ڪيو ويندو. ٻين لفظن ۾، اسان هڪ عام ETL عمل حاصل ڪنداسين.

Pushdown قسم - ذريعو

جڏهن ماخذ جو قسم چونڊيو، اسان کي اسان جي پروسيس کي ڊيٽابيس سرور (DB) ۽ Hadoop جي وچ ۾ ورهائڻ جو موقعو مليو. جڏهن هڪ عمل هن سيٽنگ سان عمل ڪيو ويندو آهي، جدولن مان ڊيٽا کي ٻيهر حاصل ڪرڻ جي درخواست ڊيٽابيس ڏانهن موڪلي ويندي. ۽ باقي هدوپ تي قدمن جي صورت ۾ انجام ڏنو ويندو.
execution diagram هن طرح نظر ايندو:

تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

هيٺ ڏنل رن ٽائم ماحول کي ترتيب ڏيڻ جو هڪ مثال آهي.

تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

انهي صورت ۾، نقشي کي ٻن مرحلن ۾ ڪيو ويندو. ان جي سيٽنگن ۾ اسان ڏسنداسين ته اهو هڪ اسڪرپٽ ۾ تبديل ٿي چڪو آهي جيڪو ذريعو ڏانهن موڪليو ويندو. ان کان علاوه، جدولن کي گڏ ڪرڻ ۽ ڊيٽا کي تبديل ڪرڻ جي صورت ۾ ڪيو ويندو ماخذ تي ختم ٿيل سوال جي صورت ۾.
هيٺ ڏنل تصوير ۾، اسان BDM تي هڪ بهتر ميپنگ ڏسون ٿا، ۽ ماخذ تي هڪ نئين وضاحت ڪيل سوال.

تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

هن ترتيب ۾ Hadoop جو ڪردار ڊيٽا جي وهڪري کي منظم ڪرڻ ۾ گھٽجي ويندو - ان کي ترتيب ڏيڻ. سوال جو نتيجو Hadoop ڏانهن موڪليو ويندو. هڪ دفعو پڙهڻ مڪمل ڪيو ويندو، Hadoop کان فائل سنڪ ڏانهن لکيو ويندو.

Pushdown قسم - مڪمل

جڏهن توهان مڪمل قسم چونڊيو ٿا، نقشي سازي مڪمل طور تي ڊيٽابيس جي سوال ۾ تبديل ٿي ويندي. ۽ درخواست جو نتيجو Hadoop ڏانهن موڪليو ويندو. اهڙي عمل جو هڪ خاڪو هيٺ پيش ڪيو ويندو.

تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

هڪ مثال سيٽ اپ هيٺ ڏيکاريل آهي.

تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

نتيجي طور، اسان حاصل ڪنداسين هڪ بهتر ميپنگ ساڳئي طرح اڳئين هڪ. فرق صرف اهو آهي ته سمورو منطق ان جي داخل ٿيڻ جي صورت ۾ وصول ڪندڙ ڏانهن منتقل ڪيو ويو آهي. بهتر نقشي سازي جو هڪ مثال هيٺ پيش ڪيو ويو آهي.

تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

هتي، جيئن اڳئين صورت ۾، Hadoop موصل جو ڪردار ادا ڪري ٿو. پر هتي اهو ذريعو مڪمل طور تي پڙهيو ويندو آهي، ۽ پوء ڊيٽا پروسيسنگ منطق وصول ڪندڙ سطح تي ڪيو ويندو آهي.

Pushdown قسم null آهي

خير، آخري آپشن آهي pushdown قسم، جنهن جي اندر اسان جي ميپنگ هڪ Hadoop اسڪرپٽ ۾ تبديل ٿي ويندي.

اصلاحي نقشو ھاڻي ھن طرح نظر ايندو:

تمام وڏي ڊيٽا کي سستي ۽ جلدي منتقل ڪرڻ، اپلوڊ ڪرڻ ۽ ضم ڪرڻ ڪيئن؟ pushdown optimization ڇا آهي؟

هتي ماخذ فائلن مان ڊيٽا پهرين پڙهي ويندي Hadoop تي. پوء، هن جي پنهنجي وسيلن کي استعمال ڪندي، اهي ٻه فائلون گڏ ڪيون وينديون. ان کان پوء، ڊيٽا کي تبديل ڪيو ويندو ۽ ڊيٽابيس تي اپلوڊ ڪيو ويندو.

pushdown optimization جي اصولن کي سمجهڻ سان، توهان تمام مؤثر طريقي سان منظم ڪري سگهو ٿا ڪيترن ئي عملن کي وڏي ڊيٽا سان ڪم ڪرڻ لاءِ. اهڙيء طرح، تازو، هڪ وڏي ڪمپني، صرف چند هفتن ۾، وڏي ڊيٽا کي اسٽوريج مان ڊائون لوڊ ڪيو هودوپ ۾، جيڪو هن اڳ ۾ ڪيترن ئي سالن تائين گڏ ڪيو هو.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو