بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

بڑے ڈیٹا کے ساتھ کسی بھی آپریشن کے لیے بڑی کمپیوٹنگ پاور کی ضرورت ہوتی ہے۔ ڈیٹا بیس سے ہڈوپ تک ڈیٹا کی ایک عام منتقلی میں ہفتے لگ سکتے ہیں یا ہوائی جہاز کے بازو جتنا لاگت آسکتی ہے۔ انتظار اور خرچ نہیں کرنا چاہتے؟ مختلف پلیٹ فارمز پر بوجھ کو متوازن رکھیں۔ ایک طریقہ پش ڈاؤن آپٹیمائزیشن ہے۔

میں نے انفارمیٹیکا پروڈکٹس کی ترقی اور انتظامیہ کے لیے ایک سرکردہ روسی ٹرینر الیکسی انانییف سے انفارمٹیکا بگ ڈیٹا مینجمنٹ (BDM) میں پش ڈاؤن آپٹیمائزیشن فیچر کے بارے میں بات کرنے کو کہا۔ کیا آپ نے کبھی انفارمیٹیکا پروڈکٹس کے ساتھ کام کرنا سیکھا ہے؟ غالباً یہ الیکسی ہی تھا جس نے آپ کو پاور سینٹر کی بنیادی باتیں بتائیں اور نقشہ سازی بنانے کا طریقہ بتایا۔

الیکسی انانییف، ہیڈ آف ٹریننگ ڈی آئی ایس گروپ

پش ڈاؤن کیا ہے؟

آپ میں سے بہت سے لوگ پہلے سے ہی Informatica Big Data Management (BDM) سے واقف ہیں۔ پروڈکٹ مختلف ذرائع سے بڑے ڈیٹا کو ضم کرنے، اسے مختلف سسٹمز کے درمیان منتقل کرنے، اس تک آسان رسائی فراہم کرنے، آپ کو اسے پروفائل کرنے کی اجازت دینے، اور بہت کچھ کرنے کے قابل ہے۔
دائیں ہاتھوں میں، BDM حیرت انگیز کام کر سکتا ہے: کام تیزی سے اور کم سے کم کمپیوٹنگ وسائل کے ساتھ مکمل کیے جائیں گے۔

کیا آپ بھی یہ چاہتے ہیں؟ مختلف پلیٹ فارمز پر کمپیوٹنگ کے کام کے بوجھ کو پھیلانے کے لیے BDM کے پش ڈاؤن فیچر کو استعمال کرنے کا طریقہ سیکھیں۔ پش ڈاؤن ٹیکنالوجی آپ کو نقشہ سازی کو اسکرپٹ میں تبدیل کرنے اور اس ماحول کو منتخب کرنے کی اجازت دیتی ہے جس میں یہ اسکرپٹ چلے گا۔ اس طرح کے انتخاب کا امکان آپ کو مختلف پلیٹ فارمز کی طاقتوں کو یکجا کرنے اور ان کی زیادہ سے زیادہ کارکردگی کو حاصل کرنے کی اجازت دیتا ہے۔

اسکرپٹ پر عمل درآمد کے ماحول کو ترتیب دینے کے لیے، آپ کو پش ڈاؤن قسم کو منتخب کرنے کی ضرورت ہے۔ اسکرپٹ کو مکمل طور پر ہڈوپ پر چلایا جاسکتا ہے یا ماخذ اور ہدف کے درمیان جزوی طور پر تقسیم کیا جاسکتا ہے۔ 4 ممکنہ پش ڈاؤن اقسام ہیں۔ نقشہ سازی کو اسکرپٹ (مقامی) میں تبدیل نہیں کیا جاسکتا۔ نقشہ سازی کو ماخذ (ماخذ) پر یا مکمل طور پر ماخذ (مکمل) پر ممکن حد تک انجام دیا جاسکتا ہے۔ میپنگ کو ہڈوپ اسکرپٹ میں بھی تبدیل کیا جاسکتا ہے (کوئی نہیں)۔

پش ڈاؤن آپٹیمائزیشن

درج کردہ 4 اقسام کو مختلف طریقوں سے جوڑا جا سکتا ہے - نظام کی مخصوص ضروریات کے لیے پش ڈاؤن کو بہتر بنانے کے لیے۔ مثال کے طور پر، اپنی صلاحیتوں کا استعمال کرتے ہوئے ڈیٹا بیس سے ڈیٹا کو بازیافت کرنا اکثر زیادہ مناسب ہوتا ہے۔ اور ڈیٹا کو تبدیل کرنے کے لیے - ہڈوپ کی قوتوں کے ذریعے، تاکہ ڈیٹا بیس خود سے زیادہ بوجھ نہ ہو۔

آئیے اس معاملے پر غور کریں جب ماخذ اور منزل دونوں ڈیٹا بیس میں ہوں، اور تبدیلیوں کو انجام دینے کے لیے پلیٹ فارم کا انتخاب کیا جا سکتا ہے: ترتیبات کے لحاظ سے، یہ انفارمٹیکا، ڈیٹا بیس سرور، یا ہڈوپ ہوگا۔ اس طرح کی مثال اس میکانزم کے آپریشن کے تکنیکی پہلو کو درست طریقے سے سمجھے گی۔ قدرتی طور پر، حقیقی زندگی میں، یہ صورت حال پیدا نہیں ہوتی، لیکن یہ فعالیت کا مظاہرہ کرنے کے لئے بہترین ہے.

آئیے ایک اوریکل ڈیٹا بیس میں دو جدولوں کو پڑھنے کے لیے میپنگ لیتے ہیں۔ اور پڑھنے کے نتائج کو اسی ڈیٹا بیس میں ایک ٹیبل پر لکھنے دیں۔ نقشہ سازی کی اسکیم اس طرح ہوگی:

بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

Informatica BDM 10.2.1 پر نقشہ سازی کی شکل میں، یہ اس طرح لگتا ہے:

بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

pushdown قسم - مقامی

اگر ہم پش ڈاؤن مقامی قسم کا انتخاب کرتے ہیں، تو نقشہ سازی انفارمیٹیکا سرور پر کی جائے گی۔ ڈیٹا کو اوریکل سرور سے پڑھا جائے گا، انفارمٹیکا سرور پر منتقل کیا جائے گا، وہاں تبدیل کیا جائے گا اور ہڈوپ میں منتقل کیا جائے گا۔ دوسرے الفاظ میں، ہمیں ایک عام ETL عمل ملے گا۔

pushdown-source ٹائپ کریں۔

ماخذ کی قسم کا انتخاب کرتے وقت، ہمیں اپنے عمل کو ڈیٹا بیس سرور (DB) اور Hadoop کے درمیان تقسیم کرنے کا موقع ملتا ہے۔ جب اس ترتیب کے ساتھ عمل کو انجام دیا جاتا ہے تو، ٹیبلز سے ڈیٹا حاصل کرنے کے لیے ڈیٹا بیس کو سوالات بھیجے جائیں گے۔ اور باقی کام ہڈوپ پر اقدامات کے طور پر کیا جائے گا۔
عملدرآمد اسکیم اس طرح نظر آئے گی:

بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

ذیل میں رن ٹائم ماحول ترتیب دینے کی ایک مثال ہے۔

بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

اس صورت میں، نقشہ سازی دو مراحل میں کی جائے گی۔ اس کی ترتیبات میں، ہم دیکھیں گے کہ یہ ایک اسکرپٹ میں تبدیل ہو گیا ہے جو ماخذ کو بھیجا جائے گا۔ مزید برآں، ٹیبلز کی شمولیت اور ڈیٹا ٹرانسفارمیشن ماخذ پر اوور رائیڈڈ استفسار کی صورت میں انجام دیا جائے گا۔
نیچے دی گئی تصویر میں، ہم BDM پر آپٹمائزڈ میپنگ، اور سورس پر دوبارہ وضاحت شدہ سوال دیکھتے ہیں۔

بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

اس ترتیب میں ہڈوپ کا کردار ڈیٹا کے بہاؤ کو منظم کرنے کے لیے کم ہو جائے گا - ان کی ترتیب۔ استفسار کا نتیجہ ہڈوپ کو بھیج دیا جائے گا۔ پڑھنے کے مکمل ہونے کے بعد، ہڈوپ سے فائل وصول کنندہ کو لکھی جائے گی۔

pushdown قسم - مکمل

جب آپ مکمل قسم کا انتخاب کرتے ہیں، نقشہ سازی مکمل طور پر ڈیٹا بیس کے سوال میں بدل جائے گی۔ اور استفسار کا نتیجہ ہڈوپ کو بھیج دیا جائے گا۔ اس طرح کے عمل کا ایک خاکہ ذیل میں پیش کیا گیا ہے۔

بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

ایک مثال سیٹ اپ ذیل میں دکھایا گیا ہے.

بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

نتیجے کے طور پر، ہمیں پچھلے ایک کی طرح ایک بہترین نقشہ سازی ملے گی۔ فرق صرف اتنا ہے کہ تمام منطق وصول کنندہ کو اس کے اندراج کی نئی تعریف کرنے کی صورت میں منتقل کر دی جاتی ہے۔ آپٹمائزڈ میپنگ کی ایک مثال ذیل میں دکھائی گئی ہے۔

بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

یہاں، پچھلے کیس کی طرح، ہڈوپ ایک موصل کا کردار ادا کرتا ہے۔ لیکن یہاں ماخذ کو پوری طرح پڑھا جاتا ہے، اور پھر ڈیٹا پروسیسنگ منطق کو وصول کنندہ کی سطح پر عمل میں لایا جاتا ہے۔

pushdown قسم کالعدم ہے۔

ٹھیک ہے، آخری آپشن پش ڈاؤن قسم ہے، جس کے اندر ہماری میپنگ ہڈوپ اسکرپٹ میں بدل جائے گی۔

آپٹمائزڈ میپنگ اب اس طرح نظر آئے گی:

بہت بڑے ڈیٹا کو سستے اور جلدی سے کیسے منتقل، اپ لوڈ اور انٹیگریٹ کیا جائے؟ پش ڈاؤن آپٹیمائزیشن کیا ہے؟

یہاں، ماخذ فائلوں کا ڈیٹا سب سے پہلے Hadoop کے ذریعے پڑھا جائے گا۔ پھر، اپنے طریقے سے، ان دونوں فائلوں کو یکجا کیا جائے گا۔ اس کے بعد ڈیٹا کو تبدیل کر کے ڈیٹا بیس میں اپ لوڈ کر دیا جائے گا۔

پش ڈاؤن آپٹیمائزیشن کے اصولوں کو سمجھ کر، آپ بڑے ڈیٹا کے ساتھ کام کرنے کے بہت سے عمل کو بہت مؤثر طریقے سے ترتیب دے سکتے ہیں۔ لہٰذا، حال ہی میں، ایک بڑی کمپنی نے چند ہفتوں میں سٹوریج سے بڑے ڈیٹا کو ہڈوپ میں اتار دیا، جو پہلے کئی سالوں سے جمع کیا گیا تھا۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں