کیا ہمیں ڈیٹا لیک کی ضرورت ہے؟ ڈیٹا گودام کے ساتھ کیا کرنا ہے؟

یہ مضمون میڈیم پر میرے مضمون کا ترجمہ ہے - ڈیٹا لیک کے ساتھ شروع کرناجو کہ کافی مقبول ہوا، شاید اس کی سادگی کی وجہ سے۔ اس لیے، میں نے اسے روسی زبان میں لکھنے کا فیصلہ کیا اور ایک عام شخص کو جو ڈیٹا اسپیشلسٹ نہیں ہے، اسے واضح کرنے کے لیے تھوڑا سا اضافہ کرنے کا فیصلہ کیا ہے کہ ڈیٹا ویئر ہاؤس (DW) کیا ہے، اور ڈیٹا لیک کیا ہے (Data Lake)، اور وہ کیسے۔ ایک ساتھ مل جاؤ.

میں ڈیٹا لیک کے بارے میں کیوں لکھنا چاہتا تھا؟ میں 10 سال سے زیادہ عرصے سے ڈیٹا اور اینالیٹکس کے ساتھ کام کر رہا ہوں، اور اب میں یقینی طور پر کیمبرج میں Amazon Alexa AI میں بڑے ڈیٹا کے ساتھ کام کر رہا ہوں، جو بوسٹن میں ہے، حالانکہ میں وینکوور جزیرے پر وکٹوریہ میں رہتا ہوں اور اکثر بوسٹن، سیٹل جاتا ہوں۔ ، اور وینکوور میں، اور کبھی کبھی ماسکو میں بھی، میں کانفرنسوں میں بولتا ہوں۔ میں بھی وقتاً فوقتاً لکھتا ہوں، لیکن میں بنیادی طور پر انگریزی میں لکھتا ہوں، اور میں پہلے بھی لکھ چکا ہوں۔ کچھ کتابیں، مجھے شمالی امریکہ سے تجزیاتی رجحانات کا اشتراک کرنے کی بھی ضرورت ہے، اور میں کبھی کبھی لکھتا ہوں۔ ٹیلیگرام.

میں نے ہمیشہ ڈیٹا گوداموں کے ساتھ کام کیا ہے، اور 2015 سے میں نے ایمیزون ویب سروسز کے ساتھ مل کر کام کرنا شروع کیا، اور عام طور پر کلاؤڈ اینالیٹکس (AWS، Azure، GCP) پر تبدیل ہو گیا۔ میں نے 2007 سے تجزیاتی حل کے ارتقاء کا مشاہدہ کیا ہے اور یہاں تک کہ ڈیٹا گودام فروش Teradata کے لیے کام کیا ہے اور اسے Sberbank میں لاگو کیا ہے، اور اسی وقت Hadoop کے ساتھ Big Data ظاہر ہوا۔ ہر کوئی کہنے لگا کہ ذخیرہ اندوزی کا دور گزر گیا اور اب سب کچھ ہڈوپ پر ہے اور پھر وہ پھر سے ڈیٹا لیک کی بات کرنے لگے کہ اب ڈیٹا گودام کا خاتمہ ضرور ہو گیا تھا۔ لیکن خوش قسمتی سے (شاید بدقسمتی سے کچھ لوگوں کے لیے جنہوں نے ہڈوپ قائم کرنے میں بہت زیادہ پیسہ کمایا)، ڈیٹا گودام ختم نہیں ہوا۔

اس مضمون میں ہم دیکھیں گے کہ ڈیٹا لیک کیا ہے۔ یہ مضمون ان لوگوں کے لیے ہے جنہیں ڈیٹا گوداموں کا بہت کم یا کوئی تجربہ نہیں ہے۔

کیا ہمیں ڈیٹا لیک کی ضرورت ہے؟ ڈیٹا گودام کے ساتھ کیا کرنا ہے؟

تصویر میں جھیل بلیڈ ہے، یہ میری پسندیدہ جھیلوں میں سے ایک ہے، حالانکہ میں وہاں صرف ایک بار گیا تھا، میں نے اسے ساری زندگی یاد رکھا۔ لیکن ہم ایک اور قسم کی جھیل کے بارے میں بات کریں گے - ایک ڈیٹا جھیل۔ شاید آپ میں سے بہت سے لوگوں نے اس اصطلاح کے بارے میں ایک سے زیادہ بار سنا ہو گا، لیکن ایک اور تعریف کسی کو نقصان نہیں پہنچائے گی۔

سب سے پہلے، ڈیٹا لیک کی سب سے مشہور تعریفیں یہ ہیں:

"ہر قسم کے خام ڈیٹا کا فائل سٹوریج جو تنظیم میں کسی کے بھی تجزیہ کے لیے دستیاب ہے" - مارٹن فولر۔

"اگر آپ کو لگتا ہے کہ ڈیٹا مارٹ پانی کی ایک بوتل ہے - صاف، پیک شدہ اور آسان استعمال کے لیے پیک کیا گیا ہے، تو ڈیٹا لیک اپنی قدرتی شکل میں پانی کا ایک بہت بڑا ذخیرہ ہے۔ صارفین، میں اپنے لیے پانی جمع کر سکتا ہوں، گہرائی میں غوطہ لگا سکتا ہوں، دریافت کر سکتا ہوں"- جیمز ڈکسن۔

اب ہم یقینی طور پر جانتے ہیں کہ ڈیٹا لیک تجزیات کے بارے میں ہے، یہ ہمیں بڑی مقدار میں ڈیٹا کو اس کی اصل شکل میں ذخیرہ کرنے کی اجازت دیتا ہے اور ہمارے پاس ڈیٹا تک ضروری اور آسان رسائی ہے۔

میں اکثر چیزوں کو آسان بنانا پسند کرتا ہوں، اگر میں کسی پیچیدہ اصطلاح کو آسان الفاظ میں سمجھا سکتا ہوں، تو میں خود سمجھتا ہوں کہ یہ کیسے کام کرتا ہے اور اس کی کیا ضرورت ہے۔ ایک دن، میں آئی فون فوٹو گیلری میں گھوم رہا تھا، اور یہ مجھ پر آ گیا، یہ ایک حقیقی ڈیٹا جھیل ہے، میں نے کانفرنسوں کے لیے ایک سلائیڈ بھی بنائی:

کیا ہمیں ڈیٹا لیک کی ضرورت ہے؟ ڈیٹا گودام کے ساتھ کیا کرنا ہے؟

سب کچھ بہت آسان ہے۔ ہم فون پر ایک تصویر لیتے ہیں، تصویر فون پر محفوظ ہوتی ہے اور اسے iCloud (کلاؤڈ فائل اسٹوریج) میں محفوظ کیا جا سکتا ہے۔ فون فوٹو میٹا ڈیٹا بھی جمع کرتا ہے: کیا دکھایا گیا ہے، جیو ٹیگ، وقت۔ نتیجے کے طور پر، ہم اپنی تصویر تلاش کرنے کے لیے آئی فون کے صارف دوست انٹرفیس کا استعمال کر سکتے ہیں اور ہم اشارے بھی دیکھتے ہیں، مثال کے طور پر، جب میں لفظ فائر کے ساتھ تصاویر تلاش کرتا ہوں، تو مجھے آگ کی تصویر کے ساتھ 3 تصاویر ملتی ہیں۔ میرے لیے، یہ بالکل ایک بزنس انٹیلی جنس ٹول کی طرح ہے جو بہت تیزی اور واضح طور پر کام کرتا ہے۔

اور یقیناً، ہمیں سیکیورٹی (اجازت اور تصدیق) کے بارے میں نہیں بھولنا چاہیے، ورنہ ہمارا ڈیٹا عوامی ڈومین میں آسانی سے ختم ہو سکتا ہے۔ بڑی کارپوریشنز اور سٹارٹ اپس کے بارے میں بہت سی خبریں ہیں جن کا ڈیٹا ڈویلپرز کی لاپرواہی اور سادہ اصولوں پر عمل نہ کرنے کی وجہ سے عوامی طور پر دستیاب ہوا۔

یہاں تک کہ اتنی سادہ تصویر بھی ہمیں یہ تصور کرنے میں مدد دیتی ہے کہ ڈیٹا لیک کیا ہے، اس کے روایتی ڈیٹا گودام اور اس کے اہم عناصر سے فرق:

  1. ڈیٹا لوڈ ہو رہا ہے۔ (انجیشن) ڈیٹا لیک کا ایک اہم جزو ہے۔ ڈیٹا ڈیٹا گودام میں دو طریقوں سے داخل ہوسکتا ہے - بیچ (وقفوں پر لوڈنگ) اور اسٹریمنگ (ڈیٹا کا بہاؤ)۔
  2. فائل اسٹوریج (اسٹوریج) ڈیٹا لیک کا بنیادی جزو ہے۔ ہمیں سٹوریج کو آسانی سے قابل توسیع، انتہائی قابل اعتماد، اور کم لاگت کی ضرورت تھی۔ مثال کے طور پر، AWS میں یہ S3 ہے۔
  3. کیٹلاگ اور تلاش (کیٹلاگ اور تلاش) - ہمارے لیے ڈیٹا کی دلدل سے بچنے کے لیے (یہ اس وقت ہوتا ہے جب ہم تمام ڈیٹا کو ایک ڈھیر میں ڈال دیتے ہیں، اور پھر اس کے ساتھ کام کرنا ناممکن ہو جاتا ہے)، ہمیں ڈیٹا کی درجہ بندی کرنے کے لیے ایک میٹا ڈیٹا پرت بنانے کی ضرورت ہوتی ہے۔ تاکہ صارفین آسانی سے ڈیٹا تلاش کر سکیں، جس کی انہیں تجزیہ کے لیے ضرورت ہے۔ مزید برآں، آپ اضافی تلاش کے حل جیسے ElasticSearch استعمال کر سکتے ہیں۔ تلاش صارف کو صارف دوست انٹرفیس کے ذریعے مطلوبہ ڈیٹا تلاش کرنے میں مدد کرتی ہے۔
  4. پروسیسنگ (عمل) - یہ مرحلہ ڈیٹا کی پروسیسنگ اور تبدیلی کے لیے ذمہ دار ہے۔ ہم ڈیٹا کو تبدیل کر سکتے ہیں، اس کی ساخت کو تبدیل کر سکتے ہیں، اسے صاف کر سکتے ہیں، اور بہت کچھ۔
  5. سیکورٹی (سیکیورٹی) - حل کے سیکورٹی ڈیزائن پر وقت گزارنا ضروری ہے۔ مثال کے طور پر، اسٹوریج، پروسیسنگ اور لوڈنگ کے دوران ڈیٹا انکرپشن۔ تصدیق اور اجازت کے طریقے استعمال کرنا ضروری ہے۔ آخر میں، ایک آڈٹ ٹول کی ضرورت ہے۔

عملی نقطہ نظر سے، ہم ایک ڈیٹا لیک کو تین صفات سے نمایاں کر سکتے ہیں:

  1. کچھ بھی جمع اور ذخیرہ کریں۔ - ڈیٹا لیک میں تمام ڈیٹا ہوتا ہے، کسی بھی مدت کے لیے خام غیر پروسیس شدہ ڈیٹا اور پروسیس شدہ/صاف ڈیٹا۔
  2. گہری اسکین - ایک ڈیٹا لیک صارفین کو ڈیٹا کو دریافت کرنے اور تجزیہ کرنے کی اجازت دیتی ہے۔
  3. لچکدار رسائی — ڈیٹا لیک مختلف ڈیٹا اور مختلف منظرناموں کے لیے لچکدار رسائی فراہم کرتی ہے۔

اب ہم ڈیٹا گودام اور ڈیٹا لیک کے درمیان فرق کے بارے میں بات کر سکتے ہیں۔ عام طور پر لوگ پوچھتے ہیں:

  • ڈیٹا گودام کے بارے میں کیا خیال ہے؟
  • کیا ہم ڈیٹا گودام کو ڈیٹا لیک سے تبدیل کر رہے ہیں یا ہم اسے بڑھا رہے ہیں؟
  • کیا اب بھی ڈیٹا لیک کے بغیر کرنا ممکن ہے؟

مختصر میں، کوئی واضح جواب نہیں ہے. یہ سب مخصوص صورتحال، ٹیم کی مہارت اور بجٹ پر منحصر ہے۔ مثال کے طور پر، ڈیٹا گودام کو Oracle سے AWS میں منتقل کرنا اور Amazon کی ذیلی کمپنی - Woot - کے ذریعے ڈیٹا لیک بنانا۔ ہماری ڈیٹا لیک کی کہانی: Woot.com نے AWS پر سرور لیس ڈیٹا لیک کیسے بنائی.

دوسری طرف، وینڈر سنو فلیک کا کہنا ہے کہ اب آپ کو ڈیٹا لیک کے بارے میں سوچنے کی ضرورت نہیں ہے، کیونکہ ان کا ڈیٹا پلیٹ فارم (2020 تک یہ ڈیٹا گودام تھا) آپ کو ڈیٹا لیک اور ڈیٹا گودام دونوں کو یکجا کرنے کی اجازت دیتا ہے۔ میں نے Snowflake کے ساتھ زیادہ کام نہیں کیا ہے، اور یہ واقعی ایک منفرد پروڈکٹ ہے جو ایسا کر سکتی ہے۔ مسئلہ کی قیمت ایک اور معاملہ ہے.

آخر میں، میری ذاتی رائے یہ ہے کہ ہمیں اپنی رپورٹنگ کے لیے ڈیٹا کے بنیادی ذریعہ کے طور پر اب بھی ڈیٹا گودام کی ضرورت ہے، اور جو بھی مناسب نہیں ہے اسے ہم ڈیٹا لیک میں محفوظ کر لیتے ہیں۔ تجزیات کا پورا کردار کاروبار کو فیصلے کرنے کے لیے آسان رسائی فراہم کرنا ہے۔ کوئی کچھ بھی کہے، کاروباری صارفین ڈیٹا لیک کے مقابلے ڈیٹا گودام کے ساتھ زیادہ موثر طریقے سے کام کرتے ہیں، مثال کے طور پر ایمیزون میں - وہاں Redshift (تجزیاتی ڈیٹا گودام) ہے اور Redshift Spectrum/Athena (S3 میں ڈیٹا لیک کے لیے SQL انٹرفیس ہے Hive/Presto)۔ یہی بات دوسرے جدید تجزیاتی ڈیٹا گوداموں پر بھی لاگو ہوتی ہے۔

آئیے ایک عام ڈیٹا گودام کے فن تعمیر کو دیکھتے ہیں:

کیا ہمیں ڈیٹا لیک کی ضرورت ہے؟ ڈیٹا گودام کے ساتھ کیا کرنا ہے؟

یہ ایک کلاسک حل ہے۔ ہمارے پاس سورس سسٹم ہیں، ETL/ELT کا استعمال کرتے ہوئے ہم ڈیٹا کو ایک تجزیاتی ڈیٹا گودام میں کاپی کرتے ہیں اور اسے بزنس انٹیلی جنس حل سے جوڑتے ہیں (میرا پسندیدہ ٹیبلاؤ ہے، آپ کا کیا ہوگا؟)۔

اس حل کے درج ذیل نقصانات ہیں:

  • ETL/ELT آپریشنز کے لیے وقت اور وسائل درکار ہوتے ہیں۔
  • ایک اصول کے طور پر، تجزیاتی ڈیٹا گودام میں ڈیٹا ذخیرہ کرنے کے لیے میموری سستی نہیں ہے (مثال کے طور پر، Redshift، BigQuery، Teradata)، کیونکہ ہمیں ایک پورا کلسٹر خریدنے کی ضرورت ہے۔
  • کاروباری صارفین کو صاف اور اکثر جمع شدہ ڈیٹا تک رسائی حاصل ہے اور انہیں خام ڈیٹا تک رسائی نہیں ہے۔

یقینا، یہ سب آپ کے کیس پر منحصر ہے. اگر آپ کو اپنے ڈیٹا گودام میں کوئی مسئلہ نہیں ہے، تو آپ کو ڈیٹا لیک کی بالکل بھی ضرورت نہیں ہے۔ لیکن جب جگہ، طاقت یا قیمت کی کمی کے ساتھ مسائل پیدا ہوتے ہیں، تو آپ ڈیٹا لیک کے آپشن پر غور کر سکتے ہیں۔ یہی وجہ ہے کہ ڈیٹا لیک بہت مشہور ہے۔ ڈیٹا جھیل کے فن تعمیر کی ایک مثال یہ ہے:
کیا ہمیں ڈیٹا لیک کی ضرورت ہے؟ ڈیٹا گودام کے ساتھ کیا کرنا ہے؟
ڈیٹا لیک اپروچ کا استعمال کرتے ہوئے، ہم اپنی ڈیٹا لیک (بیچ یا اسٹریمنگ) میں خام ڈیٹا لوڈ کرتے ہیں، پھر ہم ضرورت کے مطابق ڈیٹا پر کارروائی کرتے ہیں۔ ڈیٹا لیک کاروباری صارفین کو اپنے ڈیٹا ٹرانسفارمیشنز (ETL/ELT) بنانے یا بزنس انٹیلی جنس سلوشنز میں ڈیٹا کا تجزیہ کرنے کی اجازت دیتی ہے (اگر ضروری ڈرائیور دستیاب ہو)۔

کسی بھی تجزیاتی حل کا مقصد کاروباری صارفین کی خدمت کرنا ہے۔ اس لیے ہمیں ہمیشہ کاروباری ضروریات کے مطابق کام کرنا چاہیے۔ (ایمیزون میں یہ ایک اصول ہے - پیچھے کی طرف کام کرنا)۔

ڈیٹا گودام اور ڈیٹا لیک دونوں کے ساتھ کام کرتے ہوئے، ہم دونوں حلوں کا موازنہ کر سکتے ہیں:

کیا ہمیں ڈیٹا لیک کی ضرورت ہے؟ ڈیٹا گودام کے ساتھ کیا کرنا ہے؟

اہم نتیجہ جو اخذ کیا جا سکتا ہے وہ یہ ہے کہ ڈیٹا گودام ڈیٹا لیک کے ساتھ مقابلہ نہیں کرتا، بلکہ اس کی تکمیل کرتا ہے۔ لیکن یہ آپ پر منحصر ہے کہ آپ کے کیس کے لیے کیا صحیح ہے۔ اسے خود آزمانا اور صحیح نتیجہ اخذ کرنا ہمیشہ دلچسپ ہوتا ہے۔

میں آپ کو ایک کیس بھی بتانا چاہوں گا جب میں نے ڈیٹا لیک اپروچ کو استعمال کرنا شروع کیا تھا۔ سب کچھ بہت معمولی ہے، میں نے ایک ELT ٹول (ہمارے پاس Matillion ETL تھا) اور Amazon Redshift استعمال کرنے کی کوشش کی، میرا حل کام کر گیا، لیکن ضروریات کو پورا نہیں کیا۔

مجھے ویب لاگز لینے، انہیں تبدیل کرنے اور 2 کیسز کے لیے ڈیٹا فراہم کرنے کے لیے ان کو جمع کرنے کی ضرورت تھی۔

  1. مارکیٹنگ ٹیم SEO کے لیے بوٹ کی سرگرمی کا تجزیہ کرنا چاہتی تھی۔
  2. IT ویب سائٹ کی کارکردگی کے میٹرکس کو دیکھنا چاہتا تھا۔

بہت آسان، بہت سادہ لاگ۔ یہاں ایک مثال ہے:

https 2018-07-02T22:23:00.186641Z app/my-loadbalancer/50dc6c495c0c9188 
192.168.131.39:2817 10.0.0.1:80 0.086 0.048 0.037 200 200 0 57 
"GET https://www.example.com:443/ HTTP/1.1" "curl/7.46.0" ECDHE-RSA-AES128-GCM-SHA256 TLSv1.2 
arn:aws:elasticloadbalancing:us-east-2:123456789012:targetgroup/my-targets/73e2d6bc24d8a067
"Root=1-58337281-1d84f3d73c47ec4e58577259" "www.example.com" "arn:aws:acm:us-east-2:123456789012:certificate/12345678-1234-1234-1234-123456789012"
1 2018-07-02T22:22:48.364000Z "authenticate,forward" "-" "-"

ایک فائل کا وزن 1-4 میگا بائٹس تھا۔

لیکن ایک مشکل تھی۔ ہمارے پاس دنیا بھر میں 7 ڈومینز تھے، اور ایک دن میں 7000 ہزار فائلیں بن گئیں۔ یہ زیادہ حجم نہیں، صرف 50 گیگا بائٹس ہے۔ لیکن ہمارے Redshift کلسٹر کا سائز بھی چھوٹا تھا (4 نوڈس)۔ روایتی طریقے سے ایک فائل کو لوڈ کرنے میں تقریباً ایک منٹ لگا۔ یعنی مسئلہ سردست حل نہیں ہوا۔ اور یہ معاملہ تھا جب میں نے ڈیٹا لیک اپروچ کو استعمال کرنے کا فیصلہ کیا۔ حل کچھ اس طرح نظر آیا:

کیا ہمیں ڈیٹا لیک کی ضرورت ہے؟ ڈیٹا گودام کے ساتھ کیا کرنا ہے؟

یہ بہت آسان ہے (میں نوٹ کرنا چاہتا ہوں کہ کلاؤڈ میں کام کرنے کا فائدہ سادگی ہے)۔ میں نے استعمال کیا:

  • کمپیوٹ پاور کے لیے AWS لچکدار میپ ریڈوس (ہڈوپ)
  • ڈیٹا کو خفیہ کرنے اور رسائی کو محدود کرنے کی صلاحیت کے ساتھ فائل اسٹوریج کے طور پر AWS S3
  • چنگاری بطور InMemory کمپیوٹنگ پاور اور PySpark منطق اور ڈیٹا کی تبدیلی کے لیے
  • چنگاری کے نتیجے میں پارکیٹ
  • AWS Glue Crawler بطور میٹا ڈیٹا کلیکٹر نئے ڈیٹا اور پارٹیشنز کے بارے میں
  • Redshift Spectrum موجودہ Redshift صارفین کے لیے ڈیٹا لیک میں SQL انٹرفیس کے طور پر

سب سے چھوٹے EMR+Spark کلسٹر نے 30 منٹ میں فائلوں کے پورے اسٹیک پر کارروائی کی۔ AWS کے دیگر معاملات ہیں، خاص طور پر بہت سے الیکسا سے متعلق ہیں، جہاں بہت زیادہ ڈیٹا موجود ہے۔

ابھی حال ہی میں میں نے سیکھا کہ ڈیٹا لیک کے نقصانات میں سے ایک GDPR ہے۔ مسئلہ یہ ہے کہ جب کلائنٹ اسے حذف کرنے کو کہتا ہے اور ڈیٹا کسی ایک فائل میں ہوتا ہے، تو ہم ڈیٹا بیس کی طرح ڈیٹا مینیپولیشن لینگویج اور ڈیلیٹ آپریشن کا استعمال نہیں کر سکتے۔

مجھے امید ہے کہ اس مضمون نے ڈیٹا گودام اور ڈیٹا لیک کے درمیان فرق کو واضح کر دیا ہے۔ اگر آپ دلچسپی رکھتے ہیں تو، میں اپنے مزید مضامین یا پیشہ ور افراد کے مضامین کا ترجمہ کر سکتا ہوں جو میں نے پڑھے ہیں۔ اور ان حلوں کے بارے میں بھی بتائیں جن کے ساتھ میں کام کرتا ہوں اور ان کے فن تعمیر کے بارے میں۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں