گوگل کی BigQuery نے ڈیٹا کے تجزیہ کو کس طرح جمہوری بنایا۔ حصہ 1

ہیلو، حبر! ایک نئے کورس کے سلسلے کے لیے اندراج ابھی OTUS پر کھلا ہے۔ ڈیٹا انجینئر. کورس کے آغاز کی توقع میں، ہم نے روایتی طور پر آپ کے لیے دلچسپ مواد کا ترجمہ تیار کیا ہے۔

دنیا میں کیا ہو رہا ہے یہ جاننے اور اس پر گفتگو کرنے کے لیے ہر روز ایک سو ملین سے زیادہ لوگ ٹوئٹر پر جاتے ہیں۔ ہر ٹویٹ اور ہر دوسرے صارف کی کارروائی ایک ایسا واقعہ پیدا کرتی ہے جو ٹویٹر کے اندرونی ڈیٹا کے تجزیہ کے لیے دستیاب ہے۔ سینکڑوں ملازمین اس ڈیٹا کا تجزیہ اور تصور کرتے ہیں، اور اپنے تجربے کو بہتر بنانا ٹوئٹر ڈیٹا پلیٹ فارم ٹیم کے لیے اولین ترجیح ہے۔

ہم سمجھتے ہیں کہ تکنیکی مہارتوں کی ایک وسیع رینج کے حامل صارفین کو ڈیٹا دریافت کرنے کے قابل ہونا چاہیے اور اچھی کارکردگی کا مظاہرہ کرنے والے SQL پر مبنی تجزیہ اور ویژولائزیشن ٹولز تک رسائی حاصل کرنی چاہیے۔ یہ کم تکنیکی صارفین کے ایک مکمل نئے گروپ کو، بشمول ڈیٹا تجزیہ کاروں اور پروڈکٹ مینیجرز کو، ڈیٹا سے بصیرت نکالنے کی اجازت دے گا، جس سے وہ ٹویٹر کی صلاحیتوں کو بہتر طور پر سمجھنے اور استعمال کر سکیں گے۔ اس طرح ہم ٹویٹر پر ڈیٹا اینالیٹکس کو جمہوری بناتے ہیں۔

جیسا کہ ہمارے ٹولز اور اندرونی ڈیٹا اینالیٹکس کی صلاحیتوں میں بہتری آئی ہے، ہم نے ٹویٹر کو بہتر ہوتے دیکھا ہے۔ تاہم اب بھی بہتری کی گنجائش ہے۔ موجودہ ٹولز جیسے Scalding پروگرامنگ کے تجربے کی ضرورت ہے۔ ایس کیو ایل پر مبنی تجزیہ کے ٹولز جیسے پریسٹو اور ورٹیکا میں پیمانے پر کارکردگی کے مسائل ہیں۔ ہمیں ڈیٹا تک مسلسل رسائی کے بغیر متعدد سسٹمز میں تقسیم کرنے کا مسئلہ بھی ہے۔

پچھلے سال ہم نے اعلان کیا تھا۔ گوگل کے ساتھ نیا تعاونجس کے اندر ہم اپنے حصوں کو منتقل کرتے ہیں۔ ڈیٹا انفراسٹرکچر گوگل کلاؤڈ پلیٹ فارم (GCP) پر۔ ہم نے یہ نتیجہ اخذ کیا ہے کہ گوگل کلاؤڈ ٹولز بگ ڈیٹا ٹویٹر پر تجزیات، ویژولائزیشن، اور مشین لرننگ کو جمہوری بنانے کے لیے ہمارے اقدامات میں ہماری مدد کر سکتے ہیں:

  • بگ سوال: ایس کیو ایل انجن کے ساتھ انٹرپرائز ڈیٹا گودام Dremel، جو اپنی رفتار، سادگی اور مقابلہ کرنے کے لیے مشہور ہے۔ مشین لرننگ.
  • ڈیٹا اسٹوڈیو: Google Docs جیسی تعاون کی خصوصیات کے ساتھ بڑا ڈیٹا ویژولائزیشن ٹول۔

اس مضمون میں، آپ ان ٹولز کے ساتھ ہمارے تجربے کے بارے میں جانیں گے: ہم نے کیا کیا، کیا سیکھا، اور ہم آگے کیا کریں گے۔ اب ہم بیچ اور انٹرایکٹو تجزیات پر توجہ دیں گے۔ ہم اگلے مضمون میں حقیقی وقت کے تجزیات پر تبادلہ خیال کریں گے۔

ٹویٹر ڈیٹا اسٹورز کی تاریخ

BigQuery میں غوطہ لگانے سے پہلے، ٹویٹر ڈیٹا گودام کی تاریخ کو مختصراً بیان کرنا ضروری ہے۔ 2011 میں، ٹویٹر کے ڈیٹا کا تجزیہ ورٹیکا اور ہڈوپ میں کیا گیا تھا۔ ہم نے MapReduce Hadoop جابز بنانے کے لیے Pig کا استعمال کیا۔ 2012 میں، ہم نے پگ کو اسکیلڈنگ سے بدل دیا، جس میں پیچیدہ پائپ لائنز بنانے کی صلاحیت اور جانچ میں آسانی جیسے فوائد کے ساتھ Scala API تھا۔ تاہم، بہت سے ڈیٹا تجزیہ کاروں اور پروڈکٹ مینیجرز کے لیے جو SQL کے ساتھ کام کرنے میں زیادہ آرام دہ تھے، یہ کافی حد تک سیکھنے کا منحنی خطوط تھا۔ 2016 کے آس پاس، ہم نے Presto کو ہڈوپ ڈیٹا کے لیے SQL انٹرفیس کے طور پر استعمال کرنا شروع کیا۔ Spark نے ایک Python انٹرفیس پیش کیا، جو اسے ایڈہاک ڈیٹا سائنس اور مشین لرننگ کے لیے ایک اچھا انتخاب بناتا ہے۔

2018 سے، ہم نے ڈیٹا کے تجزیہ اور تصور کے لیے درج ذیل ٹولز کا استعمال کیا ہے:

  • پروڈکشن کنویرز کے لیے اسکیلڈنگ
  • ایڈہاک ڈیٹا کے تجزیہ اور مشین لرننگ کے لیے اسکیلڈنگ اور اسپارک
  • ایڈہاک اور انٹرایکٹو SQL تجزیہ کے لیے Vertica اور Presto
  • ٹائم سیریز میٹرکس تک کم انٹرایکٹو، ایکسپلوریٹری اور کم تاخیر تک رسائی کے لیے ڈروڈ
  • ڈیٹا ویژولائزیشن کے لیے ٹیبلو، زپیلین اور پیوٹ

ہم نے پایا کہ اگرچہ یہ ٹولز بہت طاقتور صلاحیتیں پیش کرتے ہیں، ہمیں ٹویٹر پر وسیع تر سامعین کے لیے ان صلاحیتوں کو دستیاب کرنے میں دشواری کا سامنا کرنا پڑا۔ گوگل کلاؤڈ کے ساتھ اپنے پلیٹ فارم کو وسعت دے کر، ہم تمام ٹویٹر کے لیے اپنے تجزیاتی ٹولز کو آسان بنانے پر توجہ مرکوز کر رہے ہیں۔

Google کا BigQuery ڈیٹا ویئر ہاؤس

ٹویٹر پر کئی ٹیموں نے پہلے ہی BigQuery کو اپنی کچھ پروڈکشن پائپ لائنوں میں شامل کر لیا ہے۔ ان کی مہارت کا استعمال کرتے ہوئے، ہم نے Twitter کے استعمال کے تمام معاملات کے لیے BigQuery کی صلاحیتوں کا جائزہ لینا شروع کیا۔ ہمارا مقصد پوری کمپنی کو BigQuery پیش کرنا اور ڈیٹا پلیٹ فارم ٹول سیٹ کے اندر اسے معیاری بنانا اور سپورٹ کرنا تھا۔ یہ بہت سی وجوہات کی بنا پر مشکل تھا۔ ہمیں ڈیٹا کی بڑی مقدار کو قابل اعتماد طریقے سے ہضم کرنے، کمپنی بھر میں ڈیٹا مینجمنٹ کی حمایت کرنے، مناسب رسائی کے کنٹرول کو یقینی بنانے، اور کسٹمر کی رازداری کو یقینی بنانے کے لیے ایک بنیادی ڈھانچہ تیار کرنے کی ضرورت ہے۔ ہمیں وسائل کی تقسیم، نگرانی، اور چارج بیکس کے لیے بھی سسٹم بنانا تھا تاکہ ٹیمیں BigQuery کو مؤثر طریقے سے استعمال کر سکیں۔

نومبر 2018 میں، ہم نے BigQuery اور Data Studio کی کمپنی بھر میں الفا ریلیز جاری کی۔ ہم نے ٹویٹر کے ملازمین کو ذاتی ڈیٹا کے ساتھ اپنی اکثر استعمال ہونے والی اسپریڈ شیٹس کی پیشکش کی ہے۔ BigQuery کو انجینئرنگ، فنانس اور مارکیٹنگ سمیت متعدد ٹیموں کے 250 سے زیادہ صارفین استعمال کر چکے ہیں۔ حال ہی میں، وہ تقریباً 8k درخواستیں چلا رہے تھے، تقریباً 100 PB فی مہینہ پروسیس کر رہے تھے، مقررہ درخواستوں کو شمار نہیں کر رہے تھے۔ بہت مثبت تاثرات موصول ہونے کے بعد، ہم نے آگے بڑھنے کا فیصلہ کیا اور Twitter پر ڈیٹا کے ساتھ تعامل کے لیے BigQuery کو بنیادی وسیلہ کے طور پر پیش کرنے کا فیصلہ کیا۔

یہاں ہمارے Google BigQuery ڈیٹا گودام کے فن تعمیر کا ایک اعلیٰ سطحی خاکہ ہے۔

گوگل کی BigQuery نے ڈیٹا کے تجزیہ کو کس طرح جمہوری بنایا۔ حصہ 1
ہم اندرونی Cloud Replicator ٹول کا استعمال کرتے ہوئے آن پریمیسس Hadoop کلسٹرز سے ڈیٹا کو Google Cloud Storage (GCS) میں کاپی کرتے ہیں۔ اس کے بعد ہم اپاچی ایئر فلو کو پائپ لائنز بنانے کے لیے استعمال کرتے ہیں جو "bq_load» GCS سے BigQuery میں ڈیٹا لوڈ کرنے کے لیے۔ ہم GCS میں Parquet یا Thrift-LZO ڈیٹاسیٹس سے استفسار کرنے کے لیے Presto کا استعمال کرتے ہیں۔ BQ Blaster HDFS Vertica اور Thrift-LZO ڈیٹاسیٹس کو BigQuery میں لوڈ کرنے کے لیے ایک اندرونی سکیلڈنگ ٹول ہے۔

مندرجہ ذیل حصوں میں، ہم استعمال میں آسانی، کارکردگی، ڈیٹا مینجمنٹ، سسٹم کی صحت، اور لاگت کے شعبوں میں اپنے نقطہ نظر اور مہارت پر تبادلہ خیال کرتے ہیں۔

استعمال میں آسانی

ہم نے محسوس کیا کہ صارفین کے لیے BigQuery کے ساتھ شروع کرنا آسان تھا کیونکہ اس کے لیے سافٹ ویئر کی تنصیب کی ضرورت نہیں تھی اور صارفین ایک بدیہی ویب انٹرفیس کے ذریعے اس تک رسائی حاصل کر سکتے تھے۔ تاہم، صارفین کو GCP کی کچھ خصوصیات اور تصورات سے واقف ہونے کی ضرورت ہے، بشمول وسائل جیسے پروجیکٹس، ڈیٹا سیٹس اور ٹیبل۔ ہم نے صارفین کو شروع کرنے میں مدد کرنے کے لیے تعلیمی مواد اور سبق تیار کیے ہیں۔ حاصل کردہ بنیادی سمجھ کے ساتھ، صارفین نے ڈیٹا سیٹس کو نیویگیٹ کرنا، اسکیما اور ٹیبل ڈیٹا دیکھنا، سادہ سوالات چلانا، اور ڈیٹا اسٹوڈیو میں نتائج کا تصور کرنا آسان پایا۔

BigQuery میں ڈیٹا انٹری کے لیے ہمارا مقصد ایک کلک کے ساتھ HDFS یا GCS ڈیٹا سیٹس کی ہموار لوڈنگ کو فعال کرنا تھا۔ ہم نے غور کیا۔ کلاؤڈ کمپوزر (ایئر فلو کے ذریعے مینیج کیا گیا) لیکن ہمارے ڈومین ریسٹریٹڈ شیئرنگ سیکیورٹی ماڈل کی وجہ سے اسے استعمال کرنے سے قاصر تھے (نیچے ڈیٹا مینجمنٹ سیکشن میں اس پر مزید)۔ ہم نے BigQuery کام کے بوجھ کو آرکیسٹریٹ کرنے کے لیے Google ڈیٹا ٹرانسفر سروس (DTS) کے استعمال کا تجربہ کیا۔ اگرچہ ڈی ٹی ایس کو ترتیب دینے میں جلدی تھی، لیکن یہ انحصار کے ساتھ پائپ لائنوں کی تعمیر کے لیے لچکدار نہیں تھا۔ اپنے الفا ریلیز کے لیے، ہم نے GCE میں اپنا Apache Airflow کا فریم ورک بنایا ہے اور اسے تیار کر رہے ہیں کہ وہ پروڈکشن میں چل سکے اور Vertica جیسے ڈیٹا کے مزید ذرائع کو سپورٹ کر سکے۔

ڈیٹا کو BigQuery میں تبدیل کرنے کے لیے، صارفین شیڈول کردہ سوالات کا استعمال کرتے ہوئے سادہ SQL ڈیٹا پائپ لائنز بناتے ہیں۔ انحصار کے ساتھ پیچیدہ ملٹی اسٹیج پائپ لائنز کے لیے، ہم اپنا ایئر فلو فریم ورک یا کلاؤڈ کمپوزر کے ساتھ استعمال کرنے کا ارادہ رکھتے ہیں۔ کلاؤڈ ڈیٹا فلو.

کارکردگی

BigQuery کو عام مقصد کے SQL سوالات کے لیے ڈیزائن کیا گیا ہے جو بڑی مقدار میں ڈیٹا پر کارروائی کرتے ہیں۔ اس کا مقصد کم تاخیر، ٹرانزیکشنل ڈیٹا بیس کے لیے درکار ہائی تھرو پٹ سوالات، یا لاگو کیے گئے کم لیٹنسی ٹائم سیریز کے تجزیہ کے لیے نہیں ہے۔ اپاچی ڈروڈ. انٹرایکٹو تجزیاتی سوالات کے لیے، ہمارے صارفین ایک منٹ سے کم کے جوابی اوقات کی توقع کرتے ہیں۔ ہمیں ان توقعات کو پورا کرنے کے لیے BigQuery کے اپنے استعمال کو ڈیزائن کرنا تھا۔ اپنے صارفین کے لیے متوقع کارکردگی فراہم کرنے کے لیے، ہم نے BigQuery فعالیت کا فائدہ اٹھایا، جو صارفین کے لیے فلیٹ فیس کی بنیاد پر دستیاب ہے جو پروجیکٹ کے مالکان کو اپنے سوالات کے لیے کم از کم سلاٹ محفوظ کرنے کی اجازت دیتی ہے۔ سلاٹ BigQuery کمپیوٹنگ پاور کی ایک اکائی ہے جو SQL استفسارات کو انجام دینے کے لیے درکار ہے۔

ہم نے 800 سے زیادہ سوالات کا تجزیہ کیا جو ہر ایک میں تقریباً 1 TB ڈیٹا پر کارروائی کرتے ہیں اور پتہ چلا کہ عمل درآمد کا اوسط وقت 30 سیکنڈ تھا۔ ہم نے یہ بھی سیکھا کہ کارکردگی کا انحصار مختلف منصوبوں اور کاموں میں ہمارے سلاٹ کے استعمال پر ہے۔ پیداوار کے استعمال کے معاملات اور آن لائن تجزیہ کے لیے کارکردگی کو برقرار رکھنے کے لیے ہمیں اپنی پیداوار اور ایڈہاک سلاٹ کے ذخائر کو واضح طور پر بیان کرنا تھا۔ اس نے سلاٹ ریزرویشنز اور پروجیکٹ کے درجہ بندی کے لیے ہمارے ڈیزائن کو بہت متاثر کیا۔

ہم ترجمے کے دوسرے حصے میں آنے والے دنوں میں ڈیٹا مینجمنٹ، فعالیت اور سسٹمز کی لاگت کے بارے میں بات کریں گے، لیکن اب ہم سب کو مدعو کرتے ہیں مفت لائیو ویبینار، جس کے دوران آپ کورس کے بارے میں تفصیل سے جاننے کے ساتھ ساتھ ہمارے ماہر سے سوالات پوچھ سکیں گے - Egor Mateshuk (سینئر ڈیٹا انجینئر، MaximaTelecom)۔

مزید پڑھ:

ماخذ: www.habr.com

نیا تبصرہ شامل کریں