ڪيئن گوگل جي BigQuery ڊيٽا جي تجزيي کي جمهوري بڻايو. حصو 1

اي حبر! OTUS تي هڪ نئين ڪورس اسٽريم لاءِ داخلا هن وقت کليل آهي ڊيٽا انجنيئر. ڪورس جي شروعات جي توقع ۾، اسان روايتي طور تي توهان لاءِ دلچسپ مواد جو ترجمو تيار ڪيو آهي.

هر روز، هڪ سئو ملين کان وڌيڪ ماڻهو Twitter جو دورو ڪن ٿا ته دنيا ۾ ڇا ٿي رهيو آهي ۽ ان تي بحث ڪيو وڃي. هر ٽوئيٽ ۽ ڪنهن ٻئي صارف جو عمل هڪ واقعو پيدا ڪري ٿو جيڪو Twitter اندر اندروني ڊيٽا جي تجزيي لاءِ موجود آهي. سوين ملازم هن ڊيٽا جو تجزيو ۽ تصور ڪن ٿا، ۽ انهن جي تجربي کي بهتر بنائڻ Twitter ڊيٽا پليٽ فارم ٽيم جي اولين ترجيح آهي.

اسان يقين رکون ٿا ته صارفين کي ٽيڪنيڪل صلاحيتن جي وسيع رينج سان گڏ ڊيٽا ڳولڻ جي قابل هوندو ۽ چڱي طرح ڪم ڪندڙ SQL-بنياد تجزيي ۽ بصري اوزار تائين رسائي حاصل ڪرڻ گهرجي. هي گهٽ ٽيڪنيڪل استعمال ڪندڙن جي مڪمل نئين گروپ کي اجازت ڏيندو، بشمول ڊيٽا تجزيه نگار ۽ پراڊڪٽ مئنيجر، ڊيٽا مان بصيرت ڪڍڻ، انهن کي Twitter جي طاقت کي بهتر سمجهڻ ۽ استعمال ڪرڻ جي اجازت ڏيندو. اهو ڪيئن آهي اسان Twitter تي ڊيٽا جي تجزيي کي جمهوري ڪريون ٿا.

جيئن اسان جا اوزار ۽ صلاحيتون اندروني ڊيٽا جي تجزيي لاءِ بهتر ٿي چڪيون آهن، اسان ڏٺو آهي Twitter سروس جي بهتري. بهرحال، اتي اڃا به بهتري لاء ڪمرو آهي. موجوده اوزار جهڙوڪ Scalding پروگرامنگ تجربو جي ضرورت آهي. SQL تي ٻڌل تجزياتي اوزار جهڙوڪ پريسٽو ۽ ورٽيڪا وڏي پيماني تي ڪارڪردگي جا مسئلا آهن. اسان وٽ پڻ هڪ مسئلو آهي ڊيٽا کي ورهائڻ سان گڏ ڪيترن ئي سسٽم ۾ ان جي مسلسل رسائي کان سواءِ.

گذريل سال اسان اعلان ڪيو گوگل سان نئون تعاون، جنهن جي اندر اسان اسان جا حصا منتقل ڪريون ٿا ڊيٽا انفراسٽرڪچر Google Cloud پليٽ فارم (GCP) تي. اسان اهو نتيجو ڪيو ته گوگل ڪلائوڊ اوزار وڏي ڊيٽا اسان جي مدد ڪري سگھون ٿا اسان جي شروعاتن ۾ تجزيي کي جمهوري بڻائڻ، بصري ۽ مشين سکيا Twitter تي:

  • وڏو سوال: انٽرپرائز ڊيٽا گودام SQL انجڻ جي بنياد سان Dremel، جيڪو پنهنجي رفتار، سادگي ۽ نقل ڪرڻ لاءِ مشهور آهي مشين سکيا.
  • ڊيٽا اسٽوڊيو: وڏو ڊيٽا بصري اوزار تعاون جي خاصيتن سان گڏ گوگل ڊڪس وانگر.

هن آرٽيڪل ۾، توهان انهن اوزارن سان اسان جي تجربي بابت سکندا: اسان ڇا ڪيو آهي، اسان ڇا سکيو آهي ۽ اسان اڳتي ڇا ڪنداسين. اسان هاڻي بيچ ۽ انٽرويو تجزياتي تي ڌيان ڏينداسين. حقيقي وقت جي تجزيي تي بحث ڪيو ويندو ايندڙ مضمون ۾.

Twitter تي ڊيٽا گودامن جي تاريخ

BigQuery ۾ ڊائيونگ ڪرڻ کان اڳ، اهو مختصر طور تي Twitter تي ڊيٽا گودامن جي تاريخ کي ٻيهر بيان ڪرڻ جي قابل آهي. 2011 ۾، Twitter ڊيٽا جو تجزيو ڪيو ويو Vertica ۽ Hadoop ۾. MapReduce Hadoop نوڪريون ٺاهڻ لاءِ، اسان استعمال ڪيو سور. 2012 ۾، اسان سور کي اسڪالڊنگ سان تبديل ڪيو، جنھن ۾ ھڪڙو اسڪالا API ھو جنھن ۾ فائدن جھڙوڪ پيچيده پائيپ لائينون ٺاھڻ جي صلاحيت ۽ جانچ جي آسانيءَ سان. جڏهن ته، ڪيترن ئي ڊيٽا تجزيه نگارن ۽ پراڊڪٽ مينيجرز لاءِ جيڪي SQL سان گڏ ڪم ڪرڻ ۾ وڌيڪ آرام سان هئا، اهو ڪافي تيز سکيا وارو وکر هو. 2016 جي آس پاس، اسان استعمال ڪرڻ شروع ڪيو پريسٽو کي اسان جي SQL فرنٽ آخر طور Hadoop ڊيٽا لاءِ. اسپارڪ هڪ پائٿون انٽرفيس پيش ڪيو جيڪو ان کي ايڊهاڪ ڊيٽا سائنس ۽ مشين لرننگ لاءِ سٺو انتخاب بڻائي ٿو.

2018 کان وٺي، اسان ھيٺ ڏنل اوزار استعمال ڪيا آھن ڊيٽا جي تجزيو ۽ ڏسڻ لاءِ:

  • پيداوار جي لائنن لاء اسڪيلنگ
  • ايڊهاڪ ڊيٽا اينالائيٽڪس ۽ مشين لرننگ لاءِ اسڪيلنگ ۽ اسپارڪ
  • Vertica ۽ Presto لاءِ ايڊهاڪ ۽ انٽرايڪٽو SQL تجزيو
  • وقت جي سيريز ميٽرڪس تائين گھٽ انٽرايڪٽو، تحقيقي ۽ گھٽ ويڪرائي رسائي لاءِ ڊروڊ
  • ٽيبلائو، زپيلين ۽ پيوٽ ڊيٽا جي تصور لاءِ

اسان اهو محسوس ڪيو آهي ته جڏهن اهي اوزار تمام طاقتور خاصيتون پيش ڪن ٿا، اسان کي انهن خاصيتن کي Twitter تي وسيع سامعين لاء دستياب ڪرڻ ۾ مشڪل آهي. Google Cloud سان اسان جي پليٽ فارم کي وڌائڻ سان، اسان سڀني Twitter لاء اسان جي تجزياتي اوزار کي آسان ڪرڻ تي ڌيان ڏئي رهيا آهيون.

گوگل جو BigQuery ڊيٽا گودام

Twitter تي ڪيتريون ئي ٽيمون اڳ ۾ ئي شامل ڪري چڪيون آھن BigQuery انھن جي ڪجھ پيداوار واري پائپ لائنن ۾. انهن جي تجربي کي استعمال ڪندي، اسان سڀني Twitter استعمال جي ڪيسن لاءِ BigQuery جي امڪانن جو جائزو وٺڻ شروع ڪيو. اسان جو مقصد سڄي ڪمپني کي BigQuery پيش ڪرڻ، ۽ ڊيٽا پليٽ فارم ٽول ڪٽ ۾ ان کي معياري بڻائڻ ۽ سپورٽ ڪرڻ هو. اهو ڪيترن ئي سببن لاء ڏکيو هو. اسان کي هڪ بنيادي ڍانچي کي ترقي ڪرڻ جي ضرورت آهي معتبر طور تي ڊيٽا جي وڏي مقدار حاصل ڪرڻ، سپورٽ ڪمپني جي وسيع ڊيٽا جي انتظام، مناسب رسائي ڪنٽرول کي يقيني بڻائڻ، ۽ صارف جي رازداري کي يقيني بڻائي. اسان کي وسيلا مختص ڪرڻ، مانيٽرنگ ۽ چارج بيڪ لاءِ سسٽم پڻ ٺاهڻا هئا ته جيئن ٽيمون BigQuery کي مؤثر طريقي سان استعمال ڪري سگهن.

نومبر 2018 ۾، اسان سڄي ڪمپني لاءِ BigQuery ۽ Data Studio جو الفا رليز جاري ڪيو. اسان پيش ڪيو آهي اسان جي سڀ کان وڌيڪ استعمال ٿيل ذاتي ڊيٽا صاف ٿيل اسپريڊ شيٽ Twitter عملي کي. BigQuery استعمال ڪيو ويو آھي 250 کان وڌيڪ صارفين پاران مختلف ٽيمن مان جن ۾ انجنيئرنگ، فنانس ۽ مارڪيٽنگ شامل آھن. تازي طور تي، اهي تقريبا 8 درخواستون هلائي رهيا هئا، تقريبا 100 PB هر مهيني پروسيسنگ، مقرر ڪيل درخواستن کي ڳڻڻ نه. تمام مثبت موٽ ملڻ کان پوءِ، اسان اڳتي وڌڻ جو فيصلو ڪيو ۽ BigQuery کي Twitter تي ڊيٽا سان رابطي لاءِ بنيادي وسيلو طور پيش ڪيو.

هتي اسان جي Google BigQuery ڊيٽا گودام جي اعلي سطحي فن تعمير جو هڪ خاڪو آهي.

ڪيئن گوگل جي BigQuery ڊيٽا جي تجزيي کي جمهوري بڻايو. حصو 1
اسان اندروني Cloud Replicator ٽول استعمال ڪندي مقامي Hadoop ڪلسٽرز مان ڊيٽا کي Google Cloud Storage (GCS) ۾ نقل ڪريون ٿا. ان کان پوء اسان اپاپي ايئر فلو استعمال ڪندا آهيون پائپ لائنون ٺاهڻ لاء جيڪي "bq_load» ڊيٽا لوڊ ڪرڻ لاءِ GCS کان BigQuery ۾. اسان GCS ۾ Parquet يا Thrift-LZO ڊيٽا سيٽ جي سوال ڪرڻ لاءِ Presto استعمال ڪندا آهيون. BQ Blaster HDFS Vertica ۽ Thrift-LZO ڊيٽا سيٽن کي BigQuery ۾ لوڊ ڪرڻ لاءِ هڪ اندروني اسڪيلنگ ٽول آهي.

هيٺين حصن ۾، اسان استعمال ۾ آسانيءَ، ڪارڪردگي، ڊيٽا مينيجمينٽ، سسٽم جي صحت، ۽ قيمت ۾ اسان جي طريقه ڪار ۽ مهارت تي بحث ڪنداسين.

استعمال جو آسان

اسان اهو محسوس ڪيو ته صارفين لاءِ BigQuery سان شروع ڪرڻ آسان هو ڇو ته ان کي سافٽ ويئر جي انسٽاليشن جي ضرورت نه هئي ۽ صارف ان تائين رسائي حاصل ڪري سگھن ٿا هڪ غير شعوري ويب انٽرفيس ذريعي. بهرحال، صارفين کي ڪجهه GCP خاصيتن ۽ تصورن کان واقف ٿيڻ جي ضرورت آهي، بشمول وسيلن جهڙوڪ پروجيڪٽ، ڊيٽا سيٽ، ۽ ٽيبل. اسان استعمال ڪندڙن کي شروع ڪرڻ ۾ مدد ڏيڻ لاءِ سبق ۽ سبق تيار ڪيا آھن. حاصل ڪيل بنيادي سمجھڻ سان، صارفين لاءِ ڊيٽا سيٽن کي نيويگيٽ ڪرڻ، اسڪيما ۽ ٽيبل ڊيٽا ڏسڻ، سادي سوالن کي هلائڻ، ۽ ڊيٽا اسٽوڊيو ۾ نتيجن کي ڏسڻ آسان آھي.

BigQuery ۾ ڊيٽا جي داخلا سان اسان جو مقصد HDFS يا GCS ڊيٽا سيٽن جي بيحد لوڊشيڊنگ کي هڪ ڪلڪ سان مهيا ڪرڻ هو. اسان غور ڪيو ڪلائوڊ ڪمپوزر (ايئر فلو پاران منظم ڪيل) پر اسان جي "ڊومين محدود شيئرنگ" سيڪيورٽي ماڊل جي ڪري ان کي استعمال ڪرڻ کان قاصر هئا (هن تي هيٺ ڏنل ڊيٽا مينيجمينٽ سيڪشن ۾ وڌيڪ). اسان BigQuery لوڊ ڪمن کي منظم ڪرڻ لاءِ گوگل ڊيٽا ٽرانسفر سروس (DTS) استعمال ڪرڻ سان تجربو ڪيو. جڏهن ته ڊي ٽي ايس کي ترتيب ڏيڻ ۾ جلدي هئي، اهو انحصار سان پائپ لائنن جي تعمير لاء لچڪدار نه هو. اسان جي الفا رليز لاءِ، اسان GCE ۾ پنھنجو اپاچي ايئر فلو ماحول ٺاھيو آھي ۽ ان کي تيار ڪري رھيا آھيون پيداوار لاءِ ۽ وڌيڪ ڊيٽا ذريعن کي سپورٽ ڪرڻ جي صلاحيت جھڙوڪ Vertica.

ڊيٽا کي BigQuery ۾ تبديل ڪرڻ لاءِ، صارفين شيڊول ڪيل سوالن کي استعمال ڪندي سادي SQL ڊيٽا پائپ لائنون ٺاھيو. انحصار سان پيچيده ملٽي اسٽيج پائپ لائنن لاءِ، اسان يا ته اسان جو پنهنجو ايئر فلو فريم ورڪ يا ڪلائوڊ ڪمپوزر استعمال ڪرڻ جو ارادو رکي ٿو ڪلائوڊ ڊيٽا فلو.

پيداوار

BigQuery عام مقصد جي SQL سوالن لاءِ ٺهيل آهي جيڪي ڊيٽا جي وڏي مقدار تي عمل ڪندا آهن. اهو مقصد نه آهي ته گهٽ ويڪرائي لاءِ، هڪ ٽرانزيڪشنل ڊيٽابيس لاءِ گھربل اعليٰ ٿرو پُٽ سوالن، يا گهٽ دير واري وقت جي سيريز جي تجزيي لاءِ لاڳو ڪيل Apache Druid. انٽرويو تجزياتي سوالن لاء، اسان جا صارف هڪ منٽ کان گهٽ جي جوابي وقت جي توقع ڪن ٿا. اسان کي انهن اميدن کي پورو ڪرڻ لاءِ BigQuery جي استعمال کي ترتيب ڏيڻو هو. اسان جي استعمال ڪندڙن لاءِ اڳڪٿي ڪرڻ واري ڪارڪردگي مهيا ڪرڻ لاءِ، اسان استعمال ڪيو آهي BigQuery ڪارڪردگي، جيڪا گراهڪن لاءِ هڪ مقرر فيس جي بنياد تي دستياب آهي، جيڪا پروجيڪٽ مالڪن کي اجازت ڏئي ٿي ته انهن جي سوالن لاءِ گهٽ ۾ گهٽ سلاٽ محفوظ ڪري سگهن. ڪالٽ BigQuery ڪمپيوٽنگ پاور جو ھڪڙو يونٽ آھي جيڪو SQL سوالن کي انجام ڏيڻ لاءِ گھربل آھي.

اسان 800 کان وڌيڪ سوالن جو تجزيو ڪيو هر هڪ جي باري ۾ 1 TB ڊيٽا پروسيسنگ ۽ معلوم ٿيو ته سراسري عمل جو وقت 30 سيڪنڊ هو. اسان اهو پڻ سکيو آهي ته ڪارڪردگي تمام گهڻو منحصر آهي اسان جي سلاٽ جي استعمال تي مختلف منصوبن ۽ ڪمن ۾. پيداوار جي استعمال جي ڪيسن ۽ انٽرويو تجزيي جي ڪارڪردگي کي برقرار رکڻ لاء اسان کي واضح طور تي اسان جي پيداوار ۽ ايڊهاڪ سلاٽ رزرو کي الڳ ڪرڻو پوندو. اهو تمام گهڻو متاثر ڪيو اسان جي ڊيزائن لاءِ سلاٽ رزرويشنز ۽ پروجيڪٽ وارين ترتيبن لاءِ.

اسان ايندڙ ڏينهن ۾ ڊيٽا جي انتظام، ڪارڪردگي ۽ سسٽم جي قيمت بابت ترجمي جي ٻئي حصي ۾ ڳالهائينداسين، ۽ هاڻي اسان سڀني کي دعوت ڏين ٿا مفت لائيو ويبينار، جتي توهان ڪورس بابت وڌيڪ سکي سگهو ٿا، انهي سان گڏ اسان جي ماهر کان سوال پڇو - Egor Mateshuk (سينئر ڊيٽا انجنيئر، MaximaTelecom).

وڌيڪ پڙهو:

جو ذريعو: www.habr.com

تبصرو شامل ڪريو