🥇 گوگل بگ ڪيوري ڊيٽا جي تجزيي کي ڪيئن ڊيموڪريٽائز ڪيو. حصو 2

اي حبر! OTUS تي هڪ نئين ڪورس اسٽريم لاءِ داخلا هن وقت کليل آهي ڊيٽا انجنيئر. ڪورس جي شروعات جي اميد ۾، اسان توهان سان مفيد مواد حصيداري ڪرڻ جاري رکون ٿا.

پڙهو حصو پهريون

ڊيٽا جو انتظام

مضبوط ڊيٽا گورننس Twitter انجنيئرنگ جو بنيادي اصول آهي. جيئن اسان پنهنجي پليٽ فارم تي BigQuery لاڳو ڪريون ٿا، اسان ڊيٽا جي دريافت، رسائي ڪنٽرول، سيڪيورٽي ۽ رازداري تي ڌيان ڏين ٿا.

ڊيٽا کي دريافت ڪرڻ ۽ منظم ڪرڻ لاء، اسان اسان جي ڊيٽا جي رسائي واري پرت کي وڌايو آهي ڊي) آن-پريمسس ۽ گوگل ڪلائوڊ ڊيٽا ٻنهي لاءِ اوزار مهيا ڪرڻ لاءِ، اسان جي استعمال ڪندڙن لاءِ هڪ واحد انٽرفيس ۽ API مهيا ڪرڻ. جيئن گوگل ڊيٽا ڪيٽلاگ عام دستيابي طرف وڌي رهيو آهي، اسان ان کي اسان جي منصوبن ۾ شامل ڪنداسين صارفين کي خاصيتون مهيا ڪرڻ لاءِ جيئن ڪالمن جي ڳولا.

BigQuery ڊيٽا کي شيئر ڪرڻ ۽ ان تائين رسائي آسان بڻائي ٿي، پر اسان کي ان تي ڪجهه ڪنٽرول ڪرڻ جي ضرورت آهي ته جيئن ڊيٽا جي ڀڃڪڙي کي روڪي سگهجي. ٻين اوزارن مان، اسان ٻن ڪمن کي چونڊيو:

ڊومين محدود شيئرنگ: بيٽا فيچر صارفين کي Twitter کان ٻاهر استعمال ڪندڙن سان BigQuery ڊيٽا سيٽ شيئر ڪرڻ کان روڪڻ لاءِ.
VPC سروس ڪنٽرول: هڪ ڪنٽرول جيڪو ڊيٽا جي خارج ٿيڻ کي روڪي ٿو ۽ استعمال ڪندڙن کي گهربل IP پتي جي حدن مان BigQuery تائين رسائي جي ضرورت آهي.

اسان ھيٺ ڏنل سيڪيورٽي لاءِ تصديق، اختيار، ۽ آڊيٽنگ (AAA) گهرجن کي لاڳو ڪيو آھي:

تصديق: اسان ايڊهاڪ درخواستن لاءِ GCP صارف اڪائونٽس ۽ پيداوار جي درخواستن لاءِ سروس اڪائونٽس استعمال ڪيا.
اختيار ڏيڻ: اسان کي گهربل آهي ته هر ڊيٽا سيٽ کي مالڪ جي خدمت جو اڪائونٽ ۽ هڪ پڙهندڙ گروپ هجي.
آڊيٽنگ: اسان ايڪسپورٽ ڪيو BigQuery stackdriver لاگ، جن ۾ تفصيلي سوالن جي عمل جي معلومات شامل هئي، آسان تجزيو لاءِ BigQuery ڊيٽا سيٽ ۾.

Twitter جي استعمال ڪندڙن جي ذاتي ڊيٽا کي صحيح طريقي سان سنڀالڻ کي يقيني بڻائڻ لاءِ، اسان کي لازمي طور تي سڀني BigQuery ڊيٽا سيٽن کي رجسٽر ڪرڻ، ذاتي ڊيٽا جي تشريح ڪرڻ، مناسب اسٽوريج کي برقرار رکڻ، ۽ استعمال ڪندڙن پاران ڊليٽ ڪيل ڊيٽا کي ختم ڪرڻ (اسڪريپ) ڪرڻ گھرجي.

اسان گوگل ڏانهن ڏٺو Cloud Data Loss Prevention API، جيڪو حساس ڊيٽا کي درجه بندي ڪرڻ ۽ تدوين ڪرڻ لاءِ مشين لرننگ استعمال ڪري ٿو، پر درستي جي ڪري دستي طور تي ڊيٽا سيٽ کي تشريح ڪرڻ جي حق ۾ فيصلو ڪيو ويو. اسان ڊيٽا جي نقصان جي روڪٿام API کي استعمال ڪرڻ جي رٿابندي ڪريون ٿا ته جيئن ڪسٽم تشريح کي وڌايو وڃي.

Twitter تي، اسان BigQuery ۾ ڊيٽا سيٽن لاءِ چار رازداري زمرا ٺاھيا آھن، جيڪي ھتي درج ٿيل آھن حساسيت جي ھيٺئين ترتيب ۾:

انتهائي حساس ڊيٽا سيٽ کي گهٽ ۾ گهٽ استحقاق جي اصول جي بنياد تي گهربل بنيادن تي دستياب ڪيو ويو آهي. هر ڊيٽا سيٽ ۾ پڙهندڙن جو هڪ الڳ گروپ هوندو آهي، ۽ اسان انفرادي اڪائونٽس ذريعي استعمال کي ٽريڪ ڪنداسين.
وچولي حساسيت واري ڊيٽا سيٽس (هڪ طرفي تخلص استعمال ڪندي سالٽ ٿيل هيشنگ) ۾ ذاتي طور تي سڃاڻپ ڪندڙ معلومات (PII) شامل نه آهن ۽ ملازمن جي وڏي گروپ تائين رسائي لائق آهن. اهو رازداري خدشات ۽ ڊيٽا افاديت جي وچ ۾ هڪ سٺو توازن آهي. هي ملازمن کي تجزيي جي ڪمن کي انجام ڏيڻ جي اجازت ڏئي ٿو، جهڙوڪ استعمال ڪندڙن جو تعداد ڳڻڻ جن هڪ فيچر استعمال ڪيو، بغير ڄاڻڻ جي حقيقي استعمال ڪندڙ ڪير آهن.
تمام صارف جي سڃاڻپ واري معلومات سان گھٽ حساسيت وارو ڊيٽا سيٽ. اهو رازداري جي نقطي نظر کان هڪ سٺو طريقو آهي، پر استعمال نه ٿو ڪري سگهجي صارف جي سطح جي تجزيي لاء.
عوامي ڊيٽا سيٽس (Twitter کان ٻاهر جاري ڪيل) سڀني Twitter ملازمن لاءِ دستياب آهن.

لاگنگ لاءِ، اسان BigQuery ڊيٽا سيٽن کي ڳڻڻ ۽ انهن کي ڊيٽا رسائي واري پرت سان رجسٽر ڪرڻ لاءِ شيڊول ٿيل ڪم استعمال ڪيو (ڊي)، Twitter ميٽا ڊيٽا مخزن. صارف رازداري جي معلومات سان گڏ ڊيٽا سيٽن کي تشريح ڪندا ۽ برقرار رکڻ جي مدت پڻ بيان ڪندا. صفائي جي طور تي، اسان ٻن اختيارن جي ڪارڪردگي ۽ قيمت جو جائزو وٺون ٿا: 1. GCS ۾ ڊيٽا سيٽن کي صاف ڪرڻ جهڙوڪ اوزار استعمال ڪندي Scalding ۽ انهن کي BigQuery ۾ لوڊ ڪرڻ؛ 2. BigQuery DML بيان استعمال ڪندي. اسان ممڪن طور تي مختلف گروپن ۽ ڊيٽا جي ضرورتن کي پورو ڪرڻ لاءِ ٻنهي طريقن جو ميلاپ استعمال ڪنداسين.

سسٽم جي ڪارڪردگي

ڇاڪاڻ ته BigQuery هڪ منظم خدمت آهي، اتي Twitter جي SRE ٽيم کي سسٽم مينيجمينٽ يا ڊيسڪ ڊيوٽي ۾ شامل ڪرڻ جي ڪا ضرورت نه هئي. اسٽوريج ۽ ڪمپيوٽنگ ٻنهي لاءِ وڌيڪ گنجائش مهيا ڪرڻ آسان هو. اسان گوگل سپورٽ سان ٽڪيٽ ٺاهي سلاٽ رزرويشن تبديل ڪري سگھون ٿا. اسان انهن علائقن جي نشاندهي ڪئي جن کي بهتر ڪري سگهجي ٿو، جهڙوڪ سيلف سروس سلاٽ مختص ڪرڻ ۽ نگراني لاءِ ڊيش بورڊ جي بهتري، ۽ اهي درخواستون گوگل ڏانهن جمع ڪرايون.

جي قيمت

اسان جي ابتدائي تجزيي ڏيکاري ٿي ته سوال جي قيمت BigQuery ۽ Presto لاءِ ساڳي سطح تي هئي. اسان لاء سلاٽ خريد ڪيو مقرر قيمت ادائگي جي بدران مستحڪم مھينا قيمت حاصل ڪرڻ لاء طلب تي پروسيس ٿيل ڊيٽا جي في ٽي بي. اهو فيصلو پڻ صارفين جي راءِ تي ٻڌل هو جيڪي هر درخواست ڪرڻ کان پهريان قيمتن بابت سوچڻ نٿا چاهين.

BigQuery ۾ ڊيٽا کي ذخيرو ڪرڻ لاڳاپا GCS خرچن کان علاوه. اوزار جهڙوڪ Scalding GCS ۾ ڊيٽا سيٽن جي ضرورت آهي، ۽ BigQuery تائين رسائي حاصل ڪرڻ لاءِ اسان کي ساڳي ڊيٽا سيٽ کي BigQuery فارميٽ ۾ لوڊ ڪرڻو پوندو صلاحڪار. اسان BigQuery ڊيٽا سيٽن جي اسڪالڊنگ ڪنيڪشن تي ڪم ڪري رهيا آهيون جيڪو GCS ۽ BigQuery ٻنهي ۾ ڊيٽا سيٽن کي ذخيرو ڪرڻ جي ضرورت کي ختم ڪري ڇڏيندو.

ناياب ڪيسن لاءِ جن لاءِ ڏهن پيٽابائٽس جي اڻڄاتل سوالن جي ضرورت آهي، اسان فيصلو ڪيو ته BigQuery ۾ ڊيٽا سيٽن کي محفوظ ڪرڻ لاڳت وارو نه هو ۽ GCS ۾ ڊيٽا سيٽن تائين سڌو سنئون رسائي لاءِ Presto استعمال ڪيو. ائين ڪرڻ لاءِ، اسان ڏسي رهيا آهيون BigQuery خارجي ڊيٽا ذريعن.

ايندڙ قدم

اسان الفا رليز کان وٺي BigQuery ۾ تمام گهڻي دلچسپي ڏٺي آهي. اسان BigQuery ۾ وڌيڪ ڊيٽا سيٽ ۽ وڌيڪ حڪم شامل ڪري رهيا آهيون. اسان ڊيٽا اينالائيٽڪس ٽولز لاءِ رابطا ٺاهيا آهيون جهڙوڪ اسڪالڊنگ کي پڙهڻ ۽ لکڻ لاءِ BigQuery اسٽوريج. اسان اوزار ڳولي رهيا آهيون ڏسندڙ ۽ Apache Zeppelin لاءِ انٽرپرائز معيار جون رپورٽون ۽ نوٽس ٺاهڻ لاءِ BigQuery datasets استعمال ڪندي.

گوگل سان اسان جو تعاون تمام ڪارائتو رهيو آهي ۽ اسان هن پارٽنرشپ کي جاري رکڻ ۽ ترقي ڪرڻ تي راضي آهيون. اسان گوگل سان گڏ ڪم ڪيو آهي پنهنجو پاڻ کي لاڳو ڪرڻ لاءِ ڀائيوار مسئلو ٽريڪٽرسڌو سنئون گوگل ڏانهن سوال موڪلڻ لاءِ. انهن مان ڪجهه، جهڙوڪ BigQuery پارڪٽ لوڊر، اڳ ۾ ئي گوگل طرفان لاڳو ڪيو ويو آهي.

هتي گوگل لاءِ اسان جون ڪجهه اعليٰ ترجيحي خصوصيتون درخواستون آهن:

اوزار آسان ڊيٽا جي استقبال لاءِ ۽ LZO-Thrift فارميٽ لاءِ سپورٽ.
ڪلاڪ جي وقفي
رسائي ڪنٽرول سڌارن جهڙوڪ ٽيبل-، قطار-، ۽ ڪالمن-سطح جي اجازت.
وڏو سوال خارجي ڊيٽا ذريعن Hive Metastore انضمام سان ۽ LZO-Thrift فارميٽ لاءِ سپورٽ.
BigQuery يوزر انٽرفيس ۾ بهتر ڊيٽا ڪيٽلاگ انضمام
سلاٽ مختص ڪرڻ ۽ نگراني لاءِ خود خدمت.

ٿڪل

ڊيٽا اينالائيٽڪس، ويزولائيزيشن، ۽ مشين لرننگ کي محفوظ طريقي سان جمهوري ڪرڻ ڊيٽا پليٽ فارم ٽيم جي اولين ترجيح آهي. اسان Google BigQuery ۽ ڊيٽا اسٽوڊيو جي سڃاڻپ ڪئي اوزار طور جيڪي ھن مقصد کي حاصل ڪرڻ ۾ مدد ڪري سگھن ٿا، ۽ گذريل سال BigQuery Alpha ڪمپني جاري ڪئي.

اسان کي مليا سوال BigQuery ۾ سادو ۽ ڪارائتو. اسان سادو پائپ لائنز لاءِ ڊيٽا داخل ڪرڻ ۽ تبديل ڪرڻ لاءِ گوگل ٽولز استعمال ڪيا، پر پيچيده پائپ لائنن لاءِ اسان کي پنهنجو ايئر فلو فريم ورڪ ٺاهڻو هو. ڊيٽا مئنيجمينٽ اسپيس ۾، BigQuery جون خدمتون تصديق، اختيار ڏيڻ ۽ آڊيٽنگ لاءِ اسان جون ضرورتون پوريون ڪن ٿيون. ميٽا ڊيٽا کي منظم ڪرڻ ۽ رازداري برقرار رکڻ لاءِ، اسان کي وڌيڪ لچڪ جي ضرورت هئي ۽ اسان کي پنهنجو نظام ٺاهڻو هو. BigQuery، هڪ منظم خدمت هجڻ ڪري، استعمال ڪرڻ آسان هو. پڇا ڳاڇا موجوده اوزار جي برابر هئا. BigQuery ۾ ڊيٽا کي ذخيرو ڪرڻ جي قيمت GCS جي خرچن کان علاوه.

مجموعي طور تي، BigQuery عام SQL تجزيو لاءِ سٺو ڪم ڪري ٿو. اسان BigQuery ۾ تمام گهڻي دلچسپي ڏسي رهيا آهيون، ۽ اسان ڪم ڪري رهيا آهيون وڌيڪ ڊيٽا سيٽن کي منتقل ڪرڻ، وڌيڪ ٽيمون آڻڻ، ۽ BigQuery سان وڌيڪ پائپ لائنون ٺاهڻ. Twitter مختلف قسم جي ڊيٽا استعمال ڪندو آھي جنھن لاءِ اوزارن جي ميلاپ جي ضرورت پوندي جھڙوڪ اسڪالڊنگ، اسپارڪ، پريسٽو، ۽ ڊروڊ. اسان ارادو رکون ٿا ته اسان جي ڊيٽا اينالائيٽڪس ٽولز کي مضبوط ڪرڻ ۽ اسان جي استعمال ڪندڙن کي واضح ھدايت مهيا ڪرڻ لاءِ ته اسان جي پيشڪش کي ڪيئن استعمال ڪجي.

شڪرگذاري جا لفظ

مان پنهنجي همعصر ليکڪن ۽ ٽيم ساٿين، انجو جها ۽ ول پاسڪوڪي جو شڪريو ادا ڪرڻ چاهيان ٿو، انهن جي عظيم تعاون ۽ محنت لاءِ هن پروجيڪٽ تي. مان پڻ Twitter ۽ گوگل تي ڪيترن ئي ٽيمن جي انجنيئرن ۽ مينيجرز جو شڪريو ادا ڪرڻ چاهيان ٿو جن اسان جي مدد ڪئي ۽ Twitter تي BigQuery استعمال ڪندڙ جن قيمتي راءِ ڏني.

جيڪڏهن توهان انهن مسئلن تي ڪم ڪرڻ ۾ دلچسپي رکو ٿا، اسان جي چيڪ ڪريو خالي جايون ڊيٽا پليٽ فارم ٽيم ۾.

DWH ۾ ڊيٽا جي معيار - ڊيٽا گودام جي تسلسل

جو ذريعو: www.habr.com