پرو هوسٽر > بلاگ > انتظاميه > ڪيئن گوگل جي BigQuery ڊيٽا جي تجزيي کي جمهوري بڻايو. حصو 2
ڪيئن گوگل جي BigQuery ڊيٽا جي تجزيي کي جمهوري بڻايو. حصو 2
اي حبر! OTUS تي هڪ نئين ڪورس اسٽريم لاءِ داخلا هن وقت کليل آهي ڊيٽا انجنيئر. ڪورس جي شروعات جي اميد ۾، اسان توهان سان مفيد مواد حصيداري ڪرڻ جاري رکون ٿا.
مضبوط ڊيٽا گورننس Twitter انجنيئرنگ جو بنيادي اصول آهي. جيئن اسان پنهنجي پليٽ فارم تي BigQuery لاڳو ڪريون ٿا، اسان ڊيٽا جي دريافت، رسائي ڪنٽرول، سيڪيورٽي ۽ رازداري تي ڌيان ڏين ٿا.
ڊيٽا کي دريافت ڪرڻ ۽ منظم ڪرڻ لاء، اسان اسان جي ڊيٽا جي رسائي واري پرت کي وڌايو آهي ڊي) آن-پريمسس ۽ گوگل ڪلائوڊ ڊيٽا ٻنهي لاءِ اوزار مهيا ڪرڻ لاءِ، اسان جي استعمال ڪندڙن لاءِ هڪ واحد انٽرفيس ۽ API مهيا ڪرڻ. جيئن گوگل ڊيٽا ڪيٽلاگ عام دستيابي طرف وڌي رهيو آهي، اسان ان کي اسان جي منصوبن ۾ شامل ڪنداسين صارفين کي خاصيتون مهيا ڪرڻ لاءِ جيئن ڪالمن جي ڳولا.
BigQuery ڊيٽا کي شيئر ڪرڻ ۽ ان تائين رسائي آسان بڻائي ٿي، پر اسان کي ان تي ڪجهه ڪنٽرول ڪرڻ جي ضرورت آهي ته جيئن ڊيٽا جي ڀڃڪڙي کي روڪي سگهجي. ٻين اوزارن مان، اسان ٻن ڪمن کي چونڊيو:
ڊومين محدود شيئرنگ: بيٽا فيچر صارفين کي Twitter کان ٻاهر استعمال ڪندڙن سان BigQuery ڊيٽا سيٽ شيئر ڪرڻ کان روڪڻ لاءِ.
VPC سروس ڪنٽرول: هڪ ڪنٽرول جيڪو ڊيٽا جي خارج ٿيڻ کي روڪي ٿو ۽ استعمال ڪندڙن کي گهربل IP پتي جي حدن مان BigQuery تائين رسائي جي ضرورت آهي.
تصديق: اسان ايڊهاڪ درخواستن لاءِ GCP صارف اڪائونٽس ۽ پيداوار جي درخواستن لاءِ سروس اڪائونٽس استعمال ڪيا.
اختيار ڏيڻ: اسان کي گهربل آهي ته هر ڊيٽا سيٽ کي مالڪ جي خدمت جو اڪائونٽ ۽ هڪ پڙهندڙ گروپ هجي.
آڊيٽنگ: اسان ايڪسپورٽ ڪيو BigQuery stackdriver لاگ، جن ۾ تفصيلي سوالن جي عمل جي معلومات شامل هئي، آسان تجزيو لاءِ BigQuery ڊيٽا سيٽ ۾.
Twitter جي استعمال ڪندڙن جي ذاتي ڊيٽا کي صحيح طريقي سان سنڀالڻ کي يقيني بڻائڻ لاءِ، اسان کي لازمي طور تي سڀني BigQuery ڊيٽا سيٽن کي رجسٽر ڪرڻ، ذاتي ڊيٽا جي تشريح ڪرڻ، مناسب اسٽوريج کي برقرار رکڻ، ۽ استعمال ڪندڙن پاران ڊليٽ ڪيل ڊيٽا کي ختم ڪرڻ (اسڪريپ) ڪرڻ گھرجي.
اسان گوگل ڏانهن ڏٺو Cloud Data Loss Prevention API، جيڪو حساس ڊيٽا کي درجه بندي ڪرڻ ۽ تدوين ڪرڻ لاءِ مشين لرننگ استعمال ڪري ٿو، پر درستي جي ڪري دستي طور تي ڊيٽا سيٽ کي تشريح ڪرڻ جي حق ۾ فيصلو ڪيو ويو. اسان ڊيٽا جي نقصان جي روڪٿام API کي استعمال ڪرڻ جي رٿابندي ڪريون ٿا ته جيئن ڪسٽم تشريح کي وڌايو وڃي.
انتهائي حساس ڊيٽا سيٽ کي گهٽ ۾ گهٽ استحقاق جي اصول جي بنياد تي گهربل بنيادن تي دستياب ڪيو ويو آهي. هر ڊيٽا سيٽ ۾ پڙهندڙن جو هڪ الڳ گروپ هوندو آهي، ۽ اسان انفرادي اڪائونٽس ذريعي استعمال کي ٽريڪ ڪنداسين.
وچولي حساسيت واري ڊيٽا سيٽس (هڪ طرفي تخلص استعمال ڪندي سالٽ ٿيل هيشنگ) ۾ ذاتي طور تي سڃاڻپ ڪندڙ معلومات (PII) شامل نه آهن ۽ ملازمن جي وڏي گروپ تائين رسائي لائق آهن. اهو رازداري خدشات ۽ ڊيٽا افاديت جي وچ ۾ هڪ سٺو توازن آهي. هي ملازمن کي تجزيي جي ڪمن کي انجام ڏيڻ جي اجازت ڏئي ٿو، جهڙوڪ استعمال ڪندڙن جو تعداد ڳڻڻ جن هڪ فيچر استعمال ڪيو، بغير ڄاڻڻ جي حقيقي استعمال ڪندڙ ڪير آهن.
تمام صارف جي سڃاڻپ واري معلومات سان گھٽ حساسيت وارو ڊيٽا سيٽ. اهو رازداري جي نقطي نظر کان هڪ سٺو طريقو آهي، پر استعمال نه ٿو ڪري سگهجي صارف جي سطح جي تجزيي لاء.
لاگنگ لاءِ، اسان BigQuery ڊيٽا سيٽن کي ڳڻڻ ۽ انهن کي ڊيٽا رسائي واري پرت سان رجسٽر ڪرڻ لاءِ شيڊول ٿيل ڪم استعمال ڪيو (ڊي)، Twitter ميٽا ڊيٽا مخزن. صارف رازداري جي معلومات سان گڏ ڊيٽا سيٽن کي تشريح ڪندا ۽ برقرار رکڻ جي مدت پڻ بيان ڪندا. صفائي جي طور تي، اسان ٻن اختيارن جي ڪارڪردگي ۽ قيمت جو جائزو وٺون ٿا: 1. GCS ۾ ڊيٽا سيٽن کي صاف ڪرڻ جهڙوڪ اوزار استعمال ڪندي Scalding ۽ انهن کي BigQuery ۾ لوڊ ڪرڻ؛ 2. BigQuery DML بيان استعمال ڪندي. اسان ممڪن طور تي مختلف گروپن ۽ ڊيٽا جي ضرورتن کي پورو ڪرڻ لاءِ ٻنهي طريقن جو ميلاپ استعمال ڪنداسين.
سسٽم جي ڪارڪردگي
ڇاڪاڻ ته BigQuery هڪ منظم خدمت آهي، اتي Twitter جي SRE ٽيم کي سسٽم مينيجمينٽ يا ڊيسڪ ڊيوٽي ۾ شامل ڪرڻ جي ڪا ضرورت نه هئي. اسٽوريج ۽ ڪمپيوٽنگ ٻنهي لاءِ وڌيڪ گنجائش مهيا ڪرڻ آسان هو. اسان گوگل سپورٽ سان ٽڪيٽ ٺاهي سلاٽ رزرويشن تبديل ڪري سگھون ٿا. اسان انهن علائقن جي نشاندهي ڪئي جن کي بهتر ڪري سگهجي ٿو، جهڙوڪ سيلف سروس سلاٽ مختص ڪرڻ ۽ نگراني لاءِ ڊيش بورڊ جي بهتري، ۽ اهي درخواستون گوگل ڏانهن جمع ڪرايون.
جي قيمت
اسان جي ابتدائي تجزيي ڏيکاري ٿي ته سوال جي قيمت BigQuery ۽ Presto لاءِ ساڳي سطح تي هئي. اسان لاء سلاٽ خريد ڪيو مقرر قيمت ادائگي جي بدران مستحڪم مھينا قيمت حاصل ڪرڻ لاء طلب تي پروسيس ٿيل ڊيٽا جي في ٽي بي. اهو فيصلو پڻ صارفين جي راءِ تي ٻڌل هو جيڪي هر درخواست ڪرڻ کان پهريان قيمتن بابت سوچڻ نٿا چاهين.
BigQuery ۾ ڊيٽا کي ذخيرو ڪرڻ لاڳاپا GCS خرچن کان علاوه. اوزار جهڙوڪ Scalding GCS ۾ ڊيٽا سيٽن جي ضرورت آهي، ۽ BigQuery تائين رسائي حاصل ڪرڻ لاءِ اسان کي ساڳي ڊيٽا سيٽ کي BigQuery فارميٽ ۾ لوڊ ڪرڻو پوندو صلاحڪار. اسان BigQuery ڊيٽا سيٽن جي اسڪالڊنگ ڪنيڪشن تي ڪم ڪري رهيا آهيون جيڪو GCS ۽ BigQuery ٻنهي ۾ ڊيٽا سيٽن کي ذخيرو ڪرڻ جي ضرورت کي ختم ڪري ڇڏيندو.
ناياب ڪيسن لاءِ جن لاءِ ڏهن پيٽابائٽس جي اڻڄاتل سوالن جي ضرورت آهي، اسان فيصلو ڪيو ته BigQuery ۾ ڊيٽا سيٽن کي محفوظ ڪرڻ لاڳت وارو نه هو ۽ GCS ۾ ڊيٽا سيٽن تائين سڌو سنئون رسائي لاءِ Presto استعمال ڪيو. ائين ڪرڻ لاءِ، اسان ڏسي رهيا آهيون BigQuery خارجي ڊيٽا ذريعن.