سلام، حبر! د نوي کورس جریان لپاره نوم لیکنه همدا اوس په OTUS کې خلاصه ده
د معلوماتو مدیریت
د ډیټا قوي حکومتداري د ټویټر انجینرۍ اصلي اصول دی. لکه څنګه چې موږ په خپل پلیټ فارم کې BigQuery پلي کوو، موږ د معلوماتو کشف، لاسرسي کنټرول، امنیت او محرمیت تمرکز کوو.
د معلوماتو موندلو او اداره کولو لپاره، موږ خپل ډیټا ته د لاسرسي پرت پراخ کړی دی
BigQuery د ډیټا شریکول او لاسرسي اسانه کوي ، مګر موږ اړتیا لرو چې پدې اړه یو څه کنټرول ولرو ترڅو د ډیټا افشا کیدو مخه ونیسو. د نورو وسیلو په مینځ کې، موږ دوه دندې غوره کړې:
د ډومین محدوده شریکول : د بیټا ځانګړتیا د کاروونکو مخه نیسي چې د ټویټر څخه بهر کاروونکو سره د BigQuery ډیټاسیټونو شریکولو مخه ونیسي.د VPC خدماتو کنټرول : یو کنټرول چې د ډیټا د ایستلو مخه نیسي او کاروونکو ته اړتیا لري چې د پیژندل شوي IP پتې سلسلې څخه BigQuery ته لاسرسی ومومي.
موږ په لاندې ډول د امنیت لپاره تصدیق، واک، او پلټنې (AAA) اړتیاوې پلي کړي دي:
- تصدیق: موږ د GCP کارونکي حسابونه د اډ هاک غوښتنو او خدماتو حسابونو لپاره د تولید غوښتنو لپاره کارولي.
- واک ورکول: موږ هر ډیټاسیټ ته اړتیا لرو چې د مالک خدمت حساب او د لوستونکي ګروپ ولري.
- پلټنه: موږ د BigQuery سټیک ډرایور لاګونه صادر کړل، کوم چې د پوښتنو د اجرا کولو تفصيلي معلومات لري، د اسانه تحلیل لپاره BigQuery ډیټاسیټ ته.
د دې لپاره چې ډاډ ترلاسه شي چې د ټویټر کاروونکو شخصي معلومات په سمه توګه اداره کیږي، موږ باید ټول BigQuery ډیټاسیټونه ثبت کړو، شخصي ډاټا تشریح کړو، مناسب ذخیره وساتئ، او (سکریپ) ډاټا چې د کاروونکو لخوا حذف شوي وي حذف کړئ.
موږ ګوګل ته وکتل
په ټویټر کې، موږ په BigQuery کې د ډیټاسیټونو لپاره د محرمیت څلور کټګورۍ رامینځته کړې، چې دلته د حساسیت په ښکته ترتیب کې لیست شوي دي:
- د خورا حساس ډیټا سیټونه د لږ امتیاز د اصولو پراساس د اړتیا په اساس چمتو شوي. هر ډیټا سیټ د لوستونکو جلا ګروپ لري، او موږ به د انفرادي حسابونو لخوا کارول تعقیب کړو.
- د متوسط حساسیت ډیټاسیټونه (یو طرفه تخلص د مالګین هشنګ په کارولو سره) د شخصي پیژندلو وړ معلومات (PII) نلري او د کارمندانو لوی ګروپ ته د لاسرسي وړ دي. دا د محرمیت اندیښنو او د معلوماتو کارونې ترمنځ ښه توازن دی. دا کارمندانو ته اجازه ورکوي چې د تحلیلي دندې ترسره کړي، لکه د کاروونکو شمیر محاسبه کول چې یو ځانګړتیا یې کارولې، پرته له دې چې پوه شي چې اصلي کاروونکي څوک دي.
- د ټولو کاروونکو پیژندلو معلوماتو سره د ټیټ حساسیت ډیټاسیټونه. دا د محرمیت له نظره یو ښه طریقه ده، مګر د کاروونکي کچې تحلیل لپاره نشي کارول کیدی.
- عامه ډیټاسیټونه (د ټویټر څخه بهر خپاره شوي) د ټویټر ټولو کارمندانو لپاره شتون لري.
لکه څنګه چې د ننوتلو لپاره، موږ د BigQuery ډیټاسیټونو شمیرلو لپاره ټاکل شوي دندې کارولې او د ډیټا لاسرسي پرت سره یې راجستر کوو (
د سیسټم فعالیت
ځکه چې BigQuery یو مدیریت شوی خدمت دی، د سیسټم مدیریت یا د میز دندو کې د ټویټر SRE ټیم دخیل کولو ته اړتیا نشته. د ذخیره کولو او کمپیوټر دواړو لپاره د ډیر ظرفیت چمتو کول اسانه وو. موږ کولی شو د ګوګل ملاتړ سره د ټکټ په جوړولو سره د سلاټ ریزرویشن بدل کړو. موږ هغه ساحې په ګوته کړې چې ښه کیدی شي، لکه د ځان خدمت سلاټ تخصیص او د څارنې لپاره د ډشبورډ پرمختګونه، او دا غوښتنې ګوګل ته وسپارل شوې.
د لګښت
زموږ لومړني تحلیل ښودلې چې د BigQuery او Presto لپاره د پوښتنو لګښتونه په ورته کچه وو. موږ لپاره سلاټونه اخیستي
په BigQuery کې د معلوماتو ذخیره کول د GCS لګښتونو سربیره لګښتونه راوړي. وسیلې لکه سکالډینګ په GCS کې ډیټاسیټونو ته اړتیا لري ، او BigQuery ته د لاسرسي لپاره موږ باید ورته ډیټاسیټونه په BigQuery فارمیټ کې پورته کړو
د نادرو قضیو لپاره چې د لسګونو پیټابایټ غیر معمولي پوښتنو ته اړتیا لري، موږ پریکړه وکړه چې په BigQuery کې د ډیټاسیټونو ذخیره کول ارزانه ندي او په GCS کې مستقیم ډیټاسیټونو ته د لاسرسي لپاره Presto کارولی. د دې کولو لپاره، موږ د BigQuery بهرنۍ ډیټا سرچینې ګورو.
راتلونکی ګامونه
موږ د الفا خوشې کیدو راهیسې په BigQuery کې ډیره علاقه لیدلې. موږ په BigQuery کې نور ډیټاسیټونه او نور کمانډونه اضافه کوو. موږ د ډیټا تحلیلي وسیلو لپاره نښلونکي رامینځته کوو لکه د BigQuery ذخیره کې لوستلو او لیکلو لپاره سکالډینګ. موږ د BigQuery ډیټاسیټونو په کارولو سره د تصدۍ کیفیت راپورونو او نوټونو رامینځته کولو لپاره د لوکر او اپاچی زپیلین په څیر وسیلو ته ګورو.
د ګوګل سره زموږ همکاري ډیره ګټوره وه او موږ خوښ یو چې دې ملګرتیا ته دوام ورکړو او وده وکړو. موږ د خپل ځان پلي کولو لپاره د ګوګل سره کار کړی
دلته د ګوګل لپاره زموږ د لوړ لومړیتوب ځانګړتیاو غوښتنې دي:
- د LZO-Thrift فارمیټ لپاره د اسانه معلوماتو ترلاسه کولو او ملاتړ لپاره وسیلې.
- په ساعت کې قطع کول
- د لاسرسي کنټرول پرمختګونه لکه میز-، قطار-، او د کالم کچې اجازه.
- لویه پوښتنه
د بهرنیو معلوماتو سرچینې د Hive Metastore ادغام او د LZO-Thrift بڼه لپاره ملاتړ سره. - د BigQuery کارن انٹرفیس کې د ډیټا کتلاګ ادغام ښه شوی
- د سلاټ تخصیص او نظارت لپاره ځان خدمت.
پایلې
په خوندي ډول د ډیټا تحلیلونه ، لید ، او ماشین زده کړې ډیموکراتیک کول د ډیټا پلیټ فارم ټیم لپاره لوړ لومړیتوب دی. موږ د ګوګل BigQuery او ډیټا سټوډیو د وسیلو په توګه پیژندلي چې کولی شي دې هدف ته رسیدو کې مرسته وکړي، او تیر کال د BigQuery الفا شرکت خپور کړ.
موږ په BigQuery کې پوښتنې وموندلې چې ساده او مؤثره وي. موږ د ساده پایپ لاینونو لپاره ډیټا جذب او بدلولو لپاره د ګوګل وسیلې کارولې ، مګر د پیچلو پایپ لاینونو لپاره موږ باید خپل د هوا جریان چوکاټ جوړ کړو. د معلوماتو مدیریت ځای کې، د تصدیق، واک ورکولو، او پلټنې لپاره د BigQuery خدمتونه زموږ اړتیاوې پوره کوي. د میټاډاټا اداره کولو او محرمیت ساتلو لپاره، موږ ډیر انعطاف ته اړتیا درلوده او باید خپل سیسټمونه جوړ کړو. BigQuery، یو مدیریت شوی خدمت دی، کارول یې اسانه وو. د پوښتنو لګښتونه د موجوده وسیلو سره ورته وو. په BigQuery کې د معلوماتو ذخیره کول د GCS لګښتونو سربیره لګښتونه هم لري.
په ټولیز ډول، BigQuery د عمومي SQL تحلیل لپاره ښه کار کوي. موږ په BigQuery کې ډیره علاقه وینو، او موږ کار کوو چې د ډیرو ډیټا سیټونو مهاجرت وکړو، ډیر ټیمونه راوړو، او د BigQuery سره نور پایپ لاینونه جوړ کړو. ټویټر مختلف ډیټا کاروي چې د وسیلو ترکیب ته اړتیا لري لکه سکالډینګ ، سپارک ، پریسټو ، او ډرویډ. موږ اراده لرو چې زموږ د ډیټا تحلیلي وسیلو پیاوړي کولو ته دوام ورکړو او زموږ کاروونکو ته روښانه لارښود چمتو کړو چې څنګه زموږ وړاندیزونه غوره وکاروو.
د مننې کلمې
زه غواړم زما د همکار لیکوالانو او ټیم ملګرو، انجو جاه او ویل پاسکوسي څخه مننه وکړم چې پدې پروژه کې د دوی د عالي همکارۍ او سخت کار لپاره. زه غواړم په ټویټر او ګوګل کې د څو ټیمونو انجینرانو او مدیرانو څخه هم مننه وکړم چې موږ سره یې او په ټویټر کې د BigQuery کاروونکو سره مرسته وکړه چې ارزښتناکه فیډبیک یې راکړ.
که تاسو د دې ستونزو په اړه کار کولو کې علاقه لرئ ، زموږ وګورئ
سرچینه: www.habr.com