څنګه د ګوګل BigQuery د ډیټا تحلیل ډیموکراتیک کړی. 2 برخه

سلام، حبر! د نوي کورس جریان لپاره نوم لیکنه همدا اوس په OTUS کې خلاصه ده د معلوماتو انجنیر. د کورس د پیل په تمه، موږ ستاسو سره ګټور مواد شریکولو ته دوام ورکوو.

لومړۍ برخه ولولئ

څنګه د ګوګل BigQuery د ډیټا تحلیل ډیموکراتیک کړی. 2 برخه

د معلوماتو مدیریت

د ډیټا قوي حکومتداري د ټویټر انجینرۍ اصلي اصول دی. لکه څنګه چې موږ په خپل پلیټ فارم کې BigQuery پلي کوو، موږ د معلوماتو کشف، لاسرسي کنټرول، امنیت او محرمیت تمرکز کوو.

د معلوماتو موندلو او اداره کولو لپاره، موږ خپل ډیټا ته د لاسرسي پرت پراخ کړی دی DAL) د دواړو دننه او د ګوګل کلاوډ ډیټا لپاره وسیلې چمتو کول ، زموږ د کاروونکو لپاره یو واحد انٹرفیس او API چمتو کول. لکه څنګه چې ګوګل د معلوماتو کتلاګ د عمومي شتون په لور حرکت کوي، موږ به دا په خپلو پروژو کې شامل کړو ترڅو کاروونکو ته ځانګړتیاوې لکه د کالم لټون چمتو کړو.

BigQuery د ډیټا شریکول او لاسرسي اسانه کوي ، مګر موږ اړتیا لرو چې پدې اړه یو څه کنټرول ولرو ترڅو د ډیټا افشا کیدو مخه ونیسو. د نورو وسیلو په مینځ کې، موږ دوه دندې غوره کړې:

  • د ډومین محدوده شریکول: د بیټا ځانګړتیا د کاروونکو مخه نیسي چې د ټویټر څخه بهر کاروونکو سره د BigQuery ډیټاسیټونو شریکولو مخه ونیسي.
  • د VPC خدماتو کنټرول: یو کنټرول چې د ډیټا د ایستلو مخه نیسي او کاروونکو ته اړتیا لري چې د پیژندل شوي IP پتې سلسلې څخه BigQuery ته لاسرسی ومومي.

موږ په لاندې ډول د امنیت لپاره تصدیق، واک، او پلټنې (AAA) اړتیاوې پلي کړي دي:

  • تصدیق: موږ د GCP کارونکي حسابونه د اډ هاک غوښتنو او خدماتو حسابونو لپاره د تولید غوښتنو لپاره کارولي.
  • واک ورکول: موږ هر ډیټاسیټ ته اړتیا لرو چې د مالک خدمت حساب او د لوستونکي ګروپ ولري.
  • پلټنه: موږ د BigQuery سټیک ډرایور لاګونه صادر کړل، کوم چې د پوښتنو د اجرا کولو تفصيلي معلومات لري، د اسانه تحلیل لپاره BigQuery ډیټاسیټ ته.

د دې لپاره چې ډاډ ترلاسه شي چې د ټویټر کاروونکو شخصي معلومات په سمه توګه اداره کیږي، موږ باید ټول BigQuery ډیټاسیټونه ثبت کړو، شخصي ډاټا تشریح کړو، مناسب ذخیره وساتئ، او (سکریپ) ډاټا چې د کاروونکو لخوا حذف شوي وي حذف کړئ.

موږ ګوګل ته وکتل د کلاوډ ډیټا له لاسه ورکولو مخنیوي API، کوم چې د حساس معلوماتو طبقه بندي او ایډیټ کولو لپاره د ماشین زده کړې کاروي ، مګر د دقت له امله د ډیټاسیټ په لاسي ډول تشریح کولو په ګټه پریکړه وشوه. موږ پلان لرو چې د ګمرکي توضیحاتو لوړولو لپاره د ډیټا له لاسه ورکولو مخنیوي API وکاروو.

په ټویټر کې، موږ په BigQuery کې د ډیټاسیټونو لپاره د محرمیت څلور کټګورۍ رامینځته کړې، چې دلته د حساسیت په ښکته ترتیب کې لیست شوي دي:

  • د خورا حساس ډیټا سیټونه د لږ امتیاز د اصولو پراساس د اړتیا په اساس چمتو شوي. هر ډیټا سیټ د لوستونکو جلا ګروپ لري، او موږ به د انفرادي حسابونو لخوا کارول تعقیب کړو.
  • د متوسط ​​حساسیت ډیټاسیټونه (یو طرفه تخلص د مالګین هشنګ په کارولو سره) د شخصي پیژندلو وړ معلومات (PII) نلري او د کارمندانو لوی ګروپ ته د لاسرسي وړ دي. دا د محرمیت اندیښنو او د معلوماتو کارونې ترمنځ ښه توازن دی. دا کارمندانو ته اجازه ورکوي چې د تحلیلي دندې ترسره کړي، لکه د کاروونکو شمیر محاسبه کول چې یو ځانګړتیا یې کارولې، پرته له دې چې پوه شي چې اصلي کاروونکي څوک دي.
  • د ټولو کاروونکو پیژندلو معلوماتو سره د ټیټ حساسیت ډیټاسیټونه. دا د محرمیت له نظره یو ښه طریقه ده، مګر د کاروونکي کچې تحلیل لپاره نشي کارول کیدی.
  • عامه ډیټاسیټونه (د ټویټر څخه بهر خپاره شوي) د ټویټر ټولو کارمندانو لپاره شتون لري.

لکه څنګه چې د ننوتلو لپاره، موږ د BigQuery ډیټاسیټونو شمیرلو لپاره ټاکل شوي دندې کارولې او د ډیټا لاسرسي پرت سره یې راجستر کوو (DAL)، د ټویټر میټاډاټا ذخیره. کاروونکي به د محرمیت معلوماتو سره ډیټاسیټونه تشریح کړي او د ساتلو موده هم مشخص کړي. د پاکولو لپاره، موږ د دوو اختیارونو فعالیت او لګښت ارزوو: 1. په GCS کې د ډیټاسیټونو پاکول لکه د سکالډینګ په کارولو سره او په BigQuery کې یې بار کول؛ 2. د BigQuery DML بیانونو کارول. موږ به احتمالا د مختلف ډلو او معلوماتو اړتیاو پوره کولو لپاره د دواړو میتودونو ترکیب وکاروو.

د سیسټم فعالیت

ځکه چې BigQuery یو مدیریت شوی خدمت دی، د سیسټم مدیریت یا د میز دندو کې د ټویټر SRE ټیم دخیل کولو ته اړتیا نشته. د ذخیره کولو او کمپیوټر دواړو لپاره د ډیر ظرفیت چمتو کول اسانه وو. موږ کولی شو د ګوګل ملاتړ سره د ټکټ په جوړولو سره د سلاټ ریزرویشن بدل کړو. موږ هغه ساحې په ګوته کړې چې ښه کیدی شي، لکه د ځان خدمت سلاټ تخصیص او د څارنې لپاره د ډشبورډ پرمختګونه، او دا غوښتنې ګوګل ته وسپارل شوې.

د لګښت

زموږ لومړني تحلیل ښودلې چې د BigQuery او Presto لپاره د پوښتنو لګښتونه په ورته کچه وو. موږ لپاره سلاټونه اخیستي ثابت قیمت د تادیې پرځای مستحکم میاشتنی لګښت ولري په غوښتنه د پروسس شوي ډیټا هر TB. دا پریکړه د کاروونکو لخوا د فیډبیک پراساس هم وه چې نه غوښتل د هرې غوښتنې دمخه د لګښتونو په اړه فکر وکړي.

په BigQuery کې د معلوماتو ذخیره کول د GCS لګښتونو سربیره لګښتونه راوړي. وسیلې لکه سکالډینګ په GCS کې ډیټاسیټونو ته اړتیا لري ، او BigQuery ته د لاسرسي لپاره موږ باید ورته ډیټاسیټونه په BigQuery فارمیټ کې پورته کړو قابلیت. موږ د BigQuery ډیټاسیټونو سره د سکیلډینګ پیوستون کار کوو چې په GCS او BigQuery دواړو کې د ډیټاسیټونو ذخیره کولو اړتیا له مینځه ویسي.

د نادرو قضیو لپاره چې د لسګونو پیټابایټ غیر معمولي پوښتنو ته اړتیا لري، موږ پریکړه وکړه چې په BigQuery کې د ډیټاسیټونو ذخیره کول ارزانه ندي او په GCS کې مستقیم ډیټاسیټونو ته د لاسرسي لپاره Presto کارولی. د دې کولو لپاره، موږ د BigQuery بهرنۍ ډیټا سرچینې ګورو.

راتلونکی ګامونه

موږ د الفا خوشې کیدو راهیسې په BigQuery کې ډیره علاقه لیدلې. موږ په BigQuery کې نور ډیټاسیټونه او نور کمانډونه اضافه کوو. موږ د ډیټا تحلیلي وسیلو لپاره نښلونکي رامینځته کوو لکه د BigQuery ذخیره کې لوستلو او لیکلو لپاره سکالډینګ. موږ د BigQuery ډیټاسیټونو په کارولو سره د تصدۍ کیفیت راپورونو او نوټونو رامینځته کولو لپاره د لوکر او اپاچی زپیلین په څیر وسیلو ته ګورو.

د ګوګل سره زموږ همکاري ډیره ګټوره وه او موږ خوښ یو چې دې ملګرتیا ته دوام ورکړو او وده وکړو. موږ د خپل ځان پلي کولو لپاره د ګوګل سره کار کړی د شریک مسله تعقیبونکیپه مستقیم ډول ګوګل ته د پوښتنو لیږلو لپاره. ځینې ​​​​یې، لکه د BigQuery پارکیټ لوډر، لا دمخه د ګوګل لخوا پلي شوي.

دلته د ګوګل لپاره زموږ د لوړ لومړیتوب ځانګړتیاو غوښتنې دي:

  • د LZO-Thrift فارمیټ لپاره د اسانه معلوماتو ترلاسه کولو او ملاتړ لپاره وسیلې.
  • په ساعت کې قطع کول
  • د لاسرسي کنټرول پرمختګونه لکه میز-، قطار-، او د کالم کچې اجازه.
  • لویه پوښتنه د بهرنیو معلوماتو سرچینې د Hive Metastore ادغام او د LZO-Thrift بڼه لپاره ملاتړ سره.
  • د BigQuery کارن انٹرفیس کې د ډیټا کتلاګ ادغام ښه شوی
  • د سلاټ تخصیص او نظارت لپاره ځان خدمت.

پایلې

په خوندي ډول د ډیټا تحلیلونه ، لید ، او ماشین زده کړې ډیموکراتیک کول د ډیټا پلیټ فارم ټیم لپاره لوړ لومړیتوب دی. موږ د ګوګل BigQuery او ډیټا سټوډیو د وسیلو په توګه پیژندلي چې کولی شي دې هدف ته رسیدو کې مرسته وکړي، او تیر کال د BigQuery الفا شرکت خپور کړ.

موږ په BigQuery کې پوښتنې وموندلې چې ساده او مؤثره وي. موږ د ساده پایپ لاینونو لپاره ډیټا جذب او بدلولو لپاره د ګوګل وسیلې کارولې ، مګر د پیچلو پایپ لاینونو لپاره موږ باید خپل د هوا جریان چوکاټ جوړ کړو. د معلوماتو مدیریت ځای کې، د تصدیق، واک ورکولو، او پلټنې لپاره د BigQuery خدمتونه زموږ اړتیاوې پوره کوي. د میټاډاټا اداره کولو او محرمیت ساتلو لپاره، موږ ډیر انعطاف ته اړتیا درلوده او باید خپل سیسټمونه جوړ کړو. BigQuery، یو مدیریت شوی خدمت دی، کارول یې اسانه وو. د پوښتنو لګښتونه د موجوده وسیلو سره ورته وو. په BigQuery کې د معلوماتو ذخیره کول د GCS لګښتونو سربیره لګښتونه هم لري.

په ټولیز ډول، BigQuery د عمومي SQL تحلیل لپاره ښه کار کوي. موږ په BigQuery کې ډیره علاقه وینو، او موږ کار کوو چې د ډیرو ډیټا سیټونو مهاجرت وکړو، ډیر ټیمونه راوړو، او د BigQuery سره نور پایپ لاینونه جوړ کړو. ټویټر مختلف ډیټا کاروي چې د وسیلو ترکیب ته اړتیا لري لکه سکالډینګ ، سپارک ، پریسټو ، او ډرویډ. موږ اراده لرو چې زموږ د ډیټا تحلیلي وسیلو پیاوړي کولو ته دوام ورکړو او زموږ کاروونکو ته روښانه لارښود چمتو کړو چې څنګه زموږ وړاندیزونه غوره وکاروو.

د مننې کلمې

زه غواړم زما د همکار لیکوالانو او ټیم ملګرو، انجو جاه او ویل پاسکوسي څخه مننه وکړم چې پدې پروژه کې د دوی د عالي همکارۍ او سخت کار لپاره. زه غواړم په ټویټر او ګوګل کې د څو ټیمونو انجینرانو او مدیرانو څخه هم مننه وکړم چې موږ سره یې او په ټویټر کې د BigQuery کاروونکو سره مرسته وکړه چې ارزښتناکه فیډبیک یې راکړ.

که تاسو د دې ستونزو په اړه کار کولو کې علاقه لرئ ، زموږ وګورئ خالي بستونه د ډیټا پلیټ فارم ټیم کې.

په DWH کې د ډیټا کیفیت - د معلوماتو ګودام تسلسل

سرچینه: www.habr.com

Add a comment