څنګه د ګوګل BigQuery د ډیټا تحلیل ډیموکراتیک کړی. 1 برخه

سلام، حبر! د نوي کورس جریان لپاره نوم لیکنه همدا اوس په OTUS کې خلاصه ده د معلوماتو انجنیر. د کورس د پیل په تمه، موږ په دودیز ډول ستاسو لپاره د زړه پورې موادو ژباړه چمتو کړې.

هره ورځ، له سلو میلیونو څخه زیات خلک ټویټر ته مراجعه کوي ترڅو معلومه کړي چې په نړۍ کې څه پیښیږي او په اړه یې بحث کوي. هر ټویټ او هر بل کارونکي عمل یوه پیښه رامینځته کوي چې د ټویټر داخلي ډیټا تحلیل لپاره شتون لري. په سلګونو کارمندان د دې ډاټا تحلیل او لیدلوري، او د دوی تجربې ته وده ورکول د ټویټر ډیټا پلیټ فارم ټیم لپاره لومړیتوب دی.

موږ باور لرو چې کارونکي د پراخه تخنیکي مهارتونو سره باید د دې وړتیا ولري چې ډیټا کشف کړي او د SQL پراساس تحلیل او لید وسیلو ته لاسرسی ولري. دا به د لږ تخنیکي کاروونکو بشپړ نوي ګروپ ته اجازه ورکړي، په شمول د ډیټا شنونکي او د محصول مدیران، د معلوماتو څخه بصیرت استخراج کړي، دوی ته اجازه ورکوي چې د ټویټر وړتیاوې ښه پوه شي او وکاروي. دا څنګه موږ په ټویټر کې د ډیټا تحلیلونه ډیموکراتیک کوو.

لکه څنګه چې زموږ وسیلې او د داخلي معلوماتو تحلیلي وړتیاوې ښه شوي، موږ د ټویټر وده لیدلې. په هرصورت، لاهم د پرمختګ لپاره خونه شتون لري. اوسني وسیلې لکه سکالډینګ د برنامې تجربې ته اړتیا لري. د SQL پر بنسټ تحلیلي وسیلې لکه Presto او Vertica په پیمانه د فعالیت مسلې لري. موږ په ډیری سیسټمونو کې د دوامداره لاسرسي پرته د معلوماتو توزیع کولو ستونزه هم لرو.

تېر کال موږ اعلان وکړ د ګوګل سره نوې همکاري، په کوم کې چې موږ د خپلو برخو برخې لیږدوو د معلوماتو زیربنا د ګوګل کلاوډ پلیټ فارم (GCP) کې. موږ دې پایلې ته رسیدلي چې د ګوګل کلاوډ اوزار لوی ډاټا په ټویټر کې د تحلیلونو، لید، او ماشین زده کړې ډیموکراتیک کولو لپاره زموږ نوښتونو کې مرسته کولی شي:

پدې مقاله کې به تاسو د دې وسیلو سره زموږ د تجربې په اړه زده کړئ: موږ څه وکړل، څه مو زده کړل، او موږ به نور څه وکړو. موږ به اوس په بیچ او متقابل تحلیل تمرکز وکړو. موږ به په راتلونکي مقاله کې د ریښتیني وخت تحلیلونو په اړه بحث وکړو.

د ټویټر ډیټا پلورنځیو تاریخ

مخکې لدې چې په BigQuery کې ډوب شئ، دا د ټویټر ډیټا ذخیره کولو تاریخ په لنډه توګه د حساب ورکولو ارزښت لري. په 2011 کې، د ټویټر ډیټا تحلیل په ویرټیکا او هډوپ کې ترسره شو. موږ د MapReduce Hadoop دندې رامینځته کولو لپاره سور کارولی. په 2012 کې، موږ سور د سکالډینګ سره بدل کړ، کوم چې د سکالا API درلودو سره د ګټو سره لکه د پیچلو پایپ لاینونو رامینځته کولو وړتیا او د ازموینې اسانتیا. په هرصورت، د ډیری ډیټا شنونکو او د محصول مدیرانو لپاره چې د SQL سره کار کولو کې ډیر راحته وو، دا د زده کړې خورا سخت وکر و. د 2016 په شاوخوا کې، موږ د هاډوپ ډیټا ته د SQL انٹرفیس په توګه د پریسټو کارول پیل کړل. سپارک د Python انٹرفیس وړاندیز وکړ، کوم چې دا د اډ هاک ډیټا ساینس او ​​ماشین زده کړې لپاره غوره انتخاب کوي.

د 2018 راهیسې، موږ د معلوماتو تحلیل او لید لپاره لاندې وسایل کارولي دي:

  • د تولید لیږدونکو لپاره سکریډینګ
  • د اډهاک ډیټا تحلیل او ماشین زده کړې لپاره سکالډینګ او سپارک
  • ورټیکا او پریسټو د اډ هاک او متقابل SQL تحلیل لپاره
  • د وخت لړۍ میټریکونو ته د ټیټ متقابل ، سپړنې او ټیټ ځنډ لاسرسي لپاره ډرایډ
  • جدول، زپیلین او پیوټ د معلوماتو لید لپاره

موږ وموندله چې پداسې حال کې چې دا وسیلې خورا پیاوړې وړتیاوې وړاندې کوي، موږ په ټویټر کې پراخه لیدونکو ته د دې وړتیاو چمتو کولو کې ستونزه درلوده. د ګوګل کلاوډ سره زموږ د پلیټ فارم پراخولو سره، موږ د ټولو ټویټر لپاره زموږ د تحلیلي وسیلو په ساده کولو تمرکز کوو.

د ګوګل د BigQuery ډیټا ګدام

په ټویټر کې ډیری ټیمونو دمخه د دوی ځینې تولید پایپ لاینونو کې BigQuery شامل کړی. د دوی د مهارتونو په کارولو سره، موږ د ټویټر کارولو ټولو قضیو لپاره د BigQuery وړتیاو ارزونه پیل کړه. زموږ هدف دا و چې ټول شرکت ته BigQuery وړاندې کړو او د ډیټا پلیټ فارم وسیلې سیټ کې یې معیاري او ملاتړ وکړو. دا د ډیری دلیلونو لپاره ستونزمن و. موږ اړتیا لرو چې یو زیربنا رامینځته کړو ترڅو په معتبر ډول د ډیټا لوی مقدار مصرف کړو ، د شرکت په کچه د ډیټا مدیریت ملاتړ وکړو ، د لاسرسي مناسب کنټرول ډاډمن کړو ، او د پیرودونکي محرمیت ډاډمن کړو. موږ باید د سرچینو تخصیص ، نظارت ، او چارج بیکس لپاره سیسټمونه هم رامینځته کړي ترڅو ټیمونه وکولی شي BigQuery په مؤثره توګه وکاروي.

په نومبر 2018 کې، موږ د شرکت په کچه د BigQuery او ډیټا سټوډیو الفا خوشې کول خپاره کړل. موږ د ټویټر کارمندانو ته زموږ ځینې ډیری کارول شوي سپریډ شیټونه د پاک شوي شخصي معلوماتو سره وړاندیز کړي دي. BigQuery د انجینرۍ ، مالیې او بازارموندنې په شمول د مختلف ټیمونو څخه د 250 څخه زیاتو کاروونکو لخوا کارول شوی. په دې وروستیو کې، دوی شاوخوا 8k غوښتنې پرمخ وړي، په میاشت کې شاوخوا 100 PB پروسس کوي، د ټاکل شوي غوښتنو شمیرل نه کوي. د خورا مثبت نظر ترلاسه کولو وروسته، موږ پریکړه وکړه چې مخکې لاړ شو او په ټویټر کې د معلوماتو سره د تعامل لپاره د اصلي سرچینې په توګه BigQuery وړاندیز وکړو.

دلته زموږ د ګوګل BigQuery ډیټا ګودام جوړښت د لوړې کچې ډیاګرام دی.

څنګه د ګوګل BigQuery د ډیټا تحلیل ډیموکراتیک کړی. 1 برخه
موږ د داخلي کلاوډ نقل کونکي وسیلې په کارولو سره د هاډوپ کلسترونو څخه د ګوګل کلاوډ ذخیره (GCS) ته ډاټا کاپي کوو. موږ بیا د پایپ لاینونو رامینځته کولو لپاره د اپاچي ایر فلو کاروو چې کاروي "bq_load» له GCS څخه په BigQuery کې د معلوماتو بارولو لپاره. موږ په GCS کې د Parquet یا Thrift-LZO ډیټاسیټونو پوښتنې لپاره Presto کاروو. BQ Blaster په BigQuery کې د HDFS ورټیکا او Thrift-LZO ډیټاسیټونو بارولو لپاره داخلي سکیلډینګ وسیله ده.

په لاندې برخو کې، موږ د کارولو اسانتیا، فعالیت، د معلوماتو مدیریت، د سیسټم روغتیا، او لګښت په برخو کې زموږ د چلند او مهارتونو په اړه بحث کوو.

د کار آسانتیاوې

موږ وموندله چې دا د کاروونکو لپاره اسانه وه چې د BigQuery سره پیل شي ځکه چې دا د سافټویر نصبولو ته اړتیا نلري او کاروونکي کولی شي دې ته د رواني ویب انٹرفیس له لارې لاسرسی ومومي. په هرصورت، کاروونکي اړتیا لري چې د GCP ځینې ځانګړتیاوو او مفکورو سره آشنا شي، په شمول د سرچینو لکه پروژې، ډیټاسیټونه، او میزونه. موږ د کاروونکو سره د پیل کولو کې د مرستې لپاره تعلیمي توکي او ښوونې رامینځته کړې. د بنسټیز پوهه ترلاسه کولو سره، کاروونکو دا اسانه وموندله چې د ډیټا سیټونو نیویګیټ وکړي، سکیما او میز ډیټا وګوري، ساده پوښتنې پرمخ بوځي، او په ډیټا سټوډیو کې پایلې وګوري.

BigQuery ته د ډیټا ننوتلو لپاره زموږ هدف دا و چې په یو کلیک سره د HDFS یا GCS ډیټاسیټونو بې ځایه بارولو وړ کړئ. موږ فکر وکړ کلاوډ کمپوزر (د ایر فلو لخوا اداره کیږي) مګر زموږ د ډومین محدود شوي شریکولو امنیت ماډل له امله د دې کارولو توان نلري (لاندې د ډیټا مدیریت برخه کې پدې اړه نور). موږ د BigQuery کاري بارونو تنظیم کولو لپاره د ګوګل ډیټا لیږد خدمت (DTS) کارولو تجربه وکړه. پداسې حال کې چې DTS د تنظیم کولو لپاره ګړندی و ، دا د انحصار سره د پایپ لاینونو جوړولو لپاره انعطاف وړ نه و. زموږ د الفا خوشې کولو لپاره ، موږ په GCE کې خپل د اپاچي ایر فلو چوکاټ رامینځته کړی او چمتو کوو چې دا په تولید کې پرمخ بوځي او د دې وړ وي چې د ډیرو ډیټا سرچینو لکه ویرټیکا ملاتړ وکړي.

په BigQuery کې ډاټا بدلولو لپاره، کاروونکي د مهال ویش پوښتنو په کارولو سره ساده SQL ډیټا پایپ لاینونه جوړوي. د انحصارونو سره د پیچلي څو مرحلو پایپ لاینونو لپاره ، موږ پلان لرو چې یا هم زموږ د خپل هوایی جریان چوکاټ یا کلاوډ کمپوزر وکاروو د بادل ډیټا فلو.

محصولات

BigQuery د عمومي هدف SQL پوښتنو لپاره ډیزاین شوی چې د ډیټا لوی مقدار پروسس کوي. دا د ټیټ ځنډ لپاره نه دی ، د لیږد ډیټابیس لخوا اړین د لوړې کچې پوښتنو لپاره ، یا د پلي شوي ټیټ ځنډ وخت لړۍ تحلیلونو لپاره ندي اپاچی ډریډ. د متقابل تحلیلي پوښتنو لپاره، زموږ کاروونکي له یوې دقیقې څخه لږ د ځواب وخت تمه لري. موږ باید د دې توقعاتو پوره کولو لپاره زموږ د BigQuery کارول ډیزاین کړو. زموږ د کاروونکو لپاره د وړاندوینې وړ فعالیت چمتو کولو لپاره، موږ د BigQuery فعالیت څخه ګټه پورته کړه، د پیرودونکو لپاره د فلیټ فیس په اساس شتون لري چې د پروژې مالکینو ته اجازه ورکوي چې د دوی پوښتنو لپاره لږترلږه سلاټونه خوندي کړي. سلاټ BigQuery د کمپیوټري ځواک یو واحد دی چې د SQL پوښتنو اجرا کولو لپاره اړین دی.

موږ له 800 څخه ډیر پوښتنې تحلیل کړې چې هر یو نږدې 1 TB ډیټا پروسس کوي او وموندله چې د اوسط اجرا کولو وخت 30 ثانیې و. موږ دا هم زده کړل چې فعالیت په مختلفو پروژو او دندو کې زموږ د سلاټ کارولو پورې اړه لري. موږ باید د تولید کارولو قضیو او آنلاین تحلیلونو لپاره فعالیت ساتلو لپاره زموږ تولید او اډ هاک سلاټ زیرمې په روښانه ډول تشریح کړو. دې د سلاټ ریزرویشنونو او د پروژې درجه بندي لپاره زموږ ډیزاین خورا اغیزمن کړ.

موږ به د ژباړې په دویمه برخه کې په راتلونکو ورځو کې د ډیټا مدیریت ، فعالیت او سیسټمونو لګښت په اړه وغږیږو ، مګر اوس موږ ټولو ته بلنه ورکوو وړیا ژوندی ویبینار، د کوم په جریان کې چې تاسو به وکولی شئ د کورس په اړه په تفصیل سره زده کړئ ، او همدارنګه زموږ د ماهر - ایګور ماتیشوک (د ډیټا لوړ پوړي انجینر ، میکسیما ټیلی کام) څخه پوښتنې وکړئ.

نور یی ولوله:

سرچینه: www.habr.com

Add a comment