سلام، حبر! د نوي کورس جریان لپاره نوم لیکنه همدا اوس په OTUS کې خلاصه ده
هره ورځ، له سلو میلیونو څخه زیات خلک ټویټر ته مراجعه کوي ترڅو معلومه کړي چې په نړۍ کې څه پیښیږي او په اړه یې بحث کوي. هر ټویټ او هر بل کارونکي عمل یوه پیښه رامینځته کوي چې د ټویټر داخلي ډیټا تحلیل لپاره شتون لري. په سلګونو کارمندان د دې ډاټا تحلیل او لیدلوري، او د دوی تجربې ته وده ورکول د ټویټر ډیټا پلیټ فارم ټیم لپاره لومړیتوب دی.
موږ باور لرو چې کارونکي د پراخه تخنیکي مهارتونو سره باید د دې وړتیا ولري چې ډیټا کشف کړي او د SQL پراساس تحلیل او لید وسیلو ته لاسرسی ولري. دا به د لږ تخنیکي کاروونکو بشپړ نوي ګروپ ته اجازه ورکړي، په شمول د ډیټا شنونکي او د محصول مدیران، د معلوماتو څخه بصیرت استخراج کړي، دوی ته اجازه ورکوي چې د ټویټر وړتیاوې ښه پوه شي او وکاروي. دا څنګه موږ په ټویټر کې د ډیټا تحلیلونه ډیموکراتیک کوو.
لکه څنګه چې زموږ وسیلې او د داخلي معلوماتو تحلیلي وړتیاوې ښه شوي، موږ د ټویټر وده لیدلې. په هرصورت، لاهم د پرمختګ لپاره خونه شتون لري. اوسني وسیلې لکه سکالډینګ د برنامې تجربې ته اړتیا لري. د SQL پر بنسټ تحلیلي وسیلې لکه Presto او Vertica په پیمانه د فعالیت مسلې لري. موږ په ډیری سیسټمونو کې د دوامداره لاسرسي پرته د معلوماتو توزیع کولو ستونزه هم لرو.
تېر کال موږ اعلان وکړ
لویه پوښتنه : د تصدۍ ډیټا ګودام د SQL انجن پراساسDremel ، کوم چې د خپل سرعت ، سادگي او مقابلې لپاره مشهور دیماشین زده کړه .د معلوماتو سټوډیو: د ګوګل ډاکس په څیر د همکارۍ ځانګړتیاو سره د لوی ډیټا لید لید وسیله.
پدې مقاله کې به تاسو د دې وسیلو سره زموږ د تجربې په اړه زده کړئ: موږ څه وکړل، څه مو زده کړل، او موږ به نور څه وکړو. موږ به اوس په بیچ او متقابل تحلیل تمرکز وکړو. موږ به په راتلونکي مقاله کې د ریښتیني وخت تحلیلونو په اړه بحث وکړو.
د ټویټر ډیټا پلورنځیو تاریخ
مخکې لدې چې په BigQuery کې ډوب شئ، دا د ټویټر ډیټا ذخیره کولو تاریخ په لنډه توګه د حساب ورکولو ارزښت لري. په 2011 کې، د ټویټر ډیټا تحلیل په ویرټیکا او هډوپ کې ترسره شو. موږ د MapReduce Hadoop دندې رامینځته کولو لپاره سور کارولی. په 2012 کې، موږ سور د سکالډینګ سره بدل کړ، کوم چې د سکالا API درلودو سره د ګټو سره لکه د پیچلو پایپ لاینونو رامینځته کولو وړتیا او د ازموینې اسانتیا. په هرصورت، د ډیری ډیټا شنونکو او د محصول مدیرانو لپاره چې د SQL سره کار کولو کې ډیر راحته وو، دا د زده کړې خورا سخت وکر و. د 2016 په شاوخوا کې، موږ د هاډوپ ډیټا ته د SQL انٹرفیس په توګه د پریسټو کارول پیل کړل. سپارک د Python انٹرفیس وړاندیز وکړ، کوم چې دا د اډ هاک ډیټا ساینس او ماشین زده کړې لپاره غوره انتخاب کوي.
د 2018 راهیسې، موږ د معلوماتو تحلیل او لید لپاره لاندې وسایل کارولي دي:
- د تولید لیږدونکو لپاره سکریډینګ
- د اډهاک ډیټا تحلیل او ماشین زده کړې لپاره سکالډینګ او سپارک
- ورټیکا او پریسټو د اډ هاک او متقابل SQL تحلیل لپاره
- د وخت لړۍ میټریکونو ته د ټیټ متقابل ، سپړنې او ټیټ ځنډ لاسرسي لپاره ډرایډ
- جدول، زپیلین او پیوټ د معلوماتو لید لپاره
موږ وموندله چې پداسې حال کې چې دا وسیلې خورا پیاوړې وړتیاوې وړاندې کوي، موږ په ټویټر کې پراخه لیدونکو ته د دې وړتیاو چمتو کولو کې ستونزه درلوده. د ګوګل کلاوډ سره زموږ د پلیټ فارم پراخولو سره، موږ د ټولو ټویټر لپاره زموږ د تحلیلي وسیلو په ساده کولو تمرکز کوو.
د ګوګل د BigQuery ډیټا ګدام
په ټویټر کې ډیری ټیمونو دمخه د دوی ځینې تولید پایپ لاینونو کې BigQuery شامل کړی. د دوی د مهارتونو په کارولو سره، موږ د ټویټر کارولو ټولو قضیو لپاره د BigQuery وړتیاو ارزونه پیل کړه. زموږ هدف دا و چې ټول شرکت ته BigQuery وړاندې کړو او د ډیټا پلیټ فارم وسیلې سیټ کې یې معیاري او ملاتړ وکړو. دا د ډیری دلیلونو لپاره ستونزمن و. موږ اړتیا لرو چې یو زیربنا رامینځته کړو ترڅو په معتبر ډول د ډیټا لوی مقدار مصرف کړو ، د شرکت په کچه د ډیټا مدیریت ملاتړ وکړو ، د لاسرسي مناسب کنټرول ډاډمن کړو ، او د پیرودونکي محرمیت ډاډمن کړو. موږ باید د سرچینو تخصیص ، نظارت ، او چارج بیکس لپاره سیسټمونه هم رامینځته کړي ترڅو ټیمونه وکولی شي BigQuery په مؤثره توګه وکاروي.
په نومبر 2018 کې، موږ د شرکت په کچه د BigQuery او ډیټا سټوډیو الفا خوشې کول خپاره کړل. موږ د ټویټر کارمندانو ته زموږ ځینې ډیری کارول شوي سپریډ شیټونه د پاک شوي شخصي معلوماتو سره وړاندیز کړي دي. BigQuery د انجینرۍ ، مالیې او بازارموندنې په شمول د مختلف ټیمونو څخه د 250 څخه زیاتو کاروونکو لخوا کارول شوی. په دې وروستیو کې، دوی شاوخوا 8k غوښتنې پرمخ وړي، په میاشت کې شاوخوا 100 PB پروسس کوي، د ټاکل شوي غوښتنو شمیرل نه کوي. د خورا مثبت نظر ترلاسه کولو وروسته، موږ پریکړه وکړه چې مخکې لاړ شو او په ټویټر کې د معلوماتو سره د تعامل لپاره د اصلي سرچینې په توګه BigQuery وړاندیز وکړو.
دلته زموږ د ګوګل BigQuery ډیټا ګودام جوړښت د لوړې کچې ډیاګرام دی.
موږ د داخلي کلاوډ نقل کونکي وسیلې په کارولو سره د هاډوپ کلسترونو څخه د ګوګل کلاوډ ذخیره (GCS) ته ډاټا کاپي کوو. موږ بیا د پایپ لاینونو رامینځته کولو لپاره د اپاچي ایر فلو کاروو چې کاروي "
په لاندې برخو کې، موږ د کارولو اسانتیا، فعالیت، د معلوماتو مدیریت، د سیسټم روغتیا، او لګښت په برخو کې زموږ د چلند او مهارتونو په اړه بحث کوو.
د کار آسانتیاوې
موږ وموندله چې دا د کاروونکو لپاره اسانه وه چې د BigQuery سره پیل شي ځکه چې دا د سافټویر نصبولو ته اړتیا نلري او کاروونکي کولی شي دې ته د رواني ویب انٹرفیس له لارې لاسرسی ومومي. په هرصورت، کاروونکي اړتیا لري چې د GCP ځینې ځانګړتیاوو او مفکورو سره آشنا شي، په شمول د سرچینو لکه پروژې، ډیټاسیټونه، او میزونه. موږ د کاروونکو سره د پیل کولو کې د مرستې لپاره تعلیمي توکي او ښوونې رامینځته کړې. د بنسټیز پوهه ترلاسه کولو سره، کاروونکو دا اسانه وموندله چې د ډیټا سیټونو نیویګیټ وکړي، سکیما او میز ډیټا وګوري، ساده پوښتنې پرمخ بوځي، او په ډیټا سټوډیو کې پایلې وګوري.
BigQuery ته د ډیټا ننوتلو لپاره زموږ هدف دا و چې په یو کلیک سره د HDFS یا GCS ډیټاسیټونو بې ځایه بارولو وړ کړئ. موږ فکر وکړ
په BigQuery کې ډاټا بدلولو لپاره، کاروونکي د مهال ویش پوښتنو په کارولو سره ساده SQL ډیټا پایپ لاینونه جوړوي. د انحصارونو سره د پیچلي څو مرحلو پایپ لاینونو لپاره ، موږ پلان لرو چې یا هم زموږ د خپل هوایی جریان چوکاټ یا کلاوډ کمپوزر وکاروو
محصولات
BigQuery د عمومي هدف SQL پوښتنو لپاره ډیزاین شوی چې د ډیټا لوی مقدار پروسس کوي. دا د ټیټ ځنډ لپاره نه دی ، د لیږد ډیټابیس لخوا اړین د لوړې کچې پوښتنو لپاره ، یا د پلي شوي ټیټ ځنډ وخت لړۍ تحلیلونو لپاره ندي
موږ له 800 څخه ډیر پوښتنې تحلیل کړې چې هر یو نږدې 1 TB ډیټا پروسس کوي او وموندله چې د اوسط اجرا کولو وخت 30 ثانیې و. موږ دا هم زده کړل چې فعالیت په مختلفو پروژو او دندو کې زموږ د سلاټ کارولو پورې اړه لري. موږ باید د تولید کارولو قضیو او آنلاین تحلیلونو لپاره فعالیت ساتلو لپاره زموږ تولید او اډ هاک سلاټ زیرمې په روښانه ډول تشریح کړو. دې د سلاټ ریزرویشنونو او د پروژې درجه بندي لپاره زموږ ډیزاین خورا اغیزمن کړ.
موږ به د ژباړې په دویمه برخه کې په راتلونکو ورځو کې د ډیټا مدیریت ، فعالیت او سیسټمونو لګښت په اړه وغږیږو ، مګر اوس موږ ټولو ته بلنه ورکوو
نور یی ولوله:
د ډیټا جوړونې وسیله یا هغه څه چې د ډیټا ګودام او سموټي ترمینځ عام دي ډیلټا جهيل کې ډوب کړئ: د سکیما پلي کول او تکامل د اپاچي تیر سره په پایتون کې د تیز رفتار اپاچي پارکیټ
سرچینه: www.habr.com