Ҳар рӯз беш аз сад миллион нафар ба Твиттер ворид мешаванд, то бифаҳманд, ки дар ҷаҳон чӣ ҳодиса рӯй медиҳад ва онро муҳокима кунанд. Ҳар як твит ва ҳар амали дигари корбар ҳодисаеро тавлид мекунад, ки барои таҳлили маълумоти дохилии Twitter дастрас аст. Садҳо кормандон ин маълумотро таҳлил ва визуалӣ мекунанд ва такмил додани таҷрибаи онҳо авлавияти аввалиндараҷаи дастаи Twitter Data Platform аст.
Мо боварӣ дорем, ки корбароне, ки дорои доираи васеи малакаҳои техникӣ мебошанд, бояд маълумотро кашф кунанд ва ба абзорҳои хуби таҳлил ва визуализатсия дар асоси SQL дастрасӣ дошта бошанд. Ин ба як гурӯҳи нави корбарони камтар техникӣ, аз ҷумла таҳлилгарони маълумот ва менеҷерони маҳсулот имкон медиҳад, ки аз маълумот фаҳмиш гиранд ва ба онҳо имкон медиҳад, ки қобилиятҳои Twitter-ро беҳтар дарк кунанд ва истифода баранд. Ҳамин тавр мо таҳлили маълумотро дар Twitter демократӣ мекунем.
Вақте ки абзорҳо ва қобилиятҳои таҳлили дохилии мо беҳтар шуданд, мо мушоҳида кардем, ки Twitter беҳтар шудааст. Бо вуҷуди ин, барои беҳтар кардани он ҳанӯз ҳам ҷойҳо мавҷуданд. Воситаҳои ҷорӣ ба монанди Scalding таҷрибаи барномасозиро талаб мекунанд. Воситаҳои таҳлили SQL ба монанди Presto ва Vertica дар миқёс мушкилоти иҷроиш доранд. Мо инчунин мушкилоти паҳн кардани маълумотро дар байни системаҳои сершумор бидуни дастрасии доимӣ ба он дорем.
Моҳи ноябри соли 2018 мо як версияи алфа-и BigQuery ва Data Studio-ро баровардем. Мо ба кормандони Twitter баъзе аз ҷадвалҳои зуд-зуд истифодашавандаи худро бо маълумоти тозашудаи шахсӣ пешниҳод кардем. BigQuery аз ҷониби зиёда аз 250 корбар аз дастаҳои гуногун, аз ҷумла муҳандисӣ, молия ва маркетинг истифода шудааст. Ба наздикӣ, онҳо тақрибан 8k дархостро иҷро мекарданд, тақрибан 100 PB дар як моҳ коркард мекарданд, дархостҳои ба нақша гирифташударо ҳисоб накардаанд. Пас аз гирифтани фикру мулоҳизаҳои хеле мусбӣ, мо тасмим гирифтем, ки пеш равем ва BigQuery-ро ҳамчун манбаи асосӣ барои ҳамкорӣ бо маълумот дар Twitter пешниҳод кунем.
Ин аст диаграммаи сатҳи баланди меъмории анбори додаҳои Google BigQuery.
Мо маълумотро аз кластерҳои дохилии Hadoop ба Google Cloud Storage (GCS) бо истифода аз абзори дохилии Cloud Replicator нусхабардорӣ мекунем. Сипас мо Apache Airflow-ро барои сохтани қубурҳое истифода мебарем, ки "bq_load» барои бор кардани маълумот аз GCS ба BigQuery. Мо Presto-ро барои пурсиши маҷмӯи додаҳои Parket ё Thrift-LZO дар GCS истифода мебарем. BQ Blaster як воситаи дохилии Scalding барои бор кардани маҷмӯи додаҳои HDFS Vertica ва Thrift-LZO ба BigQuery мебошад.
Дар бахшҳои зерин мо равиш ва таҷрибаи худро дар соҳаҳои осонии истифода, иҷроиш, идоракунии маълумот, саломатии система ва арзиш баррасӣ мекунем.
Осонии истифода
Мо дарёфтем, ки барои корбарон оғоз кардани BigQuery осон буд, зеро он насби нармафзорро талаб намекунад ва корбарон метавонанд ба он тавассути интерфейси интуитивӣ дастрасӣ пайдо кунанд. Бо вуҷуди ин, корбарон бояд бо баъзе хусусиятҳо ва консепсияҳои GCP, аз ҷумла захираҳо ба монанди лоиҳаҳо, маҷмӯи додаҳо ва ҷадвалҳо шинос шаванд. Мо маводҳои таълимӣ ва дастурҳои дарсӣ таҳия кардем, то ба корбарон дар оғози кор кумак кунанд. Бо фаҳмиши асосӣ, корбарон паймоиши маҷмӯи додаҳо, дидани схема ва ҷадвал, иҷро кардани дархостҳои оддӣ ва визуалии натиҷаҳоро дар Data Studio осон пайдо карданд.
Ҳадафи мо барои ворид кардани маълумот ба BigQuery имкон додани боркунии бефосилаи маҷмӯи додаҳои HDFS ё GCS бо як клик буд. ба назар гирифтем Оҳангсози абрӣ (аз ҷониби Airflow идора карда мешавад), аммо бо сабаби модели амниятии мо Домени маҳдудшудаи мубодила онро истифода бурда натавонистанд (бештар дар ин бора дар бахши идоракунии маълумот дар зер). Мо бо истифода аз хидмати интиқоли маълумотҳои Google (DTS) барои ташкили сарбории кории BigQuery озмоиш кардем. Дар ҳоле ки DTS зуд ба кор андохта шуд, он барои сохтани қубурҳои вобастагӣ чандир набуд. Барои нашри алфа мо, мо чаҳорчӯбаи Apache Airflow-и худро дар GCE сохтаем ва онро омода карда истодаем, то дар истеҳсолот кор кунад ва тавонистани манбаъҳои бештари маълумотро ба мисли Vertica дастгирӣ кунад.