Mar a rinn Google's BigQuery mion-sgrùdadh dàta. Pàirt 2

Halò, Habr! Tha clàradh airson sruth cùrsa ùr fosgailte an-dràsta aig OTUS Einnseanair dàta. Le dùil ri toiseach a’ chùrsa, cumaidh sinn oirnn a’ roinn stuthan feumail riut.

Leugh pàirt a h-aon

Mar a rinn Google's BigQuery mion-sgrùdadh dàta. Pàirt 2

Stiùireadh dàta

Tha Riaghladh Dàta Làidir na bhun-stèidh de Twitter Innleadaireachd. Mar a chuireas sinn BigQuery an sàs san àrd-ùrlar againn, bidh sinn a’ cuimseachadh air lorg dàta, smachd air ruigsinneachd, tèarainteachd agus prìobhaideachd.

Gus dàta a lorg agus a stiùireadh, tha sinn air ar Sreath Ruigsinneachd Dàta a leudachadh gu DAL) innealan a sholarachadh an dà chuid airson dàta san togalach agus Google Cloud, a’ toirt seachad aon eadar-aghaidh agus API don luchd-cleachdaidh againn. Mar Google Catalog dàta a’ gluasad a dh’ionnsaigh ruigsinneachd coitcheann, bheir sinn a-steach e nar pròiseactan gus feartan leithid sgrùdadh colbh a thoirt do luchd-cleachdaidh.

Tha BigQuery ga dhèanamh furasta dàta a cho-roinn agus faighinn thuige, ach dh’ fheumadh beagan smachd a bhith againn air seo gus casg a chuir air sgaoileadh dàta. Am measg innealan eile, thagh sinn dà ghnìomh:

  • Roinn cuibhrichte le fearann: Feart beta gus casg a chuir air luchd-cleachdaidh bho bhith a’ roinneadh stòran-dàta BigQuery le luchd-cleachdaidh taobh a-muigh Twitter.
  • Smachdan seirbheis VPC: Smachd a chuireas casg air sgaoileadh dàta agus a dh’ fheumas luchd-cleachdaidh faighinn gu BigQuery bho raointean seòlaidhean IP aithnichte.

Tha sinn air riatanasan dearbhaidh, ùghdarrachaidh agus sgrùdaidh (AAA) a chuir an gnìomh airson tèarainteachd mar a leanas:

  • Dearbhadh: Chleachd sinn cunntasan luchd-cleachdaidh GCP airson iarrtasan ad hoc agus cunntasan seirbheis airson iarrtasan toraidh.
  • Ùghdarrachadh: Dh'fheumadh sinn cunntas seirbheis sealbhadair agus buidheann leughaidh a bhith aig gach stòr-dàta.
  • Sgrùdadh: Chuir sinn a-mach logaichean stackdriver BigQuery, anns an robh fiosrachadh mionaideach mu choileanadh ceiste, gu stòr-dàta BigQuery airson mion-sgrùdadh furasta.

Gus dèanamh cinnteach gun tèid dàta pearsanta luchd-cleachdaidh Twitter a làimhseachadh gu ceart, feumaidh sinn a h-uile clàr dàta BigQuery a chlàradh, dàta pearsanta a chomharrachadh, stòradh ceart a chumail, agus dàta a chaidh a dhubhadh às le luchd-cleachdaidh a dhubhadh às (sgrìobadh).

Thug sinn sùil air Google API casg call dàta Cloud, a bhios a’ cleachdadh ionnsachadh inneal gus dàta mothachail a sheòrsachadh agus a dheasachadh, ach a cho-dhùin airson a bhith ag ainmeachadh an dàta le làimh air sgàth cruinneas. Tha sinn an dùil an API Bacadh Call Dàta a chleachdadh gus an nota àbhaisteach a mheudachadh.

Aig Twitter, tha sinn air ceithir roinnean prìobhaideachd a chruthachadh airson stòran-dàta ann am BigQuery, air an liostadh an seo ann an òrdugh cugallachd a tha a’ teàrnadh:

  • Bidh seataichean dàta fìor mhothachail rim faighinn a rèir mar a dh’ fheumar stèidhichte air prionnsapal an t-sochair as lugha. Tha buidheann de luchd-leughaidh fa leth aig gach seata dàta, agus cumaidh sinn sùil air cleachdadh le cunntasan fa leth.
  • Chan eil fiosrachadh a dh’ aithnichear gu pearsanta (PII) ann an stòran-dàta cugallachd meadhanach (ainmean-brèige aon-shligheach a’ cleachdadh hashing saillte) agus tha iad ruigsinneach do bhuidheann nas motha de luchd-obrach. Is e deagh chothromachadh a tha seo eadar draghan prìobhaideachd agus feumail dàta. Leigidh seo le luchd-obrach gnìomhan mion-sgrùdaidh a dhèanamh, leithid obrachadh a-mach an àireamh de luchd-cleachdaidh a chleachd feart, gun fhios cò na fìor luchd-cleachdaidh.
  • Stòran dàta cugallachd ìosal leis a h-uile fiosrachadh aithneachaidh neach-cleachdaidh. Is e dòigh-obrach math a tha seo bho shealladh prìobhaideachd, ach chan urrainnear a chleachdadh airson mion-sgrùdadh ìre neach-cleachdaidh.
  • Tha stòran-dàta poblach (air an leigeil ma sgaoil taobh a-muigh Twitter) rim faighinn don h-uile neach-obrach Twitter.

A thaobh logadh a-steach, chleachd sinn gnìomhan clàraichte gus dàta BigQuery àireamhachadh agus an clàradh leis an t-sreath ruigsinneachd dàta (DAL), stòr meata-dàta Twitter. Bidh luchd-cleachdaidh a’ comharrachadh stòran-dàta le fiosrachadh prìobhaideachd agus cuideachd a’ sònrachadh ùine gleidhidh. A thaobh glanadh, bidh sinn a’ measadh coileanadh agus cosgais dà roghainn: 1. A’ glanadh stòran-dàta ann an GCS a’ cleachdadh innealan leithid Sgalding agus gan luchdachadh gu BigQuery; 2. A’ cleachdadh aithrisean DML BigQuery. Is dòcha gun cleachd sinn measgachadh den dà dhòigh gus coinneachadh ri riatanasan diofar bhuidhnean agus dàta.

Gnìomh siostam

Leis gur e seirbheis stiùirichte a th’ ann am BigQuery, cha robh feum air sgioba SRE Twitter a bhith an sàs ann an riaghladh shiostaman no dleastanasan deasg. Bha e furasta barrachd comais a thoirt seachad airson stòradh agus coimpiutaireachd. Dh’ fhaodadh sinn an glèidheadh ​​sliotan atharrachadh le bhith a’ cruthachadh tiogaid le taic Google. Chomharraich sinn raointean a ghabhadh leasachadh, leithid riarachadh sliotan fèin-sheirbheis agus leasachaidhean deas-bhòrd airson sgrùdadh, agus chuir sinn na h-iarrtasan sin gu Google.

cosgais

Sheall ar mion-sgrùdadh gun robh cosgaisean ceiste airson BigQuery agus Presto aig an aon ìre. Cheannaich sinn sliotan airson stèidhichte prìs gus cosgais mìosail seasmhach a bhith agad an àite pàigheadh air iarrtas gach TB de dhàta pròiseasaichte. Bha an co-dhùnadh seo cuideachd stèidhichte air fios air ais bho luchd-cleachdaidh nach robh airson smaoineachadh air cosgaisean mus dèan iad gach iarrtas.

Thug stòradh dàta ann am BigQuery cosgaisean a bharrachd air cosgaisean GCS. Feumaidh innealan leithid Scalding dàta dàta ann an GCS, agus gus faighinn gu BigQuery bha againn ri na h-aon stòran-dàta a luchdachadh gu cruth BigQuery Ceangalaichean BBC. Tha sinn ag obair air ceangal Scalding ri stòran-dàta BigQuery a chuireas às don fheum air stòran-dàta a stòradh ann an GCS agus BigQuery.

Airson cùisean tearc a dh’ fheumadh ceistean ainneamh mu dheichean de phetabytes, cho-dhùin sinn nach robh stòradh dàta ann am BigQuery cosg-èifeachdach agus chleachd sinn Presto gus faighinn gu dìreach gu stòran-dàta ann an GCS. Gus seo a dhèanamh, tha sinn a’ coimhead air Stòran Dàta Taobh a-muigh BigQuery.

Na h-ath cheumannan

Tha sinn air tòrr ùidh fhaicinn ann am BigQuery bho chaidh an alpha a leigeil ma sgaoil. Tha sinn a’ cur barrachd stòran-dàta agus barrachd òrdughan ri BigQuery. Bidh sinn a’ leasachadh luchd-ceangail airson innealan anailis dàta leithid Scalding gus leughadh agus sgrìobhadh gu stòradh BigQuery. Tha sinn a’ coimhead air innealan leithid Looker agus Apache Zeppelin airson aithisgean càileachd iomairt agus notaichean a chruthachadh a’ cleachdadh stòran-dàta BigQuery.

Сотрудничество с Google было очень продуктивным, и мы рады продолжить и развивать это партнерство. Мы работали с Google, чтобы внедрить наш собственный Lorgaire Cùisean Com-pàirtichegus ceistean a chuir gu dìreach gu Google. Tha cuid dhiubh, leithid an luchdan Parquet BigQuery, air an cur an gnìomh le Google mu thràth.

Seo cuid de na h-iarrtasan feart àrd-phrìomhachais againn airson Google:

  • Innealan airson fàilteachadh dàta goireasach agus taic airson cruth LZO-Thrift.
  • Roinneadh uair a thìde
  • Leasachaidhean smachd ruigsinneachd leithid ceadan ìre bùird, sreath-, agus colbh.
  • Ceist Mhòir Stòran Dàta Taobh a-muigh le amalachadh Hive Metastore agus taic airson cruth LZO-Thrift.
  • Amalachadh catalog dàta nas fheàrr ann an eadar-aghaidh cleachdaiche BigQuery
  • Fèin-sheirbheis airson riarachadh sliotan agus sgrùdadh.

co-dhùnadh

Tha deamocratachadh anailis dàta, fradharc, agus ionnsachadh innealan ann an dòigh thèarainte na àrd phrìomhachas don sgioba Àrd-ùrlar Dàta. Chomharraich sinn Google BigQuery agus Data Studio mar innealan a dh'fhaodadh cuideachadh leis an amas seo a choileanadh, agus leig sinn a-mach BigQuery Alpha air feadh na companaidh an-uiridh.

Lorg sinn gu robh ceistean ann am BigQuery sìmplidh agus èifeachdach. Chleachd sinn innealan Google gus dàta a thoirt a-steach agus atharrachadh airson pìoban sìmplidh, ach airson pìoban iom-fhillte bha againn ri ar frèam Airflow fhèin a thogail. Anns an raon riaghlaidh dàta, tha seirbheisean BigQuery airson dearbhadh, ùghdarrachadh agus sgrùdadh a’ coinneachadh ri ar feumalachdan. Gus meata-dàta a riaghladh agus prìobhaideachd a chumail, bha feum againn air barrachd sùbailteachd agus bha againn ri na siostaman againn fhèin a thogail. Bha BigQuery, leis gur e seirbheis stiùirichte a bh’ ann, furasta a chleachdadh. Bha cosgaisean ceist coltach ris na h-innealan a th' ann mar-thà. Bidh cosgaisean a bharrachd air cosgaisean GCS an lùib stòradh dàta ann am BigQuery.

Gu h-iomlan, tha BigQuery ag obair gu math airson mion-sgrùdadh coitcheann SQL. Tha sinn a’ faicinn tòrr ùidh ann am BigQuery, agus tha sinn ag obair gus barrachd sheataichean dàta a ghluasad, barrachd sgiobaidhean a thoirt air adhart, agus barrachd phìoban a thogail le BigQuery. Bidh Twitter a 'cleachdadh measgachadh de dhàta a dh' fheumas measgachadh de dh 'innealan leithid Scalding, Spark, Presto, agus Druid. Tha sinn an dùil cumail oirnn a’ neartachadh ar n-innealan anailis dàta agus a’ toirt stiùireadh soilleir don luchd-cleachdaidh againn air mar as fheàrr a chleachdas sinn na tha sinn a’ tabhann.

Faclan taingeil

Bu mhath leam taing a thoirt dha mo cho-ùghdaran agus mo cho-bhuillichean sgioba, Anju Jha agus Will Pascucci, airson an co-obrachadh sgoinneil agus an obair chruaidh air a’ phròiseact seo. Bu mhath leam cuideachd taing a thoirt dha na h-innleadairean agus manaidsearan bho ghrunn sgiobaidhean aig Twitter agus Google a chuidich sinn agus luchd-cleachdaidh BigQuery air Twitter a thug seachad fios air ais luachmhor.

Ma tha ùidh agad ann a bhith ag obair air na duilgheadasan sin, thoir sùil air ar dreuchdan bàna ann an sgioba Àrd-ùrlar Dàta.

Càileachd Dàta ann an DWH - Co-chòrdadh taigh-bathair dàta

Source: www.habr.com

Cuir beachd ann