Mar a rinn Google's BigQuery mion-sgrùdadh dàta. Pàirt 1

Halò, Habr! Tha clàradh airson sruth cùrsa ùr fosgailte an-dràsta aig OTUS Einnseanair dàta. Le dùil ri toiseach a’ chùrsa, tha sinn gu traidiseanta air eadar-theangachadh de stuth inntinneach ullachadh dhut.

Gach latha, bidh còrr air ceud millean neach a’ tadhal air Twitter gus faighinn a-mach dè a tha a’ tachairt air an t-saoghal agus a dheasbad. Bidh a h-uile tweet agus a h-uile gnìomh cleachdaiche eile a’ gineadh tachartas a tha ri fhaighinn airson mion-sgrùdadh dàta a-staigh Twitter. Bidh na ceudan de luchd-obrach a’ sgrùdadh agus a’ faicinn an dàta seo, agus tha leasachadh an eòlais na àrd phrìomhachas airson sgioba Àrd-ùrlar Dàta Twitter.

Tha sinn den bheachd gum bu chòir gum biodh e comasach do luchd-cleachdaidh le raon farsaing de sgilean teignigeach dàta a lorg agus cothrom fhaighinn air innealan sgrùdaidh agus lèirsinn stèidhichte air SQL a tha a’ coileanadh gu math. Leigidh seo le buidheann gu tur ùr de luchd-cleachdaidh nach eil cho teignigeach, a’ toirt a-steach sgrùdairean dàta agus manaidsearan toraidh, seallaidhean a tharraing bho dhàta, a’ toirt cothrom dhaibh comasan Twitter a thuigsinn agus a chleachdadh nas fheàrr. Seo mar a bhios sinn a’ deamocratachadh anailisean dàta air Twitter.

Mar a tha na h-innealan againn agus na comasan anailis dàta a-staigh againn air fàs nas fheàrr, tha sinn air Twitter fhaicinn a’ fàs nas fheàrr. Ach, tha àite ann fhathast airson leasachadh. Feumaidh innealan gnàthach leithid Scading eòlas prògramadh. Tha cùisean coileanaidh aig innealan sgrùdaidh stèidhichte air SQL leithid Presto agus Vertica aig sgèile. Tha an duilgheadas againn cuideachd a bhith a’ sgaoileadh dàta thar iomadh siostam gun ruigsinneachd cunbhalach air.

An-uiridh dh’ ainmich sinn co-obrachadh ùr le Google, taobh a-staigh a tha sinn a 'gluasad pàirtean de ar bun-structair dàta air Àrd-ùrlar Google Cloud (GCP). Tha sinn air co-dhùnadh gu bheil innealan Google Cloud Dàta Mòr ar cuideachadh le ar n-iomairtean gus anailisean, fradharc agus ionnsachadh innealan a dheamocrasaidh air Twitter:

  • Ceist Mhòir: taigh-bathair dàta iomairt le einnsean SQL stèidhichte Dremel, a tha ainmeil airson a luaths, a shìmplidheachd agus a tha a 'dèiligeadh ris ionnsachadh inneal.
  • Stiùidio Dàta: inneal lèirsinn dàta mòr le feartan co-obrachaidh coltach ri Google Docs.

San artaigil seo, ionnsaichidh tu mun eòlas againn leis na h-innealan sin: na rinn sinn, na dh’ ionnsaich sinn, agus na nì sinn an ath rud. Cuiridh sinn fòcas a-nis air baidse agus anailisean eadar-ghnìomhach. Bruidhnidh sinn mu anailisean fìor-ùine san ath artaigil.

Eachdraidh stòran dàta Twitter

Mus tèid thu a-steach do BigQuery, is fhiach cunntas goirid a thoirt air eachdraidh stòradh dàta Twitter. Ann an 2011, chaidh mion-sgrùdadh dàta Twitter a dhèanamh ann an Vertica agus Hadoop. Chleachd sinn Muc gus obraichean MapReduce Hadoop a chruthachadh. Ann an 2012, chuir sinn an àite Pig le Scalding, aig an robh API Scala le buannachdan leithid an comas pìoban iom-fhillte a chruthachadh agus deuchainn furasta. Ach, airson mòran de luchd-anailis dàta agus manaidsearan toraidh a bha na bu chofhurtaile ag obair le SQL, b 'e lùb ionnsachaidh gu math cas a bh' ann. Timcheall air 2016, thòisich sinn a’ cleachdadh Presto mar eadar-aghaidh SQL gu dàta Hadoop. Thairg Spark eadar-aghaidh Python, a tha ga dhèanamh na dheagh roghainn airson saidheans dàta ad hoc agus ionnsachadh innealan.

Bho 2018, tha sinn air na h-innealan a leanas a chleachdadh airson mion-sgrùdadh dàta agus fradharc:

  • Sgaldachadh airson luchd-giùlain riochdachaidh
  • Sgaladh agus Spark airson mion-sgrùdadh dàta ad hoc agus ionnsachadh innealan
  • Vertica agus Presto airson mion-sgrùdadh SQL ad hoc agus eadar-ghnìomhach
  • Druid airson ruigsinneachd ìosal eadar-ghnìomhach, rannsachail agus latency ìosal gu meatrach sreath ùine
  • Tableau, Zeppelin agus Pivot airson sealladh dàta

Fhuair sinn a-mach ged a tha na h-innealan sin a’ tabhann comasan fìor chumhachdach, bha duilgheadas againn na comasan sin a thoirt do luchd-èisteachd nas fharsainge air Twitter. Le bhith a’ leudachadh ar n-àrd-ùrlar le Google Cloud, tha sinn ag amas air na h-innealan anailis againn a dhèanamh nas sìmplidhe airson Twitter gu lèir.

Stòr-dàta BigQuery aig Google

Tha grunn sgiobaidhean aig Twitter mar-thà air BigQuery a thoirt a-steach do chuid de na pìoban riochdachaidh aca. A’ cleachdadh an cuid eòlais, thòisich sinn a’ measadh comasan BigQuery airson a h-uile cùis cleachdaidh Twitter. B’ e ar n-amas BigQuery a thabhann don chompanaidh gu lèir agus a cho-òrdanachadh agus taic a thoirt dha taobh a-staigh inneal an Àrd-ùrlar Dàta. Bha seo duilich airson iomadach adhbhar. Dh’fheumadh sinn bun-structar a leasachadh gus meudan mòra de dhàta a thoirt a-steach gu earbsach, taic a thoirt do riaghladh dàta air feadh na companaidh, dèanamh cinnteach à smachdan ruigsinneachd ceart, agus dèanamh cinnteach à prìobhaideachd teachdaiche. Bha againn cuideachd ri siostaman a chruthachadh airson riarachadh ghoireasan, sgrùdadh, agus cosgaisean air ais gus am b’ urrainn do sgiobaidhean BigQuery a chleachdadh gu h-èifeachdach.

San t-Samhain 2018, chuir sinn a-mach foillseachadh alpha air feadh na companaidh de BigQuery agus Data Studio. Tha sinn air cuid de na duilleagan-clèithe as trice againn a thairgsinn do luchd-obrach Twitter le dàta pearsanta glan. Chaidh BigQuery a chleachdadh le còrr air 250 neach-cleachdaidh bho ghrunn sgiobaidhean a’ toirt a-steach innleadaireachd, ionmhas agus margaidheachd. O chionn ghoirid, bha iad a’ ruith timcheall air 8k iarrtas, a’ giullachd timcheall air 100 PB gach mìos, gun a bhith a’ cunntadh iarrtasan clàraichte. Às deidh dhuinn fios air ais fìor mhath fhaighinn, chuir sinn romhainn gluasad air adhart agus BigQuery a thabhann mar am prìomh ghoireas airson eadar-obrachadh le dàta air Twitter.

Seo diagram àrd-ìre den ailtireachd taigh-bathair dàta Google BigQuery againn.

Mar a rinn Google's BigQuery mion-sgrùdadh dàta. Pàirt 1
Bidh sinn a’ dèanamh lethbhreac de dhàta bho chlàran Hadoop san togalach gu Google Cloud Storage (GCS) a’ cleachdadh an inneal Cloud Replicator a-staigh. Bidh sinn an uairsin a’ cleachdadh Apache Airflow gus pìoban a chruthachadh a bhios a’ cleachdadh “bq_luchdachadh» gus dàta a luchdachadh bho GCS gu BigQuery. Bidh sinn a’ cleachdadh Presto gus dàta Parquet no Thrift-LZO a cheasnachadh ann an GCS. Tha BQ Blaster na inneal Sgalding a-staigh airson a bhith a’ luchdachadh stòran-dàta HDFS Vertica agus Thrift-LZO a-steach do BigQuery.

Anns na h-earrannan a leanas, bidh sinn a’ beachdachadh air ar dòigh-obrach agus ar n-eòlas anns na raointean a tha furasta an cleachdadh, coileanadh, riaghladh dàta, slàinte siostam, agus cosgais.

Furasta a chleachdadh

Fhuair sinn a-mach gu robh e furasta do luchd-cleachdaidh tòiseachadh le BigQuery leis nach robh feum air stàladh bathar-bog agus b’ urrainn do luchd-cleachdaidh faighinn thuige tro eadar-aghaidh lìn intuitive. Ach, dh'fheumadh luchd-cleachdaidh a bhith eòlach air cuid de fheartan agus bhun-bheachdan GCP, a 'gabhail a-steach goireasan leithid pròiseactan, stòran-dàta, agus clàran. Tha sinn air stuthan foghlaim agus clasaichean oideachaidh a leasachadh gus luchd-cleachdaidh a chuideachadh gus tòiseachadh. Le tuigse bhunasach air fhaighinn, bha e furasta do luchd-cleachdaidh seataichean dàta a sheòladh, coimhead air dàta sgeamaichean is bùird, ceistean sìmplidh a ruith, agus toraidhean fhaicinn ann an Data Studio.

B’ e ar n-amas airson dàta a dhol a-steach do BigQuery leigeil le luchdachadh gun fhiosta de stòran-dàta HDFS no GCS le aon bhriogadh. Bheachdaich sinn Sgrìobhaiche-ciùil Cloud (air a stiùireadh le Airflow) ach cha b’ urrainn dhaibh a chleachdadh air sgàth ar modal tèarainteachd Roinneadh Earranta cuibhrichte (barrachd air seo anns an roinn Riaghladh Dàta gu h-ìosal). Rinn sinn deuchainn le bhith a’ cleachdadh Seirbheis Gluasad Dàta Google (DTS) gus eallach obrach BigQuery a chuir air dòigh. Ged a bha DTS luath ri stèidheachadh, cha robh e sùbailte airson pìoban a thogail le eisimeileachd. Airson an sgaoileadh alpha againn, tha sinn air am frèam Apache Airflow againn fhèin a thogail ann an GCE agus tha sinn ga ullachadh airson ruith ann an cinneasachadh agus a bhith comasach air taic a thoirt do bharrachd stòran dàta leithid Vertica.

Gus dàta a thionndadh gu BigQuery, bidh luchd-cleachdaidh a’ cruthachadh pìoban dàta SQL sìmplidh a’ cleachdadh cheistean clàraichte. Airson pìoban ioma-ìre iom-fhillte le eisimeileachd, tha sinn an dùil am frèam Airflow againn fhèin no Cloud Composer a chleachdadh còmhla ri Cloud Dataflow.

Coileanadh

Tha BigQuery air a dhealbhadh airson ceistean SQL adhbhar coitcheann a bhios a’ làimhseachadh mòran dàta. Chan eil e an dùil airson na ceistean latency ìosal, trochur àrd a dh’ fheumas stòr-dàta gnìomhachd, no airson mion-sgrùdadh sreath ùine latency ìosal a chaidh a chuir an gnìomh. Druid Apache. Airson ceistean anailis eadar-ghnìomhach, bidh ar luchd-cleachdaidh a’ dùileachadh amannan freagairt nas lugha na mionaid. Bha againn ri ar cleachdadh de BigQuery a dhealbhadh gus coinneachadh ris na bha dùil againn. Gus coileanadh a tha dùil a thoirt don luchd-cleachdaidh againn, thug sinn air adhart comas-gnìomh BigQuery, a tha ri fhaighinn le luchd-ceannach air bunait cìs rèidh a leigeas le sealbhadairean pròiseict na h-ìrean as ìsle a ghlèidheadh ​​​​airson na ceistean aca. An slot Tha BigQuery na aonad de chumhachd coimpiutaireachd a dh’ fheumar gus ceistean SQL a chuir an gnìomh.

Rinn sinn mion-sgrùdadh air còrr air 800 ceist a’ giollachd timcheall air 1 TB de dhàta gach fear agus lorg sinn gur e 30 diogan an ùine cur gu bàs cuibheasach. Dh’ ionnsaich sinn cuideachd gu bheil coileanadh gu mòr an urra ri cleachdadh ar slot ann an diofar phròiseactan agus ghnìomhan. B’ fheudar dhuinn na stòran-stòrais riochdachaidh agus slot ad hoc againn a mhìneachadh gu soilleir gus coileanadh a chumail suas airson cùisean cleachdadh cinneasachaidh agus mion-sgrùdadh air-loidhne. Thug seo buaidh mhòr air ar dealbhadh airson àiteachan glèidhte sliotan agus rangachd pròiseict.

Bruidhnidh sinn mu riaghladh dàta, gnìomhachd agus cosgais shiostaman anns na làithean a tha romhainn anns an dàrna pàirt den eadar-theangachadh, ach a-nis tha sinn a’ toirt cuireadh don h-uile duine webinar beò an-asgaidh, nuair a bhios tu comasach air ionnsachadh gu mionaideach mun chùrsa, a bharrachd air ceistean fhaighneachd don eòlaiche againn - Egor Mateshuk (Àrd Einnseanair Dàta, MaximaTelecom).

Leugh tuilleadh:

Source: www.habr.com

Cuir beachd ann