Mar a dhaonlathaigh BigQuery anailís sonraí. Cuid 1

Hey Habr! Tá clárú le haghaidh sruth cúrsa nua oscailte ag OTUS faoi láthair Innealtóir Sonraí. Agus muid ag súil le tús an chúrsa, tá aistriúchán ar ábhar suimiúil ullmhaithe againn duit go traidisiúnta.

Gach lá, tugann breis agus céad milliún duine cuairt ar Twitter le fáil amach cad atá ar siúl ar fud an domhain agus é a phlé. Gineann gach tweet agus aon ghníomh úsáideora eile imeacht atá ar fáil le haghaidh anailíse sonraí inmheánacha laistigh de Twitter. Déanann na céadta fostaithe na sonraí seo a anailísiú agus a léirshamhlú, agus tá feabhas a chur ar a dtaithí mar thosaíocht d’fhoireann Ardán Sonraí Twitter.

Creidimid gur cheart go mbeadh úsáideoirí a bhfuil raon leathan scileanna teicniúla acu in ann sonraí a aimsiú agus rochtain a bheith acu ar uirlisí anailíse agus léirshamhlaithe atá bunaithe ar SQL a fheidhmíonn go maith. Ligfeadh sé seo do ghrúpa iomlán nua úsáideoirí nach bhfuil chomh teicniúil céanna, lena n-áirítear anailísithe sonraí agus bainisteoirí táirgí, léargais a bhaint as na sonraí, rud a ligeann dóibh cumhacht Twitter a thuiscint agus a úsáid níos fearr. Seo mar a dhéanaimid daonlathú ar anailís sonraí ar Twitter.

De réir mar a tháinig feabhas ar ár n-uirlisí agus ár gcumas le haghaidh anailíse sonraí inmheánacha, tá feabhas tagtha ar an tseirbhís Twitter. Mar sin féin, tá spás le feabhsú fós. Teastaíonn taithí ríomhchláraithe ó uirlisí reatha ar nós scálú. Tá fadhbanna feidhmíochta ar mhórscála ag uirlisí anailíse SQL-bhunaithe ar nós Presto agus Vertica. Tá fadhb againn freisin maidir le sonraí a dháileadh ar chórais iolracha gan rochtain leanúnach a bheith againn orthu.

An bhliain seo caite d'fhógair muid comhoibriú nua le Google, laistigh de a aistrímid codanna dár bonneagar sonraí ar Google Cloud Platform (GCP). Chinneamar go bhfuil uirlisí Google Cloud Sonraí Big cabhrú linn inár dtionscnaimh chun anailís, léirshamhlú agus meaisínfhoghlaim a dhaonlathú ar Twitter:

  • Ceist Mhór: stóras sonraí fiontair le hinneall SQL bunaithe Dremel, a bhfuil cáil air as a luas, a simplíocht agus a dhéileálann le foghlaim meaisín.
  • stiúideo sonraí: uirlis mhór léirshamhlaithe sonraí le gnéithe comhoibrithe amhail Google Docs.

San Airteagal seo, foghlaimeoidh tú faoinár dtaithí leis na huirlisí seo: cad atá déanta againn, cad atá foghlamtha againn agus cad a dhéanfaimid ina dhiaidh sin. Díreoimid anois ar anailísíocht bhaisc agus idirghníomhach. Déanfar anailís ar fhíor-ama a phlé sa chéad alt eile.

Stair na Stórais Sonraí ar Twitter

Sula tumfaidh tú isteach i BigQuery, is fiú stair stórais sonraí a athinsint go hachomair ar Twitter. In 2011, rinneadh anailís ar shonraí Twitter in Vertica agus Hadoop. Chun jabanna MapReduce Hadoop a chruthú, d'úsáideamar Muc. In 2012, chuireamar in ionad Muc le Scalding, a raibh API Scala aige le buntáistí mar an cumas píblínte casta a chruthú agus éascaíocht tástála. Mar sin féin, i gcás go leor anailísithe sonraí agus bainisteoirí táirgí a bhí níos compordaí ag obair le SQL, ba chuar foghlama géar é. Timpeall 2016, thosaigh muid ag úsáid Presto mar ár gceann tosaigh SQL le haghaidh sonraí Hadoop. Thairg Spark comhéadan Python a fhágann gur rogha mhaith é maidir le heolaíocht sonraí ad hoc agus foghlaim meaisín.

Ó 2018, tá na huirlisí seo a leanas in úsáid againn le haghaidh anailíse agus léirshamhlú sonraí:

  • Scálú le haghaidh línte táirgeachta
  • Scalding agus Spark le haghaidh anailísí sonraí ad hoc agus foghlaim meaisín
  • Vertica agus Presto le haghaidh anailís SQL ad hoc agus idirghníomhach
  • Druid le haghaidh rochtana íseal idirghníomhach, taiscéalaíoch agus latency íseal ar mhéadracht sraith ama
  • Tableau, Zeppelin agus Pivot le haghaidh Amharcléiriú Sonraí

Tá sé faighte amach againn, cé go dtugann na huirlisí seo gnéithe an-chumhachtacha, go raibh deacracht againn na gnéithe seo a chur ar fáil do lucht féachana níos leithne ar Twitter. Trí ár n-ardán a leathnú le Google Cloud, táimid ag díriú ar ár n-uirlisí anailíse a shimpliú do Twitter ar fad.

Stóras Sonraí BigQuery Google

Chuir roinnt foirne ag Twitter BigQuery san áireamh cheana féin i gcuid dá bpíblínte táirgeachta. Ag baint úsáide as a dtaithí, thosaigh muid ag measúnú féidearthachtaí BigQuery do gach cás úsáide Twitter. Ba é an sprioc a bhí againn ná BigQuery a thairiscint don chuideachta iomlán, agus é a chaighdeánú agus a thacú laistigh den fhoireann uirlisí Ardán Sonraí. Bhí sé seo deacair ar go leor cúiseanna. B’éigean dúinn bonneagar a fhorbairt chun méideanna móra sonraí a fháil go hiontaofa, tacú le bainistíocht sonraí ar fud na cuideachta, rialuithe rochtana cuí a chinntiú, agus príobháideacht an chustaiméara a chinntiú. Bhí orainn freisin córais a chruthú do leithdháileadh acmhainní, monatóireacht, agus aismhuirearú ionas go bhféadfadh foirne BigQuery a úsáid go héifeachtach.

I mí na Samhna 2018, chuireamar scaoileadh alfa de BigQuery agus Data Studio don chuideachta ar fad. Tá cuid de na scarbhileoga glanta sonraí pearsanta is mó a úsáidtear againn ar fáil d’fhoireann Twitter. D'úsáid breis agus 250 úsáideoir ó fhoirne éagsúla lena n-áirítear innealtóireacht, airgeadas agus margaíocht BigQuery. Le déanaí, bhí thart ar 8 iarratas á rith acu, ag próiseáil thart ar 100 PB in aghaidh na míosa, gan iarratais sceidealaithe a chomhaireamh. Tar éis aiseolas an-dearfach a fháil, bheartaíomar dul ar aghaidh agus BigQuery a thairiscint mar phríomhacmhainn chun idirghníomhú le sonraí ar Twitter.

Seo léaráid d’ailtireacht ardleibhéil ár stóras sonraí Google BigQuery.

Mar a dhaonlathaigh BigQuery anailís sonraí. Cuid 1
Déanaimid sonraí a chóipeáil ó bhraislí áitiúla Hadoop chuig Google Cloud Storage (GCS) ag baint úsáide as an uirlis inmheánach Cloud Replicator. Bainimid úsáid ansin as Apache Airflow chun píblínte a chruthú a úsáideann "bq_ualach» sonraí ó GCS a lódáil isteach i BigQuery. Bainimid úsáid as Presto chun tacair shonraí Parquet nó Thrift-LZO a cheistiú i GCS. Is uirlis scalladh inmheánach é BQ Blaster chun tacair shonraí HDFS Vertica agus Thrift-LZO a luchtú isteach i BigQuery.

Sna hailt seo a leanas, pléifimid ár gcur chuige agus ár saineolas maidir le héascaíocht úsáide, feidhmíocht, bainistíocht sonraí, sláinte an chórais, agus costas.

Éasca le húsáid

Fuaireamar amach go raibh sé éasca d’úsáideoirí tosú le BigQuery mar ní raibh gá le suiteáil bogearraí agus d’fhéadfadh úsáideoirí rochtain a fháil air trí chomhéadan iomasach gréasáin. Mar sin féin, bhí ar úsáideoirí dul i dtaithí ar chuid de ghnéithe agus de choincheapa an GCP, lena n-áirítear acmhainní amhail tionscadail, tacair shonraí, agus táblaí. Tá ranganna teagaisc agus ranganna teagaisc forbartha againn chun cabhrú le húsáideoirí tosú. Agus tuiscint bhunúsach faighte, is furasta d’úsáideoirí tacair shonraí a nascleanúint, sonraí scéimre agus táblaí a fheiceáil, fiosrúcháin shimplí a rith, agus torthaí a shamhlú i Data Studio.

Ba é an sprioc a bhí againn maidir le hiontráil sonraí in BigQuery ná luchtú gan uaim de thacair sonraí HDFS nó GCS le cliceáil amháin. Mheasamar Cumadóir Scamall (arna bhainistiú ag Airflow) ach ní raibh siad in ann é a úsáid mar gheall ar ár múnla slándála "Roinnt Srianta Fearainn" (tuilleadh air seo sa rannán Bainistíochta Sonraí thíos). Rinneamar turgnamh le Google Data Transfer Service (DTS) a úsáid chun tascanna lódála BigQuery a eagrú. Cé go raibh DTS tapa le bunú, ní raibh sé solúbtha chun píblínte a thógáil le spleáchais. Chun ár scaoileadh alfa, tá ár dtimpeallacht Apache Airflow féin cruthaithe againn i GCE agus táimid ag ullmhú é le haghaidh táirgeadh agus an cumas chun tacú le níos mó foinsí sonraí ar nós Vertica.

Chun sonraí a athrú go BigQuery, cruthaíonn úsáideoirí píblínte sonraí SQL simplí ag baint úsáide as fiosrúcháin sceidealta. I gcás píblínte casta ilchéime le spleáchais, tá sé beartaithe againn ár gcreat Aershreafa féin nó Cloud Composer a úsáid mar aon le sreabhadh sonraí scamall.

Táirgiúlacht

Tá BigQuery deartha le haghaidh ceisteanna ginearálta SQL a phróiseálann méideanna móra sonraí. Níl sé i gceist do na fiosrúcháin íseal-fhola, tréchur ard a theastaíonn ó bhunachar sonraí idirbheartaíochta, ná don anailís ar shraith ama latency íseal arna chur i bhfeidhm ag Apache Draoi. I gcás fiosrúcháin idirghníomhacha anailíse, bíonn ár n-úsáideoirí ag súil le ham freagartha níos lú ná nóiméad amháin. Bhí orainn úsáid BigQuery a dhearadh chun na hionchais seo a chomhlíonadh. D'fhonn feidhmíocht intuartha a sholáthar dár n-úsáideoirí, bhaineamar úsáid as feidhmiúlacht BigQuery, atá ar fáil do chustaiméirí ar bhonn táille sheasta, a ligeann d'úinéirí tionscadail íosmhéideanna a chur in áirithe dá n-iarratais. An sliotán Is aonad cumhachta ríomhaireachta é BigQuery a theastaíonn chun fiosrúcháin SQL a rith.

Rinneamar anailís ar níos mó ná 800 fiosrúchán a phróiseáil thart ar 1 TB de shonraí an ceann agus fuarthas amach gurbh é an meán-am forghníomhaithe ná 30 soicind. D’fhoghlaimíomar freisin go bhfuil feidhmíocht ag brath go mór ar úsáid ár sliotán i dtionscadail agus i dtascanna éagsúla. Bhí orainn ár gcúlchistí táirgthe agus sliotán ad hoc a dheighilt go soiléir chun feidhmíocht a choinneáil i gcásanna úsáide táirgeachta agus anailís idirghníomhach. Bhí tionchar mór aige seo ar ár ndearadh le haghaidh áirithintí sliotán agus ordlathas tionscadal.

Labhróimid faoi bhainistíocht sonraí, feidhmiúlacht agus costas na gcóras sna laethanta amach romhainn sa dara cuid den aistriúchán, agus anois tugaimid cuireadh do gach duine webinar beo saor in aisce,, áit ar féidir leat níos mó a fhoghlaim faoin gcúrsa, chomh maith le ceisteanna a chur ar ár saineolaí - Egor Mateshuk (Innealtóir Sonraí Sinsearach, MaximaTelecom).

Leigh Nios mo:

Foinse: will.com

Add a comment