He pehea te manapori a Google BigQuery i te tātari raraunga. Wāhanga 1

Kia ora, Habr! Kua tuwhera te whakaurunga mo te roma akoranga hou i tenei wa i OTUS Kaihanga Raraunga. I mua i te tiimata o te akoranga, kua whakaritea e matou he whakamaoritanga o nga mea whakamere maau.

Ia ra, neke atu i te kotahi rau miriona nga tangata e toro ana ki a Twitter ki te mohio he aha nga mahi i te ao me te korerorero. Ko ia tweet me etahi atu mahi a nga kaiwhakamahi ka whakaputa i tetahi huihuinga e waatea ana mo te tātari raraunga o roto o Twitter. E hia rau o nga kaimahi te tātari me te tiro i enei raraunga, me te whakapai ake i o raatau wheako he kaupapa matua mo te roopu Raraunga Raraunga Twitter.

E whakapono ana matou ka taea e nga kaiwhakamahi he maha nga pukenga hangarau ki te rapu raraunga me te whai waahi ki nga taputapu tātari me nga taputapu tirohanga-a-SQL e mahi pai ana. Ma tenei ka taea e tetahi roopu hou o nga kaiwhakamahi iti ake te hangarau, tae atu ki nga kaitätari raraunga me nga kaiwhakahaere hua, ki te tango i nga tirohanga mai i nga raraunga, kia pai ake ai te mohio me te whakamahi i nga kaha o Twitter. Koinei te ahua o te manapori i nga tātaritanga raraunga i runga i Twitter.

I te mea kua pai ake a maatau taputapu me nga kaha tātaritanga raraunga o roto, kua kite matou i te pai ake o Twitter. Engari, he waahi tonu hei whakapai ake. Ko nga taputapu o naianei penei i te Scalding e hiahia ana ki te wheako hotaka. Ko nga taputapu tātari-a-SQL penei i a Presto me Vertica he take mahi i te tauine. Kei a matou ano te raru o te tohatoha raraunga puta noa i nga punaha maha me te kore e uru tonu.

I tera tau i panuitia e matou mahi tahi hou me Google, i roto ka whakawhitia e matou etahi waahanga o to maatau hanganga raraunga i runga i te Google Cloud Platform (GCP). Kua whakatauhia e maatau nga taputapu Google Cloud Raraunga Nui Ka taea e matou te awhina i a maatau kaupapa ki te whakamohio i nga tātaritanga, tirohanga, me te ako miihini i runga i Twitter:

  • BigQuery: whare putunga raraunga hinonga me te miihini SQL Dremel, he mea rongonui mo tona tere, ngawari me te whakatutuki ako miihini.
  • Studio Raraunga: taputapu tirohanga raraunga nui me nga ahuatanga mahi tahi a Google Docs.

I roto i tenei tuhinga, ka ako koe mo o maatau wheako ki enei taputapu: he aha ta matou i mahi, he aha ta matou i ako, he aha ka mahia e matou i muri mai. Inaianei ka aro tatou ki nga tātaritanga puranga me te tauwhitiwhiti. Ka matapakihia e tatou nga tātaritanga i te waa tuuturu i te tuhinga e whai ake nei.

Te hitori o nga Toa Raraunga Twitter

I mua i te ruku ki BigQuery, he mea tika ki te korero poto i te hitori o te putunga raraunga Twitter. I te tau 2011, i whakahaerehia te tātari raraunga Twitter i Vertica me Hadoop. I whakamahia e matou te Pig ki te hanga mahi MapReduce Hadoop. I te tau 2012, i whakakapihia e matou te Pig ki te Scalding, he Scala API me nga painga penei i te kaha ki te hanga paipa uaua me te ngawari o te whakamatautau. Heoi, mo te maha o nga kaitätari raraunga me nga kaiwhakahaere hua e pai ake ana ki te mahi me te SQL, he tino pikinga ako. I te tau 2016, ka tiimata matou ki te whakamahi i a Presto hei atanga SQL ki nga raraunga Hadoop. I tukuna e Spark he atanga Python, he pai te whiriwhiri mo te puiao raraunga ad hoc me te ako miihini.

Mai i te tau 2018, kua whakamahia e matou nga taputapu e whai ake nei mo te tātari raraunga me te tirohanga:

  • Te wera mo nga kaikawe whakaputa
  • Te wera me te korakora mo te tātari raraunga ad hoc me te ako miihini
  • Ko te Vertica me te Presto mo te tātaritanga SQL ad hoc me te tauwhitiwhiti
  • Druid mo te iti o te pahekoheko, te torotoro me te iti o te uru ki nga ine raupapa wa
  • Ripanga, Zeppelin me Pivot mo te tirohanga raraunga

I kitea e matou ahakoa he tino kaha enei taputapu, he uaua ki a matou te tuku i enei kaha ki te hunga whakarongo whanui i runga i Twitter. Ma te whakawhanui i to maatau papaa me Google Cloud, e aro ana matou ki te whakangawari i a maatau taputapu tātari mo te katoa o Twitter.

Te Putunga Raraunga BigQuery a Google

He maha nga roopu i Twitter kua whakauruhia a BigQuery ki etahi o a raatau paipa whakaputa. Ma te whakamahi i o raatau tohungatanga, i timata matou ki te arotake i nga kaha o BigQuery mo nga keehi katoa o te whakamahi Twitter. Ko ta matou whainga ko te tuku BigQuery ki te kamupene katoa me te whakataurite me te tautoko i roto i te huinga taputapu Raraunga Raraunga. He maha nga take i uaua ai tenei. I hiahia matou ki te whakawhanake i tetahi hanganga hei whakauru pono i nga pukapuka nui o nga raraunga, hei tautoko i te whakahaerenga raraunga puta noa i te kamupene, whakarite i nga mana uru tika, me te whakapumau i te noho muna a nga kaihoko. Me hanga ano e matou he punaha mo te tohatoha rauemi, te aro turuki, me nga utu whakahoki kia taea ai e nga roopu te whakamahi tika i a BigQuery.

I te Whiringa-a-rangi 2018, i tukuna e matou he whakaputanga alpha a te kamupene o BigQuery me te Studio Raraunga. Kua tukuna e matou ki nga kaimahi Twitter etahi o a maatau ripanga e whakamahia ana me nga raraunga whaiaro kua horoia. Kua whakamahia a BigQuery e nga kaiwhakamahi neke atu i te 250 mai i nga momo roopu tae atu ki te miihini, te putea me te hokohoko. I nga wa tata nei, kei te whakahaere ratou mo te 8k tono, te tukatuka mo te 100 PB ia marama, kaore i te tatau i nga tono kua whakaritea. Whai muri i te whiwhi urupare tino pai, i whakatau matou ki te anga whakamua me te tuku BigQuery hei rauemi tuatahi mo te taunekeneke me nga raraunga i runga i Twitter.

Anei tetahi hoahoa taumata-tiketike o to maatau hoahoanga whare putunga raraunga Google BigQuery.

He pehea te manapori a Google BigQuery i te tātari raraunga. Wāhanga 1
Ka kapehia e matou nga raraunga mai i nga tautau Hadoop-whare ki te Google Cloud Storage (GCS) ma te whakamahi i te taputapu Cloud Replicator o roto. Ka whakamahi matou i te Apache Airflow ki te hanga paipa e whakamahi ana "bq_uta»ki te uta raraunga mai i te GCS ki BigQuery. Ka whakamahi matou i a Presto ki te uiui i nga huingararaunga Parquet, Thrift-LZO ranei i GCS. Ko te BQ Blaster he taputapu Scaling o roto mo te uta HDFS Vertica me te Thrift-LZO huingararaunga ki BigQuery.

I roto i nga waahanga e whai ake nei, ka matapakihia to maatau huarahi me o maatau tohungatanga mo nga waahanga ngawari ki te whakamahi, te mahi, te whakahaere raraunga, te hauora o te punaha, me te utu.

He ngawari te whakamahi

I kitea e maatau he ngawari ki nga kaiwhakamahi te tiimata me te BigQuery na te mea kaore i hiahiatia te whakaurunga rorohiko ka taea e nga kaiwhakamahi te uru atu ma te atanga tukutuku mohio. Heoi, me mohio nga kaiwhakamahi ki etahi o nga ahuatanga me nga ariā a GCP, tae atu ki nga rauemi penei i nga kaupapa, nga huingararaunga, me nga ripanga. Kua whakawhanakehia e matou nga rauemi matauranga me nga akoranga hei awhina i nga kaiwhakamahi ki te timata. I runga i te maaramatanga taketake, i kitea e nga kaiwhakamahi he ngawari ki te whakatere i nga huinga raraunga, te tiro i te aronuinga me te raraunga ripanga, te whakahaere patai ngawari, me te tiro i nga hua i roto i te Raraunga Raraunga.

Ko ta matou whainga mo te urunga raraunga ki BigQuery ko te whakaahei i te uta ngawari o nga huingararaunga HDFS, GCS ranei me te paato kotahi. I whakaarohia e matou Kapua Kaitito (e whakahaeretia ana e Airflow) engari kaore i taea te whakamahi na to maatau tauira haumarutanga Tiri Rahui Rohe (he nui ake mo tenei i te waahanga Whakahaere Raraunga kei raro nei). I whakamatau matou ki te whakamahi i te Ratonga Whakawhiti Raraunga a Google (DTS) hei whakarite i nga kawenga mahi BigQuery. Ahakoa i tere te whakatu a DTS, kaore i te ngawari mo te hanga paipa me te whakawhirinaki. Mo ta matou tuku alpha, kua hanga e matou ta matou ake angamahi Apache Airflow i GCE me te whakarite kia rere ki roto i nga mahi whakaputa me te kaha ki te tautoko i etahi atu puna raraunga penei i a Vertica.

Hei huri i nga raraunga ki BigQuery, ka hangaia e nga kaiwhakamahi nga paipa raraunga SQL ngawari ma te whakamahi i nga uiui kua whakaritea. Mo nga raina paipa maha-waahanga uaua me te whakawhirinaki, ka whakamahere matou ki te whakamahi i a maatau ake anga Rererangi, Kaitito Kapua ranei me te Kapua Rererangi.

Te whai hua

I hangaia a BigQuery mo nga paatai ​​SQL kaupapa whanui e tukatuka ana i nga raraunga nui. Ehara i te mea mo te roanga iti, nga patai urunga teitei e hiahiatia ana e te papaaarangi tauwhitinga, mo te waahanga iti ranei te tātari raupapa wa kua whakatinanahia Apache Druid. Mo nga paatai ​​wetewete tauwhitiwhiti, e tumanako ana a maatau kaiwhakamahi kia iti ake i te kotahi meneti te whakautu. Me hoahoa to maatau whakamahi BigQuery ki te whakatutuki i enei tumanako. Hei whakarato i nga mahi matapae mo o maatau kaiwhakamahi, i whakamahia e matou te mahinga BigQuery, e waatea ana ki nga kaihoko i runga i te utu utu e taea ai e nga kaipupuri kaupapa te rahui i nga waahi iti mo a raatau patai. Te kauhau Ko BigQuery he waeine o te mana rorohiko e hiahiatia ana hei whakahaere i nga patai SQL.

Neke atu i te 800 nga paatai ​​​​i tirotirohia e matou e tukatuka ana i te 1 TB o nga raraunga ia ia, ka kitea e 30 hēkona te waa mahi. I ako ano matou ko te mahi ka tino whakawhirinaki ki te whakamahinga o to maatau mokamoka i roto i nga kaupapa rereke me nga mahi. Me whakamarama maatau i o maatau whakangao me nga rahui mokamoka mokowhiti kia mau tonu te mahi mo nga keehi whakaputa me te tātari ipurangi. I tino whakaawe tenei i to maatau hoahoa mo nga rahui mokamoka me te hierarchy kaupapa.

Ka korero matou mo te whakahaere raraunga, te mahi me te utu o nga punaha i nga ra e haere ake nei i te wahanga tuarua o te whakamaoritanga, engari inaianei ka tono matou ki te katoa kia webinar ora kore utu, i te wa ka taea e koe te ako i nga korero mo te akoranga, me te patai atu ki to maatau tohunga - Egor Mateshuk (Senior Data Engineer, MaximaTelecom).

Pānuitia atu:

Source: will.com

Tāpiri i te kōrero