ProHoster > Блог > Whakahaerenga > He pehea te manapori a Google BigQuery i te tātari raraunga. Wāhanga 1
He pehea te manapori a Google BigQuery i te tātari raraunga. Wāhanga 1
Kia ora, Habr! Kua tuwhera te whakaurunga mo te roma akoranga hou i tenei wa i OTUS Kaihanga Raraunga. I mua i te tiimata o te akoranga, kua whakaritea e matou he whakamaoritanga o nga mea whakamere maau.
Ia ra, neke atu i te kotahi rau miriona nga tangata e toro ana ki a Twitter ki te mohio he aha nga mahi i te ao me te korerorero. Ko ia tweet me etahi atu mahi a nga kaiwhakamahi ka whakaputa i tetahi huihuinga e waatea ana mo te tātari raraunga o roto o Twitter. E hia rau o nga kaimahi te tātari me te tiro i enei raraunga, me te whakapai ake i o raatau wheako he kaupapa matua mo te roopu Raraunga Raraunga Twitter.
E whakapono ana matou ka taea e nga kaiwhakamahi he maha nga pukenga hangarau ki te rapu raraunga me te whai waahi ki nga taputapu tātari me nga taputapu tirohanga-a-SQL e mahi pai ana. Ma tenei ka taea e tetahi roopu hou o nga kaiwhakamahi iti ake te hangarau, tae atu ki nga kaitätari raraunga me nga kaiwhakahaere hua, ki te tango i nga tirohanga mai i nga raraunga, kia pai ake ai te mohio me te whakamahi i nga kaha o Twitter. Koinei te ahua o te manapori i nga tātaritanga raraunga i runga i Twitter.
I te mea kua pai ake a maatau taputapu me nga kaha tātaritanga raraunga o roto, kua kite matou i te pai ake o Twitter. Engari, he waahi tonu hei whakapai ake. Ko nga taputapu o naianei penei i te Scalding e hiahia ana ki te wheako hotaka. Ko nga taputapu tātari-a-SQL penei i a Presto me Vertica he take mahi i te tauine. Kei a matou ano te raru o te tohatoha raraunga puta noa i nga punaha maha me te kore e uru tonu.
I tera tau i panuitia e matou mahi tahi hou me Google, i roto ka whakawhitia e matou etahi waahanga o to maatau hanganga raraunga i runga i te Google Cloud Platform (GCP). Kua whakatauhia e maatau nga taputapu Google Cloud Raraunga Nui Ka taea e matou te awhina i a maatau kaupapa ki te whakamohio i nga tātaritanga, tirohanga, me te ako miihini i runga i Twitter:
BigQuery: whare putunga raraunga hinonga me te miihini SQL Dremel, he mea rongonui mo tona tere, ngawari me te whakatutuki ako miihini.
Studio Raraunga: taputapu tirohanga raraunga nui me nga ahuatanga mahi tahi a Google Docs.
I roto i tenei tuhinga, ka ako koe mo o maatau wheako ki enei taputapu: he aha ta matou i mahi, he aha ta matou i ako, he aha ka mahia e matou i muri mai. Inaianei ka aro tatou ki nga tātaritanga puranga me te tauwhitiwhiti. Ka matapakihia e tatou nga tātaritanga i te waa tuuturu i te tuhinga e whai ake nei.
Te hitori o nga Toa Raraunga Twitter
I mua i te ruku ki BigQuery, he mea tika ki te korero poto i te hitori o te putunga raraunga Twitter. I te tau 2011, i whakahaerehia te tātari raraunga Twitter i Vertica me Hadoop. I whakamahia e matou te Pig ki te hanga mahi MapReduce Hadoop. I te tau 2012, i whakakapihia e matou te Pig ki te Scalding, he Scala API me nga painga penei i te kaha ki te hanga paipa uaua me te ngawari o te whakamatautau. Heoi, mo te maha o nga kaitätari raraunga me nga kaiwhakahaere hua e pai ake ana ki te mahi me te SQL, he tino pikinga ako. I te tau 2016, ka tiimata matou ki te whakamahi i a Presto hei atanga SQL ki nga raraunga Hadoop. I tukuna e Spark he atanga Python, he pai te whiriwhiri mo te puiao raraunga ad hoc me te ako miihini.
Mai i te tau 2018, kua whakamahia e matou nga taputapu e whai ake nei mo te tātari raraunga me te tirohanga:
Te wera mo nga kaikawe whakaputa
Te wera me te korakora mo te tātari raraunga ad hoc me te ako miihini
Ko te Vertica me te Presto mo te tātaritanga SQL ad hoc me te tauwhitiwhiti
Druid mo te iti o te pahekoheko, te torotoro me te iti o te uru ki nga ine raupapa wa
Ripanga, Zeppelin me Pivot mo te tirohanga raraunga
I kitea e matou ahakoa he tino kaha enei taputapu, he uaua ki a matou te tuku i enei kaha ki te hunga whakarongo whanui i runga i Twitter. Ma te whakawhanui i to maatau papaa me Google Cloud, e aro ana matou ki te whakangawari i a maatau taputapu tātari mo te katoa o Twitter.
Te Putunga Raraunga BigQuery a Google
He maha nga roopu i Twitter kua whakauruhia a BigQuery ki etahi o a raatau paipa whakaputa. Ma te whakamahi i o raatau tohungatanga, i timata matou ki te arotake i nga kaha o BigQuery mo nga keehi katoa o te whakamahi Twitter. Ko ta matou whainga ko te tuku BigQuery ki te kamupene katoa me te whakataurite me te tautoko i roto i te huinga taputapu Raraunga Raraunga. He maha nga take i uaua ai tenei. I hiahia matou ki te whakawhanake i tetahi hanganga hei whakauru pono i nga pukapuka nui o nga raraunga, hei tautoko i te whakahaerenga raraunga puta noa i te kamupene, whakarite i nga mana uru tika, me te whakapumau i te noho muna a nga kaihoko. Me hanga ano e matou he punaha mo te tohatoha rauemi, te aro turuki, me nga utu whakahoki kia taea ai e nga roopu te whakamahi tika i a BigQuery.
I te Whiringa-a-rangi 2018, i tukuna e matou he whakaputanga alpha a te kamupene o BigQuery me te Studio Raraunga. Kua tukuna e matou ki nga kaimahi Twitter etahi o a maatau ripanga e whakamahia ana me nga raraunga whaiaro kua horoia. Kua whakamahia a BigQuery e nga kaiwhakamahi neke atu i te 250 mai i nga momo roopu tae atu ki te miihini, te putea me te hokohoko. I nga wa tata nei, kei te whakahaere ratou mo te 8k tono, te tukatuka mo te 100 PB ia marama, kaore i te tatau i nga tono kua whakaritea. Whai muri i te whiwhi urupare tino pai, i whakatau matou ki te anga whakamua me te tuku BigQuery hei rauemi tuatahi mo te taunekeneke me nga raraunga i runga i Twitter.
Anei tetahi hoahoa taumata-tiketike o to maatau hoahoanga whare putunga raraunga Google BigQuery.
Ka kapehia e matou nga raraunga mai i nga tautau Hadoop-whare ki te Google Cloud Storage (GCS) ma te whakamahi i te taputapu Cloud Replicator o roto. Ka whakamahi matou i te Apache Airflow ki te hanga paipa e whakamahi ana "bq_uta»ki te uta raraunga mai i te GCS ki BigQuery. Ka whakamahi matou i a Presto ki te uiui i nga huingararaunga Parquet, Thrift-LZO ranei i GCS. Ko te BQ Blaster he taputapu Scaling o roto mo te uta HDFS Vertica me te Thrift-LZO huingararaunga ki BigQuery.
I roto i nga waahanga e whai ake nei, ka matapakihia to maatau huarahi me o maatau tohungatanga mo nga waahanga ngawari ki te whakamahi, te mahi, te whakahaere raraunga, te hauora o te punaha, me te utu.
He ngawari te whakamahi
I kitea e maatau he ngawari ki nga kaiwhakamahi te tiimata me te BigQuery na te mea kaore i hiahiatia te whakaurunga rorohiko ka taea e nga kaiwhakamahi te uru atu ma te atanga tukutuku mohio. Heoi, me mohio nga kaiwhakamahi ki etahi o nga ahuatanga me nga ariā a GCP, tae atu ki nga rauemi penei i nga kaupapa, nga huingararaunga, me nga ripanga. Kua whakawhanakehia e matou nga rauemi matauranga me nga akoranga hei awhina i nga kaiwhakamahi ki te timata. I runga i te maaramatanga taketake, i kitea e nga kaiwhakamahi he ngawari ki te whakatere i nga huinga raraunga, te tiro i te aronuinga me te raraunga ripanga, te whakahaere patai ngawari, me te tiro i nga hua i roto i te Raraunga Raraunga.
Ko ta matou whainga mo te urunga raraunga ki BigQuery ko te whakaahei i te uta ngawari o nga huingararaunga HDFS, GCS ranei me te paato kotahi. I whakaarohia e matou Kapua Kaitito (e whakahaeretia ana e Airflow) engari kaore i taea te whakamahi na to maatau tauira haumarutanga Tiri Rahui Rohe (he nui ake mo tenei i te waahanga Whakahaere Raraunga kei raro nei). I whakamatau matou ki te whakamahi i te Ratonga Whakawhiti Raraunga a Google (DTS) hei whakarite i nga kawenga mahi BigQuery. Ahakoa i tere te whakatu a DTS, kaore i te ngawari mo te hanga paipa me te whakawhirinaki. Mo ta matou tuku alpha, kua hanga e matou ta matou ake angamahi Apache Airflow i GCE me te whakarite kia rere ki roto i nga mahi whakaputa me te kaha ki te tautoko i etahi atu puna raraunga penei i a Vertica.
Hei huri i nga raraunga ki BigQuery, ka hangaia e nga kaiwhakamahi nga paipa raraunga SQL ngawari ma te whakamahi i nga uiui kua whakaritea. Mo nga raina paipa maha-waahanga uaua me te whakawhirinaki, ka whakamahere matou ki te whakamahi i a maatau ake anga Rererangi, Kaitito Kapua ranei me te Kapua Rererangi.
Te whai hua
I hangaia a BigQuery mo nga paatai SQL kaupapa whanui e tukatuka ana i nga raraunga nui. Ehara i te mea mo te roanga iti, nga patai urunga teitei e hiahiatia ana e te papaaarangi tauwhitinga, mo te waahanga iti ranei te tātari raupapa wa kua whakatinanahia Apache Druid. Mo nga paatai wetewete tauwhitiwhiti, e tumanako ana a maatau kaiwhakamahi kia iti ake i te kotahi meneti te whakautu. Me hoahoa to maatau whakamahi BigQuery ki te whakatutuki i enei tumanako. Hei whakarato i nga mahi matapae mo o maatau kaiwhakamahi, i whakamahia e matou te mahinga BigQuery, e waatea ana ki nga kaihoko i runga i te utu utu e taea ai e nga kaipupuri kaupapa te rahui i nga waahi iti mo a raatau patai. Te kauhau Ko BigQuery he waeine o te mana rorohiko e hiahiatia ana hei whakahaere i nga patai SQL.
Neke atu i te 800 nga paatai i tirotirohia e matou e tukatuka ana i te 1 TB o nga raraunga ia ia, ka kitea e 30 hēkona te waa mahi. I ako ano matou ko te mahi ka tino whakawhirinaki ki te whakamahinga o to maatau mokamoka i roto i nga kaupapa rereke me nga mahi. Me whakamarama maatau i o maatau whakangao me nga rahui mokamoka mokowhiti kia mau tonu te mahi mo nga keehi whakaputa me te tātari ipurangi. I tino whakaawe tenei i to maatau hoahoa mo nga rahui mokamoka me te hierarchy kaupapa.
Ka korero matou mo te whakahaere raraunga, te mahi me te utu o nga punaha i nga ra e haere ake nei i te wahanga tuarua o te whakamaoritanga, engari inaianei ka tono matou ki te katoa kia webinar ora kore utu, i te wa ka taea e koe te ako i nga korero mo te akoranga, me te patai atu ki to maatau tohunga - Egor Mateshuk (Senior Data Engineer, MaximaTelecom).