Kamoo Google's BigQuery e entseng tlhahlobo ea data ka demokrasi. Karolo ea 1

Lumela, Habr! Ho ingolisa bakeng sa mokhoa o mocha oa thuto ho bulehile hona joale OTUS Moenjiniere oa Boitsebiso. Ka tebello ea ho qala thupelo, ka tloaelo re u lokiselitse phetolelo ea boitsebiso bo thahasellisang.

Letsatsi le letsatsi, batho ba fetang limilione tse lekholo ba etela Twitter ho tseba se etsahalang lefatšeng le ho buisana ka sona. Tweet e 'ngoe le e' ngoe le ketso e 'ngoe le e' ngoe ea mosebelisi e hlahisa ketsahalo e fumanehang bakeng sa tlhahlobo ea data ea kahare ea Twitter. Basebetsi ba makholo ba hlahloba le ho bona lintlha tsena ka mahlo a kelello, 'me ho ntlafatsa phihlelo ea bona ke ntho e tlang pele ho sehlopha sa Twitter Data Platform.

Re lumela hore basebelisi ba nang le mefuta e mengata ea litsebo tsa tekheniki ba lokela ho tseba ho sibolla lintlha le ho fihlella lisebelisoa tse sebetsang hantle tsa tlhahlobo le pono ea SQL. Sena se ka lumella sehlopha se secha sa basebelisi ba sa sebetseng hantle, ho kenyeletsoa bahlahlobi ba data le batsamaisi ba lihlahisoa, ho fumana lintlha ho tsoa ho data, ho ba lumella ho utloisisa le ho sebelisa bokhoni ba Twitter. Ena ke tsela eo re etsang demokrasi ka analytics ea data ho Twitter.

Ha lisebelisoa tsa rona le bokhoni ba tlhahlobo ea data ea kahare bo ntlafetse, re bone Twitter e ntlafala. Leha ho le joalo, ho ntse ho e-na le sebaka sa ho ntlafatsa. Lisebelisoa tsa hajoale joalo ka Scalding li hloka boiphihlelo ba mananeo. Lisebelisoa tsa tlhahlobo tse thehiloeng ho SQL tse kang Presto le Vertica li na le mathata a ts'ebetso ka bongata. Re boetse re na le bothata ba ho aba data ho litsamaiso tse ngata ntle le phihlello ea kamehla ho eona.

Selemong se fetileng re phatlalalitse tšebelisano e ncha le Google, eo ka hare ho eona re fetisetsa likarolo tsa rona lisebelisoa tsa data ho Google Cloud Platform (GCP). Re fihletse qeto ea hore lisebelisoa tsa Google Cloud Dintlha tse kholo e ka re thusa ka matsapa a rona a ho etsa analytics, pono, le ho ithuta ka mochini ho Twitter:

  • kgolohadi: polokelo ea data ea khoebo e nang le enjine ea SQL e thehiloeng dremel, e tummeng ka lebelo la eona, bonolo le ho sebetsana le eona ho ithuta ka mochini.
  • Studio Studio: sesebelisoa se seholo sa pono ea data se nang le likarolo tsa tšebelisano tsa Google Docs.

Sehloohong sena, u tla ithuta ka phihlelo ea rōna ka lithulusi tsena: seo re se entseng, seo re ithutileng sona le seo re tla se etsa ka mor’a moo. Hona joale re tla tsepamisa maikutlo ho batch le analytics e sebetsang. Re tla tšohla li-analytics tsa nako ea sebele sehloohong se latelang.

Nalane ea Twitter Data Stores

Pele u kenella ho BigQuery, ho bohlokoa hore u phete ka bokhutšoane nalane ea polokelo ea data ea Twitter. Ka 2011, tlhahlobo ea data ea Twitter e ile ea etsoa Vertica le Hadoop. Re sebelisitse Pig ho theha MapReduce Hadoop jobs. Ka 2012, re ile ra nkela Pig sebaka ka Scalding, e neng e e-na le Scala API e nang le melemo e kang bokhoni ba ho etsa liphaephe tse rarahaneng le ho lekoa habonolo. Leha ho le joalo, ho bahlahlobisisi ba bangata ba lintlha le batsamaisi ba lihlahisoa ba neng ba phutholohile ho sebetsa le SQL, e ne e le moepa o moholo oa ho ithuta. Hoo e ka bang 2016, re ile ra qala ho sebelisa Presto e le sebopeho sa SQL ho data ea Hadoop. Spark e fane ka sebopeho sa Python, se e etsang khetho e ntle bakeng sa saense ea data ea ad hoc le ho ithuta ka mochini.

Ho tloha ka 2018, re sebelisitse lisebelisoa tse latelang bakeng sa tlhahlobo ea data le pono:

  • Ho chesa bakeng sa lipalangoang tsa tlhahiso
  • Scalding le Spark bakeng sa tlhahlobo ea data ea ad hoc le ho ithuta ka mochini
  • Vertica le Presto bakeng sa tlhahlobo ea ad hoc le e sebetsanang ea SQL
  • Druid bakeng sa phihlello e tlase ea tšebelisano, ea tlhahlobo le ea latency e tlase ho metrics ea letoto la nako
  • Tableau, Zeppelin le Pivot bakeng sa pono ea data

Re fumane hore leha lisebelisoa tsena li fana ka bokhoni bo matla haholo, re bile le bothata ba ho etsa hore bokhoni bona bo fumanehe ho bamameli ba bangata ho Twitter. Ka ho holisa sethala sa rona ka Google Cloud, re shebane le ho nolofatsa lisebelisoa tsa rona tsa tlhahlobo bakeng sa Twitter kaofela.

Google's BigQuery Data Warehouse

Lihlopha tse 'maloa ho Twitter li se li kenyelelitse BigQuery ho tse ling tsa lipeipi tsa tsona tsa tlhahiso. Re sebelisa boiphihlelo ba bona, re ile ra qala ho lekola bokhoni ba BigQuery bakeng sa linyeoe tsohle tsa ts'ebeliso ea Twitter. Sepheo sa rona e ne e le ho fana ka BigQuery ho k'hamphani eohle le ho e tiisa le ho e tšehetsa ka har'a sesebelisoa sa Platform ea Data. Sena se ne se le thata ka mabaka a mangata. Re ne re hloka ho theha meralo ea ts'ebetso ea ho fumana lintlha tse ngata, ho ts'ehetsa taolo ea data ea khamphani ka bophara, ho netefatsa taolo e nepahetseng ea phihlello, le ho netefatsa lekunutu la bareki. Hape re ile ra tlameha ho theha litsamaiso tsa kabo ea lisebelisoa, ho beha leihlo, le ho khutlisa chelete e le hore lihlopha li sebelise BigQuery ka nepo.

Ka Pulungoana 2018, re ile ra lokolla tokollo ea alpha ea k'hamphani ka bophara ea BigQuery le Data Studio. Re file basebetsi ba Twitter tse ling tsa li-spreadsheet tsa rona tse sebelisoang khafetsa tse nang le data e hloekisitsoeng. BigQuery e sebelisitsoe ke basebelisi ba fetang 250 ho tsoa lihlopheng tse fapaneng ho kenyelletsa boenjiniere, lichelete le papatso. Haufinyane tjena, ba ne ba etsa likopo tse ka bang 8k, ba sebetsana le 100 PB ka khoeli, ba sa bale likopo tse reriloeng. Kamora ho fumana maikutlo a matle haholo, re nkile qeto ea ho ea pele le ho fana ka BigQuery e le sesebelisoa sa mantlha sa ho sebelisana le data ho Twitter.

Mona ke setšoantšo sa boemo bo holimo sa meralo ea rona ea polokelo ea data ea Google BigQuery.

Kamoo Google's BigQuery e entseng tlhahlobo ea data ka demokrasi. Karolo ea 1
Re kopitsa lintlha ho tsoa ho lihlopha tsa Hadoop tse teng ho Google Cloud Storage (GCS) re sebelisa sesebelisoa sa ka hare sa Cloud Replicator. Ebe re sebelisa Apache Airflow ho theha liphaephe tse sebelisang "bq_mojaro»ho kenya data ho tsoa ho GCS ho BigQuery. Re sebelisa Presto ho botsa li-dataset tsa Parquet kapa Thrift-LZO ho GCS. BQ Blaster ke sesebelisoa sa ka hare sa Scalding sa ho kenya li-dataset tsa HDFS Vertica le Thrift-LZO ho BigQuery.

Likarolong tse latelang, re tšohla mokhoa oa rona le botsebi ba rona libakeng tsa boiketlo ba tšebeliso, ts'ebetso, tsamaiso ea data, bophelo bo botle ba tsamaiso, le litšenyehelo.

Ho sebelisa habonolo

Re fumane hore ho ne ho le bonolo hore basebelisi ba qale ka BigQuery hobane e ne e sa hloke ho kenngoa ha software 'me basebelisi ba ka e fumana ka mokhoa o hlakileng oa ho sebelisa websaete. Leha ho le joalo, basebelisi ba ne ba hloka ho tloaelana le likarolo le mehopolo ea GCP, ho kenyeletsoa lisebelisoa tse kang merero, li-database, le litafole. Re entse lisebelisoa tsa thuto le lithupelo ho thusa basebelisi ho qala. Ka kutloisiso ea mantlha e fumanoeng, basebelisi ba fumane ho le bonolo ho tsamaisa sete ea data, ho sheba schema le data ea tafole, ho botsa lipotso tse bonolo, le ho bona liphetho ho Studio Studio.

Sepheo sa rona sa ho kenya data ho BigQuery e ne e le ho nolofalletsa ho kenya li-database tsa HDFS kapa GCS ntle ho moeli ka ho penya hanngoe feela. Re ile ra nahana Moqapi oa Leru (e laoloang ke Airflow) empa ha ea ka ea khona ho e sebelisa ka lebaka la mohlala oa rona oa tšireletso oa Domain Restricted Sharing (ho feta ka sena karolong ea Tsamaiso ea Boitsebiso e ka tlase). Re lekile ho sebelisa Google Data Transfer Service (DTS) ho hlophisa mesebetsi e mengata ea BigQuery. Le ha DTS e ne e potlakile ho theha, e ne e sa fetohe bakeng sa ho aha liphaephe tse nang le litšepe. Bakeng sa tokollo ea alpha ea rona, re iketsetse moralo oa rona oa Apache Airflow ho GCE mme re ntse re o lokisetsa ho sebetsa ka tlhahiso le ho khona ho ts'ehetsa mehloli e mengata ea data joalo ka Vertica.

Ho fetolela data ho BigQuery, basebelisi ba theha lipeipi tsa data tsa SQL tse bonolo ba sebelisa lipotso tse reriloeng. Bakeng sa liphaephe tse rarahaneng tsa mekhahlelo e mengata tse nang le litšepe, re rera ho sebelisa moralo oa rona oa Airflow kapa Cloud Composer hammoho le Cloud Dataflow.

Tlhahiso

BigQuery e etselitsoe merero e akaretsang ea SQL e sebetsanang le lintlha tse ngata. Ha e reretsoe ho ba le latency e tlase, lipotso tse phahameng tsa phepelo tse hlokoang ke database ea transaction, kapa bakeng sa tlhahlobo e tlase ea nako ea latency e kentsoeng ts'ebetsong. Apache Druid. Bakeng sa lipotso tse sebetsanang le li-analytics, basebelisi ba rona ba lebelletse likarabo tsa nako e ka tlase ho motsotso o le mong. Re ile ra tlameha ho rala tšebeliso ea rona ea BigQuery ho fihlela litebello tsena. Ho fana ka ts'ebetso e lebelletsoeng esale pele bakeng sa basebelisi ba rona, re thehile tšebetso ea BigQuery, e fumanehang ho bareki ka tefiso e tlase e lumellang beng ba merero ho behella bonyane libaka bakeng sa lipotso tsa bona. Setsebi BigQuery ke yuniti ea matla a komporo e hlokahalang ho etsa lipotso tsa SQL.

Re hlahlobile lipotso tse fetang 800 tse sebetsanang le hoo e batlang e le 1 TB ea data e 'ngoe le e 'ngoe mme ra fumana hore nako ea ts'ebetso e ne e le metsotsoana e 30. Hape re ithutile hore ts'ebetso e itšetlehile haholo ka tšebeliso ea slot ea rona mererong le mesebetsing e fapaneng. Re ile ra tlameha ho hlalosa ka ho hlaka lihlahisoa tsa rona tsa tlhahiso le li-ad hoc slot ho boloka ts'ebetso bakeng sa linyeoe tsa tšebeliso ea tlhahiso le tlhahlobo ea inthanete. Sena se ile sa susumetsa haholo moralo oa rona oa lipehelo tsa slot le bolaoli ba projeke.

Re tla bua ka tsamaiso ea data, ts'ebetso le litšenyehelo tsa litsamaiso matsatsing a tlang karolong ea bobeli ea phetolelo, empa joale re mema bohle mahala ho phela webinar, nakong eo u tla khona ho ithuta ka ho qaqileng ka thupelo, hammoho le ho botsa setsebi sa rona lipotso - Egor Mateshuk (Moenjiniere oa Boitsebiso bo Phahameng, MaximaTelecom).

Bala haholoanyane:

Source: www.habr.com

Eketsa ka tlhaloso