Na fa'afefea e Google's BigQuery ona fa'atemokalasi fa'amaumauga o fa'amaumauga. Vaega 1

Ei Habr! O lo'o tatala le lesitala mo se kosi fou ile OTUS ile taimi nei Inisinia Fa'amaumauga. I le fa'atalitali atu i le amataga o le vasega, ua matou saunia masani se fa'aliliuga o mea manaia mo oe.

O aso uma, e silia ma le selau miliona tagata e asiasi i le Twitter e suʻe mea o loʻo tupu i le lalolagi ma talanoaina. O tweet taʻitasi ma soʻo se isi faʻaoga faʻaoga e faʻatupuina ai se mea e avanoa mo suʻesuʻega faʻamaumauga i totonu o Twitter. E faitau selau tagata faigaluega e suʻesuʻe ma vaʻavaʻai i nei faʻamatalaga, ma faʻaleleia o latou poto masani o se faʻamuamua pito i luga mo le Twitter Data Platform team.

Matou te talitonu o tagata faʻaoga e iai le tele o tomai faʻapitoa e tatau ona mafai ona suʻe faʻamaumauga ma maua avanoa i suʻesuʻega faʻavae SQL ma mea faigaluega faʻaaliga. O lenei mea o le a faʻatagaina ai se vaega fou o tagata faʻapitoa faʻapitoa, e aofia ai suʻega faʻamaumauga ma pule o oloa, e maua mai ai faʻamatalaga mai faʻamaumauga, faʻatagaina i latou e malamalama atili ma faʻaoga le mana o Twitter. O le auala lea matou te faʻatemokalasi ai faʻamatalaga faʻamaumauga i luga o Twitter.

A o faʻaleleia a matou meafaigaluega ma gafatia mo faʻamatalaga faʻamatalaga i totonu, ua matou vaʻaia le faʻaleleia atili o le auaunaga Twitter. Ae ui i lea, o loʻo i ai pea le avanoa e faʻaleleia atili ai. O mea faigaluega nei e pei ole Scalding e mana'omia ai le poto masani ile polokalame. O mea faigaluega fa'avae fa'avae SQL e pei o Presto ma Vertica o lo'o i ai fa'afitauli fa'atinoga i le tele. E iai fo'i a matou fa'afitauli i le tufatufaina atu o fa'amaumauga i le tele o faiga e aunoa ma le fa'aauau ona maua.

O le tausaga talu ai na matou faasilasilaina ai fou galulue faatasi ma Google, i totonu e matou te faʻafeiloaʻi vaega o matou aseta fa'amaumauga i luga ole Google Cloud Platform (GCP). Na matou fa'ai'uga o Google Cloud meafaigaluega Big Data e mafai ona fesoasoani ia i matou i a matou fuafuaga e faʻatemokalasi auʻiliʻiliga, faʻaaliga ma masini aʻoaʻoga i luga o Twitter:

  • fesili tele: faleteuoloa faʻamatalaga pisinisi ma faʻavae SQL engine Dremel, lea e lauiloa mo lona saoasaoa, faigofie ma faʻafetaui a'oa'oga masini.
  • faletusi fa'amaumauga: tele fa'amatalaga fa'amatalaga meafaigaluega fa'atasi ai ma foliga galulue fa'atasi e pei o Google Docs.

I lenei tusiga, o le a e aʻoaʻoina e uiga i lo matou poto masani i nei mea faigaluega: mea na matou faia, mea na matou aʻoaʻoina ma mea o le a matou faia i le isi itu. O le a tatou taulaʻi atu nei i suʻesuʻega faʻapitoa ma fefaʻatauaʻiga. O suʻesuʻega faʻapitoa o le a talanoaina i le isi mataupu.

Le Talafaasolopito o Faʻamaumauga Faʻamaumauga i luga ole Twitter

A'o le'i su'esu'e i BigQuery, e aoga le toe fa'amatala fa'apu'upu'u le tala fa'asolopito o faleteuoloa fa'amaumauga ile Twitter. I le 2011, na faia ai suʻesuʻega faʻamatalaga Twitter i Vertica ma Hadoop. Ina ia fatuina galuega MapReduce Hadoop, matou te faʻaaogaina Pig. I le 2012, na matou suia ai le Pig i le Scalding, lea sa i ai le Scala API faʻatasi ai ma faʻamanuiaga e pei o le mafai ona fai paipa lavelave ma faigofie o suʻega. Ae ui i lea, mo le tele o suʻesuʻega faʻamaumauga ma pule o oloa na sili atu le toʻa e galulue ai ma le SQL, o se faʻataʻitaʻiga aʻoaʻoga. I le 2016, na amata ona matou faʻaaogaina Presto e fai ma a matou SQL pito i luma mo faʻamatalaga Hadoop. Na ofoina atu e Spark se faʻaoga Python lea e avea ai ma filifiliga lelei mo faʻamatalaga faʻasaienisi faʻamatalaga ma masini aʻoaʻoga.

Talu mai le 2018, ua matou faʻaogaina meafaigaluega nei mo le auiliiliga o faʻamaumauga ma faʻaaliga:

  • Fufulu mo laina gaosiga
  • Scaling ma Spark mo au'ili'ili fa'amatalaga fa'apitoa ma a'oa'oga masini
  • Vertica ma Presto mo faʻasalalauga faʻapitoa ma fesoʻotaʻiga SQL suʻesuʻega
  • Druid mo le maualalo o fesoʻotaʻiga, suʻesuʻe ma le maualalo avanoa avanoa i faʻasologa o taimi
  • Tableau, Zeppelin ma Pivot mo Fa'amatalaga Va'aiga

Ua matou iloa e ui o nei meafaigaluega e ofoina atu ni foliga mamana, sa faigata ia i matou ona faʻaavanoaina nei foliga i le lautele o tagata i luga o Twitter. E ala i le faʻalauteleina o la matou faʻavae ma Google Cloud, matou te taulaʻi atu i le faʻafaigofieina o matou meafaigaluega faʻapitoa mo Twitter uma.

Google's BigQuery Data Warehouse

E tele 'au i le Twitter ua uma ona fa'aofiina le BigQuery i nisi o latou gaosiga o paipa. I le fa'aaogaina o latou poto masani, na amata ai ona matou iloiloina le avanoa o le BigQuery mo fa'aoga uma a Twitter. O la matou sini o le ofoina atu lea o le BigQuery i le kamupani atoa, ma ia fa'ata'atia ma lagolagoina i totonu o le pusa meafaigaluega o le Data Platform. Sa faigata lenei mea mo le tele o mafuaaga. Matou te mana'omia le atina'eina o se atina'e e fa'atuatuaina le mauaina o le tele o fa'amaumauga, lagolago le pulega o fa'amaumauga a le kamupani, fa'amautinoa le fa'atonuina o avanoa, ma fa'amautinoa le le faalauaiteleina o tagata faatau. Sa tatau foi ona matou faia ni faiga mo le faasoasoaina o punaoa, mata'ituina, ma toe totogi ina ia mafai e 'au ona fa'aoga lelei le BigQuery.

Ia Novema 2018, na matou tuʻuina atu ai le faʻasalalauga alafa o BigQuery ma Data Studio mo le kamupani atoa. Ua matou ofoina atu nisi o a matou faʻamatalaga faʻamatalaga patino-faʻamamaina ripoti i le aufaigaluega Twitter. BigQuery ua fa'aogaina e le silia ma le 250 tagata fa'aoga mai 'au eseese e aofia ai inisinia, tupe ma maketi. Talu ai nei lava, na latou faʻatautaia e tusa ma le 8 talosaga, faʻatautaia e uiga i le 100 PB i le masina, ae le o le faitauina o talosaga faʻatulagaina. Ina ua uma ona maua tali lelei, na matou filifili e agai i luma ma ofoina BigQuery e avea ma punaoa autu mo le fegalegaleai ma faʻamatalaga i luga o Twitter.

Ole ata lea ole fausaga maualuga ole matou faleteuoloa Google BigQuery.

Na fa'afefea e Google's BigQuery ona fa'atemokalasi fa'amaumauga o fa'amaumauga. Vaega 1
Matou te kopiina fa'amaumauga mai fa'aputuga Hadoop fa'apitonu'u ile Google Cloud Storage (GCS) e fa'aoga ai le mea faigaluega i totonu Cloud Replicator. Ona matou faʻaaogaina lea o Apache Airflow e fai ai paipa e faʻaaoga "bq_load»e la'u fa'amaumauga mai le GCS ile BigQuery. Matou te fa'aoga Presto e su'e ai fa'amaumauga Parquet po'o le Thrift-LZO i le GCS. O le BQ Blaster ose meafaigaluega fa'alotoifale mo le utaina o fa'amaumauga HDFS Vertica ma Thrift-LZO ile BigQuery.

I vaega o loʻo mulimuli mai, o le a matou talanoaina a matou auala ma tomai i le faigofie o le faʻaogaina, faʻatinoga, faʻatautaia o faʻamaumauga, soifua maloloina o le tino, ma le tau.

Faʻaaogaina

Na matou iloa e faigofie mo tagata fa'aoga ona amata i le BigQuery ona e le mana'omia le fa'apipi'iina o polokalama ma e mafai e tagata fa'aoga ona fa'aogaina e ala i se feso'ota'iga i luga ole laiga. Ae ui i lea, e mana'omia e tagata fa'aoga ona masani i nisi o foliga ma manatu o le GCP, e aofia ai punaoa e pei o poloketi, fa'amaumauga, ma laulau. Ua matou fausia aʻoaʻoga ma aʻoaʻoga e fesoasoani ai i tagata faʻaoga e amata. Faatasi ai ma se malamalamaga faavae na maua, e faigofie mo tagata faʻaoga ona faʻatautaia faʻamaumauga, vaʻai faʻasologa ma faʻamaumauga o laulau, faʻatautaia fesili faigofie, ma vaʻaia iʻuga i le Data Studio.

O la matou sini i le fa'auluina o fa'amatalaga i BigQuery o le tu'uina atu lea o le fa'apipi'iina lelei o fa'amaumauga o le HDFS po'o le GCS i le kiliki tasi. Sa matou iloiloina Tusia Ao (pulea e le Airflow) ae na le mafai ona faʻaaogaina ona o le matou "Domain Restricted Sharing" faʻataʻitaʻiga saogalemu (sili atu i lenei mea i le vaega o Faʻamatalaga Faʻamatalaga i lalo). Na matou fa'ata'ita'i i le fa'aogaina o le Google Data Transfer Service (DTS) e fa'atulaga ai galuega uta a BigQuery. A'o vave fa'atūina le DTS, e le'i fetu'una'i mo le fauina o paipa ma fa'alagolago. Mo la matou faʻasalalauga alafa, ua matou fatuina a matou lava siʻosiʻomaga Apache Airflow i le GCE ma o loʻo sauniuni mo le gaosiga ma le mafai ona lagolagoina nisi faʻamatalaga faʻamatalaga e pei o Vertica.

Ina ia suia faʻamatalaga i BigQuery, e faʻaogaina e tagata faʻaoga ni laina faʻamatalaga faigofie SQL e faʻaaoga ai fesili faʻatulagaina. Mo paipa lavelave lavelave faʻatasi ma faʻalagolago, matou te fuafua e faʻaoga a le matou lava Airflow framework poʻo le Cloud Composer faatasi ai ma Ao Faʻamatalaga.

Gaioiga

BigQuery ua mamanuina mo fa'amoemoega lautele fesili SQL e fa'agasolo ai le tele o fa'amaumauga. E le o fa'amoemoeina mo le maualalo o le latency, maualuga le fa'aogaina o fesili e mana'omia e se fa'amaumauga tau fefa'ataua'iga, po'o le maualalo o le latency fa'asologa fa'asologa o taimi na fa'atinoina e Apache Druid. Mo su'esu'ega au'ili'ili fegalegaleai, o lo'o fa'amoemoe a matou tagata fa'aoga se taimi tali e itiiti ifo ma le tasi le minute. Sa tatau ona matou mamanuina le faʻaogaina o le BigQuery e faʻafetaui ai nei faʻamoemoega. Ina ia mafai ona maua le fa'atinoga fa'apitoa mo matou tagata fa'aoga, ua matou fa'aogaina galuega fa'atino a le BigQuery, lea e avanoa mo tagata fa'atau i luga o se totogi fa'amautu, lea e mafai ai e tagata e ana le poloketi ona fa'aagaga avanoa laiti mo a latou talosaga. Slot BigQuery o se iunite o le malosi faakomepiuta e manaʻomia e faʻatino ai fesili SQL.

Na matou suʻesuʻeina le silia ma le 800 fesili e faʻatautaia e uiga i le 1 TB o faʻamaumauga taʻitasi ma maua ai o le averesi o le taimi o le faʻatinoina o le 30 sekone. Na matou aʻoaʻoina foʻi o le faʻatinoga e faʻalagolago tele i le faʻaogaina o la matou avanoa i galuega eseese ma galuega. Sa tatau ona matou va'ava'a'ese'ese lelei a matou gaosiga ma fa'aagaga avanoa fa'apitoa ina ia fa'atumauina le fa'atinoga mo le fa'aogaina o tulaga fa'aoga ma au'ili'iliga fegalegaleai. O lenei mea na matua a'afia ai la matou mamanu mo avanoa avanoa ma fa'asologa o galuega.

O le a matou talanoa e uiga i le puleaina o faʻamatalaga, faʻatinoga ma le tau o faiga i aso a sau i le vaega lona lua o le faaliliuga, ma o lea ua matou valaʻauina tagata uma e free live webinar, lea e mafai ona e aʻoaʻo atili ai e uiga i le vasega, faʻapea foʻi ma fesili i le matou tagata tomai faapitoa - Egor Mateshuk (Senior Data Engineer, MaximaTelecom).

Faitau atili:

puna: www.habr.com

Faaopoopo i ai se faamatalaga