Giunsa sa BigQuery sa Google nga demokrasya ang pagtuki sa datos. Bahin 1

Hoy Habr! Ang enrollment para sa bag-ong course stream bukas sa OTUS karon Data Engineer. Sa pagpaabut sa pagsugod sa kurso, tradisyonal namong giandam ang usa ka paghubad sa makapaikag nga materyal alang kanimo.

Kada adlaw, kapin sa usa ka gatos ka milyon nga mga tawo ang mobisita sa Twitter aron mahibal-an kung unsa ang nanghitabo sa kalibutan ug hisgutan kini. Ang matag tweet ug matag uban nga aksyon sa user nagmugna og usa ka panghitabo nga magamit alang sa internal nga pagtuki sa datos sa Twitter. Gatusan nga mga empleyado ang nag-analisar ug nagtan-aw niini nga datos, ug ang pagpaayo sa ilang kasinatian usa ka nag-unang prayoridad alang sa Twitter Data Platform team.

Kami nagtuo nga ang mga tiggamit nga adunay daghang mga teknikal nga kahanas kinahanglan nga makadiskubre sa mga datos ug adunay access sa maayo nga pagbuhat sa SQL-based nga pagtuki ug visualization nga mga himan. Gitugotan niini ang usa ka bag-ong grupo sa dili kaayo teknikal nga tiggamit, lakip ang mga analista sa datos ug mga tagdumala sa produkto, nga makuha ang mga panabut gikan sa datos, nga gitugotan sila nga mas masabtan ug magamit ang mga kapabilidad sa Twitter. Mao kini ang paagi nga atong gi-demokratize ang data analytics sa Twitter.

Samtang nag-uswag ang among mga himan ug mga kapabilidad sa internal nga data analytics, nakita namon ang pag-uswag sa Twitter. Bisan pa, adunay lugar alang sa pag-uswag. Ang mga galamiton karon sama sa Scalding nanginahanglan og kasinatian sa programming. Ang mga gamit sa pagtuki nga nakabase sa SQL sama sa Presto ug Vertica adunay mga isyu sa pasundayag sa sukod. Adunay usab kami problema sa pag-apod-apod sa datos sa daghang mga sistema nga wala’y kanunay nga pag-access niini.

Sa miaging tuig among gipahibalo bag-ong kolaborasyon sa Google, diin atong gibalhin ang mga bahin sa atong imprastraktura sa datos sa Google Cloud Platform (GCP). Kami nakahinapos nga ang Google Cloud nga mga himan Big Data makatabang kanamo sa among mga inisyatibo sa pag-demokratize sa analytics, visualization, ug machine learning sa Twitter:

  • BigQuery: bodega sa datos sa negosyo nga adunay nakabase sa SQL engine Dremel, nga nabantog tungod sa katulin, kayano ug pagsagubang niini pagkat-on sa makina.
  • Data Studio: dako nga data visualization himan uban sa Google Docs-sama sa kolaborasyon nga mga bahin.

Niini nga artikulo, makakat-on ka bahin sa among kasinatian sa kini nga mga himan: kung unsa ang among gibuhat, unsa ang among nakat-unan, ug unsa ang among sunod nga buhaton. Magpokus kami karon sa batch ug interactive analytics. Atong hisgotan ang real-time nga analytics sa sunod nga artikulo.

Kasaysayan sa Twitter Data Stores

Sa dili pa mo-dive sa BigQuery, angayan nga isaysay sa makadiyot ang kasaysayan sa Twitter data warehousing. Niadtong 2011, gihimo ang pagtuki sa datos sa Twitter sa Vertica ug Hadoop. Gigamit namo ang Baboy sa paghimo og mga trabaho sa MapReduce Hadoop. Sa 2012, gipulihan namo ang Baboy og Scalding, nga adunay Scala API nga adunay mga benepisyo sama sa abilidad sa paghimo og komplikadong mga pipeline ug kasayon ​​sa pagsulay. Bisan pa, alang sa daghang mga analista sa datos ug mga tagdumala sa produkto nga mas komportable nga nagtrabaho kauban ang SQL, kini usa ka taas nga kurba sa pagkat-on. Sa palibot sa 2016, nagsugod kami sa paggamit sa Presto ingon usa ka interface sa SQL sa datos sa Hadoop. Nagtanyag ang Spark og interface sa Python, nga naghimo niini nga maayong pagpili alang sa ad hoc data science ug pagkat-on sa makina.

Sukad sa 2018, gigamit namo ang mosunod nga mga himan alang sa pagtuki sa datos ug paghanduraw:

  • Pagsunog alang sa mga conveyor sa produksiyon
  • Scalding ug Spark para sa ad hoc data analysis ug machine learning
  • Vertica ug Presto alang sa ad hoc ug interactive nga pagtuki sa SQL
  • Druid alang sa ubos nga interactive, eksplorasyon ug ubos nga latency nga pag-access sa time series metrics
  • Tableau, Zeppelin ug Pivot para sa data visualization

Among nakaplagan nga samtang kini nga mga galamiton nagtanyag ug gamhanan kaayo nga mga kapabilidad, kami naglisud sa paghimo niini nga mga kapabilidad nga magamit sa mas lapad nga mga tumatan-aw sa Twitter. Pinaagi sa pagpalapad sa among plataporma gamit ang Google Cloud, nagtutok kami sa pagpasimple sa among mga himan sa pag-analisa para sa tanan nga Twitter.

Ang BigQuery Data Warehouse sa Google

Daghang mga team sa Twitter ang nag-apil na sa BigQuery sa pipila sa ilang mga linya sa produksiyon. Gamit ang ilang kahanas, gisugdan namo ang pagtimbang-timbang sa mga kapabilidad sa BigQuery para sa tanang kaso sa paggamit sa Twitter. Ang among tumong mao ang pagtanyag sa BigQuery sa tibuok kompanya ug i-standardize ug suportahan kini sulod sa Data Platform toolset. Lisud kini tungod sa daghang mga hinungdan. Kinahanglan namon nga maghimo usa ka imprastraktura aron masaligan ang pagsulod sa daghang mga volume sa datos, pagsuporta sa pagdumala sa datos sa tibuuk nga kompanya, pagsiguro sa husto nga mga kontrol sa pag-access, ug pagsiguro sa pagkapribado sa kustomer. Kinahanglan usab nga maghimo kami og mga sistema para sa alokasyon sa kahinguhaan, pagmonitor, ug mga chargeback aron epektibong magamit sa mga team ang BigQuery.

Kaniadtong Nobyembre 2018, nagpagawas kami usa ka tibuuk nga kompanya sa alpha nga pagpagawas sa BigQuery ug Data Studio. Gitanyagan namon ang mga empleyado sa Twitter sa pipila sa among labing kanunay nga gigamit nga mga spreadsheet nga adunay gilimpyohan nga personal nga datos. Ang BigQuery gigamit sa kapin sa 250 ka tiggamit gikan sa lain-laing mga team lakip ang engineering, finance ug marketing. Labing bag-o lang, nagdagan sila mga 8k nga hangyo, nagproseso mga 100 PB matag bulan, wala mag-ihap sa mga naka-iskedyul nga hangyo. Human makadawat ug positibo kaayo nga feedback, nakahukom mi sa pagpadayon ug pagtanyag sa BigQuery isip nag-unang kapanguhaan sa pagpakig-uban sa datos sa Twitter.

Ania ang taas nga lebel nga diagram sa among Google BigQuery data warehouse nga arkitektura.

Giunsa sa BigQuery sa Google nga demokrasya ang pagtuki sa datos. Bahin 1
Gikopya namo ang datos gikan sa mga naa sa lugar nga Hadoop clusters ngadto sa Google Cloud Storage (GCS) gamit ang internal Cloud Replicator tool. Gigamit dayon namo ang Apache Airflow aron makahimo og mga pipeline nga naggamit sa "bq_loadΒ»aron i-load ang data gikan sa GCS ngadto sa BigQuery. Gigamit namo ang Presto sa pagpangutana sa Parquet o Thrift-LZO nga mga dataset sa GCS. Ang BQ Blaster usa ka internal nga Scalding tool para sa pagkarga sa HDFS Vertica ug Thrift-LZO datasets sa BigQuery.

Sa mosunod nga mga seksyon, among hisgutan ang among pamaagi ug kahanas sa mga bahin sa kasayon ​​sa paggamit, performance, pagdumala sa datos, kahimsog sa sistema, ug gasto.

Dali sa paggamit

Among nakaplagan nga sayon ​​ra alang sa mga tiggamit ang pagsugod sa BigQuery tungod kay wala kini magkinahanglan og pag-instalar sa software ug ang mga tiggamit maka-access niini pinaagi sa usa ka intuitive nga web interface. Bisan pa, ang mga tiggamit kinahanglan nga pamilyar sa pipila sa mga bahin ug konsepto sa GCP, lakip ang mga kapanguhaan sama sa mga proyekto, mga set sa datos, ug mga lamesa. Naghimo kami og mga materyal nga pang-edukasyon ug mga panudlo aron matabangan ang mga tiggamit nga makasugod. Uban sa usa ka sukaranan nga pagsabut nga nakuha, ang mga tiggamit nakit-an nga dali nga mag-navigate sa mga set sa datos, pagtan-aw sa schema ug data sa lamesa, pagpadagan sa yano nga mga pangutana, ug paghanduraw sa mga resulta sa Data Studio.

Ang among tumong sa pagsulod sa data ngadto sa BigQuery mao ang pagpagana sa seamless loading sa HDFS o GCS datasets sa usa ka click. Among gikonsiderar Cloud Composer (gidumala sa Airflow) apan wala kini magamit tungod sa among modelo sa seguridad sa Domain Restricted Sharing (dugang niini sa seksyon sa Pagdumala sa Data sa ubos). Nag-eksperimento kami sa paggamit sa Google Data Transfer Service (DTS) aron i-orkestrate ang mga workload sa BigQuery. Samtang ang DTS dali nga nag-set up, dili kini flexible alang sa pagtukod sa mga pipeline nga adunay mga dependency. Alang sa among pagpagawas sa alpha, nagtukod kami sa among kaugalingon nga balangkas sa Apache Airflow sa GCE ug giandam kini nga modagan sa produksiyon ug makasuporta sa daghang mga gigikanan sa datos sama sa Vertica.

Aron mabag-o ang data ngadto sa BigQuery, ang mga tiggamit maghimo ug yano nga mga linya sa data sa SQL gamit ang naka-iskedyul nga mga pangutana. Para sa komplikadong multi-stage pipelines nga adunay mga dependency, plano namo nga gamiton ang among kaugalingong Airflow framework o Cloud Composer kauban ang Cloud Dataflow.

Pag-uswag

Gidisenyo ang BigQuery alang sa kinatibuk-ang katuyoan nga mga pangutana sa SQL nga nagproseso sa daghang mga datos. Wala kini gituyo alang sa ubos nga latency, taas nga throughput nga mga pangutana nga gikinahanglan sa usa ka transactional database, o alang sa ubos nga latency time series analysis nga gipatuman Apache Druid. Alang sa interactive nga mga pangutana sa analytics, ang among mga tiggamit nagpaabut sa mga oras sa pagtubag nga wala’y usa ka minuto. Kinahanglan namon nga idisenyo ang among paggamit sa BigQuery aron matubag kini nga mga gilauman. Aron mahatagan ang matag-an nga pasundayag alang sa among mga tiggamit, among gigamit ang pagpaandar sa BigQuery, nga magamit sa mga kostumer sa usa ka sukaranan nga bayad nga gitugotan ang mga tag-iya sa proyekto nga magreserba sa labing gamay nga mga slot para sa ilang mga pangutana. Ang slot Ang BigQuery usa ka yunit sa gahum sa pag-compute nga gikinahanglan aron mapatuman ang mga pangutana sa SQL.

Among gi-analisa ang kapin sa 800 ka mga pangutana nga nagproseso sa gibana-bana nga 1 TB sa datos matag usa ug nakita nga ang kasagarang oras sa pagpatuman maoy 30 ka segundos. Nahibal-an usab namo nga ang pasundayag nagdepende pag-ayo sa paggamit sa among slot sa lainlaing mga proyekto ug buluhaton. Kinahanglan namon nga klaro nga gilaraw ang among mga reserba sa produksiyon ug ad hoc slot aron mapadayon ang pasundayag alang sa mga kaso sa paggamit sa produksiyon ug pagtuki sa online. Nakaimpluwensya kini pag-ayo sa among disenyo alang sa mga reserbasyon sa slot ug hierarchy sa proyekto.

Maghisgot kami bahin sa pagdumala sa datos, pagpaandar ug gasto sa mga sistema sa umaabot nga mga adlaw sa ikaduhang bahin sa paghubad, apan karon among gidapit ang tanan sa libre nga live webinar, diin ikaw makakat-on sa detalye mahitungod sa kurso, ingon man usab sa pagpangutana sa among eksperto - Egor Mateshuk (Senior Data Engineer, MaximaTelecom).

Basaha ang dugang pa:

Source: www.habr.com

Idugang sa usa ka comment