Giunsa sa BigQuery sa Google nga demokrasya ang pagtuki sa datos. Bahin 2

Hoy Habr! Ang enrollment para sa bag-ong course stream bukas sa OTUS karon Data Engineer. Sa pagpaabut sa pagsugod sa kurso, nagpadayon kami sa pagpaambit sa mapuslanon nga materyal kanimo.

Basaha ang unang bahin

Giunsa sa BigQuery sa Google nga demokrasya ang pagtuki sa datos. Bahin 2

Pagdumala sa datos

Ang Strong Data Governance usa ka kinauyokan nga prinsipyo sa Twitter Engineering. Samtang gipatuman namo ang BigQuery sa among plataporma, nagtutok kami sa pagdiskobre sa datos, pagkontrol sa pag-access, seguridad ug privacy.

Aron madiskubre ug madumala ang datos, among gipalapdan ang among Data Access Layer sa DAL) sa paghatag og mga himan alang sa on-premise ug Google Cloud data, nga naghatag og usa ka interface ug API alang sa among mga tiggamit. Ingon sa Google Katalogo sa Data naglihok padulong sa kinatibuk-ang pagkaanaa, among ilakip kini sa among mga proyekto aron mahatagan ang mga tiggamit og mga bahin sama sa pagpangita sa kolum.

Gipasayon ​​sa BigQuery ang pagpaambit ug pag-access sa datos, apan kinahanglan namo nga adunay kontrol niini aron malikayan ang pagkalusot sa datos. Taliwala sa ubang mga himan, gipili namon ang duha nga mga gimbuhaton:

  • Ang domain gipugngan nga pagpaambit: Beta nga bahin aron mapugngan ang mga tiggamit sa pagpaambit sa mga datos sa BigQuery sa mga tiggamit gawas sa Twitter.
  • Mga kontrol sa serbisyo sa VPC: Usa ka kontrol nga nagpugong sa data exfiltration ug nagkinahanglan sa mga tiggamit sa pag-access sa BigQuery gikan sa nailhan nga IP address range.

Among gipatuman ang authentication, authorization, and auditing (AAA) nga mga kinahanglanon alang sa seguridad sama sa mosunod:

  • Authentication: Gigamit namo ang GCP user accounts para sa ad hoc requests ug service accounts para sa production requests.
  • Awtorisasyon: Gikinahanglan namo ang matag dataset nga adunay account sa serbisyo sa tag-iya ug usa ka grupo sa magbabasa.
  • Pag-audit: Gi-eksport namo ang BigQuery stackdriver logs, nga adunay detalyadong impormasyon sa pagpatuman sa query, ngadto sa BigQuery dataset para sa sayon ​​nga pagtuki.

Aron maseguro nga husto ang pagdumala sa personal nga data sa mga tiggamit sa Twitter, kinahanglan natong irehistro ang tanang dataset sa BigQuery, i-annotate ang personal nga datos, ipadayon ang hustong pagtipig, ug i-delete (scrape) ang datos nga natangtang sa mga tiggamit.

Gitan-aw namo ang Google Cloud Data Loss Prevention API, nga naggamit sa pagkat-on sa makina sa pagklasipikar ug pag-edit sa sensitibo nga datos, apan nakahukom pabor sa manual nga pag-annotate sa dataset tungod sa katukma. Nagplano kami nga gamiton ang Data Loss Prevention API aron madugangan ang naandan nga anotasyon.

Sa Twitter, naghimo kami og upat ka mga kategorya sa pagkapribado para sa mga dataset sa BigQuery, nga gilista dinhi sa nagkaubos nga han-ay sa pagkasensitibo:

  • Ang labi ka sensitibo nga mga set sa datos gihimo nga magamit sa usa ka kinahanglanon nga basehan base sa prinsipyo nga labing gamay nga pribilehiyo. Ang matag set sa datos adunay lahi nga grupo sa mga magbabasa, ug among sundan ang paggamit sa indibidwal nga mga account.
  • Ang mga dataset sa medium sensitivity (one-way pseudonyms gamit ang salted hashing) walay sulod nga Personally Identifiable Information (PII) ug ma-access sa mas dako nga grupo sa mga empleyado. Kini usa ka maayong balanse tali sa mga kabalaka sa pagkapribado ug gamit sa datos. Gitugotan niini ang mga empleyado sa paghimo sa mga buluhaton sa pag-analisar, sama sa pagkalkula sa gidaghanon sa mga tiggamit nga migamit sa usa ka bahin, nga wala mahibal-an kung kinsa ang tinuod nga tiggamit.
  • Ubos nga mga datos sa pagkasensitibo nga adunay tanan nga kasayuran nga nagpaila sa tiggamit. Kini usa ka maayong pamaagi gikan sa usa ka panan-aw sa pagkapribado, apan dili magamit alang sa pagsusi sa lebel sa gumagamit.
  • Ang mga publikong dataset (gipagawas sa gawas sa Twitter) anaa sa tanang empleyado sa Twitter.

Mahitungod sa pag-log, migamit kami og mga naka-iskedyul nga buluhaton sa pag-ihap sa mga dataset sa BigQuery ug pagparehistro niini sa Data Access Layer (DAL), Twitter metadata repository. Ang mga tiggamit mag-annotate sa mga dataset nga adunay impormasyon sa pagkapribado ug magtakda usab og panahon sa pagpabilin. Sama sa alang sa pagpanglimpyo, among gisusi ang pasundayag ug gasto sa duha ka kapilian: 1. Paglimpyo sa mga dataset sa GCS gamit ang mga himan sama sa Scalding ug pagkarga niini sa BigQuery; 2. Gamit ang mga pahayag sa BigQuery DML. Mahimo nga mogamit kami usa ka kombinasyon sa duha nga mga pamaagi aron matubag ang mga kinahanglanon sa lainlaing mga grupo ug datos.

Pagpaandar sa sistema

Tungod kay ang BigQuery usa ka gidumala nga serbisyo, dili kinahanglan nga iapil ang SRE team sa Twitter sa pagdumala sa mga sistema o mga katungdanan sa desk. Sayon ra ang paghatag dugang nga kapasidad alang sa pagtipig ug pag-compute. Mahimo natong usbon ang reserbasyon sa slot pinaagi sa paghimo og tiket nga adunay suporta sa Google. Among giila ang mga dapit nga mahimong pauswagon, sama sa self-service slot allocation ug dashboard improvements para sa pagmonitor, ug gisumite ang maong mga hangyo ngadto sa Google.

gasto sa

Ang among pasiuna nga pagtuki nagpakita nga ang mga gasto sa pangutana alang sa BigQuery ug Presto anaa sa parehas nga lebel. Nagpalit mi og mga slots para naayo presyo nga adunay usa ka lig-on nga binulan nga gasto imbes nga bayad on demand kada TB sa naprosesong datos. Kini nga desisyon gibase usab sa feedback gikan sa mga tiggamit nga dili gusto nga maghunahuna bahin sa mga gasto sa wala pa maghimo sa matag hangyo.

Ang pagtipig og data sa BigQuery nagdala og mga gasto dugang sa mga gasto sa GCS. Ang mga himan sama sa Scalding nanginahanglan mga dataset sa GCS, ug aron ma-access ang BigQuery kinahanglan namon nga i-load ang parehas nga mga dataset sa format nga BigQuery Capacitor. Nagtrabaho kami sa usa ka Scalding nga koneksyon sa mga dataset sa BigQuery nga magwagtang sa panginahanglan sa pagtipig sa mga dataset sa GCS ug BigQuery.

Para sa talagsaon nga mga kaso nga nagkinahanglan ug panagsa ra nga mga pangutana sa napulo ka petabytes, nakahukom kami nga ang pagtipig sa mga dataset sa BigQuery dili epektibo sa gasto ug gigamit ang Presto aron direktang ma-access ang mga dataset sa GCS. Aron mahimo kini, among gitan-aw ang BigQuery External Data Sources.

Sunod nga mga lakang

Nakita namon ang daghang interes sa BigQuery sukad sa pagpagawas sa alpha. Nagdugang kami og daghang mga dataset ug daghang mga sugo sa BigQuery. Naghimo kami og mga koneksyon alang sa mga himan sa pag-analisa sa datos sama sa Scalding aron mabasa ug magsulat sa pagtipig sa BigQuery. Nagtan-aw kami sa mga himan sama sa Looker ug Apache Zeppelin alang sa paghimo sa kalidad sa negosyo nga mga taho ug mga nota gamit ang mga datos sa BigQuery.

Ang among kolaborasyon sa Google nahimong produktibo kaayo ug kami nalipay sa pagpadayon ug pagpalambo niini nga panag-uban. Nagtrabaho kami sa Google aron ipatuman ang among kaugalingon Partner Issue Trackeraron ipadala ang mga pangutana direkta sa Google. Ang uban niini, sama sa BigQuery Parquet loader, gipatuman na sa Google.

Ania ang pipila sa among taas nga prayoridad nga mga hangyo bahin sa Google:

  • Mga himan alang sa sayon ​​​​nga pagdawat sa datos ug suporta alang sa LZO-Thrift format.
  • Inoras nga pagbahinbahin
  • Pag-ayo sa pagkontrol sa pag-access sama sa mga permiso sa lebel sa lamesa, linya, ug lebel sa kolum.
  • BigQuery Mga Tinubdan sa Eksternal nga Data uban sa Hive Metastore integration ug suporta alang sa LZO-Thrift format.
  • Gipaayo nga data catalog integration sa BigQuery user interface
  • Self-service para sa alokasyon ug pagmonitor sa slot.

konklusyon

Ang pagdemokratize sa data analytics, visualization, ug machine learning sa luwas nga paagi maoy usa ka nag-unang prayoridad sa Data Platform team. Among giila ang Google BigQuery ug Data Studio isip mga himan nga makatabang sa pagkab-ot niini nga tumong, ug gipagawas ang BigQuery Alpha sa tibuok kompanya sa miaging tuig.

Nakaplagan namo ang mga pangutana sa BigQuery nga yano ug episyente. Gigamit namo ang mga himan sa Google sa pag-ingest ug pagbag-o sa datos alang sa yano nga mga pipeline, apan alang sa komplikadong mga pipeline kinahanglan namong magtukod og among kaugalingong Airflow framework. Sa luna sa pagdumala sa datos, ang mga serbisyo sa BigQuery alang sa pag-authenticate, pagtugot, ug pag-awdit nakatubag sa among mga panginahanglan. Aron madumala ang metadata ug mamentinar ang pribasiya, nanginahanglan kami og dugang nga pagka-flexible ug kinahanglan nga magtukod sa among kaugalingon nga mga sistema. Ang BigQuery, nga usa ka gidumala nga serbisyo, dali gamiton. Ang gasto sa pangutana susama sa kasamtangan nga mga himan. Ang pagtipig sa datos sa BigQuery adunay gasto dugang sa mga gasto sa GCS.

Sa kinatibuk-an, ang BigQuery maayo alang sa kinatibuk-ang pagtuki sa SQL. Nakita namo ang daghang interes sa BigQuery, ug naningkamot kami sa pag-migrate og dugang mga set sa datos, pagdala og dugang mga team, ug paghimo og dugang nga mga pipeline gamit ang BigQuery. Gigamit sa Twitter ang lain-laing mga datos nga magkinahanglan usa ka kombinasyon sa mga himan sama sa Scalding, Spark, Presto, ug Druid. Nagtinguha kami nga magpadayon sa pagpalig-on sa among mga gamit sa pag-analisa sa datos ug maghatag klaro nga giya sa among mga tiggamit kung giunsa paggamit ang among mga halad.

Mga pulong sa pagpasalamat

Gusto nakong pasalamatan ang akong mga co-authors ug teammates, Anju Jha ug Will Pascucci, sa ilang dakong kolaborasyon ug kakugi niini nga proyekto. Gusto usab nakong pasalamatan ang mga inhenyero ug mga manedyer gikan sa daghang mga koponan sa Twitter ug Google nga mitabang kanamo ug sa mga tiggamit sa BigQuery sa Twitter nga naghatag hinungdanon nga feedback.

Kung interesado ka sa pagtrabaho sa kini nga mga problema, tan-awa ang among mga bakante sa grupo sa Data Platform.

Kalidad sa Data sa DWH - Pagkakonsistensya sa Data Warehouse

Source: www.habr.com

Idugang sa usa ka comment