Google-ren BigQuery-k nola demokratizatu zuen datuen analisia. 2. zatia

Aupa Habr! Ikastaro berri baterako izen-ematea zabalik dago une honetan OTUSen Datuen ingeniaria. Ikastaroaren hasierari begira, material erabilgarria partekatzen jarraitzen dugu zuekin.

Irakurri lehen zatia

Google-ren BigQuery-k nola demokratizatu zuen datuen analisia. 2. zatia

Datuen kudeaketa

Strong Data Governance Twitter Ingeniaritzaren oinarrizko printzipioa da. BigQuery gure plataforman ezartzen dugun heinean, datuen aurkikuntzan, sarbideen kontrolan, segurtasunean eta pribatutasunean zentratzen gara.

Datuak ezagutzeko eta kudeatzeko, gure Datuetarako Sarbide geruza honetara zabaldu dugu DAL) tokiko eta Google Cloud datuetarako tresnak eskaintzeko, gure erabiltzaileentzako interfaze eta API bakarra eskainiz. Google bezala Datuen Katalogoa erabilgarritasun orokorrerantz doa, gure proiektuetan sartuko dugu erabiltzaileei zutabeen bilaketa bezalako ezaugarriak eskaintzeko.

BigQuery-k datuak partekatzea eta atzitzea errazten du, baina horren gaineko kontrol pixka bat izan behar genuen datuen infiltrazioa saihesteko. Beste tresnen artean, bi funtzio aukeratu ditugu:

  • Domeinu mugatua partekatzea: Beta eginbidea erabiltzaileek BigQuery datu-multzoak Twitter-etik kanpoko erabiltzaileekin partekatzea eragozteko.
  • VPC zerbitzuen kontrolak: Datuak kanporatzea eragozten duen kontrola eta erabiltzaileak IP helbide-barrutietatik BigQuery-ra atzitzea eskatzen duena.

Segurtasunerako autentifikazio, baimen eta auditoria (AAA) baldintzak ezarri ditugu honela:

  • Autentifikazioa: GCP erabiltzaile-kontuak erabili ditugu ad hoc eskaerak egiteko eta zerbitzu-kontuak ekoizpen-eskaeretarako.
  • Baimena: datu-multzo bakoitzak jabearen zerbitzu-kontu bat eta irakurle talde bat edukitzea eskatzen genuen.
  • Ikuskaritza: BigQuery stackdriver erregistroak, kontsultak gauzatzeko informazio zehatza zutenak, BigQuery datu-multzo batera esportatu ditugu erraz aztertzeko.

Twitter-eko erabiltzaileen datu pertsonalak behar bezala kudeatzen direla ziurtatzeko, BigQuery datu-multzo guztiak erregistratu behar ditugu, datu pertsonalak idatzi, biltegiratze egokia mantendu eta erabiltzaileek ezabatu dituzten datuak ezabatu (scrake).

Googlen begiratu dugu Cloud Data Loss Prevention APIa, ikaskuntza automatikoa erabiltzen duena datu sentikorrak sailkatu eta editatzeko, baina datu-multzoa eskuz ohartatzearen alde erabaki zuen zehaztasuna dela eta. Datu galeraren prebentzioaren APIa erabiltzeko asmoa dugu oharpen pertsonalizatua areagotzeko.

Twitter-en, BigQuery-ko datu-multzoetarako lau pribatutasun-kategoria sortu ditugu, hemen zerrendatuta, sentsibilitate-ordenaren arabera:

  • Oso sentikorrak diren datu multzoak eskuragarri jartzen dira beharren arabera, pribilegio txikienaren printzipioan oinarrituta. Datu-multzo bakoitzak irakurle talde bat du, eta banakako kontuen erabileraren jarraipena egingo dugu.
  • Sentsibilitate ertaineko datu-multzoek (hashing gazia erabiltzen duten norabide bakarreko pseudonimoak) ez dute pertsonalki identifikatzeko informaziorik (PII) eta langile talde handiago batek eskura ditzake. Hau pribatutasun-kezkaren eta datuen erabilgarritasunaren arteko oreka ona da. Horri esker, langileek analisi-zereginak egin ditzakete, hala nola funtzio bat erabili duten erabiltzaile kopurua kalkulatzea, benetako erabiltzaileak nor diren jakin gabe.
  • Sentsibilitate baxuko datu multzoak erabiltzaileak identifikatzeko informazio guztiarekin. Ikuspegi ona da pribatutasunaren ikuspegitik, baina ezin da erabili erabiltzaile-mailako azterketarako.
  • Datu-multzo publikoak (Twitterretik kanpo kaleratuak) Twitter-eko langile guztien eskura daude.

Erregistroari dagokionez, programatutako zereginak erabili ditugu BigQuery datu-multzoak zenbatzeko eta Datuetarako Sarbide Geruzarekin erregistratzeko (DAL), Twitter metadatuen biltegia. Erabiltzaileek datu multzoak pribatutasun-informazioarekin ohartaraziko dituzte eta atxikipen-epea ere zehaztuko dute. Garbiketari dagokionez, bi aukeren errendimendua eta kostua ebaluatzen ditugu: 1. GCS-n datu-multzoak garbitzea Scalding bezalako tresnak erabiliz eta BigQuery-n kargatuz; 2. BigQuery DML adierazpenak erabiliz. Litekeena da bi metodoen konbinazioa erabiliko dugu talde eta datu ezberdinen eskakizunak betetzeko.

Sistemaren funtzionaltasuna

BigQuery kudeatutako zerbitzu bat denez, ez zen Twitterren SRE taldea inplikatu beharrik sistemen kudeaketan edo mahaiko zereginetan. Erraza zen biltegiratzeko zein informatiketarako gaitasun gehiago eskaintzea. Zirrikitu-erreserba alda genezake Google-ren laguntzarekin txartel bat sortuz. Hobe daitezkeen arloak identifikatu genituen, hala nola, autozerbitzuko zirrikituen esleipena eta kontrolatzeko panelen hobekuntzak, eta eskaera horiek Google-ri bidali genizkion.

Kostua

Gure aurretiazko azterketak erakutsi zuen BigQuery eta Presto-ren kontsulta-kostuak maila berean zeudela. Slots erosi dugu finkoa prezioa ordainketaren ordez hileko kostu egonkorra izateko eskariaren arabera prozesatutako datuen TB bakoitzeko. Erabaki hau eskaera bakoitza egin aurretik kostuetan pentsatu nahi ez zuten erabiltzaileen iritzietan ere oinarritu zen.

BigQuery-n datuak gordetzeak GCS kostuez gain kostuak ekarri zituen. Scalding bezalako tresnek datu-multzoak behar dituzte GCS-n, eta BigQuery atzitzeko datu-multzo berdinak BigQuery formatuan kargatu behar izan ditugu. Kondentsadore. BigQuery datu-multzoekin Scalding konexio bat lantzen ari gara, datu-multzoak GCS zein BigQuery-n gordetzeko beharra kenduko duena.

Hamarnaka petabyte-ko maiztasun gutxiko kontsultak behar zituzten kasu bakanetarako, BigQuery-n datu-multzoak biltegiratzea ez zela errentagarria erabaki genuen eta Presto erabili genuen GCS-ko datu-multzoetara zuzenean sartzeko. Horretarako, BigQuery-ren kanpoko datu-iturburuak aztertzen ari gara.

Hurrengo urratsak

BigQuery-n interes handia ikusi dugu Alpha kaleratu zenetik. Datu-multzo gehiago eta komando gehiago gehitzen ari gara BigQuery-n. BigQuery biltegian irakurtzeko eta idazteko Scalding bezalako datu-analisirako tresnetarako konektoreak garatzen ditugu. Looker eta Apache Zeppelin bezalako tresnak aztertzen ari gara BigQuery datu-multzoak erabiliz enpresen kalitate-txostenak eta oharrak sortzeko.

Google-rekin dugun lankidetza oso emankorra izan da eta pozik gaude lankidetza hau garatzen jarraitzeaz. Googlerekin lan egin dugu gurea ezartzeko Bazkideen Arazoen JarraipenaGoogle-ra zuzenean kontsultak bidaltzeko. Horietako batzuk, BigQuery Parquet kargatzailea adibidez, Google-k ezarri ditu dagoeneko.

Hona hemen gure lehentasun handiko eginbideen eskaera Google-k:

  • Datu erosoak jasotzeko eta LZO-Thrift formaturako laguntzarako tresnak.
  • Orduko segmentazioa
  • Sarbide-kontrolaren hobekuntzak, hala nola, taula, errenkada eta zutabe-mailako baimenak.
  • BigQuery Kanpoko datu-iturriak Hive Metastore integrazioarekin eta LZO-Thrift formatuaren laguntzarekin.
  • Datuen katalogoaren integrazioa hobetu da BigQuery erabiltzailearen interfazean
  • Zirrikituak esleitzeko eta kontrolatzeko autozerbitzua.

Ondorioa

Datuen analisia, bistaratzea eta ikaskuntza automatikoa modu seguruan demokratizatzea lehentasun nagusia da Data Platform taldearentzat. Google BigQuery eta Data Studio helburu hori lortzen lagun dezaketen tresna gisa identifikatu genituen eta iaz BigQuery Alpha konpainia osora zabaldu genuen.

BigQuery-n kontsultak sinpleak eta eraginkorrak direla ikusi dugu. Google tresnak erabili genituen kanalizazio sinpleetarako datuak irensteko eta eraldatzeko, baina kanalizazio konplexuetarako gure Airflow esparru propioa eraiki behar izan genuen. Datuak kudeatzeko eremuan, BigQueryren autentifikazio, baimen eta auditoria zerbitzuek gure beharrak asetzen dituzte. Metadatuak kudeatzeko eta pribatutasuna mantentzeko, malgutasun handiagoa behar genuen eta gure sistemak eraiki behar izan genituen. BigQuery, kudeatutako zerbitzu bat izanik, erabiltzeko erraza zen. Kontsulten kostuak lehendik zeuden tresnen antzekoak ziren. BigQuery-n datuak gordetzeak GCS kostuez gain, kostuak ere eragiten ditu.

Orokorrean, BigQuery-k ondo funtzionatzen du SQL azterketa orokorrerako. BigQueryn interes handia ikusten ari gara, eta datu multzo gehiago migratzeko, talde gehiago eratzeko eta BigQuery-rekin kanalizazio gehiago sortzeko lanean ari gara. Twitterrek hainbat datu erabiltzen ditu, besteak beste, Scalding, Spark, Presto eta Druid bezalako tresnen konbinazioa beharko dutenak. Datuen analisirako tresnak indartzen jarraitu nahi dugu eta gure erabiltzaileei gure eskaintzak hobeto erabiltzeko jarraibide argiak ematen jarraitu nahi dugu.

Esker oneko hitzak

Eskerrak eman nahi dizkiet nire egile eta taldekideei, Anju Jha eta Will Pascucci, proiektu honetan egindako kolaborazio eta lan handiagatik. Eskerrak eman nahi nizkieke ere Twitter eta Google-ko hainbat taldetako ingeniari eta kudeatzaileei lagundu diguten eta Twitter-eko BigQuery-ko erabiltzaileei iritzi baliotsuak eman dituztenei.

Arazo hauek lantzeko interesa baduzu, begiratu gure lanpostu hutsak Data Platform taldean.

Datuen kalitatea DWHn - Data Warehouse Consistency

Iturria: www.habr.com

Gehitu iruzkin berria