Sut y gwnaeth BigQuery Google ddemocrateiddio dadansoddi data. Rhan 2

Hei Habr! Mae cofrestru ar gyfer ffrwd cwrs newydd ar agor yn OTUS ar hyn o bryd Peiriannydd Data. Gan ragweld dechrau'r cwrs, rydym yn parhau i rannu deunydd defnyddiol gyda chi.

Darllenwch ran un

Sut y gwnaeth BigQuery Google ddemocrateiddio dadansoddi data. Rhan 2

Rheoli data

Mae Llywodraethu Data Cryf yn un o egwyddorion craidd Twitter Engineering. Wrth i ni roi BigQuery ar waith yn ein platfform, rydym yn canolbwyntio ar ddarganfod data, rheoli mynediad, diogelwch a phreifatrwydd.

I ddarganfod a rheoli data, rydym wedi ehangu ein Haen Mynediad Data i DAL) darparu offer ar gyfer data ar y safle a Google Cloud, gan ddarparu un rhyngwyneb ac API ar gyfer ein defnyddwyr. Fel Google Catalog Data yn symud tuag at argaeledd cyffredinol, byddwn yn ei gynnwys yn ein prosiectau i ddarparu nodweddion fel chwiliad colofn i ddefnyddwyr.

Mae BigQuery yn ei gwneud hi’n hawdd rhannu a chyrchu data, ond roedd angen i ni gael rhywfaint o reolaeth dros hyn i atal diarddel data. Ymhlith offer eraill, rydym wedi dewis dwy swyddogaeth:

  • Rhannu wedi'i gyfyngu gan y parth: Nodwedd beta i atal defnyddwyr rhag rhannu setiau data BigQuery gyda defnyddwyr y tu allan i Twitter.
  • Rheolaethau gwasanaeth VPC: Rheolaeth sy'n atal dad-hidlo data ac sy'n ei gwneud yn ofynnol i ddefnyddwyr gael mynediad at BigQuery o ystodau cyfeiriad IP hysbys.

Rydym wedi gweithredu gofynion dilysu, awdurdodi ac archwilio (AAA) ar gyfer diogelwch fel a ganlyn:

  • Dilysu: Defnyddiwyd cyfrifon defnyddwyr GCP ar gyfer ceisiadau ad hoc a chyfrifon gwasanaeth ar gyfer ceisiadau cynhyrchu.
  • Awdurdodiad: Roedd yn ofynnol i bob set ddata gael cyfrif gwasanaeth perchennog a grŵp darllen.
  • Archwilio: Fe wnaethom allforio logiau stacdriver BigQuery, a oedd yn cynnwys gwybodaeth fanwl am gyflawni ymholiad, i set ddata BigQuery er mwyn ei dadansoddi'n hawdd.

Er mwyn sicrhau bod data personol defnyddwyr Twitter yn cael ei drin yn gywir, mae'n rhaid i ni gofrestru holl setiau data BigQuery, anodi data personol, cynnal storfa briodol, a dileu (crafu) data sydd wedi'i ddileu gan ddefnyddwyr.

Edrychon ni ar Google API Atal Colli Data Cwmwl, sy'n defnyddio dysgu peiriant i ddosbarthu a golygu data sensitif, ond penderfynodd o blaid anodi'r set ddata â llaw oherwydd cywirdeb. Rydym yn bwriadu defnyddio'r API Atal Colli Data i ychwanegu at yr anodiad personol.

Yn Twitter, rydym wedi creu pedwar categori preifatrwydd ar gyfer setiau data yn BigQuery, a restrir yma yn nhrefn ddisgynnol sensitifrwydd:

  • Mae setiau data hynod sensitif ar gael yn ôl yr angen yn seiliedig ar egwyddor y fraint leiaf. Mae gan bob set ddata grŵp ar wahân o ddarllenwyr, a byddwn yn olrhain defnydd gan gyfrifon unigol.
  • Nid yw setiau data sensitifrwydd canolig (ffugenwau un ffordd sy'n defnyddio stwnsio hallt) yn cynnwys Gwybodaeth sy'n Adnabyddadwy'n Bersonol (PII) ac maent yn hygyrch i grŵp mwy o weithwyr. Mae hwn yn gydbwysedd da rhwng pryderon preifatrwydd a defnyddioldeb data. Mae hyn yn caniatáu i weithwyr gyflawni tasgau dadansoddi, megis cyfrifo nifer y defnyddwyr a ddefnyddiodd nodwedd, heb wybod pwy yw'r defnyddwyr go iawn.
  • Setiau data sensitifrwydd isel gyda'r holl wybodaeth adnabod defnyddwyr. Mae hwn yn ddull da o safbwynt preifatrwydd, ond ni ellir ei ddefnyddio ar gyfer dadansoddiad lefel defnyddiwr.
  • Mae setiau data cyhoeddus (a ryddhawyd y tu allan i Twitter) ar gael i holl weithwyr Twitter.

O ran logio, gwnaethom ddefnyddio tasgau wedi'u hamserlennu i gyfrif setiau data BigQuery a'u cofrestru gyda'r Haen Mynediad Data (DAL), storfa metadata Twitter. Bydd defnyddwyr yn anodi setiau data gyda gwybodaeth preifatrwydd a hefyd yn nodi cyfnod cadw. O ran glanhau, rydym yn gwerthuso perfformiad a chost dau opsiwn: 1. Glanhau setiau data yn GCS gan ddefnyddio offer fel Sgaldio a'u llwytho i BigQuery; 2. Defnyddio datganiadau DML BigQuery. Mae'n debygol y byddwn yn defnyddio cyfuniad o'r ddau ddull i fodloni gofynion gwahanol grwpiau a data.

Ymarferoldeb system

Gan fod BigQuery yn wasanaeth a reolir, nid oedd angen cynnwys tîm ARhPh Twitter mewn rheoli systemau neu ddyletswyddau desg. Roedd yn hawdd darparu mwy o gapasiti ar gyfer storio a chyfrifiadura. Gallem newid yr archeb slot trwy greu tocyn gyda chefnogaeth Google. Fe wnaethom nodi meysydd y gellid eu gwella, megis dyraniad slotiau hunanwasanaeth a gwelliannau dangosfwrdd ar gyfer monitro, a chyflwynwyd y ceisiadau hynny i Google.

Cost

Dangosodd ein dadansoddiad rhagarweiniol fod costau ymholiadau ar gyfer BigQuery a Presto ar yr un lefel. Fe brynon ni slotiau ar gyfer sefydlog pris i gael cost fisol sefydlog yn lle taliad ar alw fesul TB o ddata wedi'i brosesu. Roedd y penderfyniad hwn hefyd yn seiliedig ar adborth gan ddefnyddwyr nad oeddent am feddwl am gostau cyn gwneud pob cais.

Roedd storio data yn BigQuery yn golygu costau ychwanegol at gostau GCS. Mae offer fel Scalding angen setiau data yn GCS, ac i gael mynediad at BigQuery roedd yn rhaid i ni lwytho'r un setiau data i fformat BigQuery Cynhwysydd. Rydym yn gweithio ar gysylltiad sgaldio â setiau data BigQuery a fydd yn dileu'r angen i storio setiau data yn GCS a BigQuery.

Ar gyfer achosion prin lle'r oedd angen ymholiadau anfynych gan ddegau o betabytes, penderfynasom nad oedd storio setiau data yn BigQuery yn gost-effeithiol a defnyddiwyd Presto i gael mynediad uniongyrchol i setiau data yn GCS. I wneud hyn, rydym yn edrych ar Ffynonellau Data Allanol BigQuery.

Camau nesaf

Rydyn ni wedi gweld llawer o ddiddordeb yn BigQuery ers y datganiad alffa. Rydym yn ychwanegu mwy o setiau data a mwy o orchmynion at BigQuery. Rydym yn datblygu cysylltwyr ar gyfer offer dadansoddi data fel Sgaldio i ddarllen ac ysgrifennu i storfa BigQuery. Rydym yn edrych ar offer fel Looker ac Apache Zeppelin ar gyfer creu adroddiadau ansawdd menter a nodiadau gan ddefnyddio setiau data BigQuery.

Mae ein cydweithrediad â Google wedi bod yn gynhyrchiol iawn ac rydym yn falch o barhau a datblygu'r bartneriaeth hon. Buom yn gweithio gyda Google i weithredu ein rhai ein hunain Traciwr Mater Partneri anfon ymholiadau yn uniongyrchol i Google. Mae rhai ohonynt, fel y llwythwr Parquet BigQuery, eisoes wedi'u gweithredu gan Google.

Dyma rai o'n ceisiadau nodwedd blaenoriaeth uchel ar gyfer Google:

  • Offer ar gyfer derbyn data cyfleus a chefnogaeth ar gyfer fformat LZO-Thrift.
  • Segmentu fesul awr
  • Gwelliannau rheoli mynediad fel caniatadau lefel tabl, rhes a cholofn.
  • BigQuery Ffynonellau Data Allanol gydag integreiddio Hive Metastore a chefnogaeth ar gyfer y fformat LZO-Thrift.
  • Integreiddiad catalog data gwell yn rhyngwyneb defnyddiwr BigQuery
  • Hunanwasanaeth ar gyfer dyrannu slotiau a monitro.

Casgliad

Mae democrateiddio dadansoddeg data, delweddu, a dysgu peirianyddol mewn ffordd ddiogel yn brif flaenoriaeth i dîm y Llwyfan Data. Fe wnaethom nodi Google BigQuery a Data Studio fel offer a allai helpu i gyflawni'r nod hwn, a rhyddhau BigQuery Alpha ledled y cwmni y llynedd.

Gwelsom fod ymholiadau yn BigQuery yn syml ac yn effeithlon. Fe ddefnyddion ni offer Google i amlyncu a thrawsnewid data ar gyfer piblinellau syml, ond ar gyfer piblinellau cymhleth roedd yn rhaid i ni adeiladu ein fframwaith Airflow ein hunain. Yn y gofod rheoli data, mae gwasanaethau BigQuery ar gyfer dilysu, awdurdodi ac archwilio yn diwallu ein hanghenion. Er mwyn rheoli metadata a chynnal preifatrwydd, roedd angen mwy o hyblygrwydd arnom ac roedd yn rhaid i ni adeiladu ein systemau ein hunain. Roedd BigQuery, gan ei fod yn wasanaeth a reolir, yn hawdd ei ddefnyddio. Roedd costau ymholiadau yn debyg i offer presennol. Mae storio data yn BigQuery yn golygu costau yn ogystal â chostau GCS.

Ar y cyfan, mae BigQuery yn gweithio'n dda ar gyfer dadansoddiad SQL cyffredinol. Rydym yn gweld llawer o ddiddordeb yn BigQuery, ac rydym yn gweithio i fudo mwy o setiau data, dod â mwy o dimau ymlaen, ac adeiladu mwy o bibellau gyda BigQuery. Mae Twitter yn defnyddio amrywiaeth o ddata a fydd yn gofyn am gyfuniad o offer fel Sgaldio, Spark, Presto, a Druid. Rydym yn bwriadu parhau i gryfhau ein hoffer dadansoddi data a darparu arweiniad clir i’n defnyddwyr ar y ffordd orau o ddefnyddio ein cynigion.

Geiriau o ddiolchgarwch

Hoffwn ddiolch i’m cyd-awduron a’m cyd-chwaraewyr, Anju Jha a Will Pascucci, am eu cydweithrediad gwych a’u gwaith caled ar y prosiect hwn. Hoffwn hefyd ddiolch i'r peirianwyr a'r rheolwyr o sawl tîm yn Twitter a Google a'n helpodd ni a defnyddwyr BigQuery ar Twitter a roddodd adborth gwerthfawr.

Os oes gennych ddiddordeb mewn gweithio ar y problemau hyn, edrychwch ar ein swyddi gweigion yn nhîm y Llwyfan Data.

Ansawdd Data yn DWH - Cysondeb Warws Data

Ffynhonnell: hab.com

Ychwanegu sylw