Hvernig BigQuery Google lýðræðisaði gagnagreiningu. 2. hluti

Halló, Habr! Skráning í nýtt námskeiðsstraum er opið núna hjá OTUS "gagnaverkfræðingur". Í aðdraganda námskeiðsins höldum við áfram að deila gagnlegu efni með þér.

Lestu fyrsta hluta

Hvernig BigQuery Google lýðræðisaði gagnagreiningu. 2. hluti

Gagnastjórnun

Sterk gagnastjórnun er kjarnaatriði í verkfræði Twitter. Þegar við innleiðum BigQuery á vettvang okkar leggjum við áherslu á gagnauppgötvun, aðgangsstýringu, öryggi og friðhelgi einkalífsins.

Til að uppgötva og hafa umsjón með gögnum höfum við stækkað gagnaaðgangslagið okkar í DAL) til að útvega verkfæri fyrir bæði gögn á staðnum og Google Cloud, sem útvegar eitt viðmót og API fyrir notendur okkar. Sem Google Gagnaskrá er að færast í átt að almennu framboði, munum við hafa það með í verkefnum okkar til að veita notendum eiginleika eins og dálkaleit.

BigQuery gerir það auðvelt að deila og fá aðgang að gögnum, en við þurftum að hafa einhverja stjórn á þessu til að koma í veg fyrir útskúfun gagna. Meðal annarra verkfæra völdum við tvær aðgerðir:

  • Deiling með léni: Beta eiginleiki til að koma í veg fyrir að notendur deili BigQuery gagnasöfnum með notendum utan Twitter.
  • VPC þjónustustýringar: Stýring sem kemur í veg fyrir útflæði gagna og krefst þess að notendur fái aðgang að BigQuery frá þekktum IP-tölusviðum.

Við höfum innleitt kröfur um auðkenningu, heimild og endurskoðun (AAA) fyrir öryggi sem hér segir:

  • Auðkenning: Við notuðum GCP notendareikninga fyrir sérstakar beiðnir og þjónustureikninga fyrir framleiðslubeiðnir.
  • Heimild: Við kröfðumst þess að hvert gagnasafn væri með eigandaþjónustureikning og lesendahóp.
  • Endurskoðun: Við fluttum BigQuery stackdriver logs, sem innihéldu nákvæmar upplýsingar um framkvæmd fyrirspurna, í BigQuery gagnasafn til að auðvelda greiningu.

Til að tryggja að persónuupplýsingar notenda Twitter séu meðhöndlaðar á réttan hátt verðum við að skrá öll BigQuery gagnasöfn, gera athugasemdir við persónuleg gögn, viðhalda réttri geymslu og eyða (skafa) gögnum sem notendum hefur verið eytt.

Við skoðuðum Google Cloud Data Loss Prevention API, sem notar vélanám til að flokka og breyta viðkvæmum gögnum, en ákvað að skrifa handvirkt á gagnasafnið vegna nákvæmni. Við ætlum að nota Data Loss Prevention API til að auka sérsniðna athugasemdina.

Á Twitter höfum við búið til fjóra persónuverndarflokka fyrir gagnasöfn í BigQuery, skráðir hér í lækkandi röð eftir næmni:

  • Mjög viðkvæm gagnasöfn eru gerð aðgengileg eftir þörfum á grundvelli meginreglunnar um minnstu forréttindi. Hvert gagnasafn hefur sérstakan hóp lesenda og við munum fylgjast með notkun einstakra reikninga.
  • Miðlungs næm gagnasöfn (einhliða dulnefni sem nota saltaða kjötkássa) innihalda ekki persónugreinanlegar upplýsingar (PII) og eru aðgengilegar stærri hópi starfsmanna. Þetta er gott jafnvægi á milli persónuverndarsjónarmiða og gagnsemi gagna. Þetta gerir starfsmönnum kleift að framkvæma greiningarverkefni, eins og að reikna út fjölda notenda sem notuðu eiginleika, án þess að vita hverjir eru raunverulegir notendur.
  • Lítið næm gagnasöfn með öllum auðkennandi upplýsingum notenda. Þetta er góð nálgun frá sjónarhóli persónuverndar, en ekki er hægt að nota það fyrir greiningu á notendastigi.
  • Opinber gagnasöfn (gefin út utan Twitter) eru í boði fyrir alla Twitter starfsmenn.

Hvað varðar skráningu, þá notuðum við tímasett verkefni til að telja upp BigQuery gagnasöfn og skrá þau með gagnaaðgangslaginu (DAL), geymsla Twitter lýsigagna. Notendur munu skýra gagnasöfn með persónuverndarupplýsingum og einnig tilgreina varðveislutíma. Hvað þrif varðar, metum við frammistöðu og kostnað tveggja valkosta: 1. Að þrífa gagnasöfn í GCS með því að nota verkfæri eins og Scalding og hlaða þeim inn í BigQuery; 2. Notkun BigQuery DML yfirlýsingar. Við munum líklega nota blöndu af báðum aðferðum til að uppfylla kröfur mismunandi hópa og gagna.

Kerfisvirkni

Vegna þess að BigQuery er stýrð þjónusta var engin þörf á að taka SRE teymi Twitter inn í kerfisstjórnun eða skrifborðsstörf. Það var auðvelt að útvega meiri getu fyrir bæði geymslu og tölvuvinnslu. Við gætum breytt plásspöntuninni með því að búa til miða með stuðningi Google. Við bentum á svæði sem mætti ​​bæta, eins og sjálfsafgreiðslutímaúthlutun og endurbætur á mælaborði fyrir eftirlit, og sendum þær beiðnir til Google.

Kostnaður

Bráðabirgðagreining okkar sýndi að fyrirspurnarkostnaður fyrir BigQuery og Presto var á sama stigi. Við keyptum spilakassa fyrir fastur verð að hafa stöðugan mánaðarkostnað í stað greiðslu að kröfu á hvert TB af unnum gögnum. Þessi ákvörðun var einnig byggð á endurgjöf frá notendum sem vildu ekki hugsa um kostnað áður en þeir gerðu hverja beiðni.

Geymsla gagna í BigQuery leiddi til kostnaðar til viðbótar við GCS kostnað. Verkfæri eins og Scalding krefjast gagnasöfn í GCS og til að fá aðgang að BigQuery þurftum við að hlaða sömu gagnasöfnum í BigQuery sniði Þétti. Við erum að vinna að Scalding tengingu við BigQuery gagnasöfn sem mun útrýma þörfinni á að geyma gagnasöfn bæði í GCS og BigQuery.

Í sjaldgæfum tilfellum sem kröfðust sjaldgæfara fyrirspurna upp á tugi petabæta, ákváðum við að geymsla gagnasöfna í BigQuery væri ekki hagkvæm og notuðum Presto til að fá beinan aðgang að gagnasöfnum í GCS. Til að gera þetta erum við að skoða BigQuery ytri gagnaheimildir.

Næstu skref

Við höfum séð mikinn áhuga á BigQuery frá útgáfu alfa. Við erum að bæta fleiri gagnasöfnum og fleiri skipunum við BigQuery. Við þróum tengi fyrir gagnagreiningartæki eins og Scalding til að lesa og skrifa í BigQuery geymslu. Við erum að skoða verkfæri eins og Looker og Apache Zeppelin til að búa til gæðaskýrslur og glósur fyrir fyrirtæki með því að nota BigQuery gagnasöfn.

Samstarf okkar við Google hefur verið mjög gefandi og við erum ánægð með að halda áfram og þróa þetta samstarf. Við unnum með Google við að innleiða okkar eigin Málflutningsmaður samstarfsaðilatil að senda fyrirspurnir beint til Google. Sum þeirra, eins og BigQuery Parket hleðslutæki, hafa þegar verið innleidd af Google.

Hér eru nokkrar af forgangseiginleikabeiðnum okkar fyrir Google:

  • Verkfæri fyrir þægilega gagnamóttöku og stuðning fyrir LZO-Thrift sniðið.
  • Klukkutíma skipting
  • Umbætur á aðgangsstýringu eins og heimildir á borð-, línu- og dálkastigi.
  • bigquery Ytri gagnaheimildir með Hive Metastore samþættingu og stuðningi við LZO-Thrift sniðið.
  • Bætt samþætting gagnaskrár í BigQuery notendaviðmótinu
  • Sjálfsafgreiðsla fyrir úthlutun afgreiðslutíma og eftirlit.

Ályktun

Lýðræði gagnagreiningar, sjóngerðar og vélanáms á öruggan hátt er forgangsverkefni Data Platform teymisins. Við greindum Google BigQuery og Data Studio sem verkfæri sem gætu hjálpað til við að ná þessu markmiði og gáfum út BigQuery Alpha fyrirtæki um allt á síðasta ári.

Okkur fannst fyrirspurnir í BigQuery vera einfaldar og skilvirkar. Við notuðum Google verkfæri til að taka inn og umbreyta gögnum fyrir einfaldar leiðslur, en fyrir flóknar leiðslur urðum við að byggja upp okkar eigin Airflow ramma. Í gagnastjórnunarrýminu uppfyllir þjónusta BigQuery fyrir auðkenningu, heimildir og endurskoðun þörfum okkar. Til að stjórna lýsigögnum og viðhalda friðhelgi einkalífsins þurftum við meiri sveigjanleika og þurftum að byggja okkar eigin kerfi. BigQuery, sem er stýrð þjónusta, var auðveld í notkun. Fyrirspurnarkostnaður var svipaður og núverandi verkfæri. Að geyma gögn í BigQuery hefur í för með sér kostnað auk GCS kostnaðar.

Á heildina litið virkar BigQuery vel fyrir almenna SQL greiningu. Við sjáum mikinn áhuga á BigQuery og við erum að vinna að því að flytja fleiri gagnasett, koma á fleiri teymum og byggja upp fleiri leiðslur með BigQuery. Twitter notar margvísleg gögn sem krefjast blöndu af verkfærum eins og Scalding, Spark, Presto og Druid. Við ætlum að halda áfram að styrkja gagnagreiningartæki okkar og veita notendum okkar skýrar leiðbeiningar um hvernig best sé að nýta tilboð okkar.

Þakklætisorð

Ég vil þakka meðhöfundum mínum og liðsfélögum, Anju Jha og Will Pascucci, fyrir frábært samstarf og mikla vinnu við þetta verkefni. Ég vil líka þakka verkfræðingum og stjórnendum frá nokkrum teymum á Twitter og Google sem hjálpuðu okkur og BigQuery notendum á Twitter sem veittu dýrmæt endurgjöf.

Ef þú hefur áhuga á að vinna að þessum vandamálum skaltu skoða okkar laus störf í Data Platform teyminu.

Gagnagæði í DWH - Samræmi í gagnavöruhúsum

Heimild: www.habr.com

Bæta við athugasemd