Hvernig BigQuery Google lýðræðisaði gagnagreiningu. 1. hluti

Halló, Habr! Skráning í nýtt námskeiðsstraum er opið núna hjá OTUS "gagnaverkfræðingur". Í aðdraganda námskeiðsbyrjunar höfum við jafnan útbúið þýðingu á áhugaverðu efni fyrir þig.

Á hverjum degi heimsækja meira en hundrað milljónir manna Twitter til að komast að því hvað er að gerast í heiminum og ræða það. Hvert tíst og hver önnur notendaaðgerð býr til atburð sem er tiltækur fyrir innri gagnagreiningu Twitter. Hundruð starfsmanna greina og sjá þessi gögn fyrir sér og að bæta upplifun þeirra er forgangsverkefni Twitter Data Platform teymisins.

Við trúum því að notendur með fjölbreytta tæknikunnáttu ættu að geta uppgötvað gögn og haft aðgang að vel afkastamiklum SQL-tengdum greiningar- og sjónrænum verkfærum. Þetta myndi gera alveg nýjum hópi minna tæknilegra notenda, þar á meðal gagnagreiningaraðila og vörustjóra, kleift að draga innsýn úr gögnum, sem gerir þeim kleift að skilja betur og nota getu Twitter. Þetta er hvernig við lýðræðisgreinum gagnagreiningu á Twitter.

Eftir því sem verkfæri okkar og innri gagnagreiningarmöguleikar hafa batnað höfum við séð Twitter batna. Hins vegar er enn hægt að gera betur. Núverandi verkfæri eins og Scalding krefjast forritunarreynslu. SQL-undirstaða greiningarverkfæri eins og Presto og Vertica hafa afkastavandamál í mælikvarða. Við eigum líka í vandræðum með að dreifa gögnum yfir mörg kerfi án stöðugs aðgangs að þeim.

Í fyrra tilkynntum við nýtt samstarf við Google, þar sem við flytjum hluta af okkar gagnainnviði á Google Cloud Platform (GCP). Við höfum komist að þeirri niðurstöðu að Google Cloud verkfæri Big Data getur hjálpað okkur með frumkvæði okkar til að lýðræðisfæra greiningu, sjónræningu og vélanám á Twitter:

  • bigquery: Vöruhús fyrirtækjagagna með SQL vél byggt Dremel, sem er frægur fyrir hraða, einfaldleika og að takast á við vélanám.
  • Data Studio: sjónræn tól fyrir stórar gögn með Google Docs-líkum samstarfsaðgerðum.

Í þessari grein munt þú læra um reynslu okkar af þessum verkfærum: hvað við gerðum, hvað við lærðum og hvað við munum gera næst. Við munum nú einbeita okkur að lotu og gagnvirkri greiningu. Við munum ræða rauntíma greiningar í næstu grein.

Saga Twitter gagnaverslana

Áður en farið er í BigQuery er rétt að rifja stuttlega upp sögu Twitter gagnageymslu. Árið 2011 var Twitter gagnagreining gerð í Vertica og Hadoop. Við notuðum Pig til að búa til MapReduce Hadoop störf. Árið 2012 skiptum við Pig út fyrir Scalding, sem var með Scala API með ávinningi eins og getu til að búa til flóknar leiðslur og auðvelda prófun. Hins vegar, fyrir marga gagnafræðinga og vörustjóra sem voru öruggari með að vinna með SQL, var þetta frekar bratt námsferill. Í kringum 2016 byrjuðum við að nota Presto sem SQL viðmót við Hadoop gögn. Spark bauð upp á Python viðmót, sem gerir það að góðu vali fyrir tilfallandi gagnavísindi og vélanám.

Síðan 2018 höfum við notað eftirfarandi verkfæri til gagnagreiningar og sjóngerðar:

  • Hreinsun fyrir framleiðslu færibönd
  • Scalding og Spark fyrir sérstaka gagnagreiningu og vélanám
  • Vertica og Presto fyrir ad hoc og gagnvirka SQL greiningu
  • Druid fyrir lítinn gagnvirkan, rannsakandi og lágan leynd aðgang að tímaröðmælingum
  • Tableau, Zeppelin og Pivot fyrir gagnasýn

Við komumst að því að þótt þessi verkfæri bjóða upp á mjög öfluga möguleika, áttum við í erfiðleikum með að gera þessa möguleika aðgengilega breiðari markhópi á Twitter. Með því að stækka vettvang okkar með Google Cloud leggjum við áherslu á að einfalda greiningartæki okkar fyrir allt Twitter.

BigQuery Data Warehouse frá Google

Nokkur teymi á Twitter hafa þegar fellt BigQuery inn í sumar framleiðsluleiðslur sínar. Með því að nota sérfræðiþekkingu þeirra byrjuðum við að meta getu BigQuery fyrir öll Twitter notkunartilvik. Markmið okkar var að bjóða upp á BigQuery fyrir allt fyrirtækið og staðla og styðja það innan Data Platform verkfærasettsins. Þetta var erfitt af mörgum ástæðum. Við þurftum að þróa innviði til að innbyrða mikið magn af gögnum á áreiðanlegan hátt, styðja við gagnastjórnun um allt fyrirtæki, tryggja rétta aðgangsstýringu og tryggja friðhelgi viðskiptavina. Við þurftum líka að búa til kerfi fyrir úthlutun, eftirlit og endurgreiðslur til að teymi gætu notað BigQuery á áhrifaríkan hátt.

Í nóvember 2018 gáfum við út alfaútgáfu af BigQuery og Data Studio fyrir allt fyrirtækið. Við höfum boðið starfsmönnum Twitter upp á töflureikna okkar sem oftast eru notaðir með hreinsuðum persónulegum gögnum. BigQuery hefur verið notað af yfir 250 notendum frá ýmsum teymum, þar á meðal verkfræði, fjármálum og markaðssetningu. Nú síðast voru þeir að keyra um 8 þúsund beiðnir, afgreiða um 100 PB á mánuði, án þess að telja áætlaðar beiðnir með. Eftir að hafa fengið mjög jákvæð viðbrögð ákváðum við að halda áfram og bjóða upp á BigQuery sem aðalúrræði til að hafa samskipti við gögn á Twitter.

Hér er skýringarmynd á háu stigi af Google BigQuery gagnavöruhúsaarkitektúrnum okkar.

Hvernig BigQuery Google lýðræðisaði gagnagreiningu. 1. hluti
Við afritum gögn úr Hadoop klösum á staðnum yfir í Google Cloud Storage (GCS) með því að nota innra Cloud Replicator tólið. Við notum síðan Apache Airflow til að búa til leiðslur sem nota "bq_load» til að hlaða gögnum frá GCS inn í BigQuery. Við notum Presto til að spyrjast fyrir um Parket eða Thrift-LZO gagnapakka í GCS. BQ Blaster er innra Scalding tól til að hlaða HDFS Vertica og Thrift-LZO gagnapakka inn í BigQuery.

Í eftirfarandi köflum ræðum við nálgun okkar og sérfræðiþekkingu á sviðum auðveldrar notkunar, frammistöðu, gagnastjórnunar, kerfisheilsu og kostnaðar.

Auðvelt í notkun

Við komumst að því að það var auðvelt fyrir notendur að byrja með BigQuery vegna þess að það krafðist ekki uppsetningar hugbúnaðar og notendur gátu nálgast það í gegnum leiðandi vefviðmót. Hins vegar þurftu notendur að kynnast sumum eiginleikum og hugtökum GCP, þar á meðal tilföng eins og verkefni, gagnasöfn og töflur. Við höfum þróað fræðsluefni og kennsluefni til að hjálpa notendum að byrja. Með grunnskilningi áunninni fannst notendum auðvelt að vafra um gagnasett, skoða skema og töflugögn, keyra einfaldar fyrirspurnir og sjá niðurstöður í Data Studio.

Markmið okkar fyrir innslátt gagna í BigQuery var að gera hnökralausa hleðslu HDFS eða GCS gagnapakka með einum smelli kleift. Við íhuguðum Cloud Composer (stýrt af Airflow) en gátum ekki notað það vegna öryggislíkans okkar fyrir takmarkaða samnýtingu léns (meira um þetta í Gagnastjórnunarhlutanum hér að neðan). Við gerðum tilraunir með að nota Google Data Transfer Service (DTS) til að skipuleggja BigQuery vinnuálag. Þó að DTS væri fljótt að setja upp, var það ekki sveigjanlegt til að byggja upp leiðslur með ósjálfstæði. Fyrir alfa útgáfuna okkar höfum við smíðað okkar eigin Apache Airflow ramma í GCE og erum að undirbúa það til að keyra í framleiðslu og geta stutt fleiri gagnagjafa eins og Vertica.

Til að umbreyta gögnum í BigQuery búa notendur til einfaldar SQL gagnaleiðslur með því að nota áætlaðar fyrirspurnir. Fyrir flóknar fjölþrepa leiðslur með ósjálfstæði, ætlum við að nota annað hvort okkar eigin loftflæðisramma eða Cloud Composer ásamt Gagnflæði skýja.

Framleiðni

BigQuery er hannað fyrir almennar SQL fyrirspurnir sem vinna mikið magn gagna. Það er ekki ætlað fyrir lága leynd, mikla afköst fyrirspurna sem krafist er af viðskiptagagnagrunni, eða fyrir litla leynd tímaraðagreiningu sem innleidd er Apache Druid. Fyrir gagnvirkar greiningarfyrirspurnir búast notendur okkar við að svartími sé innan við eina mínútu. Við urðum að hanna notkun okkar á BigQuery til að uppfylla þessar væntingar. Til að veita notendum okkar fyrirsjáanlega frammistöðu nýttum við BigQuery virkni, sem er í boði fyrir viðskiptavini á föstu gjaldi sem gerir verkefnaeigendum kleift að panta lágmarkspláss fyrir fyrirspurnir sínar. Rifa BigQuery er eining tölvuafls sem þarf til að framkvæma SQL fyrirspurnir.

Við greindum yfir 800 fyrirspurnir sem unnu um það bil 1 TB af gögnum hver og komumst að því að meðalframkvæmdartími var 30 sekúndur. Við komumst líka að því að frammistaða er mjög háð notkun á spilakassa okkar í mismunandi verkefnum og verkefnum. Við þurftum að afmarka skýrt framleiðslu- og tilfallandi rifaforða til að viðhalda frammistöðu fyrir framleiðslutilvik og greiningu á netinu. Þetta hafði mikil áhrif á hönnun okkar fyrir pantanir fyrir rifa og stigveldi verkefna.

Við ræðum um gagnastjórnun, virkni og kostnað kerfa á næstu dögum í seinni hluta þýðingarinnar, en nú bjóðum við alla að ókeypis vefnámskeið í beinni, þar sem þú munt geta lært ítarlega um námskeiðið, auk þess að spyrja spurninga til sérfræðingsins okkar - Egor Mateshuk (Senior Data Engineer, MaximaTelecom).

Lestu meira:

Heimild: www.habr.com

Bæta við athugasemd