Sida BigQuery Google u dimuqraadiyeeyay falanqaynta xogta. Qaybta 2

Hello, Habr! Diiwaangelinta koorsada cusub waxay hadda ka furan tahay OTUS Injineerka Xogta. Iyadoo la filaayo bilowga koorsada, waxaan sii wadeynaa inaan kula wadaagno waxyaabo faa'iido leh.

Akhriso qaybta koowaad

Sida BigQuery Google u dimuqraadiyeeyay falanqaynta xogta. Qaybta 2

Maamulka xogta

Maamulida Xogta adag waa mabda'a aasaasiga ah ee Injineerinka Twitter. Marka aan ka hirgelinno BigQuery madalkeenna, waxaan diiradda saarnaa helitaanka xogta, kontoroolka gelitaanka, amniga iyo sirta.

Si loo ogaado oo loo maamulo xogta, waxaanu ku balaadhinnay lakabka Helitaanka Xogta DAL) si loo bixiyo agabka goobta iyo xogta Google Cloud, iyadoo la siinayo hal interface iyo API isticmaalayaashayada. Sida Google Xogta Xogta waxay u socotaa helitaanka guud, waxaan ku dari doonaa mashaariicdayada si aan u siino isticmaalayaasha sifooyin sida raadinta safafka.

BigQuery waxa ay sahlaysa in la wadaago oo la galo xogta, laakiin waxa aanu u baahnay in aanu kantarool ku yeelano tan si aanu uga hortagno xog-ururinta Qalabka kale, waxaanu dooranay laba hawlood:

  • Qaybsiga domain xaddidayHabka Beta si looga hortago isticmaalayaasha inay la wadaagaan xogta BigQuery isticmaalayaasha ka baxsan Twitter.
  • Xakamaynta adeegga VPC: Xakamaynta ka hortagaysa faafinta xogta oo u baahan isticmaalayaasha inay ka galaan BigQuery kala duwanaanshaha ciwaanka IP-ga ee la yaqaan.

Waxaan hirgelinay shuruudaha xaqiijinta, oggolaanshaha, iyo xisaabinta (AAA) ee amniga sida soo socota:

  • Xaqiijinta: Waxaan u isticmaalnay akoonnada isticmaalaha GCP codsiyada ad hoc iyo xisaabaadka adeegga codsiyada wax soo saarka.
  • Oggolaanshaha: Waxaan u baahnnay xog-ururin kasta si uu u yeesho koontada adeegga mulkiilaha iyo kooxda akhristaha.
  • Hantidhawrka: Waxaanu dhoofinay diiwaanka BigQuery stackdriver, kaaso kakooban macluumaadka fulinta su'aalaha oo faahfaahsan, galinta xogta BigQuery si loo baaro.

Si loo hubiyo in isticmaalayaasha Twitter-ka xogtooda si sax ah loo maareeyay, waa in aan diiwaan-gelinaa dhammaan xog-ururinta BigQuery, dulmar xogta shaqsiga, ilaalino kaydinta saxda ah, oo aan tirtirno (xoqno) xogta ay tirtirtay isticmaalayaashu.

Waxaan eegnay Google Kahortagga Luminta Xogta Cloud API, kaas oo adeegsada barashada mashiinka si uu u kala saaro oo u tafatiro xogta xasaasiga ah, laakiin go'aansaday in uu gacanta ku caddeeyo xogta kaydka sababtoo ah saxnaanta. Waxaan qorsheyneynaa inaan isticmaalno Kahortagga Khasaaraha Xogta API si aan u kordhino sharraxaadda caadada ah.

Twitterka, waxaanu u abuurnay afar qaybood oo gaar ah oo xog-ururin ah oo ku jira BigQuery, oo halkan ku taxan siday u kala horreeyaan ee dareenka:

  • Xogta aad xasaasi u ah ayaa loo diyaariyaa iyadoo loo eegayo hadba baahida loo qabo iyadoo lagu salaynayo mabda'a mudnaanta ugu yar. Qayb kasta oo xog ah waxay leedahay koox u gaar ah oo akhristayaasha ah, waxaanan la socon doonaa isticmaalka xisaabaadka gaarka ah.
  • Xogta xasaasiga ah ee dhexdhexaadka ah (magacayada hal-jidka ah ee isticmaalaya xashiish cusbo leh) kuma jiraan Macluumaadka Shakhsi ahaan La Aqoonsan Karo (PII) oo ay heli karaan koox shaqaale ah oo badan. Tani waa dheelitirnaan wanaagsan oo u dhexeeya walaacyada sirta ah iyo utility xogta. Tani waxay u ogolaaneysaa shaqaalaha inay qabtaan hawlaha falanqaynta, sida xisaabinta tirada isticmaalayaasha isticmaalay sifo, iyada oo aan la garanayn cidda isticmaala dhabta ah.
  • Xog ururin xasaasi ah oo hooseeya oo leh dhammaan macluumaadka aqoonsiga isticmaalaha. Tani waa hab wanaagsan marka laga eego dhinaca gaarka ah, laakiin looma isticmaali karo falanqaynta heerka isticmaale.
  • Xogta guud (oo lagu sii daayay meel ka baxsan Twitter-ka) ayaa diyaar u ah dhammaan shaqaalaha Twitter-ka.

Xagga galitaanka, waxaanu isticmaalnay hawlo qorshaysan si aanu u tiro koobno ​​xog-ururinta BigQuery oo aanu ku diiwaangelinno lakabka Helitaanka Xogta (DAL), Keydka xogta badan ee Twitter. Isticmaalayaashu waxay sharxi doonaan kaydka xogta macluumaadka gaarka ah waxayna sidoo kale qeexi doonaan muddada haynta. Dhanka nadiifinta, waxaan qiimeyneynaa waxqabadka iyo qiimaha laba ikhtiyaar: 1. Nadiifinta kaydka xogta ee GCS iyada oo la isticmaalayo qalabyada sida Scalding iyo ku shubista BigQuery; 2. Isticmaalka bayaanada BigQuery DML Waxay u badan tahay inaan isticmaalno isku darka labada hab si aan u buuxinno shuruudaha kooxaha iyo xogta kala duwan.

Shaqada nidaamka

Sababtoo ah BigQuery waa adeeg la maareeyey, looma baahnayn in kooxda SRE ee Twitter laga qaybgeliyo maamulka nidaamka ama waajibaadka miiska. Way fududahay in la bixiyo awood dheeraad ah kaydinta iyo xisaabinta labadaba. Waxaan bedeli karnaa boos qabsiga annagoo samaynayna tigidh taageero Google ah. Waxaan aqoonsannay meelaha la horumarin karo, sida qoondaynta booska is-adeegga iyo hagaajinta dashboardka ee la socodka, waxaana u gudbinay codsiyadaas Google.

qiimaha

Falanqayntayada hordhaca ah waxay muujisay in kharashka waydiinta ee BigQuery iyo Presto ay isku heer ahaayeen. Waxaan u soo iibinnay boosaska go'an qiimaha si aad u hesho kharash joogto ah bishii halkii aad bixin lahayd marka la dalbado TB kasta ee xogta la farsameeyay. Go'aankani wuxuu sidoo kale ku salaysan yahay jawaab celinta isticmaalayaasha kuwaas oo aan rabin inay ka fekeraan kharashyada ka hor intaysan samayn codsi kasta.

Kaydinta xogta BigQuery waxay keentay kharashyo ka sokow kharashaadka GCS. Aaladaha sida Scalding waxay u baahan yihiin xogta GCS, iyo si aan u galno BigQuery waxaan ku qasbanahay inaan ku shubno isla xogta qaabka BigQuery Capacitor. Waxaan ka shaqeyneynaa isku xirka isku xirka BigQuery datasets kaas oo meesha ka saari doona baahida kaydinta xogta gudaha GCS iyo BigQuery labadaba.

Kiisaska dhifka ah ee u baahan waydiimo aan badnayn oo tobanaan petabytes ah, waxaanu go'aansanay in kaydinta xogta ee BigQuery aanay ahayn mid kharash-ku-ool ah oo aan isticmaalnay Presto si ay si toos ah u gasho xogta GCS. Si tan loo sameeyo, waxaan eegaynaa Ilaha Xogta Dibadda ee BigQuery.

Tallaabooyinka xiga

Waxaan aragnay xiiso badan oo BigQuery ah tan iyo markii alfa la sii daayay. Waxaan ku daraynaa kayd xog badan iyo amaro dheeraad ah BigQuery. Waxaan horumarinaa isku xirayaasha qalabka falanqaynta xogta sida Scalding si loo akhriyo oo loo qoro kaydinta BigQuery. Waxaan eegeynaa qalabka sida Looker iyo Apache Zeppelin si ay u abuuraan warbixinnada tayada ganacsiga iyo qoraalada iyadoo la isticmaalayo xogta BigQuery.

Wadashaqeyntayada Google waxay ahayd mid wax soo saar leh, waxaanan ku faraxsanahay inaan sii wadno oo aan horumarino iskaashigan. Waxaan la shaqeynay Google si aan u hirgelino annaga Raadraaca Arrinta lammaanahasi toos ah loogu diro su'aalaha Google. Qaar ka mid ah, sida BigQuery Parquet loader, waxaa horay u hirgeliyay Google.

Waa kuwan qaar ka mid ah codsiyada sifada mudnaanta sare leh ee Google:

  • Aaladaha loogu talagalay soo dhawaynta habboon ee xogta iyo taageerada qaabka LZO-Thrift.
  • Qaybinta saacadle ah
  • Helitaanka hagaajinta xakamaynta sida miiska-, saf-, iyo oggolaanshaha heerka- column
  • BigQuery Ilaha Xogta Dibadda oo leh is dhexgalka Hive Metastore iyo taageerada qaabka LZO-Thrift.
  • Lahaanshaha xogta la hagaajiyay ee isku xidhka adeegsadaha BigQuery
  • Is-adeegga qoondaynta booska iyo la socodka.

gunaanad

Dimuqraadiyeynta falanqaynta xogta, sawirida, iyo barashada mashiinka si sugan ayaa ah mudnaanta ugu sareysa kooxda Platform Data. Waxaan u aqoonsanay Google BigQuery iyo Data Studio inay yihiin qalab gacan ka geysan kara xaqiijinta hadafkan, waxaana sii daayay shirkadda BigQuery Alpha sanadkii hore.

Waxaan ka helnay weydiimaha BigQuery inay yihiin kuwo fudud oo hufan. Waxaan u isticmaalnay aaladaha Google si aan u galno oo aan u bedelno xogta dhuumaha fudud, laakiin dhuumaha adag waxaan ku qasbanahay in aan dhisno qaab-dhismeedkayaga socodka hawada. Meesha maamulka xogta, adeegyada BigQuery ee xaqiijinta, oggolaanshaha, iyo xisaabinta waxay buuxiyaan baahiyadeena. Si aan u maareyno xogta badan oo aan u ilaalino sirta, waxaan u baahnay dabacsanaan badan waxaanan ku qasbanahay inaan dhisno habab noo gaar ah. BigQuery, isagoo ah adeeg la maamulay, way fududahay in la isticmaalo. Kharashyada weydiintu waxay la mid ahaayeen qalabyada jira. Kaydinta xogta BigQuery waxay keenaysaa kharash marka lagu daro kharashyada GCS.

Guud ahaan, BigQuery waxay si fiican ugu shaqeysaa falanqaynta guud ee SQL. Waxaan aragnaa xiiso badan oo BigQuery ah, waxaanan ka shaqaynaynaa in aan u haajiro qaybo badan oo xog ah, keenno kooxo badan, oo aanu ku dhisno dhuumo badan BigQuery. Twitter waxay isticmaashaa xogo kala duwan oo u baahan doona qalabyo isku dhafan sida Scalding, Spark, Presto, iyo Druid. Waxaan dooneynaa inaan sii wadno xoojinta qalabkayaga falanqaynta xogta oo aan siino hagitaan cad isticmaalayaashayada sida ugu wanaagsan ee loo isticmaalo wax-soo-saarkayaga.

Erayada mahadnaqa

Waxaan jeclaan lahaa inaan u mahadceliyo qorayaashayda iyo saaxiibadeyda, Anju Jha iyo Will Pascucci, wadashaqeyntooda weyn iyo shaqada adag ee mashruucan. Waxaan sidoo kale jeclaan lahaa inaan u mahadceliyo injineerada iyo maareeyayaasha kooxo dhowr ah oo ka socda Twitter iyo Google oo naga caawiyay iyo isticmaalayaasha BigQuery ee Twitter oo bixiyay jawaab celin qiimo leh.

Haddii aad xiisaynayso inaad ka shaqeyso dhibaatooyinkan, hubi annaga boosaska banaan kooxda Platform Data.

Tayada Xogta ee DWH - Joogtaanshaha Kaydka Xogta

Source: www.habr.com

Add a comment