Sida BigQuery Google u dimuqraadiyeeyay falanqaynta xogta. Qaybta 1

Hello, Habr! Diiwaangelinta koorsada cusub waxay hadda ka furan tahay OTUS Injineerka Xogta. Iyada oo la filayo bilowga koorsada, waxaan dhaqan ahaan kuugu diyaarinay tarjumaad waxyaabo xiiso leh.

Maalin kasta, in ka badan boqol milyan oo qof ayaa booqda Twitter si ay u ogaadaan waxa adduunka ka dhacaya oo ay uga hadlaan. Tweet kasta iyo ficil kasta oo isticmaale kastaa wuxuu abuuraa dhacdo diyaar u ah falanqaynta xogta gudaha ee Twitter. Boqolaal shaqaale ah ayaa falanqeynaya oo u fiirsada xogtan, iyo wanaajinta waayo-aragnimadooda ayaa ah mudnaanta koowaad ee kooxda Platform Xogta Twitter.

Waxaan aaminsanahay in isticmaalayaasha leh xirfado farsamo oo kala duwan ay awood u yeeshaan inay ogaadaan xogta oo ay helaan qalab ku salaysan SQL oo si fiican u shaqeynaya. Tani waxay u ogolaan doontaa koox cusub oo cusub oo isticmaalayaasha farsamada yar, oo ay ku jiraan falanqaynta xogta iyo maareeyayaasha alaabada, inay ka soo saaraan fikradaha xogta, u oggolaanaya inay si fiican u fahmaan oo isticmaalaan awoodaha Twitter. Tani waa sida aan u dimuqraadiyeyno falanqaynta xogta ee Twitter.

Sida agabkayaga iyo awoodaha falanqaynta xogta gudaha ay horumareen, waxaan aragnay Twitterka oo horumaray. Si kastaba ha ahaatee, weli waxaa jira meel lagu hagaajin karo. Aaladaha hadda jira sida Scalding waxay u baahan yihiin khibrad barnaamij. Aaladaha falanqaynta SQL-ku-salaysan sida Presto iyo Vertica waxay leeyihiin arrimo waxqabad marka la eego qiyaasta. Waxaan sidoo kale haysanaa dhibaatada ah qaybinta xogta nidaamyada badan iyada oo aan si joogto ah loo helin.

Sannadkii hore ayaan ku dhawaaqnay iskaashiga cusub ee Google, taas oo aan ku wareejino qaybo ka mid ah our kaabayaasha xogta ee Google Cloud Platform (GCP). Waxaan soo gabagabeynay in Google Cloud qalabyada Macluumaad weyn waxay naga caawin kartaa hindisayaashayada dimuqraadiyaynta falanqaynta, aragga, iyo barashada mashiinka Twitter:

  • BigQuery: bakhaarka xogta ganacsiga ee matoorka SQL ku salaysan Dremel, kaas oo caan ku ah xawaaraha, fudeydka iyo la qabsiga barashada mashiinka.
  • Xogta Studio: Aalad xog-ururineed oo weyn oo leh astaamo iskaashi Google Docs-la mid ah.

Maqaalkan, waxaad ku baran doontaa waayo-aragnimadayada qalabyadan: waxa aan samaynay, waxa aan baranay, iyo waxa aan samayn doono xiga. Waxaan hadda diiradda saari doonaa dufcaddii iyo falanqaynta isdhexgalka. Waxaan kaga hadli doonaa falanqaynta waqtiga-dhabta ah maqaalka soo socda.

Taariikhda Dukaamada Xogta ee Twitter

Kahor intaadan quusin BigQuery, waxaa haboon in si kooban loo tiriyo taariikhda kaydinta xogta Twitterka. Sannadkii 2011, falanqaynta xogta Twitter-ka ayaa lagu sameeyay Vertica iyo Hadoop. Waxaan u isticmaalnay Doofaar si aan u abuurno MapReduce Hadoop jobs. 2012, waxaan ku bedelnay Doofaarka Scalding, kaas oo lahaa Scala API oo leh faa'iidooyin ay ka mid yihiin awoodda abuurista dhuumaha adag iyo sahlanaanta baaritaanka. Si kastaba ha ahaatee, qaar badan oo ka mid ah falanqeeyayaasha xogta iyo maareeyayaasha alaabta kuwaas oo aad ugu raaxaystay la shaqaynta SQL, waxay ahayd qalooc waxbarasho oo qumman. Qiyaastii 2016, waxaan bilownay isticmaalka Presto sidii interface SQL ee xogta Hadoop. Spark waxay bixisay interface Python, taas oo ka dhigaysa doorasho wanaagsan sayniska xogta ad hoc iyo barashada mashiinka.

Tan iyo 2018, waxaan u isticmaalnay agabyada soo socda falanqaynta xogta iyo muuqaalaynta:

  • Daboolida gaadiidleyda wax soo saarka
  • Daboolida iyo Spark ee falanqaynta xogta ad hoc iyo barashada mashiinka
  • Vertica iyo Presto ee ad hoc iyo falanqeynta SQL
  • Druid loogu talagalay is-dhexgal hooseeya, sahamin iyo helitaan daahitaan hooseeya ee cabbirada taxanaha wakhtiga
  • Tableau, Zeppelin iyo Pivot ee muuqaalaynta xogta

Waxaan ogaanay in iyada oo qalabkani ay bixiyaan awoodo aad u awood badan, waxaan ku dhibtoonay in aan awoodahaas u dhigno kuwo ay heli karaan daawadayaasha ballaaran ee Twitterka. Markaan ku ballaarinayno madalkeena Google Cloud, waxaan diiradda saaraynaa fududeynta agabka falanqaynta ee dhammaan Twitter-ka.

Google's BigQuery Data Warehouse

Kooxo dhowr ah oo ka tirsan Twitter ayaa horey BigQuery ugu daray qaar ka mid ah dhuumaha wax soo saarka. Isticmaalka khibradooda, waxaan bilownay inaan qiimeyno awooda BigQuery ee dhammaan kiisaska isticmaalka Twitterka. Hadafkayagu wuxuu ahaa inaan u bandhigno BigQuery shirkadda oo dhan oo aan jaangooyo oo taageerno gudaha Qalabka Platform Data. Tani waxay ku adkeyd sababo badan aawadood. Waxaan u baahanahay inaan horumarino kaabayaal si aan si kalsooni leh u galno tiro badan oo xog ah, taageerno maamulka xogta guud ee shirkadda, hubinta kontaroolada gelitaanka saxda ah, iyo xaqiijinta sirta macaamiisha. Waxaan sidoo kale ku qasbanahay inaan abuurno nidaamyo qoondaynta kheyraadka, la socodka, iyo dib u celinta si kooxuhu ay u isticmaalaan BigQuery si wax ku ool ah.

Bishii Noofambar 2018, waxaanu siidaynay sii daynta alfa-ga guud ee shirkadda ee BigQuery iyo Studio Studio. Waxaan siinay shaqaalaha Twitter-ka qaar ka mid ah xaashiyahayada inta badan la isticmaalo oo leh xog shakhsi oo nadiif ah. BigQuery waxaa isticmaalay in ka badan 250 isticmaale oo ka kala socda kooxo kala duwan oo ay ku jiraan injineernimada, maaliyadda iyo suuqgeynta. Dhawaanahan, waxa ay waday ilaa 8k codsi,iyaga oo farsamaynayey ilaa 100 PB bishii, iyada oo aan la tirinin codsiyada la qorsheeyay. Ka dib markii aan helnay jawaab celin aad u wanaagsan, waxaan go'aansanay inaan horay u socono oo aan u soo bandhigno BigQuery ilaha aasaasiga ah ee la falgalka xogta Twitter.

Waa kan jaantuska heerka sare ah ee qaab dhismeedka kaydka xogta Google BigQuery

Sida BigQuery Google u dimuqraadiyeeyay falanqaynta xogta. Qaybta 1
Waxa aanu nuqul ka koobiyay xogta ka soo ururiyay kutlada Hadoop ee dhismaha Google Cloud Storage (GCS) anagoo adeegsanayna aaladda Cloud Replicator ee gudaha. Waxaan markaa isticmaalnaa Apache Airflow si aan u abuurno dhuumaha isticmaala "bq_loadΒ» si aad xogta GCS ugu shubto BigQuery. Waxaan u isticmaalnaa Presto si aan u waydiino Parquet ama Thrift-LZO xogta GCS. BQ Blaster waa qalab wax-qabashada gudaha ah oo loogu raro HDFS Vertica iyo Thrift-LZO datasets BigQuery.

Qaybaha soo socda, waxaanu kaga hadlaynaa habkayaga iyo khibradayada dhinacyada fududaynta isticmaalka, waxqabadka, maaraynta xogta, caafimaadka nidaamka, iyo qiimaha.

Adeegsiga Fudud

Waxaan ogaanay inay u fududahay isticmaalayaashu inay ku bilaabaan BigQuery sababtoo ah uma baahna rakibaadda software isticmaalayaashuna waxay ka heli karaan shabakad dareen leh. Si kastaba ha ahaatee, isticmaalayaashu waxay u baahdeen inay yaqaanaan qaar ka mid ah sifooyinka iyo fikradaha GCP, oo ay ku jiraan ilaha sida mashaariicda, xogta, iyo miisaska. Waxaan sameynay agab waxbarasho iyo casharro si aan uga caawino isticmaalayaasha inay bilaabaan. Fahamka aasaasiga ah ee la helay, isticmaalayaashu waxay u fududaatay inay dhex maraan xogta xogta, fiiriyaan schema iyo xogta miiska, socodsiiyaan waydiimo fudud, oo ay ku sawiraan natiijooyinka Studio-ga Xogta.

Hadafkayaga gelitaanka xogta BigQuery wuxuu ahaa inaan awood u siinno rarida aan kala go 'lahayn ee HDFS ama xogta GCS hal gujis. Waanu tixgelinay Laxanka Daruuraha (waxaa maamusha Hawada) laakiin waa ay awoodi waayeen in ay isticmaalaan sababo la xiriira qaabka Amniga Wadaagista Xakameysan ee Domain (inbadan oo tan ku jirta qeybta Maareynta Xogta ee hoose). Waxaan tijaabinay adeegsiga Adeegga Wareejinta Xogta Google (DTS) si aan u abaabulno culeyska shaqada ee BigQuery. In kasta oo DTS ay si degdeg ah u dejisay, ma ahayn mid u dabacsan dhismaha dhuumaha ku tiirsanaanta. Siideynta alfa-gayada, waxaanu ka dhisnay qaabka Apache Airflow qaabka GCE waxaanan u diyaarinayna inay ku shaqeyso wax soo saarka oo aan awoodno inaan taageerno ilo xog badan sida Vertica.

Si xogta loogu beddelo BigQuery, isticmaalayaashu waxay abuuraan dhuumaha xogta SQL ee fudud iyagoo isticmaalaya weydiimo la qorsheeyay. Tuubooyinka isku dhafan ee marxaladaha badan leh ee ku tiirsanaanta, waxaan qorsheyneynaa inaan isticmaalno qaab dhismeedkayaga hawada socodka ama laxanka Cloud oo ay weheliso Daruuraha Xogta.

Wax-soo-saarka

BigQuery waxaa loogu talagalay ujeedooyinka guud ee weydiimaha SQL ee ka baaraandegaya tiro badan oo xog ah. Looguma talagalin daahitaanka hoose, su'aalaha wax soo saarka sare ee looga baahan yahay xogta macluumaadka wax kala iibsiga, ama falanqaynta wakhtiga hoose ee taxanaha ah ee la fuliyay. Apache Druid. Weydiimaha falanqaynta isdhexgalka, isticmaaleyaasheenu waxay filayaan waqtiyada jawaabta wax ka yar hal daqiiqo. Waxaan ku qasbanahay inaan naqshadeyno isticmaalkeena BigQuery si aan u daboolno waxyaabaha laga filayo. Si aan u siino wax qabad la saadaalin karo isticmaalayaashayada, waxaan ka faa'ideysanay shaqeynta BigQuery, oo ay heli karaan macaamiisha ku saleysan khidmad siman taasoo u oggolaaneysa milkiilayaasha mashruuca in ay boosaska ugu yar u xafidaan weydiimadooda. Boostada BigQuery waa unug awood xisaabeed oo loo baahan yahay si loo fuliyo weydiimaha SQL.

Waxaan falanqeynay in ka badan 800 oo su'aalood oo farsameynaya ku dhawaad ​​1 TB oo xog ah midkiiba waxaana ogaanay in celceliska waqtiga fulinta uu ahaa 30 ilbiriqsi. Waxaan sidoo kale ogaanay in waxqabadku uu si aad ah ugu tiirsan yahay isticmaalka booskayaga mashruucyo iyo hawlo kala duwan. Waxay ahayd inaan si cad u kala saarno wax soo saarkayaga iyo kaydka booska ad hoc si aan u ilaalino waxqabadka kiisaska isticmaalka wax soo saarka iyo falanqaynta khadka tooska ah. Tani waxay si weyn u saamaysay naqshadeena boos celinta iyo kala saraynta mashruuca.

Waxaan ka hadli doonaa maareynta xogta, shaqeynta iyo qiimaha nidaamyada maalmaha soo socda qaybta labaad ee tarjumaada, laakiin hadda waxaan ku martiqaadeynaa qof kasta inuu webinar toos ah oo bilaash ah, inta lagu guda jiro kaas oo aad awoodi doonto inaad si faahfaahsan u barato koorsada, iyo sidoo kale inaad waydiiso su'aalo khabiirkeena - Egor Mateshuk ( Engineer Data Senior, MaximaTelecom).

Akhri wax dheeraad ah:

Source: www.habr.com

Add a comment