Maalin kasta, in ka badan boqol milyan oo qof ayaa booqda Twitter si ay u ogaadaan waxa adduunka ka dhacaya oo ay uga hadlaan. Tweet kasta iyo ficil kasta oo isticmaale kastaa wuxuu abuuraa dhacdo diyaar u ah falanqaynta xogta gudaha ee Twitter. Boqolaal shaqaale ah ayaa falanqeynaya oo u fiirsada xogtan, iyo wanaajinta waayo-aragnimadooda ayaa ah mudnaanta koowaad ee kooxda Platform Xogta Twitter.
Waxaan aaminsanahay in isticmaalayaasha leh xirfado farsamo oo kala duwan ay awood u yeeshaan inay ogaadaan xogta oo ay helaan qalab ku salaysan SQL oo si fiican u shaqeynaya. Tani waxay u ogolaan doontaa koox cusub oo cusub oo isticmaalayaasha farsamada yar, oo ay ku jiraan falanqaynta xogta iyo maareeyayaasha alaabada, inay ka soo saaraan fikradaha xogta, u oggolaanaya inay si fiican u fahmaan oo isticmaalaan awoodaha Twitter. Tani waa sida aan u dimuqraadiyeyno falanqaynta xogta ee Twitter.
Sida agabkayaga iyo awoodaha falanqaynta xogta gudaha ay horumareen, waxaan aragnay Twitterka oo horumaray. Si kastaba ha ahaatee, weli waxaa jira meel lagu hagaajin karo. Aaladaha hadda jira sida Scalding waxay u baahan yihiin khibrad barnaamij. Aaladaha falanqaynta SQL-ku-salaysan sida Presto iyo Vertica waxay leeyihiin arrimo waxqabad marka la eego qiyaasta. Waxaan sidoo kale haysanaa dhibaatada ah qaybinta xogta nidaamyada badan iyada oo aan si joogto ah loo helin.
Sannadkii hore ayaan ku dhawaaqnay iskaashiga cusub ee Google, taas oo aan ku wareejino qaybo ka mid ah our kaabayaasha xogta ee Google Cloud Platform (GCP). Waxaan soo gabagabeynay in Google Cloud qalabyada Macluumaad weyn waxay naga caawin kartaa hindisayaashayada dimuqraadiyaynta falanqaynta, aragga, iyo barashada mashiinka Twitter:
BigQuery: bakhaarka xogta ganacsiga ee matoorka SQL ku salaysan Dremel, kaas oo caan ku ah xawaaraha, fudeydka iyo la qabsiga barashada mashiinka.
Waxaan ogaanay in iyada oo qalabkani ay bixiyaan awoodo aad u awood badan, waxaan ku dhibtoonay in aan awoodahaas u dhigno kuwo ay heli karaan daawadayaasha ballaaran ee Twitterka. Markaan ku ballaarinayno madalkeena Google Cloud, waxaan diiradda saaraynaa fududeynta agabka falanqaynta ee dhammaan Twitter-ka.
Google's BigQuery Data Warehouse
Kooxo dhowr ah oo ka tirsan Twitter ayaa horey BigQuery ugu daray qaar ka mid ah dhuumaha wax soo saarka. Isticmaalka khibradooda, waxaan bilownay inaan qiimeyno awooda BigQuery ee dhammaan kiisaska isticmaalka Twitterka. Hadafkayagu wuxuu ahaa inaan u bandhigno BigQuery shirkadda oo dhan oo aan jaangooyo oo taageerno gudaha Qalabka Platform Data. Tani waxay ku adkeyd sababo badan aawadood. Waxaan u baahanahay inaan horumarino kaabayaal si aan si kalsooni leh u galno tiro badan oo xog ah, taageerno maamulka xogta guud ee shirkadda, hubinta kontaroolada gelitaanka saxda ah, iyo xaqiijinta sirta macaamiisha. Waxaan sidoo kale ku qasbanahay inaan abuurno nidaamyo qoondaynta kheyraadka, la socodka, iyo dib u celinta si kooxuhu ay u isticmaalaan BigQuery si wax ku ool ah.
Bishii Noofambar 2018, waxaanu siidaynay sii daynta alfa-ga guud ee shirkadda ee BigQuery iyo Studio Studio. Waxaan siinay shaqaalaha Twitter-ka qaar ka mid ah xaashiyahayada inta badan la isticmaalo oo leh xog shakhsi oo nadiif ah. BigQuery waxaa isticmaalay in ka badan 250 isticmaale oo ka kala socda kooxo kala duwan oo ay ku jiraan injineernimada, maaliyadda iyo suuqgeynta. Dhawaanahan, waxa ay waday ilaa 8k codsi,iyaga oo farsamaynayey ilaa 100 PB bishii, iyada oo aan la tirinin codsiyada la qorsheeyay. Ka dib markii aan helnay jawaab celin aad u wanaagsan, waxaan go'aansanay inaan horay u socono oo aan u soo bandhigno BigQuery ilaha aasaasiga ah ee la falgalka xogta Twitter.
Waa kan jaantuska heerka sare ah ee qaab dhismeedka kaydka xogta Google BigQuery
Waxa aanu nuqul ka koobiyay xogta ka soo ururiyay kutlada Hadoop ee dhismaha Google Cloud Storage (GCS) anagoo adeegsanayna aaladda Cloud Replicator ee gudaha. Waxaan markaa isticmaalnaa Apache Airflow si aan u abuurno dhuumaha isticmaala "bq_loadΒ» si aad xogta GCS ugu shubto BigQuery. Waxaan u isticmaalnaa Presto si aan u waydiino Parquet ama Thrift-LZO xogta GCS. BQ Blaster waa qalab wax-qabashada gudaha ah oo loogu raro HDFS Vertica iyo Thrift-LZO datasets BigQuery.
Waxaan ogaanay inay u fududahay isticmaalayaashu inay ku bilaabaan BigQuery sababtoo ah uma baahna rakibaadda software isticmaalayaashuna waxay ka heli karaan shabakad dareen leh. Si kastaba ha ahaatee, isticmaalayaashu waxay u baahdeen inay yaqaanaan qaar ka mid ah sifooyinka iyo fikradaha GCP, oo ay ku jiraan ilaha sida mashaariicda, xogta, iyo miisaska. Waxaan sameynay agab waxbarasho iyo casharro si aan uga caawino isticmaalayaasha inay bilaabaan. Fahamka aasaasiga ah ee la helay, isticmaalayaashu waxay u fududaatay inay dhex maraan xogta xogta, fiiriyaan schema iyo xogta miiska, socodsiiyaan waydiimo fudud, oo ay ku sawiraan natiijooyinka Studio-ga Xogta.
Hadafkayaga gelitaanka xogta BigQuery wuxuu ahaa inaan awood u siinno rarida aan kala go 'lahayn ee HDFS ama xogta GCS hal gujis. Waanu tixgelinay Laxanka Daruuraha (waxaa maamusha Hawada) laakiin waa ay awoodi waayeen in ay isticmaalaan sababo la xiriira qaabka Amniga Wadaagista Xakameysan ee Domain (inbadan oo tan ku jirta qeybta Maareynta Xogta ee hoose). Waxaan tijaabinay adeegsiga Adeegga Wareejinta Xogta Google (DTS) si aan u abaabulno culeyska shaqada ee BigQuery. In kasta oo DTS ay si degdeg ah u dejisay, ma ahayn mid u dabacsan dhismaha dhuumaha ku tiirsanaanta. Siideynta alfa-gayada, waxaanu ka dhisnay qaabka Apache Airflow qaabka GCE waxaanan u diyaarinayna inay ku shaqeyso wax soo saarka oo aan awoodno inaan taageerno ilo xog badan sida Vertica.
Si xogta loogu beddelo BigQuery, isticmaalayaashu waxay abuuraan dhuumaha xogta SQL ee fudud iyagoo isticmaalaya weydiimo la qorsheeyay. Tuubooyinka isku dhafan ee marxaladaha badan leh ee ku tiirsanaanta, waxaan qorsheyneynaa inaan isticmaalno qaab dhismeedkayaga hawada socodka ama laxanka Cloud oo ay weheliso Daruuraha Xogta.
Wax-soo-saarka
BigQuery waxaa loogu talagalay ujeedooyinka guud ee weydiimaha SQL ee ka baaraandegaya tiro badan oo xog ah. Looguma talagalin daahitaanka hoose, su'aalaha wax soo saarka sare ee looga baahan yahay xogta macluumaadka wax kala iibsiga, ama falanqaynta wakhtiga hoose ee taxanaha ah ee la fuliyay. Apache Druid. Weydiimaha falanqaynta isdhexgalka, isticmaaleyaasheenu waxay filayaan waqtiyada jawaabta wax ka yar hal daqiiqo. Waxaan ku qasbanahay inaan naqshadeyno isticmaalkeena BigQuery si aan u daboolno waxyaabaha laga filayo. Si aan u siino wax qabad la saadaalin karo isticmaalayaashayada, waxaan ka faa'ideysanay shaqeynta BigQuery, oo ay heli karaan macaamiisha ku saleysan khidmad siman taasoo u oggolaaneysa milkiilayaasha mashruuca in ay boosaska ugu yar u xafidaan weydiimadooda. Boostada BigQuery waa unug awood xisaabeed oo loo baahan yahay si loo fuliyo weydiimaha SQL.
Waxaan falanqeynay in ka badan 800 oo su'aalood oo farsameynaya ku dhawaad ββ1 TB oo xog ah midkiiba waxaana ogaanay in celceliska waqtiga fulinta uu ahaa 30 ilbiriqsi. Waxaan sidoo kale ogaanay in waxqabadku uu si aad ah ugu tiirsan yahay isticmaalka booskayaga mashruucyo iyo hawlo kala duwan. Waxay ahayd inaan si cad u kala saarno wax soo saarkayaga iyo kaydka booska ad hoc si aan u ilaalino waxqabadka kiisaska isticmaalka wax soo saarka iyo falanqaynta khadka tooska ah. Tani waxay si weyn u saamaysay naqshadeena boos celinta iyo kala saraynta mashruuca.
Waxaan ka hadli doonaa maareynta xogta, shaqeynta iyo qiimaha nidaamyada maalmaha soo socda qaybta labaad ee tarjumaada, laakiin hadda waxaan ku martiqaadeynaa qof kasta inuu webinar toos ah oo bilaash ah, inta lagu guda jiro kaas oo aad awoodi doonto inaad si faahfaahsan u barato koorsada, iyo sidoo kale inaad waydiiso su'aalo khabiirkeena - Egor Mateshuk ( Engineer Data Senior, MaximaTelecom).