Yuav ua li cas Google's BigQuery democratized cov ntaub ntawv tsom xam. Ntu 1

Nyob zoo, Habr! Kev tso npe kawm rau cov chav kawm tshiab tau qhib tam sim no ntawm OTUS Data Engineer. Nyob rau hauv kev cia siab ntawm qhov pib ntawm chav kawm, peb ib txwm npaj ib qho kev txhais cov ntaub ntawv nthuav qhia rau koj.

Txhua txhua hnub, ntau tshaj li ib puas lab tus neeg tuaj xyuas Twitter kom paub tias muaj dab tsi tshwm sim hauv ntiaj teb thiab sib tham txog nws. Txhua tweet thiab txhua tus neeg siv ua haujlwm tsim ib qho kev tshwm sim uas muaj rau Twitter cov ntaub ntawv hauv kev tshuaj xyuas. Ntau pua tus neeg ua haujlwm txheeb xyuas thiab pom cov ntaub ntawv no, thiab txhim kho lawv cov kev paub dhau los yog qhov tseem ceeb tshaj plaws rau pab pawg Twitter Data Platform.

Peb ntseeg hais tias cov neeg siv uas muaj ntau yam kev txawj ntse yuav tsum muaj peev xwm nrhiav tau cov ntaub ntawv thiab muaj kev nkag tau mus rau SQL-raws li kev tsom xam thiab cov cuab yeej pom kev zoo. Qhov no yuav tso cai rau tag nrho cov pab pawg tshiab ntawm cov neeg siv khoom tsawg, suav nrog cov kws tshuaj ntsuam xyuas cov ntaub ntawv thiab cov thawj tswj hwm cov khoom lag luam, kom tshem tawm cov kev nkag siab los ntawm cov ntaub ntawv, tso cai rau lawv nkag siab zoo dua thiab siv Twitter lub peev xwm. Qhov no yog li cas peb democratize cov ntaub ntawv analytics ntawm Twitter.

Raws li peb cov cuab yeej thiab cov peev txheej hauv cov ntaub ntawv txheeb xyuas tau txhim kho, peb tau pom Twitter txhim kho. Txawm li cas los xij, tseem muaj chaw rau kev txhim kho. Cov cuab yeej tam sim no zoo li Scalding xav tau kev paub txog kev ua haujlwm. SQL-based tsom xam cov cuab yeej xws li Presto thiab Vertica muaj teeb meem kev ua haujlwm ntawm qhov ntsuas. Peb kuj muaj teeb meem ntawm kev faib cov ntaub ntawv hla ntau lub tshuab yam tsis tas yuav nkag mus rau nws.

Xyoo tas los peb tshaj tawm tshiab kev koom tes nrog Google, nyob rau hauv uas peb hloov qhov chaw ntawm peb cov ntaub ntawv infrastructure ntawm Google Cloud Platform (GCP). Peb tau txiav txim siab tias Google Cloud cov cuab yeej Cov ntaub ntawv loj tuaj yeem pab peb nrog peb cov kev pib ua rau kev ywj pheej analytics, kev pom, thiab kev kawm tshuab hauv Twitter:

  • LojQuery: Enterprise cov ntaub ntawv warehouse nrog SQL cav raws li Dremel, uas yog nto moo rau nws ceev, simplicity thiab copes nrog tshuab kev kawm.
  • Data Studio: cov ntaub ntawv loj pom cov cuab yeej nrog Google Docs zoo li kev sib koom tes nta.

Hauv kab lus no, koj yuav kawm txog peb qhov kev paub dhau los ntawm cov cuab yeej no: peb tau ua dab tsi, peb tau kawm dab tsi, thiab peb yuav ua dab tsi ntxiv. Tam sim no peb yuav tsom mus rau batch thiab sib tham sib analytics. Peb yuav tham txog kev tshuaj xyuas lub sijhawm tiag tiag hauv tsab xov xwm tom ntej.

Keeb kwm ntawm Twitter Cov Ntaub Ntawv Khw

Ua ntej dhia mus rau hauv BigQuery, nws tsim nyog piav qhia luv luv txog keeb kwm ntawm Twitter cov ntaub ntawv khaws cia. Hauv 2011, Twitter cov ntaub ntawv tsom xam tau ua hauv Vertica thiab Hadoop. Peb siv npua los tsim MapReduce Hadoop txoj haujlwm. Xyoo 2012, peb tau hloov Pig nrog Scalding, uas muaj Scala API nrog cov txiaj ntsig xws li kev muaj peev xwm los tsim cov kav dej thiab kev sim yooj yim. Txawm li cas los xij, rau ntau tus kws tshuaj ntsuam xyuas cov ntaub ntawv thiab cov thawj coj khoom lag luam uas nyiam ua haujlwm nrog SQL, nws yog qhov kev kawm ncaj nraim. Nyob ib ncig ntawm 2016, peb pib siv Presto ua SQL interface rau Hadoop cov ntaub ntawv. Spark muaj Python interface, uas ua rau nws xaiv zoo rau ad hoc cov ntaub ntawv tshawb fawb thiab kev kawm tshuab.

Txij li xyoo 2018, peb tau siv cov cuab yeej hauv qab no rau kev txheeb xyuas cov ntaub ntawv thiab kev pom pom:

  • Scalding rau ntau lawm conveyors
  • Scalding thiab Spark rau ad hoc cov ntaub ntawv tsom xam thiab kev kawm tshuab
  • Vertica thiab Presto rau ad hoc thiab sib tham sib SQL tsom xam
  • Druid rau qis kev sib tham sib, tshawb nrhiav thiab tsis tshua muaj latency nkag mus rau lub sij hawm series metrics
  • Tableau, Zeppelin thiab Pivot rau kev pom cov ntaub ntawv

Peb pom tias thaum cov cuab yeej no muaj peev xwm ua tau zoo heev, peb muaj teeb meem ua kom cov peev txheej no muaj rau cov neeg siv dav hauv Twitter. Los ntawm kev nthuav peb lub platform nrog Google Huab, peb tab tom tsom rau kev ua kom yooj yim rau peb cov cuab yeej tshuaj ntsuam xyuas rau tag nrho Twitter.

Google's BigQuery Data Warehouse

Ntau pawg ntawm Twitter twb tau koom nrog BigQuery rau hauv qee qhov ntawm lawv cov kav dej. Siv lawv cov kev txawj ntse, peb pib ntsuas BigQuery lub peev xwm rau txhua qhov kev siv Twitter. Peb lub hom phiaj yog muab BigQuery rau tag nrho lub tuam txhab thiab ua qauv thiab txhawb nqa nws hauv Data Platform toolset. Qhov no nyuaj rau ntau yam. Peb xav tau los tsim kom muaj kev tsim kho vaj tse kom ntseeg tau tias muaj ntau cov ntaub ntawv, txhawb nqa kev tswj hwm cov ntaub ntawv thoob plaws lub tuam txhab, xyuas kom muaj kev tswj xyuas kom raug, thiab ua kom cov neeg siv khoom ntiag tug. Peb kuj yuav tsum tau tsim cov txheej txheem rau kev faib cov peev txheej, saib xyuas, thiab them rov qab kom cov pab pawg tuaj yeem siv BigQuery zoo.

Thaum lub Kaum Ib Hlis 2018, peb tau tshaj tawm lub tuam txhab thoob plaws alpha tso tawm ntawm BigQuery thiab Data Studio. Peb tau muab cov neeg ua haujlwm Twitter qee yam ntawm peb cov ntawv tshaj tawm uas nquag siv nrog ntxuav cov ntaub ntawv tus kheej. BigQuery tau siv los ntawm ntau dua 250 cov neeg siv los ntawm ntau pawg xws li engineering, nyiaj txiag thiab kev lag luam. Tsis ntev los no, lawv tau khiav txog 8k qhov kev thov, ua tiav txog 100 PB ib hlis, tsis suav cov ntawv thov. Tom qab tau txais cov lus pom zoo heev, peb tau txiav txim siab mus rau pem hauv ntej thiab muab BigQuery ua qhov tseem ceeb rau kev cuam tshuam nrog cov ntaub ntawv hauv Twitter.

Nov yog daim duab qhia qib siab ntawm peb Google BigQuery cov ntaub ntawv warehouse architecture.

Yuav ua li cas Google's BigQuery democratized cov ntaub ntawv tsom xam. Ntu 1
Peb luam cov ntaub ntawv los ntawm qhov chaw Hadoop pawg mus rau Google Cloud Storage (GCS) siv lub cuab yeej hauv Cloud Replicator. Peb mam li siv Apache Airflow los tsim cov kav dej uas siv "bq_loadΒ» thauj cov ntaub ntawv los ntawm GCS rau hauv BigQuery. Peb siv Presto los nug Parquet lossis Thrift-LZO cov ntaub ntawv hauv GCS. BQ Blaster yog ib qho cuab yeej sab hauv Scalding rau kev thauj khoom HDFS Vertica thiab Thrift-LZO datasets rau hauv BigQuery.

Hauv cov lus hauv qab no, peb tham txog peb txoj hauv kev thiab kev txawj ntse hauv thaj chaw ntawm kev yooj yim ntawm kev siv, kev ua haujlwm, kev tswj cov ntaub ntawv, kev noj qab haus huv, thiab tus nqi.

Yooj yim ntawm kev siv

Peb pom tias nws yooj yim rau cov neeg siv pib nrog BigQuery vim nws tsis xav tau kev teeb tsa software thiab cov neeg siv tuaj yeem nkag mus rau nws los ntawm lub vev xaib intuitive interface. Txawm li cas los xij, cov neeg siv yuav tsum paub txog qee qhov ntawm GCP cov yam ntxwv thiab cov ntsiab lus, suav nrog cov peev txheej xws li cov haujlwm, cov ntaub ntawv, thiab cov rooj. Peb tau tsim cov ntaub ntawv kev kawm thiab kev qhia kom pab cov neeg siv pib. Nrog rau kev nkag siab yooj yim tau txais, cov neeg siv pom nws yooj yim rau kev taw qhia cov ntaub ntawv teev, saib cov ntaub ntawv thiab cov ntaub ntawv, khiav cov lus nug yooj yim, thiab pom cov txiaj ntsig hauv Data Studio.

Peb lub hom phiaj rau cov ntaub ntawv nkag mus rau hauv BigQuery yog txhawm rau ua kom tsis muaj kev thauj khoom ntawm HDFS lossis GCS cov ntaub ntawv nrog ib nias. Peb tau txiav txim siab Huab Composer (tswj los ntawm Airflow) tab sis tsis tuaj yeem siv nws vim peb qhov Kev Txwv Kev Sib Koom Kev Ruaj Ntseg qauv (ntxiv rau qhov no hauv Cov Ntaub Ntawv Tswj ntu hauv qab). Peb tau sim nrog kev siv Google Data Transfer Service (DTS) los ua haujlwm rau BigQuery workloads. Thaum DTS tau teeb tsa sai, nws tsis yooj yim rau kev tsim cov kav dej nrog kev vam khom. Rau peb qhov kev tso tawm alpha, peb tau tsim peb tus kheej Apache Airflow lub hauv paus hauv GCE thiab tab tom npaj nws los khiav hauv kev tsim khoom thiab tuaj yeem txhawb nqa ntau cov ntaub ntawv xws li Vertica.

Txhawm rau hloov cov ntaub ntawv mus rau hauv BigQuery, cov neeg siv tsim cov ntaub ntawv SQL yooj yim siv cov lus nug. Rau cov kav dej ntau theem nrog kev vam khom, peb npaj yuav siv peb tus kheej Airflow moj khaum lossis Cloud Composer nrog rau Huab Dataflow.

Tsim tau

BigQuery yog tsim los rau lub hom phiaj dav dav SQL queries uas ua cov ntaub ntawv loj. Nws tsis yog npaj rau qhov qis latency, siab dhau cov lus nug uas xav tau los ntawm kev lag luam database, lossis rau lub sijhawm qis latency series tsom xam siv. Apache Druid. Rau kev sib tham sib analytics queries, peb cov neeg siv yuav tsum teb lub sij hawm tsawg tshaj li ib feeb. Peb yuav tsum tsim peb txoj kev siv BigQuery kom ua tau raws li cov kev cia siab no. Txhawm rau muab qhov kev ua tau zoo tshaj plaws rau peb cov neeg siv, peb tau siv BigQuery kev ua haujlwm, muaj rau cov neeg siv khoom raws tus nqi ncaj ncees uas tso cai rau cov tswv haujlwm tshwj xeeb rau qhov tsawg kawg nkaus rau lawv cov lus nug. Lub qhov BigQuery yog ib chav tsev ntawm kev suav lub zog xav tau los ua cov lus nug SQL.

Peb tau txheeb xyuas ntau dua 800 cov lus nug ua haujlwm kwv yees li 1 TB ntawm cov ntaub ntawv txhua thiab pom tias lub sijhawm ua haujlwm nruab nrab yog 30 vib nas this. Peb kuj tau kawm tias kev ua tau zoo yog nyob ntawm kev siv peb lub qhov hauv ntau qhov haujlwm thiab cov haujlwm. Peb yuav tsum tau qhia meej meej txog peb qhov kev tsim khoom thiab ad hoc qhov tshwj tseg kom muaj kev ua tau zoo rau kev siv cov khoom siv thiab kev tshuaj xyuas online. Qhov no cuam tshuam rau peb tus qauv tsim rau qhov chaw tshwj xeeb thiab qhov project hierarchy.

Peb yuav tham txog kev tswj cov ntaub ntawv, kev ua haujlwm thiab tus nqi ntawm cov tshuab nyob rau hnub tom ntej hauv ntu thib ob ntawm kev txhais lus, tab sis tam sim no peb caw txhua tus tuaj free nyob webinar, thaum lub sijhawm koj tuaj yeem kawm paub meej txog cov chav kawm, nrog rau nug cov lus nug rau peb cov kws tshaj lij - Egor Mateshuk (Senior Data Engineer, MaximaTelecom).

Nyeem ntxiv:

Tau qhov twg los: www.hab.com

Ntxiv ib saib