Data Studio: cov ntaub ntawv loj pom cov cuab yeej nrog Google Docs zoo li kev sib koom tes nta.
Hauv kab lus no, koj yuav kawm txog peb qhov kev paub dhau los ntawm cov cuab yeej no: peb tau ua dab tsi, peb tau kawm dab tsi, thiab peb yuav ua dab tsi ntxiv. Tam sim no peb yuav tsom mus rau batch thiab sib tham sib analytics. Peb yuav tham txog kev tshuaj xyuas lub sijhawm tiag tiag hauv tsab xov xwm tom ntej.
Keeb kwm ntawm Twitter Cov Ntaub Ntawv Khw
Ua ntej dhia mus rau hauv BigQuery, nws tsim nyog piav qhia luv luv txog keeb kwm ntawm Twitter cov ntaub ntawv khaws cia. Hauv 2011, Twitter cov ntaub ntawv tsom xam tau ua hauv Vertica thiab Hadoop. Peb siv npua los tsim MapReduce Hadoop txoj haujlwm. Xyoo 2012, peb tau hloov Pig nrog Scalding, uas muaj Scala API nrog cov txiaj ntsig xws li kev muaj peev xwm los tsim cov kav dej thiab kev sim yooj yim. Txawm li cas los xij, rau ntau tus kws tshuaj ntsuam xyuas cov ntaub ntawv thiab cov thawj coj khoom lag luam uas nyiam ua haujlwm nrog SQL, nws yog qhov kev kawm ncaj nraim. Nyob ib ncig ntawm 2016, peb pib siv Presto ua SQL interface rau Hadoop cov ntaub ntawv. Spark muaj Python interface, uas ua rau nws xaiv zoo rau ad hoc cov ntaub ntawv tshawb fawb thiab kev kawm tshuab.
Txij li xyoo 2018, peb tau siv cov cuab yeej hauv qab no rau kev txheeb xyuas cov ntaub ntawv thiab kev pom pom:
Scalding rau ntau lawm conveyors
Scalding thiab Spark rau ad hoc cov ntaub ntawv tsom xam thiab kev kawm tshuab
Vertica thiab Presto rau ad hoc thiab sib tham sib SQL tsom xam
Druid rau qis kev sib tham sib, tshawb nrhiav thiab tsis tshua muaj latency nkag mus rau lub sij hawm series metrics
Peb pom tias thaum cov cuab yeej no muaj peev xwm ua tau zoo heev, peb muaj teeb meem ua kom cov peev txheej no muaj rau cov neeg siv dav hauv Twitter. Los ntawm kev nthuav peb lub platform nrog Google Huab, peb tab tom tsom rau kev ua kom yooj yim rau peb cov cuab yeej tshuaj ntsuam xyuas rau tag nrho Twitter.
Google's BigQuery Data Warehouse
Ntau pawg ntawm Twitter twb tau koom nrog BigQuery rau hauv qee qhov ntawm lawv cov kav dej. Siv lawv cov kev txawj ntse, peb pib ntsuas BigQuery lub peev xwm rau txhua qhov kev siv Twitter. Peb lub hom phiaj yog muab BigQuery rau tag nrho lub tuam txhab thiab ua qauv thiab txhawb nqa nws hauv Data Platform toolset. Qhov no nyuaj rau ntau yam. Peb xav tau los tsim kom muaj kev tsim kho vaj tse kom ntseeg tau tias muaj ntau cov ntaub ntawv, txhawb nqa kev tswj hwm cov ntaub ntawv thoob plaws lub tuam txhab, xyuas kom muaj kev tswj xyuas kom raug, thiab ua kom cov neeg siv khoom ntiag tug. Peb kuj yuav tsum tau tsim cov txheej txheem rau kev faib cov peev txheej, saib xyuas, thiab them rov qab kom cov pab pawg tuaj yeem siv BigQuery zoo.
Thaum lub Kaum Ib Hlis 2018, peb tau tshaj tawm lub tuam txhab thoob plaws alpha tso tawm ntawm BigQuery thiab Data Studio. Peb tau muab cov neeg ua haujlwm Twitter qee yam ntawm peb cov ntawv tshaj tawm uas nquag siv nrog ntxuav cov ntaub ntawv tus kheej. BigQuery tau siv los ntawm ntau dua 250 cov neeg siv los ntawm ntau pawg xws li engineering, nyiaj txiag thiab kev lag luam. Tsis ntev los no, lawv tau khiav txog 8k qhov kev thov, ua tiav txog 100 PB ib hlis, tsis suav cov ntawv thov. Tom qab tau txais cov lus pom zoo heev, peb tau txiav txim siab mus rau pem hauv ntej thiab muab BigQuery ua qhov tseem ceeb rau kev cuam tshuam nrog cov ntaub ntawv hauv Twitter.
Nov yog daim duab qhia qib siab ntawm peb Google BigQuery cov ntaub ntawv warehouse architecture.
Peb luam cov ntaub ntawv los ntawm qhov chaw Hadoop pawg mus rau Google Cloud Storage (GCS) siv lub cuab yeej hauv Cloud Replicator. Peb mam li siv Apache Airflow los tsim cov kav dej uas siv "bq_loadΒ» thauj cov ntaub ntawv los ntawm GCS rau hauv BigQuery. Peb siv Presto los nug Parquet lossis Thrift-LZO cov ntaub ntawv hauv GCS. BQ Blaster yog ib qho cuab yeej sab hauv Scalding rau kev thauj khoom HDFS Vertica thiab Thrift-LZO datasets rau hauv BigQuery.
Hauv cov lus hauv qab no, peb tham txog peb txoj hauv kev thiab kev txawj ntse hauv thaj chaw ntawm kev yooj yim ntawm kev siv, kev ua haujlwm, kev tswj cov ntaub ntawv, kev noj qab haus huv, thiab tus nqi.
Yooj yim ntawm kev siv
Peb pom tias nws yooj yim rau cov neeg siv pib nrog BigQuery vim nws tsis xav tau kev teeb tsa software thiab cov neeg siv tuaj yeem nkag mus rau nws los ntawm lub vev xaib intuitive interface. Txawm li cas los xij, cov neeg siv yuav tsum paub txog qee qhov ntawm GCP cov yam ntxwv thiab cov ntsiab lus, suav nrog cov peev txheej xws li cov haujlwm, cov ntaub ntawv, thiab cov rooj. Peb tau tsim cov ntaub ntawv kev kawm thiab kev qhia kom pab cov neeg siv pib. Nrog rau kev nkag siab yooj yim tau txais, cov neeg siv pom nws yooj yim rau kev taw qhia cov ntaub ntawv teev, saib cov ntaub ntawv thiab cov ntaub ntawv, khiav cov lus nug yooj yim, thiab pom cov txiaj ntsig hauv Data Studio.
Peb lub hom phiaj rau cov ntaub ntawv nkag mus rau hauv BigQuery yog txhawm rau ua kom tsis muaj kev thauj khoom ntawm HDFS lossis GCS cov ntaub ntawv nrog ib nias. Peb tau txiav txim siab Huab Composer (tswj los ntawm Airflow) tab sis tsis tuaj yeem siv nws vim peb qhov Kev Txwv Kev Sib Koom Kev Ruaj Ntseg qauv (ntxiv rau qhov no hauv Cov Ntaub Ntawv Tswj ntu hauv qab). Peb tau sim nrog kev siv Google Data Transfer Service (DTS) los ua haujlwm rau BigQuery workloads. Thaum DTS tau teeb tsa sai, nws tsis yooj yim rau kev tsim cov kav dej nrog kev vam khom. Rau peb qhov kev tso tawm alpha, peb tau tsim peb tus kheej Apache Airflow lub hauv paus hauv GCE thiab tab tom npaj nws los khiav hauv kev tsim khoom thiab tuaj yeem txhawb nqa ntau cov ntaub ntawv xws li Vertica.