Kif il-BigQuery ta' Google iddemokratizza l-analiżi tad-dejta. Parti 1

Hello, Habr! Ir-reġistrazzjoni għal fluss ġdid ta' kors hija miftuħa bħalissa fl-OTUS Inġinier tad-Data. B'antiċipazzjoni tal-bidu tal-kors, tradizzjonalment ħejjejna traduzzjoni ta' materjal interessanti għalik.

Kuljum, aktar minn mitt miljun persuna jżuru Twitter biex issir taf x’qed jiġri fid-dinja u jiddiskutuh. Kull tweet u kull azzjoni oħra tal-utent jiġġenera avveniment li huwa disponibbli għall-analiżi tad-dejta interna ta 'Twitter. Mijiet ta’ impjegati janalizzaw u jivviżwalizzaw din id-dejta, u t-titjib tal-esperjenza tagħhom huwa prijorità ewlenija għat-tim tal-Pjattaforma tad-Data ta’ Twitter.

Aħna nemmnu li l-utenti b'firxa wiesgħa ta 'ħiliet tekniċi għandhom ikunu jistgħu jiskopru dejta u jkollhom aċċess għal għodod ta' analiżi u viżwalizzazzjoni bbażati fuq SQL li jaħdmu tajjeb. Dan jippermetti grupp ġdid sħiħ ta' utenti inqas tekniċi, inklużi analisti tad-dejta u maniġers tal-prodotti, biex jiġbdu l-għarfien mid-dejta, li jippermettilhom jifhmu u jużaw aħjar il-kapaċitajiet ta' Twitter. Hekk nidmokratizzaw l-analitika tad-data fuq Twitter.

Hekk kif l-għodod tagħna u l-kapaċitajiet interni tal-analiżi tad-dejta tjiebu, rajna Twitter jitjieb. Madankollu, għad hemm lok għal titjib. Għodod attwali bħal Scalding jeħtieġu esperjenza ta 'programmar. Għodod ta 'analiżi bbażati fuq SQL bħal Presto u Vertica għandhom kwistjonijiet ta' prestazzjoni fuq skala kbira. Għandna wkoll il-problema li nqassmu d-dejta fuq sistemi multipli mingħajr aċċess kostanti għaliha.

Is-sena l-oħra ħabbru kollaborazzjoni ġdida ma' Google, li fih nittrasferixxu partijiet minn tagħna infrastruttura tad-data fuq Google Cloud Platform (GCP). Aħna kkonkludejna li Google Cloud għodod Data Big jistgħu jgħinuna bl-inizjattivi tagħna biex nidmokratizzaw l-analiżi, il-viżwalizzazzjoni, u t-tagħlim tal-magni fuq Twitter:

  • BigQuery: maħżen tad-dejta tal-intrapriża b'magna SQL ibbażata dremel, li hija famuża għall-veloċità, is-sempliċità u tlaħħaq magħha tagħlim bil-magni.
  • Data Studio: Għodda ta’ viżwalizzazzjoni ta’ data kbira b’karatteristiċi ta’ kollaborazzjoni bħal Google Docs.

F'dan l-artikolu, int se titgħallem dwar l-esperjenza tagħna b'dawn l-għodod: x'għamilna, x'tgħallimna, u x'se nagħmlu wara. Issa se niffukaw fuq lott u analitika interattiva. Se niddiskutu l-analiżi f'ħin reali fl-artiklu li jmiss.

Storja ta 'Twitter Data Stores

Qabel ma tgħaddas f'BigQuery, ta' min nirrakkonta fil-qosor l-istorja tal-magazzinaġġ tad-data ta' Twitter. Fl-2011, l-analiżi tad-dejta ta' Twitter saret f'Vertica u Hadoop. Aħna użajna Pig biex noħolqu impjiegi MapReduce Hadoop. Fl-2012, aħna ssostitwijna Pig ma Scalding, li kellha Scala API b'benefiċċji bħall-abbiltà li toħloq pipelines kumplessi u faċilità ta 'ttestjar. Madankollu, għal ħafna analisti tad-dejta u maniġers tal-prodotti li kienu aktar komdi jaħdmu bl-SQL, kienet kurva ta 'tagħlim pjuttost wieqaf. Madwar l-2016, bdejna nużaw Presto bħala interface SQL għad-dejta Hadoop. Spark offriet interface Python, li jagħmilha għażla tajba għax-xjenza tad-dejta ad hoc u t-tagħlim tal-magni.

Mill-2018, użajna l-għodod li ġejjin għall-analiżi u l-viżwalizzazzjoni tad-dejta:

  • Smiting għal conveyors tal-produzzjoni
  • Scalding u Spark għal analiżi tad-dejta ad hoc u tagħlim tal-magni
  • Vertica u Presto għal analiżi SQL ad hoc u interattiva
  • Druid għal aċċess interattiv baxx, esploratorju u b'latenza baxxa għall-metriċi tas-serje tal-ħin
  • Tableau, Zeppelin u Pivot għall-viżwalizzazzjoni tad-dejta

Sibna li filwaqt li dawn l-għodod joffru kapaċitajiet qawwija ħafna, kellna diffikultà biex nagħmlu dawn il-kapaċitajiet disponibbli għal udjenza usa’ fuq Twitter. Billi nespandu l-pjattaforma tagħna ma' Google Cloud, qed niffokaw fuq is-simplifikazzjoni tal-għodod analitiċi tagħna għal Twitter kollu.

Il-BigQuery Data Warehouse ta' Google

Diversi timijiet fuq Twitter diġà inkorporaw BigQuery f'xi wħud mill-pipelines tal-produzzjoni tagħhom. Bl-użu tal-kompetenza tagħhom, bdejna nevalwaw il-kapaċitajiet ta' BigQuery għall-każijiet kollha ta' użu ta' Twitter. L-għan tagħna kien li noffru BigQuery lill-kumpanija kollha u nistandardizzawh u nappoġġjawha fi ħdan is-sett ta' għodod tal-Pjattaforma tad-Data. Dan kien diffiċli għal ħafna raġunijiet. Kellna niżviluppaw infrastruttura biex nidħlu b’mod affidabbli volumi kbar ta’ dejta, nappoġġjaw il-ġestjoni tad-dejta mal-kumpanija kollha, niżguraw kontrolli xierqa tal-aċċess, u niżguraw il-privatezza tal-klijenti. Kellna wkoll noħolqu sistemi għall-allokazzjoni tar-riżorsi, monitoraġġ, u chargebacks sabiex it-timijiet ikunu jistgħu jużaw BigQuery b'mod effettiv.

F'Novembru 2018, ħriġna rilaxx alfa mal-kumpanija kollha ta' BigQuery u Data Studio. Offrejna lill-impjegati ta' Twitter xi wħud mill-ispreadsheets tagħna l-aktar użati ta' spiss b'dejta personali mnaddfa. BigQuery intuża minn aktar minn 250 utent minn varjetà ta’ timijiet inklużi l-inġinerija, il-finanzi u l-kummerċjalizzazzjoni. Aktar reċentement, kienu qed imexxu madwar 8k talbiet, jipproċessaw madwar 100 PB kull xahar, mingħajr ma jgħoddu t-talbiet skedati. Wara li rċevejna feedback pożittiv ħafna, iddeċidejna li nimxu 'l quddiem u noffru BigQuery bħala r-riżors primarju għall-interazzjoni mad-dejta fuq Twitter.

Hawnhekk hawn dijagramma ta' livell għoli tal-arkitettura tagħna tal-maħżen tad-dejta Google BigQuery.

Kif il-BigQuery ta' Google iddemokratizza l-analiżi tad-dejta. Parti 1
Aħna nikkopjaw dejta minn clusters Hadoop fuq il-post għal Google Cloud Storage (GCS) billi tuża l-għodda interna Cloud Replicator. Imbagħad nużaw Apache Airflow biex noħolqu pipelines li jużaw "bq_load» biex tagħbija data minn GCS fi BigQuery. Aħna nużaw Presto biex nistaqsu settijiet tad-dejta Parquet jew Thrift-LZO f'GCS. BQ Blaster hija għodda interna ta' Scalding għat-tagħbija ta' settijiet ta' data HDFS Vertica u Thrift-LZO f'BigQuery.

Fis-sezzjonijiet li ġejjin, niddiskutu l-approċċ u l-kompetenza tagħna fl-oqsma tal-faċilità ta 'użu, il-prestazzjoni, il-ġestjoni tad-dejta, is-saħħa tas-sistema u l-ispiża.

Faċilità ta 'użu

Sibna li kien faċli għall-utenti li jibdew bil-BigQuery minħabba li ma kienx jeħtieġ installazzjoni ta’ softwer u l-utenti setgħu jaċċessawha permezz ta’ interface tal-web intuwittivi. Madankollu, l-utenti kellhom bżonn isiru familjari ma' xi wħud mill-karatteristiċi u l-kunċetti tal-GCP, inklużi riżorsi bħal proġetti, settijiet ta' dejta, u tabelli. Aħna żviluppajna materjali edukattivi u tutorials biex ngħinu lill-utenti jibdew. B'fehim bażiku miksub, l-utenti sabuha faċli biex jinnavigaw settijiet ta 'dejta, jaraw skema u data ta' tabella, imexxu mistoqsijiet sempliċi, u jivviżwalizzaw ir-riżultati f'Data Studio.

L-għan tagħna għad-dħul tad-dejta f'BigQuery kien li nippermettu tagħbija bla xkiel ta' settijiet tad-dejta HDFS jew GCS bi klikk waħda. Aħna kkunsidrati Kompożitur Cloud (immaniġġjati minn Airflow) iżda ma setgħux jużawha minħabba l-mudell tas-sigurtà tagħna ta’ Kondiviżjoni Ristretta tad-Dominju (aktar dwar dan fit-taqsima tal-Ġestjoni tad-Data hawn taħt). Aħna esperimentajna bl-użu tas-Servizz ta' Trasferiment tad-Data ta' Google (DTS) biex orkestrajna l-piżijiet tax-xogħol ta' BigQuery. Filwaqt li d-DTS twaqqaf malajr, ma kienx flessibbli għall-bini ta 'pipelines b'dipendenzi. Għar-rilaxx alfa tagħna, bnejna l-qafas tagħna tal-Apache Airflow f'GCE u qed inħejjuh biex jaħdem fil-produzzjoni u nkunu nistgħu nappoġġjaw aktar sorsi ta 'dejta bħal Vertica.

Biex tittrasforma d-dejta f'BigQuery, l-utenti joħolqu pipelines sempliċi tad-dejta SQL billi jużaw mistoqsijiet skedati. Għal pipelines kumplessi f'diversi stadji b'dipendenzi, qed nippjanaw li nużaw jew il-qafas Airflow tagħna stess jew Cloud Composer flimkien ma' Cloud Dataflow.

Produttività

BigQuery huwa ddisinjat għal mistoqsijiet SQL għal skopijiet ġenerali li jipproċessaw ammonti kbar ta' dejta. Mhijiex maħsuba għall-mistoqsijiet ta' latenza baxxa, ta' throughput għoli meħtieġa minn database transazzjonali, jew għall-analiżi ta' serje ta' ħin ta' latenza baxxa implimentata Apache Druid. Għal mistoqsijiet analitiċi interattivi, l-utenti tagħna jistennew ħinijiet ta’ rispons ta’ inqas minn minuta. Kellna nfasslu l-użu tagħna ta' BigQuery biex nilħqu dawn l-aspettattivi. Biex nipprovdu prestazzjoni prevedibbli għall-utenti tagħna, użajna l-funzjonalità ta' BigQuery, disponibbli għall-klijenti fuq bażi ta' tariffa fissa li tippermetti lis-sidien tal-proġetti jirriżervaw slots minimi għall-mistoqsijiet tagħhom. L-islott BigQuery hija unità ta' qawwa tal-kompjuter meħtieġa biex tesegwixxi mistoqsijiet SQL.

Aħna analizzajna aktar minn 800 mistoqsija li pproċessaw madwar 1 TB ta’ dejta kull waħda u sibna li l-ħin medju ta’ eżekuzzjoni kien ta’ 30 sekonda. Tgħallimna wkoll li l-prestazzjoni hija dipendenti ħafna fuq l-użu tas-slot tagħna fi proġetti u kompiti differenti. Kellna niddelinejaw b'mod ċar ir-riżervi tagħna ta' produzzjoni u ta' slot ad hoc biex inżommu l-prestazzjoni għal każijiet ta' użu tal-produzzjoni u analiżi onlajn. Dan influwenza ħafna d-disinn tagħna għar-riżervi ta’ slots u l-ġerarkija tal-proġetti.

Se nitkellmu dwar il-ġestjoni tad-dejta, il-funzjonalità u l-ispiża tas-sistemi fil-jiem li ġejjin fit-tieni parti tat-traduzzjoni, iżda issa nistiednu lil kulħadd biex Webinar live b'xejn, li matulu tkun tista' titgħallem fid-dettall dwar il-kors, kif ukoll tistaqsi mistoqsijiet lill-espert tagħna - Egor Mateshuk (Inġinier Anzjan tad-Data, MaximaTelecom).

Aqra iktar:

Sors: www.habr.com

Żid kumment