Ki jan BigQuery Google la demokratize analiz done yo. Pati 1

Bonjou, Habr! Enskripsyon pou yon nouvo kou yo louvri kounye a nan OTUS Enjenyè Done. Nan patisipe nan kòmansman an nan kou a, nou te tradisyonèlman prepare yon tradiksyon nan materyèl enteresan pou ou.

Chak jou, plis pase yon santèn milyon moun vizite Twitter pou chèche konnen sa k ap pase nan mond lan epi diskite sou li. Chak tweet ak tout lòt aksyon itilizatè jenere yon evènman ki disponib pou analiz done entèn Twitter la. Plizyè santèn anplwaye analize ak vizyalize done sa yo, epi amelyore eksperyans yo se yon pi gwo priyorite pou ekip Twitter Data Platform.

Nou kwè ke itilizatè ki gen yon pakèt konpetans teknik yo ta dwe kapab dekouvri done epi yo gen aksè a analiz ki baze sou SQL ki byen pèfòmans ak zouti vizyalizasyon. Sa a ta pèmèt yon tout nouvo gwoup itilizatè mwens teknik, ki gen ladan analis done ak manadjè pwodwi, yo ekstrè apèsi nan done, sa ki pèmèt yo pi byen konprann ak itilize kapasite Twitter a. Men ki jan nou demokratize analiz done sou Twitter.

Kòm zouti nou yo ak kapasite analiz done entèn yo te amelyore, nou te wè Twitter amelyore. Sepandan, toujou gen plas pou amelyorasyon. Zouti aktyèl tankou Scalding mande eksperyans pwogramasyon. Zouti analiz ki baze sou SQL tankou Presto ak Vertica gen pwoblèm pèfòmans nan echèl. Nou gen pwoblèm tou pou distribye done atravè plizyè sistèm san aksè konstan a li.

Ane pase nou te anonse nouvo kolaborasyon ak Google, nan ki nou transfere pati nan nou an enfrastrikti done sou Google Cloud Platform (GCP). Nou te konkli ke Google Cloud zouti Big Done ka ede nou ak inisyativ nou yo pou demokratize analiz, vizyalizasyon, ak aprantisaj machin sou Twitter:

  • bigquery: antrepwiz done depo ak motè SQL baze Dremel, ki se pi popilè pou vitès li yo, senplisite ak fè fas ak aprantisaj machin.
  • Done Studio: gwo zouti vizyalizasyon done ak karakteristik kolaborasyon Google Docs.

Nan atik sa a, ou pral aprann sou eksperyans nou ak zouti sa yo: sa nou te fè, sa nou te aprann, ak sa nou pral fè apre. Nou pral kounye a konsantre sou pakèt ak analiz entèaktif. Nou pral diskite sou analiz an tan reyèl nan pwochen atik la.

Istwa nan magazen done Twitter

Anvan ou plonje nan BigQuery, li vo rakonte yon ti tan istwa a nan depo done Twitter. Nan 2011, analiz done Twitter yo te fèt nan Vertica ak Hadoop. Nou itilize Pig pou kreye travay MapReduce Hadoop. An 2012, nou ranplase Pig ak Scalding, ki te gen yon API Scala ak benefis tankou kapasite pou kreye tiyo konplèks ak fasilite tès yo. Sepandan, pou anpil analis done ak manadjè pwodwi ki te pi alèz pou travay ak SQL, se te yon koub aprantisaj jistis apik. Anviwon 2016, nou te kòmanse itilize Presto kòm yon koòdone SQL pou done Hadoop. Spark ofri yon koòdone Python, ki fè li yon bon chwa pou syans done ad hoc ak aprantisaj machin.

Depi 2018, nou te itilize zouti sa yo pou analiz done ak vizyalizasyon:

  • Scalding pou pwodiksyon transporteurs
  • Scalding ak Spark pou analiz done ad hoc ak aprantisaj machin
  • Vertica ak Presto pou analiz ad hoc ak entèaktif SQL
  • Druid pou aksè ki ba entèaktif, eksplorasyon ak latansi ba nan mezi seri tan
  • Tableau, Zeppelin ak Pivot pou vizyalizasyon done yo

Nou te jwenn ke pandan ke zouti sa yo ofri kapasite trè pwisan, nou te gen difikilte pou fè kapasite sa yo disponib nan yon odyans pi laj sou Twitter. Lè nou agrandi platfòm nou an ak Google Cloud, nou ap konsantre sou senplifye zouti analiz nou yo pou tout Twitter.

Google la BigQuery Data Warehouse

Plizyè ekip nan Twitter te deja enkòpore BigQuery nan kèk nan tiyo pwodiksyon yo. Sèvi ak ekspètiz yo, nou te kòmanse evalye kapasite BigQuery pou tout ka itilize Twitter. Objektif nou se te ofri BigQuery bay tout konpayi an epi estandadize ak sipòte li nan seri zouti Data Platform. Sa a te difisil pou plizyè rezon. Nou te bezwen devlope yon enfrastrikti pou enjere gwo volim done, sipòte jesyon done nan tout konpayi an, asire bon kontwòl aksè, epi asire konfidansyalite kliyan yo. Nou te oblije tou kreye sistèm pou alokasyon resous, siveyans, ak chargeback pou ekip yo te kapab itilize BigQuery efektivman.

Nan mwa novanm 2018, nou te pibliye yon lage alfa nan tout konpayi BigQuery ak Data Studio. Nou te ofri anplwaye Twitter yo kèk nan fèy kalkil nou yo ki pi souvan itilize ak done pèsonèl ki netwaye. BigQuery te itilize pa plis pase 250 itilizatè ki soti nan yon varyete ekip ki gen ladan jeni, finans ak maketing. Pi resamman, yo te kouri sou 8k demann, trete apeprè 100 PB pa mwa, san konte demann pwograme yo. Apre nou te resevwa fidbak trè pozitif, nou te deside avanse epi ofri BigQuery kòm resous prensipal pou kominike avèk done sou Twitter.

Men yon dyagram wo nivo achitekti depo done Google BigQuery nou an.

Ki jan BigQuery Google la demokratize analiz done yo. Pati 1
Nou kopye done ki soti nan grap Hadoop sou lokal yo nan Google Cloud Storage (GCS) lè l sèvi avèk zouti entèn Cloud Replicator la. Lè sa a, nou itilize Apache Airflow pou kreye tiyo ki sèvi ak "bq_load» pou chaje done ki soti nan GCS nan BigQuery. Nou itilize Presto pou fè rechèch sou seri done Parquet oswa Thrift-LZO nan GCS. BQ Blaster se yon zouti Scalding entèn pou chaje seri done HDFS Vertica ak Thrift-LZO nan BigQuery.

Nan seksyon sa yo, nou diskite sou apwòch ak ekspètiz nou an nan domèn fasilite pou itilize, pèfòmans, jesyon done, sante sistèm, ak pri.

Fasilite pou itilize

Nou te jwenn ke li te fasil pou itilizatè yo kòmanse ak BigQuery paske li pa mande pou enstalasyon lojisyèl ak itilizatè yo te kapab jwenn aksè nan li atravè yon koòdone entènèt entwisyon. Sepandan, itilizatè yo te bezwen vin abitye ak kèk nan karakteristik ak konsèp GCP yo, ki gen ladan resous tankou pwojè, datasets, ak tab. Nou te devlope materyèl edikatif ak leson patikilye pou ede itilizatè yo kòmanse. Avèk yon konpreyansyon debaz yo te jwenn, itilizatè yo te jwenn li fasil pou navige nan seri done yo, wè chema ak done tab yo, kouri demann senp, epi vizyalize rezilta yo nan Data Studio.

Objektif nou pou antre done nan BigQuery se te pèmèt chajman san pwoblèm HDFS oswa GCS done ansanm ak yon sèl klike sou. Nou te konsidere Cloud Composer (jere pa Airflow) men yo pa t kapab sèvi ak li akòz modèl sekirite Pataje Restriksyon nan domèn nou an (plis sou sa a nan seksyon Jesyon Done ki anba a). Nou te fè eksperyans lè l sèvi avèk Google Data Transfer Service (DTS) pou òkestre chaj travay BigQuery. Pandan ke DTS te rapid pou mete sou pye, li pa t fleksib pou konstwi tiyo ak depandans. Pou lage alpha nou an, nou te konstwi pwòp Apache Airflow nou an nan GCE epi n ap prepare li pou kouri nan pwodiksyon epi nou kapab sipòte plis sous done tankou Vertica.

Pou transfòme done yo nan BigQuery, itilizatè yo kreye yon tiyo done SQL senp lè l sèvi avèk demann pwograme yo. Pou tiyo konplèks milti-etap ak depandans, nou planifye pou itilize swa pwòp Airflow kad pa nou an oswa Cloud Composer ansanm ak Cloud Dataflow.

Pwodiktivite

BigQuery fèt pou demann SQL jeneral ki trete gwo kantite done. Li pa fèt pou demann latansi ki ba, gwo debi ki nesesè nan yon baz done tranzaksyon, oswa pou analiz seri tan latansi ki ba yo aplike. Apache drwid. Pou demann analiz entèaktif, itilizatè nou yo espere tan repons mwens pase yon minit. Nou te oblije konsepsyon itilizasyon nou nan BigQuery pou satisfè atant sa yo. Pou bay itilizatè nou yo pèfòmans previzib, nou te ogmante fonksyonalite BigQuery, ki disponib pou kliyan sou yon baz frè plat ki pèmèt pwopriyetè pwojè yo rezève plas minimòm pou demann yo. Plas la BigQuery se yon inite pouvwa enfòmatik ki nesesè pou egzekite demann SQL.

Nou analize plis pase 800 demann ki trete apeprè 1 TB done chak epi nou jwenn tan an mwayèn ekzekisyon se 30 segonn. Nou te aprann tou ke pèfòmans yo trè depann sou itilizasyon plas nou an nan diferan pwojè ak travay. Nou te oblije klèman delimite pwodiksyon nou an ak rezèv plas ad hoc pou kenbe pèfòmans pou ka itilizasyon pwodiksyon ak analiz sou entènèt. Sa a anpil enfliyanse konsepsyon nou an pou rezèvasyon plas ak yerachi pwojè.

Nou pral pale sou jesyon done, fonksyonalite ak pri nan sistèm nan jou kap vini yo nan dezyèm pati tradiksyon an, men kounye a nou envite tout moun. webinar live gratis, pandan ki ou yo pral kapab aprann an detay sou kou a, osi byen ke poze kesyon ak ekspè nou an - Egor Mateshuk (Senior Data Engineer, MaximaTelecom).

Li piplis:

Sous: www.habr.com

Add nouvo kòmantè