Ny fomba nanaovan'ny BigQuery an'i Google ny famakafakana angona demokratika. Fizarana 1

Salama, Habr! Misokatra amin'izao fotoana izao ny fisoratana anarana ho an'ny riaka fianarana vaovao ao amin'ny OTUS Data Engineer. Eo am-piandrasana ny fiantombohan'ny fampianarana dia efa nanomana fandikan-teny mahaliana ho anao izahay.

Isan'andro, maherin'ny zato tapitrisa ny olona mitsidika Twitter mba hahitana ny zava-mitranga eto amin'izao tontolo izao sy hiresaka momba izany. Ny bitsika tsirairay sy ny hetsika hafa rehetra ataon'ny mpampiasa dia miteraka hetsika azo alaina amin'ny famakafakana angon-drakitra anatiny ao amin'ny Twitter. Mpiasa an-jatony no mamakafaka sy mijery an'io angona io, ary ny fanatsarana ny traikefany no laharam-pahamehana ho an'ny ekipan'ny Twitter Data Platform.

Mino izahay fa ireo mpampiasa manana fahaiza-manao ara-teknika isan-karazany dia tokony ho afaka mahita angon-drakitra ary afaka miditra amin'ny fitaovana famakafakana sy fijerena sary miorina tsara amin'ny SQL. Izany dia ahafahan'ny vondrona vaovao iray manontolo amin'ny mpampiasa tsy dia teknika loatra, ao anatin'izany ny mpandinika angon-drakitra sy ny mpitantana ny vokatra, haka hevitra avy amin'ny angon-drakitra, ahafahan'izy ireo mahazo tsara kokoa sy mampiasa ny fahaizan'ny Twitter. Izany no fomba ataontsika demaokratika ny famakafakana angon-drakitra ao amin'ny Twitter.

Rehefa nihatsara ny fitaovanay sy ny fahaiza-manadihady angona anatiny, dia nahita ny fihatsaran'ny Twitter izahay. Na izany aza, mbola misy toerana azo hatsaraina. Ny fitaovana ankehitriny toa an'i Scalding dia mitaky traikefa amin'ny fandaharana. Ny fitaovana famakafakana miorina amin'ny SQL toa an'i Presto sy Vertica dia manana olana amin'ny fampisehoana. Manana olana ihany koa izahay amin'ny fizarana angon-drakitra amin'ny rafitra maro tsy misy fidirana amin'izany tsy tapaka.

Tamin'ny taon-dasa no nanambaranay fiaraha-miasa vaovao amin'ny Google, izay amindrantsika ampahany amin'ny antsika fotodrafitrasa angona amin'ny Google Cloud Platform (GCP). Nanatsoaka hevitra izahay fa fitaovana Google Cloud Big Data dia afaka manampy antsika amin'ny hetsika ataontsika amin'ny fanaovana demôkratika ny fanadihadiana, ny fijerena maso ary ny fianarana milina ao amin'ny Twitter:

  • bigquery: trano fanatobiana angona orinasa miaraka amin'ny motera SQL Dremel, izay malaza amin'ny hafainganam-pandehany, ny fahatsorany ary ny fiatrehana azy fianarana milina.
  • Data Studio: fitaovana fijerena angona lehibe miaraka amin'ny endri-piaraha-miasa mitovy amin'ny Google Docs.

Ato amin'ity lahatsoratra ity dia hianatra momba ny zavatra niainantsika tamin'ireto fitaovana ireto ianao: inona no nataonay, inona no nianarantsika, ary inona no hataontsika manaraka. Hifantoka amin'ny batch sy interactive analytics isika izao. Hiresaka momba ny fanadihadiana amin'ny fotoana tena izy isika ao amin'ny lahatsoratra manaraka.

Tantaran'ny Twitter Data Stores

Alohan'ny hidirana ao amin'ny BigQuery dia ilaina ny mitanisa fohifohy ny tantaran'ny fitahirizana angona Twitter. Tamin'ny 2011, natao tao amin'ny Vertica sy Hadoop ny famakafakana angon-drakitra Twitter. Nampiasa Pig izahay mba hamoronana asa MapReduce Hadoop. Tamin'ny 2012, nosoloinay ny Kisoa tamin'ny Scalding, izay nanana Scala API miaraka amin'ny tombontsoa toy ny fahafahana mamorona fantsona sarotra sy mora amin'ny fitsapana. Na izany aza, ho an'ny mpandinika angon-drakitra sy mpitantana vokatra izay mahazo aina kokoa amin'ny fiasana amin'ny SQL, dia curve fianarana somary mitsambikina izany. Manodidina ny taona 2016, nanomboka nampiasa Presto izahay ho interface tsara SQL amin'ny angona Hadoop. Spark dia nanolotra interface tsara Python, izay mahatonga azy io ho safidy tsara ho an'ny siansa data ad hoc sy fianarana milina.

Nanomboka tamin'ny taona 2018, nampiasa ireto fitaovana manaraka ireto izahay ho an'ny famakafakana sy fijerena angon-drakitra:

  • Fandrefesana ho an'ny conveyors famokarana
  • Scalding sy Spark ho an'ny famakafakana data ad hoc sy fianarana milina
  • Vertica sy Presto ho an'ny famakafakana SQL ad hoc sy interactive
  • Druid ho an'ny fidirana ifanakalozan-kevitra ambany, fikarohana ary fahatarana ambany amin'ny metrika andiam-potoana
  • Tableau, Zeppelin ary Pivot ho an'ny fijerena angona

Hitanay fa na dia manolotra fahaiza-manao mahery vaika aza ireo fitaovana ireo, dia sahirana izahay tamin'ny fametrahana ireo fahaiza-manao ireo ho an'ny mpihaino midadasika kokoa ao amin'ny Twitter. Amin'ny fanitarana ny sehatray miaraka amin'ny Google Cloud, dia mifantoka amin'ny fanatsorana ny fitaovana analyse izahay ho an'ny Twitter rehetra.

Google's BigQuery Data Warehouse

Ekipa maromaro ao amin'ny Twitter no efa nampiditra BigQuery tao amin'ny fantsona famokarana sasany. Tamin'ny fampiasana ny fahaizan'izy ireo dia nanomboka nanombantombana ny fahaizan'ny BigQuery izahay amin'ny tranga fampiasana Twitter rehetra. Ny tanjonay dia ny hanolotra BigQuery ho an'ny orinasa iray manontolo ary hanara-penitra sy hanohana azy ao anatin'ny fitaovana Data Platform. Sarotra izany noho ny antony maro. Nila namolavola fotodrafitrasa izahay mba hidirana amin'ny fomba azo antoka ny angon-drakitra marobe, hanohanana ny fitantanana angon-drakitra manerana ny orinasa, hiantohana ny fanaraha-maso tsara ny fidirana, ary hiantohana ny tsiambaratelon'ny mpanjifa. Tsy maintsy namorona rafitra momba ny fitsinjarana loharanon-karena, ny fanaraha-maso ary ny famerenam-bola ihany koa izahay mba hahafahan'ny ekipa mampiasa ny BigQuery amin'ny fomba mahomby.

Tamin'ny Novambra 2018, namoaka ny famoahan'ny BigQuery sy Data Studio manerana ny orinasa izahay. Nanolotra ny mpiasan'ny Twitter ny sasany amin'ireo takelaka fampiasa matetika indrindra misy angona manokana voadio izahay. BigQuery dia nampiasain'ny mpampiasa 250 mahery avy amin'ny ekipa isan-karazany ao anatin'izany ny injeniera, ny vola ary ny varotra. Vao haingana, nitaky fangatahana 8k teo ho eo izy ireo, manodina manodidina ny 100 PB isam-bolana, tsy manisa ny fangatahana voalahatra. Taorian'ny nahazoanay valiny tena tsara dia nanapa-kevitra ny handroso izahay ary hanolotra ny BigQuery ho loharano voalohany hifaneraserana amin'ny angona ao amin'ny Twitter.

Ity misy kisary avo lenta amin'ny rafitra fanatobiana angona Google BigQuery.

Ny fomba nanaovan'ny BigQuery an'i Google ny famakafakana angona demokratika. Fizarana 1
Mandika angon-drakitra avy amin'ny cluster Hadoop eo an-toerana izahay mankany amin'ny Google Cloud Storage (GCS) amin'ny fampiasana ny fitaovana Cloud Replicator anatiny. Avy eo dia mampiasa Apache Airflow izahay hamorona fantsona izay mampiasa "bq_load»hampiakatra angona avy amin'ny GCS ao amin'ny BigQuery. Mampiasa Presto izahay hanontaniana ny angona Parquet na Thrift-LZO ao amin'ny GCS. BQ Blaster dia fitaovana Scalding anatiny hampidirana ny angona HDFS Vertica sy Thrift-LZO ao amin'ny BigQuery.

Ao amin'ny fizarana manaraka, miresaka momba ny fomba fiasa sy ny fahaiza-manaontsika amin'ny sehatry ny fanamorana ny fampiasana, ny fampisehoana, ny fitantanana ny angona, ny fahasalaman'ny rafitra ary ny vidiny.

Fampiasana tsotra

Hitanay fa mora tamin'ny mpampiasa ny nanomboka tamin'ny BigQuery satria tsy nitaky fametrahana rindrambaiko izany ary azon'ny mpampiasa idirana izany amin'ny alàlan'ny interface tsara an-tranonkala. Na izany aza, mila mahafantatra ny sasany amin'ireo endri-javatra sy foto-kevitry ny GCP ireo mpampiasa, ao anatin'izany ny loharanon-karena toy ny tetikasa, ny angona ary ny tabilao. Namolavola fitaovana fampianarana sy fampianarana izahay mba hanampiana ireo mpampiasa hanomboka. Miaraka amin'ny fahatakarana fototra azo, hitan'ny mpampiasa fa mora ny mivezivezy amin'ny angon-drakitra, mijery ny angon-drakitra sy ny tabilao, mametraka fanontaniana tsotra ary mijery ny valiny ao amin'ny Data Studio.

Ny tanjonay amin'ny fampidirana angon-drakitra ao amin'ny BigQuery dia ny hampakatra tsy misy olana ny angona HDFS na GCS amin'ny tsindry iray. Nandinika izahay Cloud Composer (tantanan'ny Airflow) saingy tsy afaka nampiasa izany noho ny maodely fiarovana amin'ny Domain Restricted Sharing (bebe kokoa momba izany ao amin'ny fizarana Data Management etsy ambany). Nanandrana nampiasa Google Data Transfer Service (DTS) izahay mba handaminana ny enta-mavesatry ny BigQuery. Na dia natsangana haingana aza ny DTS, dia tsy mora tamin'ny fananganana fantsona misy fiankinan-doha. Ho an'ny famoahana alpha anay dia nanangana ny rafitra Apache Airflow anay manokana ao amin'ny GCE izahay ary manomana izany amin'ny famokarana ary afaka manohana loharanom-baovao bebe kokoa toa an'i Vertica.

Mba hanovana angona ho BigQuery, dia mamorona fantsona angon-drakitra SQL tsotra ny mpampiasa amin'ny fampiasana fanontaniana voalahatra. Ho an'ny fantsona saro-pady maromaro misy fiankinan-doha, dia mikasa ny hampiasa ny rafitra Airflow manokana izahay na ny Cloud Composer miaraka amin'ny Cloud Dataflow.

vokatra

Ny BigQuery dia natao ho an'ny fangatahana SQL amin'ny tanjona ankapobeny izay manodina angona marobe. Tsy natao ho an'ny fahatarana ambany, fangatahana avo lenta takian'ny angon-drakitra ara-barotra, na ho an'ny famakafakana andiam-potoana faran'ny ambany nampiharina. Apache Druid. Ho an'ny fanontaniana fanadihadiana ifanakalozan-kevitra, manantena ny fotoana famaliana latsaky ny iray minitra ny mpampiasa anay. Tsy maintsy namolavola ny fampiasanay ny BigQuery izahay mba hahafeno ireo zavatra antenaina ireo. Mba hanomezana fampandehanana azo vinavinaina ho an'ny mpampiasa anay, dia nampiasa ny fampiasa BigQuery izahay, azon'ny mpanjifa amin'ny sara tsy miangatra izay ahafahan'ny tompon'ny tetikasa mamandrika toerana kely indrindra ho an'ny fanontaniany. Ny slot BigQuery dia singan'ny herin'ny informatika ilaina amin'ny fanatanterahana ny fangatahana SQL.

Nanadihady fanontaniana mihoatra ny 800 izahay mihodinkodina manodidina ny 1 TB tsirairay avy ary hitanay fa 30 segondra ny salan'ny fotoana famonoana. Nianara ihany koa fa miankina betsaka amin'ny fampiasana ny slot amin'ny tetikasa sy asa samihafa ny fampisehoana. Tsy maintsy namaritana mazava tsara ny famokarana sy ny tahirin-tsarimihetsika ad hoc izahay mba hitazomana ny fahombiazan'ny tranga fampiasana famokarana sy ny fanadihadiana an-tserasera. Tena nisy fiantraikany tamin'ny famolavolanay ny famandrihana slot sy ny ambaratongan'ny tetikasa izany.

Hiresaka momba ny fitantanana ny angon-drakitra, ny fampiasa ary ny vidin'ny rafitra izahay ato anatin'ny andro ho avy amin'ny tapany faharoa amin'ny fandikan-teny, fa ankehitriny dia manasa ny rehetra izahay webinar mivantana maimaim-poana, izay ahafahanao mianatra amin'ny antsipiriany momba ny fampianarana, ary mametraka fanontaniana amin'ny manam-pahaizanay - Egor Mateshuk (Injeniera momba ny angona zokiolona, ​​MaximaTelecom).

Hamaky bebe kokoa:

Source: www.habr.com

Add a comment