Quomodo Google BigQuery analysin democratizata est. Pars I

Heus Habr! Ascriptio novi cursus amnis patet apud OTUS nunc Data Engineer. In antecessum curriculi initium dedimus translationem de materia iucunda tibi.

Quotidie plus centum miliones hominum Twitter ad explorandum quid in mundo agatur ac discuterent. Quaelibet tweet et quaelibet alia actio usoris eventum gignit qui praesto est ad analysin interna interna. Centum conductorum analysim et hanc datam visualize, et experientiae melioris summa est prioritas pro Twitter Data Rostra quadrigis.

Credimus users cum amplis technicis technicis notitias invenire et accessum ad bene operandum SQL-substructum analysi et instrumentorum visualizationis. Hoc permitteret totum novum coetum usorum minus technicorum, inter analystas et analystas productos, ex data perceptis extrahere, permittens eas melius intelligere et vi Twitter uti. Hoc est quomodo in Twitter analysin democratizemus.

Sicut instrumenta nostra et facultates pro analysi interna notificata emendaverunt, emendationem Twitter servitii vidimus. Sed adhuc emendationis locus est. Instrumenta currentia sicut Scalding programmandi experientiam requirent. SQL analysi substructio instrumenta qualia Presto et Vertica habent quaestiones perficiendas in magno pretio. Difficultatem habemus etiam cum notitias distribuendi per plures systemata sine constanti accessu ad eam.

Ultimo anno denuntiavimus nova collatio cum Googleintra quod partes nostras transfermus data infrastructure in Google Cloud Platform (GCP). Conclusimus Google Cloud instrumenta Data magnum adiuvare nos potest in inceptis nostris ad democratizandam analysin, visualizationem et machinam discendi in Twitter:

  • BigQuery; CELLA cum SQL engine coeptis data fundatur Dremelquae velocitate, simplicitate et cappis clarissima est apparatus doctrina.
  • data studio: magnum instrumentum visualizationis datae cum collaboratione notarum sicut Google Docs.

In hoc articulo, experientiam nostram his instrumentis cognosces: quid gessimus, quid didicerimus, quid deinceps faciemus. Nunc massam et analyticam interactivam intendunt. Real-time analytica in proximo articulo dicetur.

Historia Data Apothecae on Twitter

Antequam in BigQuery tribuo, historia apothecarum notitiarum in Twitter narrando breviter valet. Anno 2011, Twitter analysi in Vertica et Hadoop fiebat. Ad MapReduce Hadoop jobs creandum, Pig nos usi sumus. Anno 2012, Porcum Scalding, qui Scala API cum beneficiis habebat, reposuimus ut facultatem tibias multiplices creandi et facilitatem tentandi. Tamen per plures notitias analystas et mancipes productos qui cum SQL laborantibus commodiores erant, satis arduae discendi ratio erat. Circa 2016, Presto utens incepit ut finem nostrum ante SQL pro notitia Hadoop. Scintillam interface Pythone obtulit quae eam bonam electionem facit ad hoc datae scientiae et machinae discendi.

Ab anno MMXVIII, instrumenta sequentia instrumenta analysi et visualizationis usi sumus:

  • Scalas ad productionem lineae
  • Scalding et scintilla ad hoc data analytica et apparatus eruditionis
  • Vertica et Presto ad hoc et interactive SQL analysis
  • Druidibus accessus ad seriem metrics demissam interactiva, exploratoria et humilis latency tempora
  • Tableau, Zeppelin et Pivot pro Data Visualization

Invenimus, dum haec instrumenta validissima lineamenta praebent, difficultatem habuimus haec features latioribus audientibus in Twitter comparandas. Extendendo suggestum nostrum cum Google Cloud, simpliciores instrumenta nostra analytica pro omnibus Twitter ponunt.

Google BigQuery Data CELLA

Plures iunctiones in Twitter iam inclusae sunt BigQuery in quibusdam organis productionis eorum. Experientia eorum utentes, incepimus possibilitates BigQuery aestimare pro omnibus casibus uti Twitter. Propositum erat BigQuery toti societati offerre, ac signare et sustentare in Data Platform toolkit. Hoc multis de causis difficile fuit. Nobis opus est infrastructuram enucleare ut ingentes notitiarum copia certo recipiamus, subsidia societatis late notitiarum procuratio, proprias accessus moderamina curet, et intimitatem emptoris curet. Nos quoque systemata creare pro destinatio subsidiorum, vigilantia, et onerum ut iugis BigQuery efficaciter uti possent.

Mense Novembri 2018 alpha emissio BigQuery et Data Studio pro tota societate emissi sumus. Obtulimus aliquas e nostris usitatis notitias personales-purgatas expansas ad virgam Twitter. BigQuery usus est a super 250 users e variis iugis inter machinationem, oeconomicum et venalicium. Nuper fere 8 petitiones discurrebant, circiter 100 PB per mensem dispensando, postulationibus non computatis. Recepta valde positiva opiniones, progredi decrevimus et offerimus BigQuery ut primarium subsidium pro mutuo datae in Twitter.

Hic figura est architecturae altae nostrae Google BigQuery datae horreis.

Quomodo Google BigQuery analysin democratizata est. Pars I
Datas ex Hadoop botri locali imitamur ad Google Cloud Storage (GCS) instrumento replicatore interni nubis. Tum Apache Airflow utimur ad creandum pipelines qui utuntur "bq_loadΒ» Ad onerandum notitia ex GCS in BigQuery. Presto utimur ad interrogationem Parquet vel Thrift-LZO datastas in GCS. BQ Blaster instrumentum ardens internum est ad onerandas HDFS Verticae et Thrift-LZO datastae in BigQuery.

In sequentibus sectionibus tractabimus de accessu et peritia in usu, usu, observantia, notitia administratione, ratione sanitatis, ac sumptus.

Otium of use

Invenimus facilem esse usoribus ut incipias cum BigQuery quia non requirebat institutionem programmatum et usorum per interfaciem intuitivam accedere posse. Tamen utentes necessarii sunt ad familiaritatem GCP notis et notionibus quibusdam, inclusis facultatibus ut inceptis, datasets et tabulis. Tutores et tutoriales elaboraverunt ad auxilium users incipias. Intellectu fundamentali acquiritur, facile est utentibus datastas navigare, schema et notitias tabulas considerare, quaestiones simplices currere, et in Data Studio eventus visualisizare.

Propositum cum data in BigQuery ingressum erat, inconsutilem oneraturam HDFS vel GCS datastarum cum uno clicculo praebere. Consideravimus Nubes Composer (a Airflow administrata) sed ea uti non poterant ob exemplar securitatis nostrae "Domain Restricted Socius" (magis de hoc in sectione Procurationis Data infra). Nos experti sumus cum Google Data translatione Service (DTS) ut onus munerum BigQuery organize. Dum DTS velox erat ad erigendum, non erat flexibile ad fabricandas tibias cum viculis. Ad nostrum alpha emissio, nostrum Apache Airflow environment in GCE creavimus eamque ad gignendum paravimus ac facultatem ad plures fontes datas ut Vertica sustinendos.

Datas in BigQuery transformare, utentes simplices SQL datas pipelines creare utentes interrogationes accedant. Ad pipelines multi-scaenas multiplicia cum dependentiis, cogitamus uti vel compage nostra Airflow vel Cloud Compositoris una cum nubes Dataflow.

productivity

BigQuery designatus est ad propositum generale SQL queries quod magna copia notitiarum processum est. Non ordinatur ad humilitatem latentiam, altam perputa quaesita per datorum transactionalium, vel humilis latency temporis series analysis implenda. Apache Druid. Pro quaestionibus analyticis interactive, nostri utentes responsionem exspectant tempus minus quam unum minutum. Consilium BigQuery usum habuimus ad has exspectationes occurrere. Ad praevidendam observantiam nostris usoribus praebendam, BigQuery functionem usi sumus, quae clientibus in fundamento certae mercedis praesto est, quae dominis inceptis concedit ut minimas foramina pro suis quaestionibus reservaret. socors BigQuery unitas computandi potestas est quaesita ad SQL faciendum.

Nos per DCCC interrogationes explicandas circa singulas notitias 800 TB processus explicavimus et inveniebamus mediocris exsecutionis tempus XXX secundis esse. Etiam didicimus perficientur multum dependet ab usu nostrae socors in variis inceptis et operibus. Nostram productionem plane separare debebamus et subsidia ad hoc socors ad conservandum effectum ad usum producendi casus et analysin interactiva. Hoc consilium nostrum multum permovit ad reservationes socors et hierarchias project.

Loquemur de administratione, functione et sumptu rationum in proximo dierum in altera translationis parte, et nunc omnes invitamus ad liberum vivere webinar, ubi plura de cursu cognoscere potes, necnon interrogare perito nostro - Egor Mateshuk (Senior Data Engineer, MaximaTelecom).

Lege plus:

Source: www.habr.com