Kepiye BigQuery Google nggawe demokratisasi analisis data. Bagean 1

Sugeng rawuh, Habr! Pendaftaran kanggo aliran kursus anyar saiki mbukak ing OTUS Data Engineer. Kanggo nunggu wiwitan kursus, kita wis nyiapake terjemahan materi sing menarik kanggo sampeyan.

Saben dina, luwih saka satus yuta wong ngunjungi Twitter kanggo ngerteni apa sing kedadeyan ing jagad iki lan ngrembug babagan iki. Saben tweet lan saben tumindak pangguna liyane ngasilake acara sing kasedhiya kanggo analisis data internal Twitter. Atusan karyawan nganalisa lan nggambarake data iki, lan nambah pengalaman minangka prioritas utama kanggo tim Twitter Data Platform.

Kita pitados bilih pangguna kanthi macem-macem katrampilan teknis kudu bisa nemokake data lan duwe akses menyang alat analisis lan visualisasi basis SQL sing apik. Iki bakal ngidini klompok pangguna anyar sing kurang teknis, kalebu analis data lan manajer produk, ngekstrak wawasan saka data, supaya bisa luwih ngerti lan nggunakake kapabilitas Twitter. Iki carane kita demokratisasi analytics data ing Twitter.

Minangka alat lan kapabilitas analitik data internal wis saya apik, kita wis ndeleng Twitter saya apik. Nanging, isih ana papan kanggo perbaikan. Piranti saiki kaya Scalding mbutuhake pengalaman pemrograman. Piranti analisis basis SQL kayata Presto lan Vertica duwe masalah kinerja ing skala. Kita uga duwe masalah nyebarake data ing pirang-pirang sistem tanpa akses terus-terusan.

Taun kepungkur kita ngumumake kolaborasi anyar karo Google, ing ngendi kita nransfer bagean kita infrastruktur data ing Google Cloud Platform (GCP). Kita wis nyimpulake yen alat Google Cloud Big Data bisa mbantu kita kanthi inisiatif kanggo demokratisasi analytics, visualisasi, lan machine learning ing Twitter:

  • bigquery: Warehouse data perusahaan kanthi basis mesin SQL Dremel, kang misuwur kanggo kacepetan, gamblang lan copes karo machine learning.
  • Studio Data: alat visualisasi data gedhe kanthi fitur kolaborasi kaya Google Docs.

Ing artikel iki, sampeyan bakal sinau babagan pengalaman kita karo piranti kasebut: apa sing kita lakoni, apa sing kita sinau, lan apa sing bakal ditindakake sabanjure. Saiki kita bakal fokus ing analisis batch lan interaktif. Kita bakal ngrembug analytics wektu nyata ing artikel sabanjure.

Sajarah Toko Data Twitter

Sadurunge nyilem menyang BigQuery, sampeyan kudu nyritakake sejarah panyimpenan data Twitter kanthi ringkes. Ing 2011, analisis data Twitter ditindakake ing Vertica lan Hadoop. Kita nggunakake Babi kanggo nggawe proyek MapReduce Hadoop. Ing 2012, kita ngganti Pig karo Scalding, sing nduweni API Scala kanthi keuntungan kayata kemampuan kanggo nggawe pipa rumit lan gampang diuji. Nanging, kanggo akeh analis data lan manajer produk sing luwih seneng nggarap SQL, iki minangka kurva sinau sing cukup curam. Sekitar 2016, kita wiwit nggunakake Presto minangka antarmuka SQL kanggo data Hadoop. Spark nawakake antarmuka Python, sing ndadekake pilihan sing apik kanggo ilmu data ad hoc lan sinau mesin.

Wiwit 2018, kita wis nggunakake alat ing ngisor iki kanggo analisis lan visualisasi data:

  • Scalding kanggo conveyor produksi
  • Scalding lan Spark kanggo analisis data ad hoc lan machine learning
  • Vertica lan Presto kanggo ad hoc lan analisis SQL interaktif
  • Druid kanggo akses interaktif, eksplorasi lan kurang latency menyang metrik seri wektu
  • Tableau, Zeppelin lan Pivot kanggo visualisasi data

Kita nemokake manawa alat kasebut nawakake kemampuan sing kuat banget, nanging angel nggawe kemampuan kasebut kasedhiya kanggo pamirsa sing luwih akeh ing Twitter. Kanthi ngembangake platform kita karo Google Cloud, kita fokus kanggo nyederhanakake alat analytics kanggo kabeh Twitter.

Gudang Data BigQuery Google

Sawetara tim ing Twitter wis nggabungake BigQuery menyang sawetara saluran produksi. Nggunakake keahliane, kita wiwit ngevaluasi kapabilitas BigQuery kanggo kabeh kasus panggunaan Twitter. Tujuane yaiku nawakake BigQuery menyang kabeh perusahaan lan nggawe standar lan ndhukung ing toolset Data Platform. Iki angel amarga akeh alasan. Kita kudu ngembangake prasarana supaya bisa nyerep data kanthi jumlah gedhe, ndhukung manajemen data ing saindenging perusahaan, njamin kontrol akses sing tepat, lan njamin privasi pelanggan. Kita uga kudu nggawe sistem kanggo alokasi sumber daya, ngawasi, lan tagihan maneh supaya tim bisa nggunakake BigQuery kanthi efektif.

Ing Nopember 2018, kita ngrilis rilis alfa perusahaan BigQuery lan Data Studio. Kita wis nawakake karyawan Twitter sawetara spreadsheet sing paling kerep digunakake kanthi data pribadhi sing wis diresiki. BigQuery wis digunakake dening luwih saka 250 pangguna saka macem-macem tim kalebu teknik, keuangan lan marketing. Paling anyar, padha mlaku babagan 8k panjalukan, ngolah udakara 100 PB saben wulan, ora ngetung panjaluk sing dijadwal. Sawise nampa umpan balik sing positif banget, kita mutusake kanggo maju lan nawakake BigQuery minangka sumber utama kanggo sesambungan karo data ing Twitter.

Iki diagram tingkat dhuwur saka arsitektur gudang data Google BigQuery.

Kepiye BigQuery Google nggawe demokratisasi analisis data. Bagean 1
Kita nyalin data saka klompok Hadoop ing papan menyang Google Cloud Storage (GCS) nggunakake alat Cloud Replicator internal. Kita banjur nggunakake Apache Airflow kanggo nggawe pipa sing nggunakake "bq_loadΒ»kanggo mbukak data saka GCS menyang BigQuery. Kita nggunakake Presto kanggo takon Parquet utawa Thrift-LZO dataset ing GCS. BQ Blaster minangka alat Scalding internal kanggo ngemot data HDFS Vertica lan Thrift-LZO menyang BigQuery.

Ing bagean ing ngisor iki, kita ngrembug pendekatan lan keahlian ing babagan gampang digunakake, kinerja, manajemen data, kesehatan sistem, lan biaya.

Gampang nggunakake

Kita nemokake manawa gampang kanggo pangguna miwiti BigQuery amarga ora mbutuhake instalasi piranti lunak lan pangguna bisa ngakses liwat antarmuka web sing intuisi. Nanging, pangguna kudu ngerti sawetara fitur lan konsep GCP, kalebu sumber daya kayata proyek, set data, lan tabel. Kita wis ngembangake materi lan tutorial pendidikan kanggo mbantu pangguna miwiti. Kanthi pangerten dhasar sing dipikolehi, pangguna gampang kanggo navigasi set data, ndeleng skema lan data tabel, nglakokake pitakon prasaja, lan nggambarake asil ing Data Studio.

Tujuane kanggo entri data menyang BigQuery yaiku ngaktifake loading data HDFS utawa GCS kanthi lancar kanthi siji klik. We dianggep Komposer Awan (dikelola dening Airflow) nanging ora bisa digunakake amarga model keamanan Nuduhake Watesan Domain (liyane babagan iki ing bagean Manajemen Data ing ngisor iki). Kita nyoba nggunakake Layanan Transfer Data Google (DTS) kanggo ngatur beban kerja BigQuery. Nalika DTS cepet nyiyapake, iku ora fleksibel kanggo mbangun pipelines karo dependensi. Kanggo rilis alpha kita, kita wis nggawe kerangka Apache Airflow dhewe ing GCE lan nyiapake supaya bisa digunakake ing produksi lan bisa ndhukung sumber data liyane kayata Vertica.

Kanggo ngowahi data dadi BigQuery, pangguna nggawe pipa data SQL sing prasaja nggunakake pitakon sing dijadwal. Kanggo saluran pipa multi-tahap sing rumit kanthi dependensi, kita rencana nggunakake kerangka Airflow dhewe utawa Cloud Composer bebarengan karo Cloud Dataflow.

Produktivitas

BigQuery dirancang kanggo pitakon SQL tujuan umum sing ngolah data akeh. Ora dimaksudake kanggo latensi kurang, pitakon throughput dhuwur sing dibutuhake dening database transaksional, utawa kanggo analisis seri wektu latensi rendah sing ditindakake. Apache Druid. Kanggo pitakon analitik interaktif, pangguna kita ngarepake wektu respon kurang saka siji menit. Kita kudu ngrancang panggunaan BigQuery kanggo nyukupi pangarepan kasebut. Kanggo nyedhiyakake kinerja sing bisa diprediksi kanggo pangguna, kita nggunakake fungsi BigQuery, kasedhiya kanggo para pelanggan kanthi biaya rata-rata sing ngidini pamilik proyek nggawe slot minimal kanggo pitakon. Slot BigQuery minangka unit daya komputasi sing dibutuhake kanggo nglakokake pitakon SQL.

Kita nganalisa luwih saka 800 pitakon ngolah kira-kira 1 TB data saben lan nemokake yen wektu eksekusi rata-rata yaiku 30 detik. Kita uga sinau sing kinerja banget gumantung ing nggunakake slot ing proyèk beda lan tugas. Kita kudu jelas delineate produksi lan ad hoc slot cadangan kanggo njaga kinerja kanggo kasus panggunaan produksi lan analisis online. Iki banget dipengaruhi desain kita kanggo leladen slot lan hirarki project.

Kita bakal ngomong babagan manajemen data, fungsionalitas lan biaya sistem ing dina sing bakal teka ing bagean kapindho terjemahan, nanging saiki kita ngajak kabeh wong menyang webinar urip free, sajrone sampeyan bakal bisa sinau kanthi rinci babagan kursus kasebut, uga takon karo pakar kita - Egor Mateshuk (Senior Data Engineer, MaximaTelecom).

Waca liyane:

Source: www.habr.com

Add a comment