Kumaha BigQuery Google ngadémokrasikeun analisis data. Bagian 2

Halo, Habr! Pendaptaran pikeun aliran kursus anyar dibuka ayeuna di OTUS "Insinyur Data". Dina antisipasi mimiti kursus, kami terus babagi bahan mangpaat sareng anjeun.

Baca bagian hiji

Kumaha BigQuery Google ngadémokrasikeun analisis data. Bagian 2

Manajemén data

Pamaréntahan Data Kuat mangrupikeun prinsip inti Téknik Twitter. Nalika kami nerapkeun BigQuery kana platform kami, kami museurkeun kana panemuan data, kontrol aksés, kaamanan sareng privasi.

Pikeun mendakan sareng ngatur data, kami parantos ngalegaan Lapisan Aksés Data ka DAL) pikeun nyayogikeun alat pikeun data di premis sareng Google Cloud, nyayogikeun antarmuka tunggal sareng API pikeun pangguna urang. Salaku Google Katalog Data nuju ka kasadiaan umum, kami bakal ngalebetkeun éta dina proyék kami pikeun nyayogikeun pangguna fitur sapertos milarian kolom.

BigQuery ngagampangkeun pikeun ngabagikeun sareng ngaksés data, tapi urang kedah gaduh sababaraha kontrol kana ieu pikeun nyegah éksfiltrasi data. Diantara alat anu sanés, kami milih dua fungsi:

  • babagi domain diwatesan: Fitur Beta pikeun nyegah pamaké babagi datasets BigQuery jeung pamaké di luar Twitter.
  • kadali jasa VPC: Hiji kontrol nu nyegah exfiltration data sarta merlukeun pamaké pikeun ngakses BigQuery ti rentang alamat IP dipikawanoh.

Kami parantos ngalaksanakeun syarat auténtikasi, otorisasi, sareng auditing (AAA) pikeun kaamanan sapertos kieu:

  • Auténtikasi: Kami nganggo akun pangguna GCP pikeun pamundut ad hoc sareng akun jasa pikeun paménta produksi.
  • Otorisasina: Kami meryogikeun unggal set data gaduh akun jasa anu gaduh sareng grup pamaca.
  • Auditing: Kami ngékspor log stackdriver BigQuery, anu ngandung inpormasi palaksanaan kueri anu lengkep, kana set data BigQuery pikeun gampang dianalisis.

Pikeun mastikeun data pribadi pangguna Twitter diurus leres, urang kedah ngadaptar sadaya set data BigQuery, annotate data pribadi, ngajaga panyimpenan anu leres, sareng mupus (ngikis) data anu parantos dihapus ku pangguna.

Urang nempo Google API Pencegahan Leungitna Data Awan, anu ngagunakeun mesin learning pikeun mengklasifikasikan jeung ngédit data sénsitip, tapi mutuskeun dina ni'mat annotating dataset sacara manual alatan akurasi. Kami ngarencanakeun ngagunakeun Data Loss Prevention API pikeun ngagedekeun anotasi khusus.

Di Twitter, kami geus nyieun opat kategori privasi pikeun set data dina BigQuery, didaptarkeun di dieu dina urutan nurun tina sensitipitas:

  • Set data anu sensitip pisan disayogikeun dumasar kana kabutuhan dumasar kana prinsip hak istimewa anu paling saeutik. Unggal set data gaduh grup pamiarsa anu misah, sareng kami bakal ngalacak panggunaan ku akun individu.
  • Dataset sensitipitas sedeng (sandian saarah nganggo hashing asin) henteu ngandung Inpormasi Identipikasi Pribadi (PII) sareng tiasa diaksés ku sakelompok karyawan anu langkung ageung. Ieu mangrupikeun kasaimbangan anu saé antara masalah privasi sareng utilitas data. Hal ieu ngamungkinkeun para karyawan pikeun ngalakukeun tugas analisa, sapertos ngitung jumlah pangguna anu ngagunakeun fitur, tanpa terang saha pangguna anu asli.
  • Dataset sensitipitas rendah sareng sadaya inpormasi idéntifikasi pangguna. Ieu mangrupikeun pendekatan anu saé tina sudut pandang privasi, tapi henteu tiasa dianggo pikeun analisa tingkat pangguna.
  • Dataset umum (dileupaskeun di luar Twitter) sayogi pikeun sadaya karyawan Twitter.

Sedengkeun pikeun logging, kami nganggo tugas anu dijadwalkeun pikeun ngitung set data BigQuery sareng ngadaptarkeun kana Lapisan Akses Data (DAL), gudang metadata Twitter. Pamaké bakal annotate datasets kalawan informasi privasi sarta ogé nangtukeun periode ingetan. Sedengkeun pikeun beberesih, urang evaluate kinerja sarta biaya dua pilihan: 1. Ngabersihan set data dina GCS nganggo alat sapertos Scalding sareng ngamuat kana BigQuery; 2. Ngagunakeun pernyataan DML BigQuery. Urang dipikaresep bakal ngagunakeun kombinasi duanana métode pikeun minuhan sarat grup béda jeung data.

Fungsi sistem

Kusabab BigQuery mangrupikeun jasa anu diurus, teu kedah ngalibetkeun tim SRE Twitter dina manajemén sistem atanapi tugas méja. Éta gampang pikeun nyayogikeun langkung seueur kapasitas pikeun neundeun sareng komputasi. Urang bisa ngarobah reservasi slot ku nyieun tikét jeung rojongan Google. Urang ngaidentipikasi wewengkon nu bisa ningkat, kayaning alokasi slot timer jasa jeung perbaikan dasbor pikeun monitoring, sarta dikintunkeun requests maranéhanana ka Google.

biaya

Analisis awal kami nunjukkeun yén biaya pamundut pikeun BigQuery sareng Presto sami dina tingkat anu sami. Urang dibeuli slot pikeun dibereskeun hargana gaduh biaya bulanan anu stabil tibatan mayar seueur anu mesen per TB data olahan. Kaputusan ieu ogé dumasar kana eupan balik ti pangguna anu henteu hoyong mikirkeun biaya sateuacan ngadamel unggal pamundut.

Nyimpen data dina BigQuery mawa biaya salian ti biaya GCS. Alat sapertos Scalding meryogikeun set data dina GCS, sareng pikeun ngaksés BigQuery kami kedah ngamuat set data anu sami kana format BigQuery kapasitor. Kami nuju ngusahakeun sambungan Scalding ka set data BigQuery anu bakal ngaleungitkeun kabutuhan pikeun nyimpen set data dina GCS sareng BigQuery.

Pikeun kasus langka nu merlukeun queries jarang tina puluhan petabytes, urang mutuskeun yén nyimpen set data dina BigQuery teu ongkos-efektif tur ngagunakeun Presto pikeun langsung ngakses set data dina GCS. Jang ngalampahkeun ieu, urang ningali Sumber Data Eksternal BigQuery.

Léngkah-léngkah salajengna

Kami parantos ningali seueur minat BigQuery ti saprak sékrési alfa. Kami nambihan langkung seueur set data sareng langkung seueur paréntah ka BigQuery. Kami ngembangkeun konektor pikeun alat analitik data sapertos Scalding pikeun maca sareng nyerat kana panyimpenan BigQuery. Kami ningali alat sapertos Looker sareng Apache Zeppelin pikeun nyiptakeun laporan kualitas perusahaan sareng catetan nganggo set data BigQuery.

Kolaborasi kami sareng Google parantos produktif pisan sareng kami resep neraskeun sareng ngembangkeun partnership ieu. Kami damel sareng Google pikeun ngalaksanakeun urang sorangan Mitra Isu Trackerpikeun ngirim patarosan langsung ka Google. Sababaraha di antarana, sapertos BigQuery Parquet loader, parantos dilaksanakeun ku Google.

Ieu sababaraha pamundut fitur prioritas luhur kami pikeun Google:

  • Parabot pikeun panarimaan data merenah tur rojongan pikeun format LZO-Thrift.
  • Segmentasi sajam
  • Perbaikan kontrol aksés sapertos idin tingkat tabel, baris, sareng tingkat kolom.
  • bigquery Sumber Data éksternal kalawan integrasi Hive Metastore sarta rojongan pikeun format LZO-Thrift.
  • Ningkatkeun integrasi katalog data dina panganteur pamaké BigQuery
  • Timer jasa pikeun alokasi slot jeung ngawaskeun.

kacindekan

Démokratisasi analitik data, visualisasi, sareng pembelajaran mesin ku cara anu aman mangrupikeun prioritas utama pikeun tim Data Platform. Kami ngaidentifikasi Google BigQuery sareng Data Studio salaku alat anu tiasa ngabantosan ngahontal tujuan ieu, sareng ngaluarkeun BigQuery Alpha di sakumna perusahaan taun ka tukang.

Kami mendakan patarosan dina BigQuery saderhana sareng éfisién. Kami nganggo alat Google pikeun nyéépkeun sareng ngarobih data pikeun saluran pipa saderhana, tapi pikeun saluran pipa rumit kami kedah ngawangun kerangka Airflow sorangan. Dina rohangan ngokolakeun data, jasa BigQuery pikeun auténtikasi, otorisasina, sareng pamariksaan nyumponan kabutuhan urang. Pikeun ngatur metadata sareng ngajaga privasi, urang peryogi langkung kalenturan sareng kedah ngawangun sistem urang sorangan. BigQuery, janten jasa anu diurus, gampang dianggo. Biaya pamundut sami sareng alat anu aya. Nyimpen data dina BigQuery ngahasilkeun biaya salian ti biaya GCS.

Gemblengna, BigQuery tiasa dianggo pikeun analisis SQL umum. Kami ningali seueur minat BigQuery, sareng kami nuju ngusahakeun migrasi langkung seueur set data, ngadamel langkung seueur tim, sareng ngawangun langkung seueur saluran pipa nganggo BigQuery. Twitter ngagunakeun rupa-rupa data anu ngabutuhkeun kombinasi alat sapertos Scalding, Spark, Presto, sareng Druid. Kami badé neraskeun nguatkeun alat analitik data sareng masihan pituduh anu jelas ka pangguna ngeunaan cara ngagunakeun panawaran kami.

Kecap sukur

Abdi hoyong hatur nuhun ko-panulis sarta teammates kuring, Anju Jha jeung Will Pascucci, pikeun kolaborasi hébat maranéhanana sarta gawé teuas dina proyék ieu. Abdi ogé hoyong hatur nuhun ka insinyur sareng manajer ti sababaraha tim di Twitter sareng Google anu ngabantosan kami sareng pangguna BigQuery dina Twitter anu masihan tanggapan anu berharga.

Upami anjeun kabetot pikeun ngagarap masalah ieu, pariksa kami lowongan dina tim Data Platform.

Kualitas Data dina DWH - Konsistensi Gudang Data

sumber: www.habr.com

Tambahkeun komentar