Kā Google BigQuery demokratizēja datu analīzi. 2. daļa

Sveiks, Habr! Å obrÄ«d OTUS ir atvērta pieteikÅ”anās jaunai kursu straumei Datu inženieris. Gaidot kursu sākumu, turpinām dalÄ«ties ar jums noderÄ«gā materiālā.

Izlasi pirmo daļu

Kā Google BigQuery demokratizēja datu analīzi. 2. daļa

Datu vadība

SpēcÄ«ga datu pārvaldÄ«ba ir Twitter inženierijas pamatprincips. IevieÅ”ot BigQuery savā platformā, mēs koncentrējamies uz datu atklāŔanu, piekļuves kontroli, droŔību un privātumu.

Lai atklātu un pārvaldÄ«tu datus, esam paplaÅ”inājuÅ”i savu datu piekļuves slāni lÄ«dz DAL), lai nodroÅ”inātu rÄ«kus gan lokālajiem, gan Google mākoņa datiem, nodroÅ”inot mÅ«su lietotājiem vienotu saskarni un API. Kā Google Datu katalogs virzās uz vispārēju pieejamÄ«bu, mēs to iekļausim savos projektos, lai nodroÅ”inātu lietotājiem tādas funkcijas kā kolonnu meklÄ“Å”ana.

BigQuery atvieglo datu kopÄ«goÅ”anu un piekļuvi tiem, taču mums bija nepiecieÅ”ams to kontrolēt, lai novērstu datu izfiltrÄ“Å”anu. Starp citiem rÄ«kiem mēs izvēlējāmies divas funkcijas:

Mēs esam ieviesuÅ”i autentifikācijas, autorizācijas un auditÄ“Å”anas (AAA) prasÄ«bas droŔībai, kā norādÄ«ts tālāk.

  • Autentifikācija: mēs izmantojām GSP lietotāju kontus ad hoc pieprasÄ«jumiem un pakalpojumu kontus ražoÅ”anas pieprasÄ«jumiem.
  • Autorizācija: katrai datu kopai bija jābÅ«t Ä«paÅ”nieka pakalpojuma kontam un lasÄ«tāju grupai.
  • AuditÄ“Å”ana: mēs eksportējām BigQuery steka draivera žurnālus, kuros bija detalizēta informācija par vaicājumu izpildi, BigQuery datu kopā, lai to varētu viegli analizēt.

Lai nodroÅ”inātu, ka Twitter lietotāju personas dati tiek pareizi apstrādāti, mums ir jāreÄ£istrē visas BigQuery datu kopas, jāanotē personas dati, jāuztur pareiza uzglabāŔana un jādzÄ“Å” (jāiztÄ«ra) dati, ko lietotāji ir dzēsuÅ”i.

Mēs apskatÄ«jām Google Mākoņa datu zudumu novērÅ”anas API, kas izmanto maŔīnmācÄ«Å”anos, lai klasificētu un rediģētu sensitÄ«vus datus, taču precizitātes dēļ nolēma manuāli anotēt datu kopu. Mēs plānojam izmantot Data Loss Prevention API, lai papildinātu pielāgoto anotāciju.

Vietnē Twitter esam izveidojuÅ”i četras BigQuery datu kopu konfidencialitātes kategorijas, kas norādÄ«tas Å”eit dilstoŔā jutÄ«bas secÄ«bā.

  • Ä»oti sensitÄ«vas datu kopas tiek darÄ«tas pieejamas pēc vajadzÄ«bas, pamatojoties uz mazāko privilēģiju principu. Katrai datu kopai ir atseviŔķa lasÄ«tāju grupa, un mēs izsekosim lietojumu pa atseviŔķiem kontiem.
  • Vidēja jutÄ«guma datu kopas (vienvirziena pseidonÄ«mi, kas izmanto sālÄ«tu jaukÅ”anu) nesatur personu identificējoÅ”u informāciju (PII) un ir pieejamas lielākai darbinieku grupai. Tas ir labs lÄ«dzsvars starp privātuma problēmām un datu lietderÄ«bu. Tas ļauj darbiniekiem veikt analÄ«zes uzdevumus, piemēram, aprēķināt to lietotāju skaitu, kuri izmantojuÅ”i funkciju, nezinot, kas ir Ä«stie lietotāji.
  • Zemas jutÄ«bas datu kopas ar visu lietotāju identifikācijas informāciju. Å Ä« ir laba pieeja no privātuma viedokļa, taču to nevar izmantot lietotāja lÄ«meņa analÄ«zei.
  • Publiskās datu kopas (izlaistas ārpus Twitter) ir pieejamas visiem Twitter darbiniekiem.

Kas attiecas uz reÄ£istrÄ“Å”anu, mēs izmantojām ieplānotus uzdevumus, lai uzskaitÄ«tu BigQuery datu kopas un reÄ£istrētu tās datu piekļuves slānÄ« (DAL), Twitter metadatu krātuve. Lietotāji anotēs datu kopas ar privātuma informāciju un norādÄ«s arÄ« saglabāŔanas periodu. Runājot par tÄ«rÄ«Å”anu, mēs novērtējam divu iespēju veiktspēju un izmaksas: 1. Datu kopu tÄ«rÄ«Å”ana GCS, izmantojot tādus rÄ«kus kā applaucÄ“Å”ana, un to ielāde BigQuery; 2. BigQuery DML priekÅ”rakstu izmantoÅ”ana. Mēs, iespējams, izmantosim abu metožu kombināciju, lai apmierinātu dažādu grupu un datu prasÄ«bas.

Sistēmas funkcionalitāte

Tā kā BigQuery ir pārvaldÄ«ts pakalpojums, Twitter SRE komanda nebija jāiesaista sistēmu pārvaldÄ«bā vai darba pienākumos. Bija viegli nodroÅ”ināt lielāku ietilpÄ«bu gan uzglabāŔanai, gan skaitļoÅ”anai. Mēs varētu mainÄ«t vietu rezervāciju, izveidojot biļeti ar Google atbalstu. Mēs identificējām jomas, kuras varētu uzlabot, piemēram, paÅ”apkalpoÅ”anās laika niÅ”u pieŔķirÅ”anu un informācijas paneļa uzlabojumus pārraudzÄ«bai, un iesniedzām Å”os pieprasÄ«jumus uzņēmumam Google.

Izmaksāt

MÅ«su sākotnējā analÄ«ze parādÄ«ja, ka BigQuery un Presto vaicājumu izmaksas bija vienā lÄ«menÄ«. Mēs iegādājāmies slotus par fiksēts cena, lai maksājuma vietā bÅ«tu stabilas ikmēneÅ”a izmaksas pēc pieprasÄ«juma uz TB apstrādāto datu. Å is lēmums tika balstÄ«ts arÄ« uz atsauksmēm no lietotājiem, kuri nevēlējās domāt par izmaksām pirms katra pieprasÄ«juma iesniegÅ”anas.

Datu glabāŔana pakalpojumā BigQuery radÄ«ja papildu izmaksas GCS izmaksām. Tādiem rÄ«kiem kā Scalding ir nepiecieÅ”amas datu kopas GCS, un, lai piekļūtu BigQuery, mums bija jāielādē tās paÅ”as datu kopas BigQuery formātā. Capacitor. Mēs strādājam pie Scalding savienojuma ar BigQuery datu kopām, kas novērsÄ«s nepiecieÅ”amÄ«bu uzglabāt datu kopas gan GCS, gan BigQuery.

Retos gadÄ«jumos, kad bija nepiecieÅ”ami reti vaicājumi desmitiem petabaitu garumā, mēs nolēmām, ka datu kopu glabāŔana pakalpojumā BigQuery nebija rentabla, un izmantojām Presto, lai tieÅ”i piekļūtu datu kopām GCS. Lai to izdarÄ«tu, mēs aplÅ«kojam BigQuery ārējos datu avotus.

Nākamās darbības

KopÅ” alfa versijas izlaiÅ”anas esam redzējuÅ”i lielu interesi par BigQuery. Mēs pievienojam vairāk datu kopu un vairāk komandu BigQuery. Mēs izstrādājam savienotājus datu analÄ«zes rÄ«kiem, piemēram, Scalding, lai lasÄ«tu un rakstÄ«tu BigQuery krātuvē. Mēs meklējam tādus rÄ«kus kā Looker un Apache Zeppelin, lai izveidotu uzņēmuma kvalitātes pārskatus un piezÄ«mes, izmantojot BigQuery datu kopas.

MÅ«su sadarbÄ«ba ar Google ir bijusi ļoti produktÄ«va, un mēs esam priecÄ«gi turpināt un attÄ«stÄ«t Å”o partnerÄ«bu. Mēs sadarbojāmies ar Google, lai ieviestu savu Partneru problēmu izsekotājslai nosÅ«tÄ«tu vaicājumus tieÅ”i uzņēmumam Google. Dažus no tiem, piemēram, BigQuery Parketa iekrāvēju, Google jau ir ieviesis.

Šeit ir daži no mūsu augstas prioritātes funkciju pieprasījumiem uzņēmumam Google.

  • RÄ«ki ērtai datu saņemÅ”anai un atbalstam LZO-Thrift formātā.
  • Stundu segmentācija
  • Piekļuves kontroles uzlabojumi, piemēram, tabulas, rindu un kolonnu lÄ«meņa atļaujas.
  • BigQuery Ārējie datu avoti ar Hive Metastore integrāciju un LZO-Thrift formāta atbalstu.
  • Uzlabota datu kataloga integrācija BigQuery lietotāja saskarnē
  • PaÅ”apkalpoÅ”anās laika niÅ”u pieŔķirÅ”anai un uzraudzÄ«bai.

Secinājums

Datu analÄ«tikas, vizualizācijas un maŔīnmācÄ«Å”anās demokratizācija droŔā veidā ir datu platformas komandas galvenā prioritāte. Mēs identificējām Google BigQuery un Data Studio kā rÄ«kus, kas varētu palÄ«dzēt sasniegt Å”o mērÄ·i, un pagājuÅ”ajā gadā izlaidām BigQuery Alpha visā uzņēmumā.

Mēs atklājām, ka BigQuery vaicājumi ir vienkārÅ”i un efektÄ«vi. Mēs izmantojām Google rÄ«kus, lai pārņemtu un pārveidotu datus par vienkārÅ”iem cauruļvadiem, bet sarežģītiem cauruļvadiem mums bija jāizveido savs Airflow ietvars. Datu pārvaldÄ«bas telpā BigQuery autentifikācijas, autorizācijas un auditÄ“Å”anas pakalpojumi atbilst mÅ«su vajadzÄ«bām. Lai pārvaldÄ«tu metadatus un saglabātu privātumu, mums bija nepiecieÅ”ama lielāka elastÄ«ba, un mums bija jāizveido savas sistēmas. BigQuery, kas ir pārvaldÄ«ts pakalpojums, bija viegli lietojams. Vaicājumu izmaksas bija lÄ«dzÄ«gas esoÅ”ajiem rÄ«kiem. Par datu glabāŔanu BigQuery papildus GCS izmaksām ir jāmaksā.

Kopumā BigQuery labi darbojas vispārÄ«gai SQL analÄ«zei. Mēs novērojam lielu interesi par BigQuery, un mēs strādājam, lai migrētu vairāk datu kopu, piesaistÄ«tu vairāk komandu un izveidotu vairāk konveijeru, izmantojot BigQuery. Twitter izmanto dažādus datus, kuriem bÅ«s nepiecieÅ”ama dažādu rÄ«ku kombinācija, piemēram, Scalding, Spark, Presto un Druid. Mēs plānojam turpināt uzlabot savus datu analÄ«zes rÄ«kus un sniegt lietotājiem skaidrus norādÄ«jumus par to, kā vislabāk izmantot mÅ«su piedāvājumu.

Pateicības vārdi

Es vēlos pateikties saviem lÄ«dzautoriem un komandas biedriem Anju Jha un Will Pascucci par lielisko sadarbÄ«bu un smago darbu pie Ŕī projekta. Vēlos pateikties arÄ« inženieriem un vadÄ«tājiem no vairākām Twitter un Google komandām, kas palÄ«dzēja mums un BigQuery lietotājiem pakalpojumā Twitter un sniedza vērtÄ«gas atsauksmes.

Ja jÅ«s interesē darbs pie Ŕīm problēmām, skatiet mÅ«su vakances Datu platformas komandā.

Datu kvalitāte DWH ā€” datu noliktavas konsekvence

Avots: www.habr.com

Pievieno komentāru