SpÄcÄ«ga datu pÄrvaldÄ«ba ir Twitter inženierijas pamatprincips. IevieÅ”ot BigQuery savÄ platformÄ, mÄs koncentrÄjamies uz datu atklÄÅ”anu, piekļuves kontroli, droŔību un privÄtumu.
Lai atklÄtu un pÄrvaldÄ«tu datus, esam paplaÅ”inÄjuÅ”i savu datu piekļuves slÄni lÄ«dz DAL), lai nodroÅ”inÄtu rÄ«kus gan lokÄlajiem, gan Google mÄkoÅa datiem, nodroÅ”inot mÅ«su lietotÄjiem vienotu saskarni un API. KÄ Google Datu katalogs virzÄs uz vispÄrÄju pieejamÄ«bu, mÄs to iekļausim savos projektos, lai nodroÅ”inÄtu lietotÄjiem tÄdas funkcijas kÄ kolonnu meklÄÅ”ana.
BigQuery atvieglo datu kopÄ«goÅ”anu un piekļuvi tiem, taÄu mums bija nepiecieÅ”ams to kontrolÄt, lai novÄrstu datu izfiltrÄÅ”anu. Starp citiem rÄ«kiem mÄs izvÄlÄjÄmies divas funkcijas:
DomÄna ierobežota koplietoÅ”ana: Beta funkcija, lai neļautu lietotÄjiem koplietot BigQuery datu kopas ar lietotÄjiem Ärpus Twitter.
VPC pakalpojumu vadÄ«klas: vadÄ«kla, kas novÄrÅ” datu izfiltrÄÅ”anu un pieprasa lietotÄjiem piekļūt BigQuery no zinÄmiem IP adreÅ”u diapazoniem.
AutentifikÄcija: mÄs izmantojÄm GSP lietotÄju kontus ad hoc pieprasÄ«jumiem un pakalpojumu kontus ražoÅ”anas pieprasÄ«jumiem.
AutorizÄcija: katrai datu kopai bija jÄbÅ«t Ä«paÅ”nieka pakalpojuma kontam un lasÄ«tÄju grupai.
AuditÄÅ”ana: mÄs eksportÄjÄm BigQuery steka draivera žurnÄlus, kuros bija detalizÄta informÄcija par vaicÄjumu izpildi, BigQuery datu kopÄ, lai to varÄtu viegli analizÄt.
Lai nodroÅ”inÄtu, ka Twitter lietotÄju personas dati tiek pareizi apstrÄdÄti, mums ir jÄreÄ£istrÄ visas BigQuery datu kopas, jÄanotÄ personas dati, jÄuztur pareiza uzglabÄÅ”ana un jÄdzÄÅ” (jÄiztÄ«ra) dati, ko lietotÄji ir dzÄsuÅ”i.
MÄs apskatÄ«jÄm Google MÄkoÅa datu zudumu novÄrÅ”anas API, kas izmanto maŔīnmÄcÄ«Å”anos, lai klasificÄtu un rediÄ£Ätu sensitÄ«vus datus, taÄu precizitÄtes dÄļ nolÄma manuÄli anotÄt datu kopu. MÄs plÄnojam izmantot Data Loss Prevention API, lai papildinÄtu pielÄgoto anotÄciju.
VietnÄ Twitter esam izveidojuÅ”i Äetras BigQuery datu kopu konfidencialitÄtes kategorijas, kas norÄdÄ«tas Å”eit dilstoÅ”Ä jutÄ«bas secÄ«bÄ.
Ä»oti sensitÄ«vas datu kopas tiek darÄ«tas pieejamas pÄc vajadzÄ«bas, pamatojoties uz mazÄko privilÄÄ£iju principu. Katrai datu kopai ir atseviŔķa lasÄ«tÄju grupa, un mÄs izsekosim lietojumu pa atseviŔķiem kontiem.
VidÄja jutÄ«guma datu kopas (vienvirziena pseidonÄ«mi, kas izmanto sÄlÄ«tu jaukÅ”anu) nesatur personu identificÄjoÅ”u informÄciju (PII) un ir pieejamas lielÄkai darbinieku grupai. Tas ir labs lÄ«dzsvars starp privÄtuma problÄmÄm un datu lietderÄ«bu. Tas ļauj darbiniekiem veikt analÄ«zes uzdevumus, piemÄram, aprÄÄ·inÄt to lietotÄju skaitu, kuri izmantojuÅ”i funkciju, nezinot, kas ir Ä«stie lietotÄji.
Zemas jutÄ«bas datu kopas ar visu lietotÄju identifikÄcijas informÄciju. Å Ä« ir laba pieeja no privÄtuma viedokļa, taÄu to nevar izmantot lietotÄja lÄ«meÅa analÄ«zei.
PubliskÄs datu kopas (izlaistas Ärpus Twitter) ir pieejamas visiem Twitter darbiniekiem.
Kas attiecas uz reÄ£istrÄÅ”anu, mÄs izmantojÄm ieplÄnotus uzdevumus, lai uzskaitÄ«tu BigQuery datu kopas un reÄ£istrÄtu tÄs datu piekļuves slÄnÄ« (DAL), Twitter metadatu krÄtuve. LietotÄji anotÄs datu kopas ar privÄtuma informÄciju un norÄdÄ«s arÄ« saglabÄÅ”anas periodu. RunÄjot par tÄ«rÄ«Å”anu, mÄs novÄrtÄjam divu iespÄju veiktspÄju un izmaksas: 1. Datu kopu tÄ«rÄ«Å”ana GCS, izmantojot tÄdus rÄ«kus kÄ applaucÄÅ”ana, un to ielÄde BigQuery; 2. BigQuery DML priekÅ”rakstu izmantoÅ”ana. MÄs, iespÄjams, izmantosim abu metožu kombinÄciju, lai apmierinÄtu dažÄdu grupu un datu prasÄ«bas.
SistÄmas funkcionalitÄte
TÄ kÄ BigQuery ir pÄrvaldÄ«ts pakalpojums, Twitter SRE komanda nebija jÄiesaista sistÄmu pÄrvaldÄ«bÄ vai darba pienÄkumos. Bija viegli nodroÅ”inÄt lielÄku ietilpÄ«bu gan uzglabÄÅ”anai, gan skaitļoÅ”anai. MÄs varÄtu mainÄ«t vietu rezervÄciju, izveidojot biļeti ar Google atbalstu. MÄs identificÄjÄm jomas, kuras varÄtu uzlabot, piemÄram, paÅ”apkalpoÅ”anÄs laika niÅ”u pieŔķirÅ”anu un informÄcijas paneļa uzlabojumus pÄrraudzÄ«bai, un iesniedzÄm Å”os pieprasÄ«jumus uzÅÄmumam Google.
IzmaksÄt
MÅ«su sÄkotnÄjÄ analÄ«ze parÄdÄ«ja, ka BigQuery un Presto vaicÄjumu izmaksas bija vienÄ lÄ«menÄ«. MÄs iegÄdÄjÄmies slotus par fiksÄts cena, lai maksÄjuma vietÄ bÅ«tu stabilas ikmÄneÅ”a izmaksas pÄc pieprasÄ«juma uz TB apstrÄdÄto datu. Å is lÄmums tika balstÄ«ts arÄ« uz atsauksmÄm no lietotÄjiem, kuri nevÄlÄjÄs domÄt par izmaksÄm pirms katra pieprasÄ«juma iesniegÅ”anas.
Datu glabÄÅ”ana pakalpojumÄ BigQuery radÄ«ja papildu izmaksas GCS izmaksÄm. TÄdiem rÄ«kiem kÄ Scalding ir nepiecieÅ”amas datu kopas GCS, un, lai piekļūtu BigQuery, mums bija jÄielÄdÄ tÄs paÅ”as datu kopas BigQuery formÄtÄ. Capacitor. MÄs strÄdÄjam pie Scalding savienojuma ar BigQuery datu kopÄm, kas novÄrsÄ«s nepiecieÅ”amÄ«bu uzglabÄt datu kopas gan GCS, gan BigQuery.
Retos gadÄ«jumos, kad bija nepiecieÅ”ami reti vaicÄjumi desmitiem petabaitu garumÄ, mÄs nolÄmÄm, ka datu kopu glabÄÅ”ana pakalpojumÄ BigQuery nebija rentabla, un izmantojÄm Presto, lai tieÅ”i piekļūtu datu kopÄm GCS. Lai to izdarÄ«tu, mÄs aplÅ«kojam BigQuery ÄrÄjos datu avotus.
NÄkamÄs darbÄ«bas
KopÅ” alfa versijas izlaiÅ”anas esam redzÄjuÅ”i lielu interesi par BigQuery. MÄs pievienojam vairÄk datu kopu un vairÄk komandu BigQuery. MÄs izstrÄdÄjam savienotÄjus datu analÄ«zes rÄ«kiem, piemÄram, Scalding, lai lasÄ«tu un rakstÄ«tu BigQuery krÄtuvÄ. MÄs meklÄjam tÄdus rÄ«kus kÄ Looker un Apache Zeppelin, lai izveidotu uzÅÄmuma kvalitÄtes pÄrskatus un piezÄ«mes, izmantojot BigQuery datu kopas.
MÅ«su sadarbÄ«ba ar Google ir bijusi ļoti produktÄ«va, un mÄs esam priecÄ«gi turpinÄt un attÄ«stÄ«t Å”o partnerÄ«bu. MÄs sadarbojÄmies ar Google, lai ieviestu savu Partneru problÄmu izsekotÄjslai nosÅ«tÄ«tu vaicÄjumus tieÅ”i uzÅÄmumam Google. Dažus no tiem, piemÄram, BigQuery Parketa iekrÄvÄju, Google jau ir ieviesis.
Å eit ir daži no mÅ«su augstas prioritÄtes funkciju pieprasÄ«jumiem uzÅÄmumam Google.
RÄ«ki Ärtai datu saÅemÅ”anai un atbalstam LZO-Thrift formÄtÄ.
Stundu segmentÄcija
Piekļuves kontroles uzlabojumi, piemÄram, tabulas, rindu un kolonnu lÄ«meÅa atļaujas.
BigQuery ÄrÄjie datu avoti ar Hive Metastore integrÄciju un LZO-Thrift formÄta atbalstu.
Uzlabota datu kataloga integrÄcija BigQuery lietotÄja saskarnÄ
PaÅ”apkalpoÅ”anÄs laika niÅ”u pieŔķirÅ”anai un uzraudzÄ«bai.
SecinÄjums
Datu analÄ«tikas, vizualizÄcijas un maŔīnmÄcÄ«Å”anÄs demokratizÄcija droÅ”Ä veidÄ ir datu platformas komandas galvenÄ prioritÄte. MÄs identificÄjÄm Google BigQuery un Data Studio kÄ rÄ«kus, kas varÄtu palÄ«dzÄt sasniegt Å”o mÄrÄ·i, un pagÄjuÅ”ajÄ gadÄ izlaidÄm BigQuery Alpha visÄ uzÅÄmumÄ.
MÄs atklÄjÄm, ka BigQuery vaicÄjumi ir vienkÄrÅ”i un efektÄ«vi. MÄs izmantojÄm Google rÄ«kus, lai pÄrÅemtu un pÄrveidotu datus par vienkÄrÅ”iem cauruļvadiem, bet sarežģītiem cauruļvadiem mums bija jÄizveido savs Airflow ietvars. Datu pÄrvaldÄ«bas telpÄ BigQuery autentifikÄcijas, autorizÄcijas un auditÄÅ”anas pakalpojumi atbilst mÅ«su vajadzÄ«bÄm. Lai pÄrvaldÄ«tu metadatus un saglabÄtu privÄtumu, mums bija nepiecieÅ”ama lielÄka elastÄ«ba, un mums bija jÄizveido savas sistÄmas. BigQuery, kas ir pÄrvaldÄ«ts pakalpojums, bija viegli lietojams. VaicÄjumu izmaksas bija lÄ«dzÄ«gas esoÅ”ajiem rÄ«kiem. Par datu glabÄÅ”anu BigQuery papildus GCS izmaksÄm ir jÄmaksÄ.
KopumÄ BigQuery labi darbojas vispÄrÄ«gai SQL analÄ«zei. MÄs novÄrojam lielu interesi par BigQuery, un mÄs strÄdÄjam, lai migrÄtu vairÄk datu kopu, piesaistÄ«tu vairÄk komandu un izveidotu vairÄk konveijeru, izmantojot BigQuery. Twitter izmanto dažÄdus datus, kuriem bÅ«s nepiecieÅ”ama dažÄdu rÄ«ku kombinÄcija, piemÄram, Scalding, Spark, Presto un Druid. MÄs plÄnojam turpinÄt uzlabot savus datu analÄ«zes rÄ«kus un sniegt lietotÄjiem skaidrus norÄdÄ«jumus par to, kÄ vislabÄk izmantot mÅ«su piedÄvÄjumu.
PateicÄ«bas vÄrdi
Es vÄlos pateikties saviem lÄ«dzautoriem un komandas biedriem Anju Jha un Will Pascucci par lielisko sadarbÄ«bu un smago darbu pie Ŕī projekta. VÄlos pateikties arÄ« inženieriem un vadÄ«tÄjiem no vairÄkÄm Twitter un Google komandÄm, kas palÄ«dzÄja mums un BigQuery lietotÄjiem pakalpojumÄ Twitter un sniedza vÄrtÄ«gas atsauksmes.
Ja jÅ«s interesÄ darbs pie Ŕīm problÄmÄm, skatiet mÅ«su vakances Datu platformas komandÄ.