Hey Habr! Tá clárú le haghaidh sruth cúrsa nua oscailte ag OTUS faoi láthair . Agus muid ag súil le tús an chúrsa, leanaimid orainn ag roinnt ábhar úsáideach leat.

Bainistíocht sonraí
Tá Rialachas Sonraí Láidir ina phrionsabal lárnach d’Innealtóireacht Twitter. Agus BigQuery á chur i bhfeidhm againn inár n-ardán, dírímid ar fhionnachtain sonraí, rialú rochtana, slándáil agus príobháideacht.
Chun sonraí a aimsiú agus a bhainistiú, leathnaíomar ár gCiseal Rochtana Sonraí go ) uirlisí a sholáthar do shonraí ar an áitreabh agus Google Cloud, ag soláthar comhéadan aonair agus API dár n-úsáideoirí. Mar Google ag bogadh i dtreo infhaighteacht ghinearálta, cuirfimid é san áireamh inár dtionscadail chun gnéithe cosúil le cuardach colúin a sholáthar d'úsáideoirí.
Déanann BigQuery sonraí a roinnt agus a rochtain go héasca, ach níor mhór dúinn smacht éigin a bheith againn air seo chun eis-scagadh sonraí a chosc. I measc uirlisí eile, roghnaigh muid dhá fheidhm:
- : Gné béite chun úsáideoirí a chosc ó thacair sonraí BigQuery a roinnt le húsáideoirí lasmuigh de Twitter.
- : Rialú a chuireann cosc ar eis-scagadh sonraí agus a éilíonn ar úsáideoirí rochtain a fháil ar BigQuery ó raonta seoltaí IP aitheanta.
Tá ceanglais fíordheimhnithe, údaraithe agus iniúchta (AAA) maidir le slándáil curtha i bhfeidhm againn mar seo a leanas:
- Fíordheimhniú: Bhaineamar úsáid as cuntais úsáideora GCP le haghaidh iarratais ad hoc agus cuntais seirbhíse le haghaidh iarratais ar tháirgeadh.
- Údarú: D’éilíomar go mbeadh cuntas seirbhíse úinéara agus grúpa léitheoirí ag gach tacar sonraí.
- Iniúchadh: D’easpórtálamar logaí stackdriver BigQuery, ina raibh faisnéis mhionsonraithe ar fheidhmiú fiosrúchán, isteach i tacar sonraí BigQuery le haghaidh anailíse éasca.
Chun a chinntiú go láimhseáiltear sonraí pearsanta úsáideoirí Twitter i gceart, ní mór dúinn gach tacar sonraí de chuid BigQuery a chlárú, sonraí pearsanta a anótáil, stóráil cheart a choinneáil, agus (scríofa) sonraí atá scriosta ag úsáideoirí a scriosadh.
D'fhéachamar ar Google , a úsáideann meaisínfhoghlaim chun sonraí íogaire a rangú agus a chur in eagar, ach chinn sé i bhfabhar an tacar sonraí a anótáil de láimh mar gheall ar chruinneas. Tá sé beartaithe againn an API um Chosc ar Chaillteanas Sonraí a úsáid chun cur leis an nóta saincheaptha.
Ag Twitter, tá ceithre chatagóir príobháideachta cruthaithe againn do thacair sonraí in BigQuery, atá liostaithe anseo in ord íslitheach íogaireachta:
- Cuirtear tacair sonraí an-íogaire ar fáil ar bhonn de réir mar is gá bunaithe ar phrionsabal na pribhléide is lú. Tá grúpa ar leith léitheoirí ag gach tacar sonraí, agus rianóimid úsáid na gcuntas aonair.
- Ní bhíonn Faisnéis Inaitheanta Pearsanta (PII) i dtacar sonraí íogaireachta meánacha (bréagainmneacha aontreo a úsáideann hashing saillte) agus tá rochtain ag grúpa níos mó fostaithe orthu. Is cothromaíocht mhaith é seo idir imní príobháideachta agus úsáideacht sonraí. Ligeann sé seo d’fhostaithe tascanna anailíse a dhéanamh, mar shampla líon na n-úsáideoirí a d’úsáid gné a ríomh, gan a fhios cé hiad na húsáideoirí fíor.
- Tacar sonraí íogaireachta ísle le gach faisnéis aitheantais úsáideora. Is cur chuige maith é seo ó thaobh príobháideachta de, ach ní féidir é a úsáid le haghaidh anailíse ar leibhéal an úsáideora.
- Tá tacair shonraí poiblí (a eisítear lasmuigh de Twitter) ar fáil do gach fostaí Twitter.
Maidir le logáil, d'úsáideamar tascanna sceidealta chun tacair shonraí BigQuery a áireamh agus iad a chlárú leis an gCiseal Rochtana Sonraí (), stór meiteashonraí Twitter. Déanfaidh úsáideoirí tacair shonraí a anótáil le faisnéis phríobháideachais agus sonróidh siad tréimhse choinneála freisin. Maidir le glanadh, déanaimid meastóireacht ar fheidhmíocht agus ar chostas dhá rogha: 1. Tacar sonraí a ghlanadh i GCS ag baint úsáide as uirlisí cosúil le Scalding agus iad a luchtú isteach i BigQuery; 2. Ag baint úsáide as ráitis DML BigQuery. Is dócha go n-úsáidfimid meascán den dá mhodh chun riachtanais na ngrúpaí agus na sonraí éagsúla a chomhlíonadh.
Feidhmiúlacht an chórais
Toisc gur seirbhís bhainistithe é BigQuery, ní raibh aon ghá le foireann SRE Twitter a bheith páirteach i mbainistíocht córais nó i ndualgais deisce. Bhí sé éasca níos mó toilleadh a sholáthar le haghaidh stórála agus ríomhaireachta araon. D’fhéadfaimis an áirithint sliotán a athrú trí thicéad a chruthú le tacaíocht Google. D’aithníomar réimsí a d’fhéadfaí a fheabhsú, amhail leithdháileadh sliotán féinseirbhíse agus feabhsuithe ar an deais le haghaidh monatóireachta, agus chuireamar na hiarratais sin faoi bhráid Google.
Costas
Léirigh ár réamhanailís go raibh costais na bhfiosrúchán do BigQuery agus Presto ag an leibhéal céanna. Cheannaigh muid sliotáin le haghaidh praghas chun costas míosúil cobhsaí a bheith aige in ionad íocaíochta in aghaidh an TB de shonraí próiseáilte. Bhí an cinneadh seo bunaithe freisin ar aiseolas ó úsáideoirí nach raibh ag iarraidh smaoineamh ar chostais roimh gach iarratas a dhéanamh.
Bhain costais chomh maith le costais GCS as sonraí a stóráil in BigQuery. Teastaíonn tacair shonraí i GCS le huirlisí cosúil le Scalding, agus chun rochtain a fháil ar BigQuery bhí orainn na tacair sonraí céanna a lódáil go formáid BigQuery . Táimid ag obair ar nasc Scálú le tacair shonraí BigQuery a chuirfidh deireadh leis an ngá atá le tacair shonraí a stóráil i GCS agus BigQuery araon.
I gcás cásanna annamha a raibh gá le fiosrúcháin annamha ó na mílte petabytes, chinneamar nach raibh stóráil tacair sonraí in BigQuery cost-éifeachtach agus d’úsáideamar Presto chun rochtain dhíreach a fháil ar thacair sonraí i GCS. Chun seo a dhéanamh, táimid ag féachaint ar Fhoinsí Sonraí Seachtracha BigQuery.
Na chéad chéimeanna eile
Tá go leor suime feicthe againn i BigQuery ó scaoileadh alfa. Táimid ag cur níos mó tacair sonraí agus níos mó orduithe le BigQuery. Forbraímid nascóirí le haghaidh uirlisí anailíse sonraí cosúil le Scalding chun léamh agus scríobh chuig stóras BigQuery. Táimid ag féachaint ar uirlisí cosúil le Looker agus Apache Zeppelin chun tuarascálacha agus nótaí cáilíochta fiontair a chruthú ag baint úsáide as tacair shonraí BigQuery.
Bhí ár gcomhoibriú le Google thar a bheith táirgiúil agus tá áthas orainn an chomhpháirtíocht seo a fhorbairt agus a leanúint ar aghaidh. D'oibríomar le Google chun ár gcuid féin a chur i bhfeidhm chun fiosruithe a sheoladh go díreach chuig Google. Tá cuid acu, mar an lódóir BigQuery Parquet, curtha i bhfeidhm cheana féin ag Google.
Seo cuid dár n-iarratas gné ardtosaíochta do Google:
- Uirlisí le haghaidh fáiltithe sonraí áisiúil agus tacaíocht don fhormáid LZO-Thrift.
- Deighilt in aghaidh na huaire
- Feabhsuithe rialaithe rochtana ar nós ceadanna ar leibhéal tábla, ró-, agus colún.
- Ceist Mhór le comhtháthú Hive Metastore agus tacaíocht don fhormáid LZO-Thrift.
- Comhtháthú feabhsaithe catalóg sonraí i gcomhéadan úsáideora BigQuery
- Féinseirbhís do leithdháileadh sliotán agus monatóireacht.
Conclúid
Is ardtosaíocht d’fhoireann an Ardáin Sonraí é anailísiú sonraí, léirshamhlú agus foghlaim mheaisín a dhaonú ar bhealach slán. D’aithníomar Google BigQuery agus Data Studio mar uirlisí a d’fhéadfadh cabhrú leis an sprioc seo a bhaint amach, agus scaoileadh BigQuery Alpha ar fud na cuideachta anuraidh.
Fuaireamar amach go raibh fiosruithe in BigQuery simplí agus éifeachtach. D’úsáideamar uirlisí Google chun sonraí a ionghabháil agus a athrú le haghaidh píblínte simplí, ach le haghaidh píblínte casta bhí orainn ár gcreat Airflow féin a thógáil. Sa spás bainistíochta sonraí, freastalaíonn seirbhísí BigQuery maidir le fíordheimhniú, údarú agus iniúchadh ar ár gcuid riachtanas. Chun meiteashonraí a bhainistiú agus príobháideacht a choinneáil, bhí níos mó solúbthachta ag teastáil uainn agus bhí orainn ár gcórais féin a thógáil. Bhí BigQuery, mar sheirbhís bhainistithe, éasca le húsáid. Bhí costais na gceisteanna cosúil le huirlisí reatha. Tabhaítear costais chomh maith le costais GCS chun sonraí a stóráil in BigQuery.
Ar an iomlán, oibríonn BigQuery go maith le haghaidh anailís ghinearálta SQL. Tá an-spéis againn in BigQuery, agus táimid ag obair chun tuilleadh tacair sonraí a aistriú, níos mó foirne a thabhairt ar aghaidh, agus níos mó píblínte a thógáil le BigQuery. Úsáideann Twitter éagsúlacht sonraí a mbeidh gá le meascán uirlisí mar Scalding, Spark, Presto, agus Druid. Tá sé beartaithe againn leanúint lenár n-uirlisí anailíse sonraí a neartú agus treoir shoiléir a sholáthar dár n-úsáideoirí maidir leis an mbealach is fearr lenár gcuid tairiscintí a úsáid.
Focail buíochais
Ba mhaith liom buíochas a ghabháil le mo chomh-údair agus mo chomhpháirtithe, Anju Jha agus Will Pascucci, as a gcomhoibriú iontach agus a gcuid oibre crua ar an tionscadal seo. Ba mhaith liom buíochas a ghabháil freisin leis na hinnealtóirí agus na bainisteoirí ó roinnt foirne ag Twitter agus Google a chabhraigh linn agus le húsáideoirí BigQuery ar Twitter a thug aiseolas luachmhar.
Má tá suim agat oibriú ar na fadhbanna seo, féach ar ár i bhfoireann an Ardáin Sonraí.
Foinse: will.com
