Conas sonraí a chuardach go tapa agus go héasca le Whale

Conas sonraí a chuardach go tapa agus go héasca le Whale
Labhraíonn an t-alt seo ar an uirlis aimsithe sonraí is simplí agus is tapúla, a bhfeiceann tú a cuid oibre ar KDPV. Suimiúil go leor, tá míol mór deartha le bheith óstáil ar fhreastalaí iargúlta git. Sonraí faoin gearrtha.

Mar a d’athraigh Uirlis Aimsithe Sonraí Airbnb Mo Shaol

I mo ghairm bheatha, bhí an t-ádh orm oibriú ar roinnt fadhbanna spraoi: rinne mé staidéar ar shreabhadh matamaitic agus mo chéim ag MIT, d'oibrigh mé ar mhúnlaí incriminteacha, agus le tionscadal foinse oscailte. piléar ag Wayfair, agus chuir sé leathanach baile nua i bhfeidhm ag díriú ar shamhlacha agus ar fheabhsúcháin CUPED ag Airbnb. Ach ní raibh an obair seo go léir glamorous - go deimhin, is minic a chaith mé an chuid is mó de mo chuid ama ag cuardach, ag déanamh taighde agus ag bailíochtú sonraí. Cé go raibh sé seo ina staid leanúnach san obair, níor tháinig sé chun solais dom gur fadhb í seo go dtí gur shroich mé Airbnb áit ar réitíodh é le huirlis aimsithe sonraí − tairseach sonraí.

Cá bhfaighidh mé {{ data}}? tairseach sonraí.
Cad a chiallaíonn an colún seo? tairseach sonraí.
Conas atá {{metric}} inniu? tairseach sonraí.
Cad is tuiscint ar an saol? IN tairseach sonraí, is dócha.

Ceart go leor, tá an pictiúr curtha i láthair agat. Ní thógann sé ach cúpla nóiméad, seachas uaireanta, sonraí a aimsiú agus a thuiscint cad a chiallaíonn sé, conas a cruthaíodh é agus conas é a úsáid. D’fhéadfainn mo chuid ama a chaitheamh ag tarraingt conclúidí simplí, nó algartaim nua, (…nó ag freagairt ceisteanna randamacha faoi na sonraí), seachas ag tochailt trí nótaí, ag scríobh fiosrúcháin athchleachtach SQL, agus ag lua comhghleacaithe ar Slack chun iarracht a dhéanamh comhthéacs a athchruthú go bhfuil duine éigin eile cheana féin bhí.

Cad í an fhadhb?

Thuig mé nach raibh rochtain ag an gcuid is mó de mo chairde ar a leithéid d’uirlis. Is beag cuideachtaí atá sásta acmhainní ollmhóra a chaitheamh ar uirlis ardáin cosúil le Dataportal a thógáil agus a chothabháil. Agus cé go bhfuil roinnt réitigh foinse oscailte ann, is gnách go ndéantar iad a dhearadh de réir scála, rud a fhágann go bhfuil sé deacair iad a chur ar bun agus a chothabháil gan innealtóir tiomnaithe DevOps. Mar sin chinn mé rud éigin nua a chruthú.

Míol Mór: Uirlis aimsithe sonraí dúr simplí

Conas sonraí a chuardach go tapa agus go héasca le Whale

Agus tá, le stupidly simplí i gceist agam stupidly simplí. Níl ach dhá chomhpháirt ag an míol mór:

  1. Leabharlann Python a bhailíonn meiteashonraí agus a fhormáidíonn iad i MarkDown.
  2. Comhéadan líne ordaithe meirge chun cuardach a dhéanamh trí na sonraí seo.

Ó thaobh an bhonneagair inmheánaigh le haghaidh cothabhála, níl ach go leor comhaid téacs agus clár a thugann an téacs cothrom le dáta. Sin é, mar sin tá óstáil ar fhreastalaí git cosúil le Github fánach. Níl aon teanga fiosrúcháin nua le foghlaim, gan aon bhonneagar bainistíochta, gan cúltacaí. Tá aithne ag gach duine ar Git, mar sin tá sioncronú agus comhoibriú saor in aisce. A ligean ar ghlacadh le breathnú níos dlúithe ar an fheidhmiúlacht Míol Mór v1.0.

GUI iomlán bunaithe ar git

Tá míol mór deartha chun snámh san aigéan de fhreastalaí iargúlta git. sé an-éasca configurable: sainigh roinnt nasc, cóipeáil an script Gníomhaíochtaí Github (nó scríobh ceann don ardán CI/CD atá roghnaithe agat) agus beidh uirlis gréasáin aimsithe sonraí agat láithreach. Beidh tú in ann do scarbhileoga a chuardach, a fheiceáil, a dhoiciméadú agus a roinnt go díreach ar Github.

Conas sonraí a chuardach go tapa agus go héasca le Whale
Sampla de chontábla a ghintear trí Ghníomhartha Github a úsáid. Taispeántas iomlán oibre féach san alt seo.

Lightning tapa CLI cuardach do do stór

Maireann an míol mór agus breathes ar an líne ordaithe, ag soláthar cuardaigh cumhachtach, milleasoicindí ar fud do táblaí. Fiú amháin leis na milliúin táblaí, d’éirigh linn míol mór a dhéanamh thar a bheith feidhmiúil trí roinnt meicníochtaí cliste taisce a úsáid agus freisin tríd an inneall i Rust a atógáil. Ní thabharfaidh tú aon mhoill chuardaigh faoi deara [hello Google DS].

Conas sonraí a chuardach go tapa agus go héasca le Whale
Taispeántas míolta móra, milliún cuardaigh tábla.

Méadracht a ríomh go huathoibríoch [i béite]

Ceann de na rudaí is lú is fearr liom mar eolaí sonraí ná na ceisteanna céanna a reáchtáil arís agus arís eile díreach chun cáilíocht na sonraí atá in úsáid a sheiceáil. Tacaíonn Whale leis an gcumas méadracht a shainiú i SQL simplí a bheidh sceidealta le rith in éineacht le do phíblínte glanta meiteashonraí. Sainmhínigh bloc méadrachta YAML taobh istigh den tábla, agus rithfidh Whale go huathoibríoch ar sceideal agus reáchtálfaidh sé fiosrúcháin atá neadaithe i méadracht.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Conas sonraí a chuardach go tapa agus go héasca le Whale
In éineacht le Github, ciallaíonn an cur chuige seo gur féidir le míol mór feidhmiú mar fhoinse lárnach éasca na fírinne le haghaidh sainmhínithe méadracha. Sábhálann míol mór fiú na luachanna mar aon leis an stampa ama sa "~/. míol mór/méadracht" más mian leat roinnt taighde cairtiúcháin nó níos doimhne a dhéanamh.

An todhchaí

Tar éis dúinn labhairt le húsáideoirí ár leaganacha réamhscaoilte de mhíol mór, thuig muid go raibh níos mó feidhmiúlacht ag teastáil ó dhaoine. Cén fáth uirlis chuardaigh tábla? Cén fáth nach uirlis chuardaigh méadrachta? Cén fáth nach ndéanfaí monatóireacht? Cén fáth nach uirlis feidhmithe fiosrúcháin SQL? Cé gur ceapadh whale v1 ar dtús mar uirlis chompánach CLI simplí Dataportal/Amundsen, tá sé tagtha chun cinn cheana féin ina ardán aonair lán-feiceáil, agus tá súil againn go mbeidh sé mar chuid lárnach d'fhoireann uirlisí an Eolaí Sonraí.

Má tá rud éigin ar mhaith leat a fheiceáil sa phróiseas forbartha, bí linn do phobal Slack, oscailte Ceisteanna ag Githubnó fiú déan teagmháil dhíreach LinkedIn. Tá roinnt gnéithe fionnuara againn cheana féin - teimpléid Jinja, leabharmharcanna, scagairí cuardaigh, foláirimh Slack, comhtháthú Jupyter, fiú painéal CLI le haghaidh méadrachta - ach ba bhreá linn d'ionchur.

Conclúid

Is é Dataframe a fhorbraíonn agus a chothaíonn Whale, gnólacht tosaithe a raibh an-áthas orm le déanaí a chomhbhunú le daoine eile. Cé go ndéantar míol mór d'eolaithe sonraí, déantar Dataframe d'eolaithe sonraí. Dóibh siúd agaibh ar mian leo comhoibriú níos dlúithe, bíodh leisce ort seoladhcuirfimid tú leis an liosta feithimh.

Conas sonraí a chuardach go tapa agus go héasca le Whale
Agus trí chód promo HABR, is féidir leat 10% breise a fháil leis an lascaine a léirítear ar an mbratach.

Tuilleadh cúrsaí

Ailt faoi Thrácht

Foinse: will.com