Otu esi achọ data ngwa ngwa na ngwa ngwa na Whale

Otu esi achọ data ngwa ngwa na ngwa ngwa na Whale
Isiokwu a na-ekwu maka ngwa nchọpụta data kachasị mfe na ngwa ngwa, ọrụ nke ị na-ahụ na KDPV. N'ụzọ na-akpali mmasị, e mere whale ka a nabata ya na sava git dịpụrụ adịpụ. Nkọwa n'okpuru ịkpụ.

Kedu ka Ngwá Ọrụ Nchọpụta Data nke Airbnb siri gbanwee ndụ m

N'ime ọrụ m, enwere m obi ụtọ ịrụ ọrụ na nsogbu ụfọdụ na-atọ ụtọ: M gụrụ mgbakọ na mwepụ na-agba ọsọ mgbe m na-eme akara ugo mmụta m na MIT, rụọ ọrụ na ụdị mmụba, yana ọrụ mepere emepe. pylift na Wayfair, ma mejuputa ụdị nlebara anya ibe obibi ọhụrụ yana nkwalite CUPED na Airbnb. Mana ọrụ a niile anaghị adọrọ adọrọ-n'eziokwu, m na-ejikarị oge m na-achọ, nyocha na ịkwado data. Ọ bụ ezie na nke a bụ ọnọdụ na-arụ ọrụ mgbe niile, ọ pụtaghị na nke a bụ okwu ruo mgbe m rutere Airbnb ebe ejiri ngwa nchọpụta data dozie ya - dataportal.

Ebee ka m nwere ike ịhụ {{data}}? dataportal.
Kedu ihe kọlụm a pụtara? dataportal.
Kedu ka {{metric}} si eme taa? dataportal.
Gịnị bụ echiche nke ndụ? N'ime dataportal, eleghị anya.

Ọ dị mma, i gosila foto a. Ịchọta data na ịghọta ihe ọ pụtara, otu esi emepụta ya na otu esi eji ya mee ihe niile na-ewe nanị nkeji ole na ole, ọ bụghị awa. Enwere m ike iji oge m na-eru nkwubi okwu dị mfe, ma ọ bụ algọridim ọhụrụ, (... ma ọ bụ ịza ajụjụ na-enweghị usoro gbasara data) kama igwu ala site na ndetu, na-ede ajụjụ SQL ugboro ugboro, na ịkpọ ndị ọrụ ibe na Slack iji nwaa ma megharịa ọnọdụ. na onye ọzọ nweburu. .

Gịnị bụ nsogbu?

Achọpụtara m na ọtụtụ n'ime ndị enyi m enweghị ohere ịnweta ngwá ọrụ dị otú ahụ. Companieslọ ọrụ ole na ole dị njikere itinye nnukwu akụrụngwa iji wuo na idobe ngwaọrụ ikpo okwu dị ka Dataportal. Ma ọ bụ ezie na e nwere ụzọ ụzọ isi meghere ole na ole, a na-emekarị ha ka ọ bụrụ ọnụ ọgụgụ, na-eme ka o sie ike ịtọlite ​​​​na ịnọgide na-enweghị onye injinia DevOps raara onwe ya nye. Ya mere ekpebiri m ịmepụta ihe ọhụrụ.

Whale: ngwa nzuzu dị mfe nchọpụta data

Otu esi achọ data ngwa ngwa na ngwa ngwa na Whale

Ma ee, site nzuzu dị mfe m pụtara nzuzu dị mfe. The whale nwere naanị ihe abụọ mejupụtara:

  1. Ọbá akwụkwọ Python na-anakọta metadata wee hazie ya na MarkDown.
  2. Ntugharị ahịrị iwu rust maka ịchọ site na data a.

Site n'echiche nke akụrụngwa dị n'ime maka mmezi, enwere naanị ọtụtụ faịlụ ederede na mmemme na-emelite ederede. Nke ahụ bụ ya, yabụ nnabata na sava git dị ka Github bụ ihe efu. Enweghị asụsụ ajụjụ ọhụrụ ị ga-amụta, enweghị akụrụngwa njikwa, enweghị nkwado ndabere. Onye ọ bụla maara Git, yabụ ịmekọrịta na mmekorita bụ n'efu. Ka anyị lebakwuo anya na arụmọrụ ya Whale v1.0.

GUI dabere na git egosipụtara n'uju

Emebere Whale ka igwu mmiri n'oké osimiri nke sava git dịpụrụ adịpụ. Ọ dị mfe configurable: kọwaa ụfọdụ njikọ, detuo Github Actions script (ma ọ bụ dee otu maka ikpo okwu CI/CD ị họọrọ) na ị ga-enwe ngwa weebụ nchọpụta data ozugbo. Ị ga-enwe ike ịchọ, lelee, detuo ma kesaa akwụkwọ mgbasa ozi gị ozugbo na Github.

Otu esi achọ data ngwa ngwa na ngwa ngwa na Whale
Ihe atụ nke tebụl stub emepụtara site na iji Github Actions. ngosi ngosi na-arụ ọrụ zuru oke lee na ngalaba a.

Ọsọ ọkụ ọkụ CLI na-achọ ebe nchekwa gị

Whale na-ebi ma na-eku ume n'ahịrị iwu, na-enye nlele dị ike, millisecond n'ofe tebụl gị. Ọbụlagodi na ọtụtụ nde tebụl, anyị jisiri ike mee whale n'ụzọ dị egwu site n'iji ụfọdụ usoro nchekwa dị nkọ yana site na iwughachi azụ azụ na Rust. Ị gaghị achọpụta oge nchọta ọ bụla [ndewo Google DS].

Otu esi achọ data ngwa ngwa na ngwa ngwa na Whale
Ihe ngosi Whale, nlele tebụl nde.

Mgbakọ metrics na-akpaghị aka [na beta]

Otu n'ime ihe kacha amasị m dị ka onye sayensị data na-agba ọsọ otu ajụjụ ugboro ugboro naanị iji lelee ogo data a na-eji. Whale na-akwado ike ịkọwa metrik na SQL larịị nke a ga-ahazi ka ọ na-agba ọsọ yana pipeline nhicha metadata gị. Kọwaa ihe mgbochi YAML n'ime tebụl stub, na Whale ga-agba ọsọ na-akpaghị aka na nhazi oge wee gbaa ajụjụ ndị etinyere na metrik.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Otu esi achọ data ngwa ngwa na ngwa ngwa na Whale
Ejikọtara ya na Github, ụzọ a pụtara na whale nwere ike bụrụ isi mmalite eziokwu dị mfe maka nkọwa metrik. Whale na-echekwa ụkpụrụ yana akara timestamp na "~/. whale/metrics" ma ọ bụrụ na ịchọrọ ịme ụfọdụ charting ma ọ bụ nyocha miri emi karịa.

Ọdịnihu

Mgbe anyị gwachara ndị ọrụ ụdị ụdị whale anyị tupu ewepụtara anyị, anyị chọpụtara na ndị mmadụ chọrọ ọrụ karịa. Gịnị kpatara eji achọ ihe tebụl? Kedu ihe kpatara na ọ bụghị ngwá ọrụ nyocha metrik? Gịnị kpatara na ị naghị eleba anya? Gịnị kpatara na ọ bụghị ngwá ọrụ mmezu ajụjụ SQL? Ọ bụ ezie na e bu ụzọ chepụta whale v1 dị ka ngwa ngwa CLI dị mfe Dataportal/Amundsen, ọ malitelarị ka ọ bụrụ ikpo okwu kwụ ọtọ zuru oke, anyị na-atụkwa anya na ọ ga-abụ akụkụ dị mkpa nke ngwa ngwa data Scientist.

Ọ bụrụ na enwere ihe ịchọrọ ịhụ na usoro mmepe, sonyere anyị nye obodo Slack, mepee Okwu na Githubma ọ bụ ọbụna kpọtụrụ ozugbo LinkedIn. Anyị enweela ọtụtụ njiri mara mma - ndebiri Jinja, ibe edokọbara, ihe nzacha ọchụchọ, ọkwa Slack, njikọta Jupyter, ọbụlagodi dashboard CLI maka metrik - mana anyị ga-ahụ ntinye gị n'anya.

nkwubi

Dataframe na-emepụta ma na-echekwa Whale, mmalite nke m nwere mmasị na nso nso a nke iso ndị ọzọ na-arụkọ ọrụ. Ọ bụ ezie na e mere whale maka ndị ọkà mmụta sayensị data, Dataframe mere maka ndị ọkà mmụta sayensị data. Maka ndị chọrọ imekọ ọnụ nke ọma, nweere onwe gị adreesịanyị ga-agbakwunye gị na ndepụta nchere.

Otu esi achọ data ngwa ngwa na ngwa ngwa na Whale
Na site na koodu mgbasa ozi HABR, ị nwere ike nweta mgbakwunye 10% na mbelata egosiri na ọkọlọtọ.

Ihe ọmụmụ ndị ọzọ

Edemede egosipụtara

isi: www.habr.com