Bii o ṣe le wa data ni iyara ati irọrun pẹlu Whale

Bii o ṣe le wa data ni iyara ati irọrun pẹlu Whale
Nkan yii sọrọ nipa ohun elo wiwa data ti o rọrun ati iyara, iṣẹ eyiti o rii lori KDPV. O yanilenu, a ṣe apẹrẹ whale lati gbalejo lori olupin git latọna jijin. Awọn alaye labẹ gige.

Bawo ni Ọpa Awari Data Airbnb Yipada Igbesi aye Mi

Ninu iṣẹ mi, Mo ti ni orire to lati ṣiṣẹ lori diẹ ninu awọn iṣoro igbadun: Mo kọ ẹkọ iṣiro ṣiṣan lakoko ti n ṣe alefa mi ni MIT, ṣiṣẹ lori awọn awoṣe afikun, ati pẹlu iṣẹ akanṣe orisun ṣiṣi. pylift ni Wayfair, ati imuse awọn awoṣe ibi-afẹde oju-ile tuntun ati awọn ilọsiwaju CUPED ni Airbnb. Ṣugbọn gbogbo iṣẹ yii kii ṣe didan-ni otitọ, Mo nigbagbogbo lo pupọ julọ akoko mi ni wiwa, ṣiṣewadii, ati ijẹrisi data. Botilẹjẹpe eyi jẹ ipo igbagbogbo ni iṣẹ, ko ṣẹlẹ si mi pe eyi jẹ ọran titi emi o fi de Airbnb nibiti o ti pinnu pẹlu ohun elo wiwa data - dataportal.

Nibo ni MO le wa {{data}}? dataportal.
Kini ọwọn yii tumọ si? dataportal.
Báwo ni {{metric}} ṣe ń ṣe lónìí? dataportal.
Kini ori ti igbesi aye? IN dataportal, jasi.

O dara, o ti ṣafihan aworan naa. Wiwa data ati oye kini o tumọ si, bawo ni a ṣe ṣẹda rẹ ati bii o ṣe le lo gbogbo rẹ gba to iṣẹju diẹ, kii ṣe awọn wakati. Mo le lo akoko mi ni iyaworan awọn ipinnu ti o rọrun, tabi awọn algoridimu tuntun, (… tabi dahun awọn ibeere laileto nipa data naa), dipo jijẹ nipasẹ awọn akọsilẹ, kikọ awọn ibeere SQL atunwi, ati mẹnuba awọn ẹlẹgbẹ lori Slack lati gbiyanju ati tun ṣẹda ọrọ-ọrọ. ní.

Kini iṣoro naa?

Mo wá rí i pé ọ̀pọ̀ jù lọ àwọn ọ̀rẹ́ mi ni kò ní àyè sí irú irinṣẹ́ bẹ́ẹ̀. Awọn ile-iṣẹ diẹ ni o ṣetan lati ya awọn orisun nla si kikọ ati mimu ohun elo pẹpẹ kan bii Dataportal. Ati pe lakoko ti awọn solusan orisun ṣiṣi diẹ wa, wọn ṣọ lati ṣe apẹrẹ lati ṣe iwọn, jẹ ki o ṣoro lati ṣeto ati ṣetọju laisi ẹlẹrọ DevOps igbẹhin. Nitorinaa Mo pinnu lati ṣẹda nkan tuntun.

Whale: Ohun elo wiwa data ti o rọrun ti omugo

Bii o ṣe le wa data ni iyara ati irọrun pẹlu Whale

Ati bẹẹni, nipasẹ omugo o rọrun Mo tumọ si irọrun omugo. Ẹja naa ni awọn paati meji nikan:

  1. Ile-ikawe Python ti o gba metadata ati ṣe ọna kika ni MarkDown.
  2. Ipata pipaṣẹ ila ni wiwo fun wiwa nipasẹ yi data.

Lati oju wiwo ti awọn amayederun inu fun itọju, ọpọlọpọ awọn faili ọrọ nikan wa ati eto ti o ṣe imudojuiwọn ọrọ naa. Iyẹn ni, nitorinaa alejo gbigba lori olupin git bii Github jẹ ohun kekere. Ko si ede ibeere tuntun lati kọ ẹkọ, ko si awọn amayederun iṣakoso, ko si awọn afẹyinti. Gbogbo eniyan mọ Git, nitorina mimuuṣiṣẹpọ ati ifowosowopo jẹ ọfẹ. Jẹ ká ya a jo wo ni awọn iṣẹ-ṣiṣe Whale v1.0.

GUI ti o da lori git ni kikun

Whale jẹ apẹrẹ lati wẹ ninu okun ti olupin git latọna jijin. Oun rọrun pupọ atunto: ṣalaye diẹ ninu awọn asopọ, daakọ iwe afọwọkọ Awọn iṣe Github (tabi kọ ọkan fun pẹpẹ CI/CD ti o yan) ati pe iwọ yoo ni ohun elo wẹẹbu wiwa data lẹsẹkẹsẹ. Iwọ yoo ni anfani lati wa, wo, ṣe iwe ati pin awọn iwe kaunti rẹ taara lori Github.

Bii o ṣe le wa data ni iyara ati irọrun pẹlu Whale
Apeere ti tabili stub ti ipilẹṣẹ nipa lilo Github Actions. demo ṣiṣẹ ni kikun wo ni abala yii.

Monomono sare CLI wa fun ibi ipamọ rẹ

Whale ngbe ati simi lori laini aṣẹ, pese agbara, awọn wiwa millisecond kọja awọn tabili rẹ. Paapaa pẹlu awọn miliọnu awọn tabili, a ṣakoso lati jẹ ki whale jẹ iṣẹ ṣiṣe iyalẹnu nipa lilo diẹ ninu awọn ilana caching onilàkaye ati paapaa nipa atunkọ ẹhin ni Rust. Iwọ kii yoo ṣe akiyesi idaduro wiwa eyikeyi [hello Google DS].

Bii o ṣe le wa data ni iyara ati irọrun pẹlu Whale
Whale demo, miliọnu tabili wiwa.

Iṣiro aifọwọyi ti awọn metiriki [ni beta]

Ọkan ninu awọn ohun ayanfẹ mi ti o kere julọ bi onimọ-jinlẹ data n ṣiṣẹ awọn ibeere kanna leralera lati ṣayẹwo didara data ti a lo. Whale ṣe atilẹyin agbara lati ṣalaye awọn metiriki ni SQL itele ti yoo ṣe eto lati ṣiṣẹ pẹlu awọn opo gigun ti imototo metadata rẹ. Ṣetumo awọn metiriki YAML kan ninu tabili stub, ati Whale yoo ṣiṣẹ laifọwọyi lori iṣeto kan ati ṣiṣe awọn ibeere ti iteeye ni awọn metiriki.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Bii o ṣe le wa data ni iyara ati irọrun pẹlu Whale
Ni idapọ pẹlu Github, ọna yii tumọ si whale le ṣiṣẹ bi orisun aarin irọrun ti otitọ fun awọn asọye metiriki. Whale paapaa ṣafipamọ awọn iye pẹlu aami akoko ni “~/. whale/metrics" ti o ba fẹ ṣe diẹ ninu awọn charting tabi diẹ sii iwadi ijinle.

Ojo iwaju

Lẹhin sisọ si awọn olumulo ti awọn ẹya iṣaju-itusilẹ ti whale, a rii pe eniyan nilo iṣẹ ṣiṣe diẹ sii. Kini idi ti ohun elo wiwa tabili kan? Kilode ti kii ṣe ohun elo wiwa metiriki kan? Kilode ti ko ṣe abojuto? Kilode ti kii ṣe ohun elo ipaniyan ibeere SQL kan? Lakoko ti whale v1 ni akọkọ loyun bi ohun elo ẹlẹgbẹ CLI ti o rọrun Dataportal/Amundsen, o ti wa tẹlẹ sinu ipilẹ ti o ni kikun ti o ni kikun, ati pe a nireti pe yoo di apakan ti o jẹ apakan ti ohun elo irinṣẹ Data Scientist.

Ti ohun kan ba wa ti o fẹ lati rii ninu ilana idagbasoke, darapọ mọ wa si agbegbe Slack, ṣii Issues ni Githubtabi paapaa kan si taara LinkedIn. A ti ni nọmba awọn ẹya ti o tutu tẹlẹ - awọn awoṣe Jinja, awọn bukumaaki, awọn asẹ wiwa, awọn itaniji Slack, iṣọpọ Jupyter, paapaa dasibodu CLI fun awọn metiriki - ṣugbọn a yoo nifẹ titẹ sii rẹ.

ipari

Whale ti ni idagbasoke ati itọju nipasẹ Dataframe, ibẹrẹ kan ti Mo ti ni idunnu laipẹ lati ṣe ipilẹ pẹlu awọn eniyan miiran. Lakoko ti a ṣe whale fun awọn onimọ-jinlẹ data, Dataframe jẹ fun awọn onimọ-jinlẹ data. Fun awọn ti o fẹ lati ṣe ifowosowopo diẹ sii ni pẹkipẹki, lero ọfẹ lati adirẹsia yoo fi o si awọn idaduro akojọ.

Bii o ṣe le wa data ni iyara ati irọrun pẹlu Whale
Ati nipasẹ promo koodu HABR, o le gba afikun 10% si ẹdinwo itọkasi lori asia.

Awọn iṣẹ ikẹkọ diẹ sii

ifihan Ìwé

orisun: www.habr.com