Jinsi ya kutafuta data haraka na kwa urahisi na Nyangumi

Jinsi ya kutafuta data haraka na kwa urahisi na Nyangumi
Nakala hii inazungumza juu ya zana rahisi na ya haraka zaidi ya kugundua data, kazi ambayo unaona kwenye KDPV. Inafurahisha, nyangumi imeundwa kukaribishwa kwenye seva ya git ya mbali. Maelezo chini ya kukata.

Jinsi Zana ya Airbnb ya Ugunduzi wa Data Ilivyobadilisha Maisha Yangu

Katika kazi yangu, nimekuwa na furaha ya kufanya kazi kwenye shida kadhaa za kufurahisha: Nilisoma hesabu ya mtiririko wakati nikifanya digrii yangu huko MIT, nilifanya kazi kwa mifano ya nyongeza, na mradi wa chanzo wazi. pylift huko Wayfair, na kutekeleza miundo mipya ya kulenga ukurasa wa nyumbani na maboresho ya CUPED katika Airbnb. Lakini kazi hii yote haikuwa ya kupendezaβ€”kwa hakika, mara nyingi nilitumia muda wangu mwingi kutafuta, kutafiti, na kuthibitisha data. Ingawa hii ilikuwa hali ya mara kwa mara kazini, sikufikiria kwamba hili lilikuwa suala hadi nilipofika Airbnb ambapo lilitatuliwa kwa zana ya kugundua data βˆ’ mtandao wa data.

Je, ninaweza kupata wapi {{data}}? mtandao wa data.
Je, safu hii ina maana gani? mtandao wa data.
Je, {{metric}} inaendeleaje leo? mtandao wa data.
Hisia ya maisha ni nini? KATIKA mtandao wa data, pengine.

Sawa, umewasilisha picha. Kupata data na kuelewa maana yake, jinsi iliundwa na jinsi ya kuitumia yote huchukua dakika chache tu, sio masaa. Ningeweza kutumia muda wangu kufanya hitimisho rahisi, au algoriti mpya, (... au kujibu maswali ya nasibu kuhusu data) badala ya kuchimbua madokezo, kuandika maswali yanayojirudia rudia ya SQL, na kutaja wenzangu kwenye Slack kujaribu na kuunda upya muktadha. ambao mtu mwingine tayari alikuwa nao. .

Tatizo ni nini?

Niligundua kuwa marafiki wangu wengi hawakuweza kupata zana kama hiyo. Kampuni chache ziko tayari kutoa rasilimali kubwa kujenga na kudumisha zana ya jukwaa kama Dataportal. Na ingawa kuna masuluhisho machache ya chanzo huria, huwa yameundwa kwa kiwango, na hivyo kufanya iwe vigumu kusanidi na kudumisha bila mhandisi aliyejitolea wa DevOps. Kwa hivyo niliamua kuunda kitu kipya.

Nyangumi: Chombo rahisi sana cha kugundua data

Jinsi ya kutafuta data haraka na kwa urahisi na Nyangumi

Na ndio, kwa urahisi wa kijinga ninamaanisha rahisi sana. Nyangumi ana sehemu mbili tu:

  1. Maktaba ya Python ambayo hukusanya metadata na kuibadilisha katika MarkDown.
  2. Kiolesura cha safu ya amri ya kutu ya kutafuta kupitia data hii.

Kutoka kwa mtazamo wa miundombinu ya ndani kwa ajili ya matengenezo, kuna faili nyingi tu za maandishi na programu inayosasisha maandishi. Ni hivyo, kwa hivyo kukaribisha kwenye seva ya git kama Github ni jambo dogo. Hakuna lugha mpya ya kuuliza ya kujifunza, hakuna miundombinu ya usimamizi, hakuna nakala rudufu. Kila mtu anajua Git, kwa hivyo kusawazisha na kushirikiana ni bure. Hebu tuangalie kwa karibu utendaji Nyangumi v1.0.

GUI kamili ya msingi wa git

Nyangumi imeundwa kuogelea kwenye bahari ya seva ya git ya mbali. Yeye rahisi sana inayoweza kusanidiwa: fafanua baadhi ya miunganisho, nakili hati ya Vitendo vya Github (au andika moja kwa ajili ya jukwaa ulilochagua la CI/CD) na utakuwa na zana ya mtandao ya ugunduzi wa data mara moja. Utaweza kutafuta, kutazama, kuweka hati na kushiriki lahajedwali zako moja kwa moja kwenye Github.

Jinsi ya kutafuta data haraka na kwa urahisi na Nyangumi
Mfano wa jedwali la mbegu iliyotengenezwa kwa kutumia Vitendo vya Github. Onyesho kamili la kufanya kazi tazama katika sehemu hii.

Umeme haraka CLI kutafuta hazina yako

Nyangumi huishi na kupumua kwenye mstari wa amri, hukupa uchunguzi wa nguvu na wa milisekunde kwenye meza zako zote. Hata tukiwa na mamilioni ya jedwali, tuliweza kufanya nyangumi afanye vizuri sana kwa kutumia mbinu mahiri za kuweka akiba na pia kwa kujenga upya sehemu ya nyuma katika Rust. Hutaona ucheleweshaji wowote wa utafutaji [hujambo Google DS].

Jinsi ya kutafuta data haraka na kwa urahisi na Nyangumi
Onyesho la nyangumi, utaftaji wa meza milioni.

Uhesabuji otomatiki wa vipimo [katika beta]

Mojawapo ya vitu ninavyopenda sana kama mwanasayansi wa data ni kuendesha maswali sawa tena na tena ili tu kuangalia ubora wa data inayotumika. Nyangumi hutumia uwezo wa kufafanua vipimo katika SQL isiyo na maana ambayo itaratibiwa kuendeshwa pamoja na mabomba yako ya kusafisha metadata. Bainisha kipimo cha metriki cha YAML ndani ya jedwali la mbegu, na Nyangumi ataendesha kiotomatiki kwa ratiba na kutekeleza maswali yaliyowekwa katika vipimo.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Jinsi ya kutafuta data haraka na kwa urahisi na Nyangumi
Ikiunganishwa na Github, mbinu hii inamaanisha nyangumi anaweza kutumika kama chanzo kikuu cha ukweli kwa ufafanuzi wa kipimo. Nyangumi hata huhifadhi maadili pamoja na muhuri wa wakati katika "~/. nyangumi/metrics" ikiwa unataka kufanya chati au utafiti wa kina zaidi.

Wakati ujao

Baada ya kuzungumza na watumiaji wa matoleo yetu ya nyangumi kabla ya kutolewa, tuligundua kuwa watu walihitaji utendakazi zaidi. Kwa nini chombo cha kuangalia meza? Kwa nini usiwe zana ya kutafuta vipimo? Kwa nini usifuatilie? Kwa nini sio zana ya utekelezaji wa hoja ya SQL? Wakati nyangumi v1 awali ilitungwa kama zana rahisi ya uandamani wa CLI Dataportal/Amundsen, tayari imebadilika na kuwa jukwaa lililo na sifa kamili, na tunatumai itakuwa sehemu muhimu ya zana ya zana ya Mwanasayansi wa Data.

Ikiwa kuna kitu ungependa kuona katika mchakato wa uendelezaji, jiunge na yetu kwa jamii ya Slack, fungua Masuala katika Githubau hata wasiliana moja kwa moja LinkedIn. Tayari tuna idadi ya vipengele vizuri - violezo vya Jinja, alamisho, vichujio vya utafutaji, arifa za Slack, ushirikiano wa Jupyter, hata dashibodi ya CLI ya vipimo - lakini tungependa maoni yako.

Hitimisho

Nyangumi hutengenezwa na kudumishwa na Dataframe, mwanzo ambao hivi majuzi nilipata raha ya kuanzisha pamoja na watu wengine. Ingawa nyangumi ameundwa kwa wanasayansi wa data, Dataframe imeundwa kwa wanasayansi wa data. Kwa wale ambao wanataka kushirikiana kwa karibu zaidi, jisikie huru anwanitutakuongeza kwenye orodha ya wanaosubiri.

Jinsi ya kutafuta data haraka na kwa urahisi na Nyangumi
Na kwa nambari ya ofa HABR, unaweza kupata 10% ya ziada kwa punguzo lililoonyeshwa kwenye bango.

Kozi zaidi

Makala Zilizoangaziwa

Chanzo: mapenzi.com