Kako hitro in enostavno iskati podatke s programom Whale

Kako hitro in enostavno iskati podatke s programom Whale
Ta članek govori o najpreprostejšem in najhitrejšem orodju za odkrivanje podatkov, katerega delo vidite na KDPV. Zanimivo je, da je whale zasnovan za gostovanje na oddaljenem strežniku git. Detajli pod krojem.

Kako mi je Airbnbijevo orodje za odkrivanje podatkov spremenilo življenje

V svoji karieri sem z veseljem delal na nekaterih zabavnih problemih: študiral sem tekočo matematiko med diplomo na MIT, delal na inkrementalnih modelih in z odprtokodnim projektom pylift pri Wayfairu ter implementirali nove modele ciljanja na domače strani in izboljšave CUPED pri Airbnbju. Toda vse to delo nikoli ni bilo glamurozno – pravzaprav sem večino časa porabil za iskanje, raziskovanje in preverjanje podatkov. Čeprav je bilo to stalno stanje pri delu, mi ni prišlo na misel, da je to težava, dokler nisem prišel do Airbnb, kjer so jo rešili z orodjem za odkrivanje podatkov − podatkovni portal.

Kje najdem {{data}}? podatkovni portal.
Kaj pomeni ta stolpec? podatkovni portal.
Kako je {{metric}} danes? podatkovni portal.
Kaj je smisel življenja? IN podatkovni portal, verjetno.

V redu, predstavili ste sliko. Iskanje podatkov in razumevanje, kaj pomenijo, kako so bili ustvarjeni in kako vse to uporabiti, traja le nekaj minut, ne ur. Lahko bi porabil svoj čas za ustvarjanje preprostih zaključkov ali novih algoritmov (… ali odgovarjanje na naključna vprašanja o podatkih), namesto da bi kopal po zapiskih, pisal ponavljajoče se poizvedbe SQL in omenjal kolege na Slacku, da bi poskusil poustvariti kontekst. da je že nekdo drug imel.

V čem je problem?

Ugotovil sem, da večina mojih prijateljev nima dostopa do takega orodja. Le malo podjetij je pripravljenih nameniti ogromne vire za izgradnjo in vzdrževanje orodja platforme, kot je Dataportal. In čeprav obstaja nekaj odprtokodnih rešitev, so običajno zasnovane za prilagajanje, kar otežuje nastavitev in vzdrževanje brez namenskega inženirja DevOps. Zato sem se odločil ustvariti nekaj novega.

Whale: neumno preprosto orodje za odkrivanje podatkov

Kako hitro in enostavno iskati podatke s programom Whale

In ja, z neumno preprostim mislim na neumno preprosto. Kit ima samo dve komponenti:

  1. Knjižnica Python, ki zbira metapodatke in jih oblikuje v MarkDown.
  2. Vmesnik ukazne vrstice Rust za iskanje po teh podatkih.

Z vidika notranje infrastrukture za vzdrževanje je le veliko tekstovnih datotek in program, ki posodablja besedilo. To je to, zato je gostovanje na strežniku git, kot je Github, trivialno. Ni novega poizvedovalnega jezika, ki bi se ga morali naučiti, ni infrastrukture za upravljanje, ni varnostnih kopij. Vsi poznajo Git, zato sta sinhronizacija in sodelovanje brezplačna. Oglejmo si podrobneje funkcionalnost Whale v1.0.

Celoten GUI, ki temelji na git

Whale je zasnovan za plavanje v oceanu oddaljenega strežnika git. On zelo enostavno nastavljiv: določite nekaj povezav, kopirajte skript Github Actions (ali ga napišite za izbrano platformo CI/CD) in takoj boste imeli spletno orodje za odkrivanje podatkov. Svoje preglednice boste lahko iskali, si ogledovali, dokumentirali in delili neposredno na Githubu.

Kako hitro in enostavno iskati podatke s programom Whale
Primer škrbinske tabele, ustvarjene z Github Actions. Popoln delujoč demo glejte v tem razdelku.

Bliskovito hitro iskanje CLI za vaše skladišče

Whale živi in ​​diha v ukazni vrstici ter zagotavlja zmogljiva milisekundna iskanja po vaših mizah. Tudi z milijoni tabel nam je uspelo narediti whale neverjetno zmogljiv z uporabo nekaterih pametnih mehanizmov predpomnjenja in tudi s ponovno izgradnjo ozadja v Rustu. Ne boste opazili nobene zamude pri iskanju [zdravo Google DS].

Kako hitro in enostavno iskati podatke s programom Whale
Whale demo, iskanje milijonov miz.

Samodejni izračun meritev [v različici beta]

Ena mojih najmanj priljubljenih stvari kot podatkovnega znanstvenika je izvajanje istih poizvedb znova in znova samo zato, da preverim kakovost uporabljenih podatkov. Whale podpira zmožnost definiranja metrik v navadnem SQL, ki bodo načrtovane za izvajanje skupaj z vašimi cevovodi za čiščenje metapodatkov. Definirajte blok meritev YAML znotraj tabele škrbin in Whale se bo samodejno zagnal po urniku in zagnal poizvedbe, ugnezdene v meritvah.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Kako hitro in enostavno iskati podatke s programom Whale
V kombinaciji z Githubom ta pristop pomeni, da lahko kit služi kot preprost osrednji vir resnice za metrične definicije. Whale celo shrani vrednosti skupaj s časovnim žigom v »~/. whale/metrics", če želite narediti nekaj grafikonov ali bolj poglobljeno raziskavo.

Prihodnost

Po pogovoru z uporabniki naših predizdajnih različic whale smo ugotovili, da ljudje potrebujejo več funkcionalnosti. Zakaj orodje za iskanje tabele? Zakaj ne orodje za iskanje meritev? Zakaj ne spremljanje? Zakaj ne orodje za izvajanje poizvedb SQL? Medtem ko je bil whale v1 prvotno zamišljen kot preprosto spremljevalno orodje CLI Dataportal/Amundsen, se je že razvil v samostojno platformo s polnimi funkcijami in upamo, da bo postal sestavni del kompleta orodij Data Scientist.

Če želite kaj videti v razvojnem procesu, se nam pridružite skupnosti Slack, odprite Težave na GitHubali celo neposredno kontaktirati LinkedIn. Imamo že številne odlične funkcije – predloge Jinja, zaznamke, iskalne filtre, opozorila Slack, integracijo Jupyterja, celo nadzorno ploščo CLI za meritve – vendar bomo veseli vašega prispevka.

Zaključek

Whale razvija in vzdržuje Dataframe, startup, ki sem ga pred kratkim z veseljem soustanovil z drugimi ljudmi. Medtem ko je whale narejen za podatkovne znanstvenike, je Dataframe narejen za podatkovne znanstvenike. Tisti, ki želite tesneje sodelovati, vas prosimo naslovdodali vas bomo na čakalno listo.

Kako hitro in enostavno iskati podatke s programom Whale
In s promocijsko kodo HABR, lahko dobite dodatnih 10% na popust, ki je naveden na pasici.

Več tečajev

Predstavljeni članki

Vir: www.habr.com