Cumu cercà e dati rapidamente è facilmente cù Whale

Cumu cercà e dati rapidamente è facilmente cù Whale
Questu articulu parla di u strumentu di scuperta di dati più simplice è più veloce, u travagliu di quale vede nantu à KDPV. Curiosamente, a balena hè pensata per esse ospitata in un servitore git remoto. Dettagli sottu u cut.

Cume l'uttellu di scuperta di dati di Airbnb hà cambiatu a mo vita

In a mo carriera, aghju avutu a furtuna di travaglià in certi prublemi divertenti: aghju studiatu a matematica di flussu mentre facia u mo diploma in MIT, hà travagliatu nantu à mudelli incrementali, è cun un prughjettu open source. pylift in Wayfair, è hà implementatu novi mudelli di targeting di a pagina iniziale è miglioramenti CUPED in Airbnb. Ma tuttu stu travagliu ùn hè mai statu glamurosu - in fattu, spessu passava a maiò parte di u mo tempu per circà, ricercà è cunvalidà e dati. Ancu s'ellu era un statu constante à u travagliu, ùn m'hè micca pensatu chì questu era un prublema finu à ch'e aghju ghjuntu à Airbnb induve hè stata risolta cù un strumentu di scuperta di dati - portale di dati.

Induve possu truvà {{data}} ? portale di dati.
Chì significà sta colonna ? portale di dati.
Cumu va {{metric}} oghje ? portale di dati.
Chì ghjè u sensu di a vita? IN portale di dati, prubabilmente.

Va bè, avete prisentatu a stampa. Truvà dati è capisce ciò chì significa, cumu hè stata creata è cumu aduprà tuttu piglia pocu minuti, micca ore. Puderaghju passà u mo tempu à piglià cunclusioni simplici, o novi algoritmi, (… o risponde à e dumande aleatorii nantu à i dati), piuttostu cà di scavà note, scrivendu dumande SQL ripetitive, è menzionate i culleghi in Slack per pruvà à ricreà u cuntestu. avia.

Chì ci hè u prublema ?

Aghju realizatu chì a maiò parte di i mo amichi ùn anu micca accessu à un tali strumentu. Pochi cumpagnii sò disposti à dedicà risorse enormi per custruisce è mantene una piattaforma cum'è Dataportal. E mentri ci sò uni pochi di suluzioni open source, tendenu à esse pensati à scala, rendendu difficiuli di stallà è mantene senza un ingegnere DevOps dedicatu. Allora decisu di creà qualcosa di novu.

Balena: Un strumentu di scuperta di dati stupidamente simplice

Cumu cercà e dati rapidamente è facilmente cù Whale

È iè, per stupidu simplice vogliu dì stupidu simplice. A balena hà solu dui cumpunenti:

  1. Una biblioteca Python chì raccoglie metadati è formate in MarkDown.
  2. Interfaccia di linea di cumanda Rust per a ricerca à traversu questi dati.

Da u puntu di vista di l'infrastruttura interna per u mantenimentu, ci sò solu assai schedarii di testu è un prugramma chì aghjurnà u testu. Hè cusì, cusì l'ospitu in un servitore git cum'è Github hè triviale. Nisuna nova lingua di quistione per amparà, nè infrastruttura di gestione, nè backups. Tutti cunnosci Git, cusì a sincronizazione è a cullaburazione sò gratuiti. Fighjemu un ochju più vicinu à a funziunalità Balena v1.0.

GUI cumplettamente basata in git

A balena hè pensata per natà in l'oceanu di un servitore git remoto. Ellu assai faciule configurable: definisce alcune cunnessione, copiate u script Github Actions (o scrivite unu per a vostra piattaforma CI / CD scelta) è avete un strumentu web di scuperta di dati subitu. Puderete cercà, vede, documentà è sparte i vostri spreadsheets direttamente in Github.

Cumu cercà e dati rapidamente è facilmente cù Whale
Un esempiu di una stub table generata cù Github Actions. Demo di travagliu cumpletu vede in sta sezione.

Ricerca CLI veloce per u vostru repository

A balena vive è respira nantu à a linea di cummandu, furnisce una ricerca putente in millisecondi nantu à e vostre tavule. Ancu cù milioni di tavule, avemu riisciutu à fà a balena incredibilmente performante usendu alcuni meccanismi di cache intelligenti è ancu ricustruendu u backend in Rust. Ùn avete micca nutatu alcun ritardu di ricerca [ciao Google DS].

Cumu cercà e dati rapidamente è facilmente cù Whale
Demo di balena, cerca di milioni di tavule.

Càlculu automaticu di metrica [in beta]

Una di e mo cose menu preferite cum'è un scientist di dati hè in esecuzione di e stesse dumande ripetutamente per verificà a qualità di e dati utilizati. Whale supporta l'abilità di definisce metriche in SQL chianu chì serà programatu per eseguisce cù i vostri pipeline di pulizia di metadati. Definite un bloccu di metrica YAML in a tavola stub, è Whale eseguirà automaticamente nantu à una pianificazione è eseguirà dumande nidificate in metriche.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Cumu cercà e dati rapidamente è facilmente cù Whale
Cumminatu cù Github, questu approcciu significa chì a balena pò serve cum'è una fonti centrale faciule di verità per e definizioni metriche. Whale salva ancu i valori cù u timestamp in u "~/. whale/metrics" se vulete fà qualchi cartografi o ricerche più approfondite.

U Futuru

Dopu avè parlatu cù l'utilizatori di e nostre versioni pre-release di balena, avemu capitu chì a ghjente avia bisognu di più funziunalità. Perchè un strumentu di ricerca di tavulinu? Perchè micca un strumentu di ricerca di metrica? Perchè micca monitorà? Perchè micca un strumentu di esecuzione di query SQL? Mentre chì a balena v1 hè stata cuncipita urigginariamente cum'è un strumentu simplice di cumpagnu CLI Dataportal/Amundsen, hà digià evolutu in una piattaforma autonoma cumpleta, è speremu chì diventerà una parte integrante di u toolkit di Data Scientist.

Se ci hè qualcosa chì vulete vede in u prucessu di sviluppu, unisci à u nostru à a cumunità Slack, Open Issues at Githubo ancu cuntattate direttamente LinkedIn. Avemu digià una quantità di funzioni interessanti - mudelli Jinja, marcati, filtri di ricerca, avvisi Slack, integrazione Jupyter, ancu un dashboard CLI per metriche - ma ci piacerebbe u vostru input.

cunchiusioni

Whale hè sviluppatu è mantinutu da Dataframe, una startup chì aghju avutu u piacè di cofundà cù altre persone. Mentre a balena hè fatta per i scientisti di dati, Dataframe hè fattu per i scientisti di dati. Per quelli di voi chì vulete cullaburà più strettamente, sentite liberu indirizzuvi aghjunghjemu à a lista d'attesa.

Cumu cercà e dati rapidamente è facilmente cù Whale
È per codice promo HABR, pudete uttene un 10% supplementu à u scontu indicatu nantu à u banner.

Più corsi

Articuli presentati

Source: www.habr.com