Kuinka etsiä tietoja nopeasti ja helposti Whalen avulla

Kuinka etsiä tietoja nopeasti ja helposti Whalen avulla
Tämä artikkeli kertoo yksinkertaisimmasta ja nopeimmasta tiedonhakutyökalusta, jonka toiminnan näet KDPV:ssä. Mielenkiintoista on, että valas on suunniteltu isännöitäväksi git-etäpalvelimella. Yksityiskohdat leikkauksen alla.

Kuinka Airbnb:n tiedonhakutyökalu muutti elämäni

Urallani minulla on ollut ilo työskennellä joidenkin hauskojen ongelmien parissa: opiskelin virtausmatematiikkaa suorittaessani tutkintoa MIT:ssä, työskentelin inkrementtimallien parissa ja avoimen lähdekoodin projektissa. pylift Wayfairissa ja otti käyttöön uusia kotisivukohdistusmalleja ja CUPED-parannuksia Airbnb:ssä. Mutta kaikki tämä työ ei koskaan ollut lumoavaa – itse asiassa vietin usein suurimman osan ajastani tietojen etsimiseen, tutkimiseen ja vahvistamiseen. Vaikka tämä oli jatkuva tila töissä, minulle ei tullut mieleen, että tämä oli ongelma ennen kuin pääsin Airbnb:hen, jossa se ratkaistiin tiedonhakutyökalulla – tietoportaali.

Mistä löydän {{data}}? tietoportaali.
Mitä tämä palsta tarkoittaa? tietoportaali.
Miten {{metric}} voi tänään? tietoportaali.
Mikä on elämän tunne? SISÄÄN tietoportaali, luultavasti.

Okei, esitit kuvan. Tietojen löytäminen ja ymmärtäminen, mitä se tarkoittaa, miten se luotiin ja miten sitä kaikkea käytetään, vie vain muutaman minuutin, ei tunteja. Voisin käyttää aikani yksinkertaisten johtopäätösten tai uusien algoritmien tekemiseen (… tai satunnaisiin dataa koskeviin kysymyksiin vastaamiseen) sen sijaan, että selailisin muistiinpanoja, kirjoittaisin toistuvia SQL-kyselyitä ja mainitsisin Slackin työtovereita yrittääkseni luoda kontekstin uudelleen. oli.

Mikä on ongelma?

Tajusin, että useimmilla ystävilläni ei ollut pääsyä sellaiseen työkaluun. Harvat yritykset ovat valmiita käyttämään valtavia resursseja Dataportalin kaltaisen alustatyökalun rakentamiseen ja ylläpitoon. Ja vaikka on olemassa muutamia avoimen lähdekoodin ratkaisuja, ne on yleensä suunniteltu skaalautumaan, mikä vaikeuttaa niiden käyttöönottoa ja ylläpitoa ilman omaa DevOps-insinööriä. Joten päätin luoda jotain uutta.

Valas: Tyhmän yksinkertainen tiedonhakutyökalu

Kuinka etsiä tietoja nopeasti ja helposti Whalen avulla

Ja kyllä, typerän yksinkertaisella tarkoitan typerän yksinkertaista. Valassa on vain kaksi osaa:

  1. Python-kirjasto, joka kerää metatietoja ja muotoilee ne MarkDownissa.
  2. Rust-komentoriviliittymä näiden tietojen etsimiseen.

Ylläpidon sisäisen infrastruktuurin kannalta on olemassa vain paljon tekstitiedostoja ja tekstiä päivittävä ohjelma. Siinä kaikki, joten isännöinti Githubin kaltaisella git-palvelimella on triviaalia. Ei uutta opittavaa kyselykieltä, ei hallintainfrastruktuuria, ei varmuuskopioita. Kaikki tuntevat Gitin, joten synkronointi ja yhteistyö on ilmaista. Katsotaanpa toiminnallisuutta tarkemmin Valas v1.0.

Täysin varusteltu git-pohjainen GUI

Whale on suunniteltu uimaan etäpalvelimen valtameressä. Hän erittäin helppoa konfiguroitavissa: määritä joitain yhteyksiä, kopioi Github Actions -skripti (tai kirjoita sellainen valitsemallesi CI/CD-alustalle), niin saat heti käyttöön tiedonhakuverkkotyökalun. Voit etsiä, tarkastella, dokumentoida ja jakaa laskentataulukoitasi suoraan Githubissa.

Kuinka etsiä tietoja nopeasti ja helposti Whalen avulla
Esimerkki tynkätaulukosta, joka on luotu Github Actionsin avulla. Täysin toimiva demo katso tästä osiosta.

Salamannopea CLI-haku arkistostasi

Valas elää ja hengittää komentorivillä tarjoten tehokkaita millisekuntien hakuja pöydissäsi. Jopa miljoonilla taulukoilla onnistuimme tekemään whalesta uskomattoman suorituskyvyn käyttämällä älykkäitä välimuistimekanismeja ja myös rakentamalla uudelleen taustajärjestelmän Rustissa. Et huomaa haun viivettä [hei Google DS].

Kuinka etsiä tietoja nopeasti ja helposti Whalen avulla
Valasdemo, miljoonan pöydän haku.

Automaattinen mittareiden laskenta [beta]

Yksi vähiten suosikeistani tietotieteilijänä on suorittaa samoja kyselyitä yhä uudelleen ja uudelleen vain tarkistaakseni käytetyn tiedon laadun. Whale tukee kykyä määrittää mittareita tavallisessa SQL:ssä, jotka ajoitetaan suoritettavaksi metatietojen puhdistusputkien kanssa. Määritä YAML-metriikkalohko tynkätaulukon sisällä, niin Whale suorittaa automaattisesti aikataulun ja suorittaa mittareihin sisäkkäisiä kyselyjä.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Kuinka etsiä tietoja nopeasti ja helposti Whalen avulla
Yhdessä Githubin kanssa tämä lähestymistapa tarkoittaa, että valas voi toimia helposti keskeisenä totuuden lähteenä metristen määritelmien kannalta. Whale jopa tallentaa arvot yhdessä aikaleiman kanssa "~/". whale/metrics", jos haluat tehdä kaavioita tai syvempää tutkimusta.

Tulevaisuus

Keskusteltuamme valaan ennakkoversioiden käyttäjien kanssa ymmärsimme, että ihmiset tarvitsevat lisää toimintoja. Miksi taulukon hakutyökalu? Miksei mittaustyökalua? Miksei seurantaa? Miksei SQL-kyselyn suoritustyökalu? Whale v1 suunniteltiin alun perin yksinkertaiseksi CLI-kumppaniksi Dataportal/Amundsen, se on jo kehittynyt täysin varustelluksi erilliseksi alustaksi, ja toivomme, että siitä tulee olennainen osa Data Scientistin työkalupakkia.

Jos haluat nähdä jotain kehitysprosessissa, liity joukkoomme Slack-yhteisöön, avaa Issues osoitteessa Githubtai ota yhteyttä suoraan LinkedIn. Meillä on jo useita hienoja ominaisuuksia – Jinja-malleja, kirjanmerkkejä, hakusuodattimia, Slack-hälytyksiä, Jupyter-integraatiota, jopa CLI-hallintapaneeli mittareita varten – mutta ottaisimme mielellämme vastaan.

Johtopäätös

Whalea kehittää ja ylläpitää Dataframe, startup, jonka minulla oli äskettäin ilo perustaa yhdessä muiden ihmisten kanssa. Valas on tehty datatieteilijöille, kun taas Dataframe on tehty datatieteilijöille. Niille teistä, jotka haluavat tehdä tiiviimpää yhteistyötä, voit tehdä sen osoitelisäämme sinut jonotuslistalle.

Kuinka etsiä tietoja nopeasti ja helposti Whalen avulla
Ja promokoodilla sarvisäkki, voit saada 10% lisäalennuksen bannerissa.

Lisää kursseja

Suositellut artikkelit

Lähde: will.com