Hoe om data vinnig en maklik met Whale te soek

Hoe om data vinnig en maklik met Whale te soek
Hierdie artikel praat oor die eenvoudigste en vinnigste data-ontdekkingsinstrument, waarvan u die werk op KDPV sien. Interessant genoeg is walvis ontwerp om op 'n afgeleë git-bediener aangebied te word. Besonderhede onder die snit.

Hoe Airbnb se Data Discovery Tool my lewe verander het

In my loopbaan het ek die plesier gehad om aan 'n paar prettige probleme te werk: ek het vloeiwiskunde studeer terwyl ek my graad aan MIT gedoen het, aan inkrementele modelle gewerk en met 'n oopbronprojek pylift by Wayfair, en het nuwe tuisblad-teikenmodelle en CUPED-verbeterings by Airbnb geïmplementeer. Maar al hierdie werk was nooit glansryk nie - trouens, ek het dikwels die meeste van my tyd spandeer om data te soek, na te vors en te valideer. Alhoewel dit 'n konstante toestand by die werk was, het dit nie by my opgekom dat dit 'n probleem was totdat ek by Airbnb gekom het waar dit opgelos is met 'n data-ontdekkingsnutsding nie − dataportaal.

Waar kan ek {{data}} vind? dataportaal.
Wat beteken hierdie kolom? dataportaal.
Hoe vaar {{metriek}} vandag? dataportaal.
Wat is 'n gevoel van lewe? IN dataportaal, waarskynlik.

Goed, jy het die prentjie aangebied. Om data te vind en te verstaan ​​wat dit beteken, hoe dit geskep is en hoe om dit te gebruik, neem alles net 'n paar minute, nie ure nie. Ek kon my tyd spandeer om eenvoudige gevolgtrekkings of nuwe algoritmes te maak (... of om willekeurige vrae oor die data te beantwoord) eerder as om deur notas te grawe, herhalende SQL-navrae te skryf en kollegas op Slack te noem om konteks te probeer herskep. wat iemand anders reeds gehad het. .

Wat is die probleem?

Ek het besef die meeste van my vriende het nie toegang tot so 'n hulpmiddel nie. Min maatskappye is bereid om groot hulpbronne te wy aan die bou en instandhouding van 'n platformhulpmiddel soos Dataportal. En hoewel daar 'n paar oopbron-oplossings is, is hulle geneig om te skaal ontwerp, wat dit moeilik maak om op te stel en in stand te hou sonder 'n toegewyde DevOps-ingenieur. Daarom het ek besluit om iets nuuts te skep.

Walvis: 'n dom eenvoudige data-ontdekkingsinstrument

Hoe om data vinnig en maklik met Whale te soek

En ja, met dom eenvoudig bedoel ek dom eenvoudig. Die walvis het net twee komponente:

  1. 'n Python-biblioteek wat metadata versamel en dit in MarkDown formateer.
  2. Rust-opdragreël-koppelvlak om deur hierdie data te soek.

Uit die oogpunt van die interne infrastruktuur vir instandhouding is daar net baie tekslêers en 'n program wat die teks opdateer. Dit is dit, so gasheer op 'n git-bediener soos Github is triviaal. Geen nuwe navraagtaal om te leer nie, geen bestuursinfrastruktuur, geen rugsteun nie. Almal ken Git, so sinkronisering en samewerking is gratis. Kom ons kyk na die funksionaliteit van naderby Walvis v1.0.

Volledige git-gebaseerde GUI

Whale is ontwerp om in die see van 'n afgeleë git-bediener te swem. Hy baie maklik konfigureerbaar: definieer sommige verbindings, kopieer die Github Actions-skrip (of skryf een vir jou gekose CI/CD-platform) en jy sal dadelik 'n data-ontdekking-webnutsding hê. Jy sal jou sigblaaie direk op Github kan soek, bekyk, dokumenteer en deel.

Hoe om data vinnig en maklik met Whale te soek
'n Voorbeeld van 'n stomptabel wat met Github Actions gegenereer word. Volle werkende demo sien in hierdie afdeling.

Blitsvinnige CLI-soektog vir jou bewaarplek

Walvis leef en haal asem op die opdragreël, wat kragtige, millisekonde-opsoeke oor jou tafels bied. Selfs met miljoene tafels het ons daarin geslaag om walvisse ongelooflike prestasies te maak deur 'n paar slim kasmeganismes te gebruik en ook deur die backend in Rust te herbou. Jy sal geen soektogvertraging opmerk nie [hallo Google DS].

Hoe om data vinnig en maklik met Whale te soek
Walvis-demo, miljoen tabelopsoek.

Outomatiese berekening van metrieke [in beta]

Een van my minste gunsteling dinge as 'n datawetenskaplike is om dieselfde navrae oor en oor te laat loop net om die kwaliteit van die data wat gebruik word, na te gaan. Whale ondersteun die vermoë om metrieke in gewone SQL te definieer wat geskeduleer sal wees om saam met jou metadata-opruimpyplyne te loop. Definieer 'n YAML-metriekblok binne die stomptabel, en Whale sal outomaties op 'n skedule loop en navrae uitvoer wat in metrieke geneste is.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Hoe om data vinnig en maklik met Whale te soek
Gekombineer met Github, beteken hierdie benadering dat walvis as 'n maklike sentrale bron van waarheid vir metrieke definisies kan dien. Walvis stoor selfs die waardes saam met die tydstempel in die "~/. walvis/metrics" as jy 'n bietjie kartering of meer in-diepte navorsing wil doen.

Die toekoms

Nadat ons met gebruikers van ons voorvrystelling weergawes van walvis gepraat het, het ons besef dat mense meer funksionaliteit nodig het. Waarom 'n tabelopsoekinstrument? Hoekom nie 'n maatstaf-soekinstrument nie? Hoekom nie monitering nie? Hoekom nie 'n SQL-navraaguitvoeringsinstrument nie? Terwyl walvis v1 oorspronklik ontwerp is as 'n eenvoudige CLI-metgeselinstrument Dataportal/Amundsen, dit het reeds ontwikkel in 'n volledige selfstandige platform, en ons hoop dat dit 'n integrale deel van die Data Scientist se gereedskapstel sal word.

As daar iets is wat jy in die ontwikkelingsproses wil sien, sluit by ons aan aan die Slack-gemeenskap, oop Uitgawes by GitHubof selfs direk kontak LinkedIn. Ons het reeds 'n aantal oulike kenmerke - Jinja-sjablone, boekmerke, soekfilters, Slack-waarskuwings, Jupyter-integrasie, selfs 'n CLI-kontroleskerm vir statistieke - maar ons sal graag jou insette hê.

Gevolgtrekking

Whale word ontwikkel en onderhou deur Dataframe, 'n beginonderneming wat ek onlangs die plesier gehad het om saam met ander mense te stig. Terwyl walvis gemaak word vir datawetenskaplikes, is Dataframe vir datawetenskaplikes gemaak. Vir die van julle wat nouer wil saamwerk, voel vry om adresons sal jou by die waglys voeg.

Hoe om data vinnig en maklik met Whale te soek
En deur promosiekode HABR, kan jy 'n bykomende 10% kry tot die afslag wat op die banier aangedui word.

Meer kursusse

Uitgestalde artikels

Bron: will.com