Hoe kinne jo gegevens fluch en maklik sykje mei Whale

Hoe kinne jo gegevens fluch en maklik sykje mei Whale
Dit artikel praat oer it ienfâldichste en fluchste ark foar gegevensûntdekking, it wurk wêrfan jo sjogge op KDPV. Ynteressant is walfisk ûntworpen om te wurde host op in git-server op ôfstân. Details ûnder de besuniging.

Hoe't Airbnb's Data Discovery Tool myn libben feroare

Yn myn karriêre haw ik it nocht hân om oan wat leuke problemen te wurkjen: ik studearre streamwiskunde wylst ik myn graad oan MIT die, wurke oan inkrementele modellen, en mei in iepen boarne projekt pylift by Wayfair, en ymplementearre nije modellen foar targeting fan thússide en CUPED-ferbetterings by Airbnb. Mar al dit wurk wie nea glamoureuze - yn feite, ik haw faak de measte fan myn tiid bestege oan it sykjen, ûndersykjen en validearjen fan gegevens. Hoewol dit in konstante steat wie op it wurk, kaam it my net op dat dit in probleem wie oant ik by Airbnb kaam wêr't it waard oplost mei in ark foar gegevensûntdekking - dataportal.

Wêr kin ik {{data}} fine? dataportal.
Wat betsjut dizze kolom? dataportal.
Hoe giet it hjoed mei {{metric}}? dataportal.
Wat is in gefoel fan libben? YN dataportal, wierskynlik.

Okee, jo hawwe de foto presintearre. Gegevens fine en begripe wat it betsjut, hoe't it is makke en hoe't jo it kinne brûke, nimt mar in pear minuten, net oeren. Ik koe myn tiid besteegje oan it tekenjen fan ienfâldige konklúzjes, of nije algoritmen, (... of willekeurige fragen oer de gegevens beäntwurdzje) ynstee fan troch oantekeningen te graven, repetitive SQL-fragen te skriuwen, en kollega's op Slack te neamen om te besykjen en kontekst opnij te meitsjen. .

Wat is it probleem?

Ik realisearre dat de measte fan myn freonen gjin tagong hienen ta sa'n ark. In pear bedriuwen binne ree om enoarme boarnen te wijen oan it bouwen en ûnderhâlden fan in platfoarmynstrumint lykas Dataportal. En hoewol d'r in pear iepen boarne-oplossingen binne, binne se oanstriid om te wurde ûntworpen op skaal, wêrtroch it lestich is om te setten en te ûnderhâlden sûnder in tawijd DevOps-yngenieur. Dat ik besleat om wat nijs te meitsjen.

Whale: In dom ienfâldich ark foar gegevensûntdekking

Hoe kinne jo gegevens fluch en maklik sykje mei Whale

En ja, mei dom ienfâldich bedoel ik dom ienfâldich. De walfisk hat mar twa komponinten:

  1. In Python-bibleteek dy't metadata sammelt en opmaakt yn MarkDown.
  2. Rust kommandorigelynterface foar sykjen troch dizze gegevens.

Ut it eachpunt fan 'e ynterne ynfrastruktuer foar ûnderhâld binne d'r mar in protte tekstbestannen en in programma dat de tekst bywurket. Dat is it, dus hosting op in git-tsjinner lykas Github is triviaal. Gjin nije query-taal om te learen, gjin behearynfrastruktuer, gjin backups. Elkenien ken Git, dus syngronisaasje en gearwurking is fergees. Litte wy in tichterby sjen nei de funksjonaliteit Whale v1.0.

Folsleine featured git-basearre GUI

Whale is ûntworpen om te swimmen yn 'e oseaan fan in git-server op ôfstân. Hy hiel maklik konfigurearber: definiearje guon ferbinings, kopiearje it Github Actions-skript (of skriuw ien foar jo keazen CI / CD-platfoarm) en jo hawwe direkt in web-ark foar gegevensûntdekking. Jo kinne jo spreadsheets direkt op Github sykje, besjen, dokumintearje en diele.

Hoe kinne jo gegevens fluch en maklik sykje mei Whale
In foarbyld fan in stubtabel generearre mei Github Actions. Folsleine wurkjende demo sjoch yn dizze paragraaf.

Blitzsnelle CLI-sykje foar jo repository

Whale libbet en sykhellet op 'e kommandorigel, en leveret krêftige, millisekonden opsykjen oer jo tabellen. Sels mei miljoenen tabellen binne wy ​​it slagge om walfisk ongelooflijk performant te meitsjen troch guon tûke cachingmeganismen te brûken en ek troch it werbouwen fan 'e backend yn Rust. Jo sille gjin sykfertraging fernimme [hallo Google DS].

Hoe kinne jo gegevens fluch en maklik sykje mei Whale
Whale demo, miljoen tabel lookup.

Automatyske berekkening fan metriken [yn beta]

Ien fan myn minst favorite dingen as gegevenswittenskipper is deselde queries hieltyd wer út te fieren, gewoan om de kwaliteit fan 'e brûkte gegevens te kontrolearjen. Whale stipet de mooglikheid om metriken te definiearjen yn gewoane SQL dy't pland wurde om tegearre te rinnen mei jo pipelines foar opromjen fan metadata. Define in YAML metrics blok binnen de stub tabel, en Whale sil automatysk rinne op in skema en rinne queries nested yn metrics.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Hoe kinne jo gegevens fluch en maklik sykje mei Whale
Yn kombinaasje mei Github betsjut dizze oanpak dat walfisk kin tsjinje as in maklike sintrale boarne fan wierheid foar metryske definysjes. Whale bewarret sels de wearden tegearre mei it tiidstempel yn 'e "~/. whale / metrics" as jo wat yn kaart bringe wolle of mear yngeand ûndersyk wolle.

Takomst

Nei it praten mei brûkers fan ús pre-release ferzjes fan walfisk, realisearre wy dat minsken nedich mear funksjonaliteit. Wêrom in tabel lookup ark? Wêrom net in sykmasine foar metriken? Wêrom net tafersjoch? Wêrom net in ark foar útfiering fan SQL-query? Wylst whale v1 oarspronklik waard betocht as in ienfâldich CLI begelieder ark Dataportal/Amundsen, it is al útgroeid ta in folweardich standalone platfoarm, en wy hoopje dat it in yntegraal diel wurde sil fan 'e toolkit fan 'e Data Scientist.

As d'r wat is dat jo wolle sjen yn it ûntwikkelingsproses, doch dan mei oan ús oan de Slack-mienskip, iepen Issues at Githubof sels direkt kontakt opnimme LinkedIn. Wy hawwe al in oantal coole funksjes - Jinja-sjabloanen, blêdwizers, sykfilters, Slack-warskôgings, Jupyter-yntegraasje, sels in CLI-dashboard foar metriken - mar wy soene jo ynput leuk fine.

konklúzje

Whale is ûntwikkele en ûnderhâlden troch Dataframe, in opstart dy't ik koartlyn it genot hie om mei oare minsken op te rjochtsjen. Wylst walfisk is makke foar gegevenswittenskippers, is Dataframe makke foar gegevenswittenskippers. Foar dy fan jimme dy't nauwer gearwurkje wolle, fiel dy frij adreswy sille tafoegje dy oan de wachtlist.

Hoe kinne jo gegevens fluch en maklik sykje mei Whale
En troch promo-koade HABR, kinne jo krije in ekstra 10% oan de koarting oanjûn op de banner.

Mear kursussen

Featured Articles

Boarne: www.habr.com