Giunsa pagpangita ang datos nga dali ug dali sa Whale

Giunsa pagpangita ang datos nga dali ug dali sa Whale
Kini nga artikulo naghisgot bahin sa pinakasimple ug pinakapaspas nga himan sa pagdiskobre sa datos, ang trabaho nga imong makita sa KDPV. Makapainteres, ang balyena gidisenyo nga i-host sa usa ka hilit nga git server. Mga detalye ubos sa pagputol.

Giunsa Pagbag-o sa Tool sa Pagdiskobre sa Data sa Airbnb ang Akong Kinabuhi

Sa akong karera, swerte ko nga nakatrabaho sa pipila ka makalingaw nga mga problema: Nagtuon ko sa flow math samtang naghimo sa akong degree sa MIT, nagtrabaho sa mga incremental nga modelo, ug adunay usa ka open source nga proyekto. pylift sa Wayfair, ug gipatuman ang bag-ong mga modelo sa pag-target sa homepage ug mga pagpaayo sa CUPED sa Airbnb. Apan kining tanan nga trabaho dili gayud madanihon—sa pagkatinuod, kanunay nakong gigugol ang kadaghanan sa akong panahon sa pagpangita, pagsiksik, ug pag-validate sa datos. Bisan kung kini usa ka kanunay nga kahimtang sa trabaho, wala nako nahunahuna nga kini usa ka isyu hangtod nga nakaabut ako sa Airbnb diin kini nasulbad gamit ang usa ka himan sa pagdiskobre sa datos − dataportal.

Asa nako makit-an ang {{data}}? dataportal.
Unsay buot ipasabot ani nga column? dataportal.
Kumusta ang {{metric}} karon? dataportal.
Unsa ang usa ka pagbati sa kinabuhi? SA dataportal, tingali.

Okay, gipresentar nimo ang litrato. Ang pagpangita sa datos ug pagsabut kung unsa ang gipasabut niini, kung giunsa kini gibuhat ug kung giunsa ang paggamit niini ang tanan nagkinahanglag pipila lang ka minuto, dili mga oras. Mahimo nakong igugol ang akong oras sa paghimo og yano nga mga konklusyon, o bag-ong mga algorithm, (... o pagtubag sa mga random nga pangutana bahin sa datos), imbes nga magkubkob sa mga nota, pagsulat sa balik-balik nga mga pangutana sa SQL, ug paghisgot sa mga kauban sa Slack aron sulayan ug mugnaon pag-usab ang konteksto. adunay.

Unsay problema?

Akong naamgohan nga kadaghanan sa akong mga higala walay access sa maong himan. Pipila ka mga kompanya ang andam nga mogugol ug daghang mga kapanguhaan sa pagtukod ug pagpadayon sa usa ka himan sa plataporma sama sa Dataportal. Ug samtang adunay pipila ka mga open source nga solusyon, sila lagmit nga gidisenyo aron sukdon, nga nagpalisud sa pag-set up ug pagmentinar nga walay dedikado nga DevOps engineer. Busa nakahukom ko nga maghimo ug bag-ong butang.

Balyena: Usa ka hungog nga yano nga himan sa pagdiskobre sa datos

Giunsa pagpangita ang datos nga dali ug dali sa Whale

And yes, by stupidly simple I mean stupidly simple. Ang balyena adunay duha lamang ka sangkap:

  1. Usa ka librarya sa Python nga nagkolekta sa metadata ug nag-format niini sa MarkDown.
  2. Rust command line interface alang sa pagpangita pinaagi niini nga data.

Gikan sa punto sa panglantaw sa internal nga imprastraktura alang sa pagmentinar, adunay daghang mga text file ug usa ka programa nga nag-update sa teksto. Mao ra kana, mao nga ang pag-host sa usa ka git server sama sa Github gamay ra. Walay bag-ong pangutana nga pinulongan nga makat-unan, walay imprastraktura sa pagdumala, walay mga backup. Nahibal-an sa tanan ang Git, busa ang pag-sync ug pagtinabangay libre. Atong tan-awon pag-ayo ang pagpaandar Balyena v1.0.

Bug-os nga gipakita nga git-based GUI

Ang balyena gidisenyo nga molangoy sa kadagatan sa usa ka hilit nga git server. Siya sayon ​​kaayo ma-configure: ipasabot ang pipila ka koneksyon, kopyaha ang script sa Github Actions (o isulat ang usa para sa imong gipili nga CI/CD nga plataporma) ug aduna kay data discovery web tool dayon. Mahimo nimong pangitaon, tan-awon, dokumento ug ipaambit ang imong mga spreadsheet direkta sa Github.

Giunsa pagpangita ang datos nga dali ug dali sa Whale
Usa ka pananglitan sa usa ka stub table nga gihimo gamit ang Github Actions. Full working demo tan-awa niini nga seksyon.

Kusog nga kilat pagpangita sa CLI alang sa imong tipiganan

Ang balyena nagpuyo ug nagginhawa sa command line, nga naghatag kusog, millisecond nga pagpangita sa imong mga lamesa. Bisan sa minilyon nga mga lamesa, nakahimo kami sa paghimo sa balyena nga talagsaon nga pasundayag pinaagi sa paggamit sa pipila ka maalamon nga mekanismo sa pag-cache ug pinaagi usab sa pagtukod pag-usab sa backend sa Rust. Dili nimo mamatikdan ang bisan unsang paglangan sa pagpangita [hello Google DS].

Giunsa pagpangita ang datos nga dali ug dali sa Whale
Demo sa balyena, milyon nga pagpangita sa lamesa.

Awtomatikong pagkalkula sa mga sukatan [sa beta]

Usa sa akong pinakagamay nga paborito nga mga butang isip data scientist nagbalikbalik sa parehas nga mga pangutana aron lang masusi ang kalidad sa datos nga gigamit. Gisuportahan sa Whale ang katakus sa paghubit sa mga sukatan sa yano nga SQL nga gikatakda nga modagan kauban ang imong mga pipeline sa paglimpyo sa metadata. Itakda ang usa ka YAML metrics block sulod sa stub table, ug ang Whale awtomatikong modagan sa usa ka eskedyul ug magpadagan sa mga pangutana nga nabutang sa metrics.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Giunsa pagpangita ang datos nga dali ug dali sa Whale
Inubanan sa Github, kini nga pamaagi nagpasabut nga ang balyena magsilbing usa ka dali nga sentro nga gigikanan sa kamatuoran alang sa metric nga mga kahulugan. Gitipigan pa ni Whale ang mga kantidad kauban ang timestamp sa "~/. whale/metrics" kung gusto nimo maghimo ug charting o mas lawom nga panukiduki.

Ang Kaugmaon

Human makigsulti sa mga tiggamit sa among pre-release nga mga bersyon sa balyena, among naamgohan nga ang mga tawo nagkinahanglan og dugang nga gamit. Ngano nga usa ka himan sa pagpangita sa lamesa? Ngano nga dili usa ka himan sa pagpangita sa sukatan? Nganong dili man mamonitor? Ngano nga dili usa ka tool sa pagpatuman sa SQL query? Samtang ang whale v1 orihinal nga gipanamkon isip usa ka yano nga CLI nga kauban nga himan Dataportal/Amundsen, kini nahimo na nga usa ka bug-os nga bahin nga standalone nga plataporma, ug kami nanghinaut nga kini mahimong usa ka hinungdanon nga bahin sa toolkit sa Data Scientist.

Kung adunay usa ka butang nga gusto nimo nga makita sa proseso sa pag-uswag, pag-apil sa among ngadto sa komunidad sa Slack, bukas nga mga Isyu sa Githubo bisan direkta nga kontak LinkedIn. Naa na miy ubay-ubay nga cool features - Jinja templates, bookmarks, search filters, Slack alerts, Jupyter integration, bisan usa ka CLI dashboard para sa metrics - pero ganahan mi sa imong input.

konklusyon

Ang Whale gipalambo ug gimentinar sa Dataframe, usa ka startup nga bag-o lang akong nalipay sa pag-co-founder sa ubang mga tawo. Samtang ang balyena gihimo para sa mga data scientist, ang Dataframe gihimo para sa mga data scientist. Para sa inyo nga gustong makigtambayayong sa mas suod, ayawg kaulaw sa adresidugang ka namo sa waiting list.

Giunsa pagpangita ang datos nga dali ug dali sa Whale
Ug pinaagi sa promo code HABR, makakuha ka og dugang nga 10% sa diskwento nga gipakita sa bandila.

Dugang nga mga kurso

Gipili nga mga Artikulo

Source: www.habr.com