Sut i chwilio data yn gyflym ac yn hawdd gyda Whale

Sut i chwilio data yn gyflym ac yn hawdd gyda Whale
Mae'r erthygl hon yn sôn am yr offeryn darganfod data symlaf a chyflymaf, y gwelwch ei waith ar KDPV. Yn ddiddorol, mae morfil wedi'i gynllunio i'w gynnal ar weinydd git o bell. Manylion o dan y toriad.

Sut y Newidiodd Offeryn Darganfod Data Airbnb Fy Mywyd

Yn fy ngyrfa, rydw i wedi bod yn ddigon ffodus i weithio ar rai problemau hwyliog: astudiais fathemateg llif wrth wneud fy ngradd yn MIT, gweithiais ar fodelau cynyddrannol, a gyda phrosiect ffynhonnell agored pylift yn Wayfair, a gweithredu modelau targedu hafan newydd a gwelliannau CUPED yn Airbnb. Ond nid oedd yr holl waith hwn erioed yn hudolus - a dweud y gwir, treuliais y rhan fwyaf o'm hamser yn aml yn chwilio, ymchwilio a dilysu data. Er bod hwn yn gyflwr cyson yn y gwaith, ni ddaeth yn amlwg i mi fod hwn yn broblem nes i mi gyrraedd Airbnb lle cafodd ei ddatrys gydag offeryn darganfod data - porth data.

Ble gallaf ddod o hyd i {{data}}? porth data.
Beth yw ystyr y golofn hon? porth data.
Sut mae {{metric}} heddiw? porth data.
Beth yw ymdeimlad o fywyd? YN porth data, mae'n debyg.

Iawn, rydych chi wedi cyflwyno'r llun. Mae dod o hyd i ddata a deall beth mae'n ei olygu, sut y cafodd ei greu a sut i'w ddefnyddio i gyd yn cymryd ychydig funudau yn unig, nid oriau. Gallwn i dreulio fy amser yn tynnu casgliadau syml, neu algorithmau newydd, (…neu ateb cwestiynau ar hap am y data), yn hytrach na phalu trwy nodiadau, ysgrifennu ymholiadau SQL ailadroddus, a sôn am gydweithwyr ar Slack i geisio ail-greu cyd-destun bod rhywun arall eisoes wedi.

Beth yw'r broblem?

Sylweddolais nad oedd gan y rhan fwyaf o fy ffrindiau fynediad i declyn o'r fath. Ychydig iawn o gwmnïau sy'n barod i neilltuo adnoddau enfawr i adeiladu a chynnal offeryn platfform fel Dataportal. Ac er bod rhai atebion ffynhonnell agored, maent yn tueddu i gael eu dylunio i raddfa, gan ei gwneud hi'n anodd sefydlu a chynnal heb beiriannydd DevOps pwrpasol. Felly penderfynais greu rhywbeth newydd.

Whale: Offeryn darganfod data gwirion o syml

Sut i chwilio data yn gyflym ac yn hawdd gyda Whale

Ac ie, gan wirion o syml dwi'n golygu dwp o syml. Dim ond dwy gydran sydd gan y morfil:

  1. Llyfrgell Python sy'n casglu metadata a'i fformatio yn MarkDown.
  2. Rhyngwyneb llinell orchymyn Rust ar gyfer chwilio trwy'r data hwn.

O safbwynt y seilwaith mewnol ar gyfer cynnal a chadw, dim ond llawer o ffeiliau testun a rhaglen sy'n diweddaru'r testun sydd ar gael. Dyna ni, felly mae cynnal ar weinydd git fel Github yn ddibwys. Dim iaith ymholiad newydd i'w dysgu, dim seilwaith rheoli, dim copïau wrth gefn. Mae pawb yn adnabod Git, felly mae cysoni a chydweithio yn rhad ac am ddim. Gadewch i ni edrych yn agosach ar y swyddogaeth Morfil v1.0.

GUI nodwedd lawn yn seiliedig ar git

Mae Whale wedi'i gynllunio i nofio yng nghefnfor gweinydd git o bell. Ef hawdd iawn configurable: diffiniwch rai cysylltiadau, copïwch y sgript Github Actions (neu ysgrifennwch un ar gyfer y platfform CI / CD o'ch dewis) a bydd gennych offeryn gwe darganfod data ar unwaith. Byddwch yn gallu chwilio, gweld, dogfennu a rhannu eich taenlenni yn uniongyrchol ar Github.

Sut i chwilio data yn gyflym ac yn hawdd gyda Whale
Enghraifft o fwrdd bonyn a gynhyrchwyd gan ddefnyddio Github Actions. Demo gweithio llawn gweler yn yr adran hon.

Chwiliad CLI cyflym mellt am eich ystorfa

Mae morfil yn byw ac yn anadlu ar y llinell orchymyn, gan ddarparu chwilio milieiliadau pwerus ar draws eich byrddau. Hyd yn oed gyda miliynau o fyrddau, fe wnaethom lwyddo i wneud morfil yn hynod o berfformiwr trwy ddefnyddio rhai mecanweithiau caching clyfar a hefyd trwy ailadeiladu'r backend yn Rust. Ni fyddwch yn sylwi ar unrhyw oedi wrth chwilio [helo Google DS].

Sut i chwilio data yn gyflym ac yn hawdd gyda Whale
Demo morfil, edrychiad bwrdd miliwn.

Cyfrifo metrigau yn awtomatig [mewn beta]

Un o fy hoff bethau lleiaf fel gwyddonydd data yw rhedeg yr un ymholiadau dro ar ôl tro dim ond i wirio ansawdd y data sy'n cael ei ddefnyddio. Mae Whale yn cefnogi'r gallu i ddiffinio metrigau mewn SQL plaen a fydd yn rhedeg ynghyd â'ch piblinellau glanhau metadata. Diffiniwch floc metrigau YAML y tu mewn i'r bwrdd bonion, a bydd Whale yn rhedeg yn awtomatig ar amserlen ac yn rhedeg ymholiadau wedi'u nythu mewn metrigau.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Sut i chwilio data yn gyflym ac yn hawdd gyda Whale
Ar y cyd â Github, mae'r dull hwn yn golygu y gall morfil wasanaethu fel ffynhonnell ganolog hawdd o wirionedd ar gyfer diffiniadau metrig. Mae Whale hyd yn oed yn arbed y gwerthoedd ynghyd â'r stamp amser yn y "~/. morfil/metrics" os ydych am wneud rhywfaint o waith siartio neu ymchwil fanylach.

Y Dyfodol

Ar ôl siarad â defnyddwyr ein fersiynau cyn-rhyddhau o forfil, sylweddolom fod angen mwy o ymarferoldeb ar bobl. Pam offeryn chwilio tabl? Beth am offeryn chwilio metrigau? Beth am fonitro? Beth am offeryn gweithredu ymholiad SQL? Er bod whale v1 wedi'i lunio'n wreiddiol fel offeryn cydymaith CLI syml Dataportal/Amundsen, mae eisoes wedi datblygu i fod yn blatfform annibynnol llawn sylw, a gobeithiwn y bydd yn dod yn rhan annatod o becyn cymorth y Gwyddonydd Data.

Os oes rhywbeth yr hoffech ei weld yn y broses ddatblygu, ymunwch â'n i gymuned Slack, agor Materion yn Githubneu hyd yn oed cysylltwch yn uniongyrchol LinkedIn. Mae gennym eisoes nifer o nodweddion cŵl - templedi Jinja, nodau tudalen, hidlwyr chwilio, rhybuddion Slack, integreiddio Jupyter, hyd yn oed dangosfwrdd CLI ar gyfer metrigau - ond byddem wrth ein bodd â'ch mewnbwn.

Casgliad

Mae Whale yn cael ei ddatblygu a'i gynnal gan Dataframe, cwmni cychwyn y cefais y pleser o'i gyd-sefydlu â phobl eraill yn ddiweddar. Er bod morfil yn cael ei wneud ar gyfer gwyddonwyr data, mae Dataframe yn cael ei wneud ar gyfer gwyddonwyr data. I'r rhai ohonoch sydd am gydweithio'n agosach, mae croeso i chi wneud hynny cyfeiriadbyddwn yn eich ychwanegu at y rhestr aros.

Sut i chwilio data yn gyflym ac yn hawdd gyda Whale
A thrwy god promo HABR, gallwch gael 10% ychwanegol at y gostyngiad a nodir ar y faner.

Mwy o gyrsiau

Erthyglau dan Sylw

Ffynhonnell: hab.com