Meriv çawa bi Whale re zû û bi hêsanî daneyan bigere

Meriv çawa bi Whale re zû û bi hêsanî daneyan bigere
Ev gotar li ser amûra vedîtina daneyê ya herî hêsan û bilez, xebata ku hûn li ser KDPV dibînin diaxive. Balkêş e, whale hatiye dîzaynkirin ku li ser serverek git-ya dûr were mêvandar kirin. Details di bin cut.

Amûra Vedîtina Daneyên Airbnb Çawa Jiyana Min Guherand

Di kariyera xwe de, ez bi bextewar bûm ku ez li ser hin pirsgirêkên kêfê dixebitim: Min matematîka herikînê dixwend dema ku diploma xwe li MIT-ê dikir, li ser modelên zêdebûyî xebitîm, û bi projeyek çavkaniyek vekirî. pylift li Wayfair, û modelên nû yên armanckirina rûpela malê û çêtirkirinên CUPED li Airbnb bicîh anîn. Lê hemî ev xebat tu carî glamor nebûn - bi rastî, min pir caran piraniya dema xwe li lêgerîn, lêkolîn û pejirandina daneyan derbas kir. Her çend ev rewşek domdar di xebatê de bû, lê ji min re nedihat ku ev pirsgirêkek bû heya ku ez gihîştim Airbnb ku ew bi amûrek vedîtina daneyê hate çareser kirin - dataportal.

Ez dikarim li ku derê {{data}} bibînim? dataportal.
Wateya vê stûnê çi ye? dataportal.
{{metric}} îro çawa ye? dataportal.
hesta jiyanê çi ye? LI dataportal, belkî.

Baş e, te wêne pêşkêş kir. Dîtina daneyan û têgihîştina wateya wê, ew çawa hate afirandin û meriv wê çawa bikar tîne tenê çend hûrdeman digire, ne demjimêran. Ez dikaribûm wextê xwe bi xêzkirina encamên hêsan, an algorîtmayên nû (… an bersivdana pirsên rasthatî yên li ser daneyan) derbas bikim, li şûna ku di nav notan de bikolim, pirsên SQL-ya dubare binivîsim, û li ser Slack behsa hevkarên xwe bikim da ku biceribînin û çarçoweyê ji nû ve biafirînin. hebû.

Pirsgirêk çi ye?

Min fêhm kir ku piraniya hevalên min nikaribin amûrek wiha bi dest bixin. Kêm pargîdanî amade ne ku çavkaniyên mezin ji bo avakirin û domandina amûrek platformê mîna Dataportal veqetînin. Her çend çend çareseriyên çavkaniyek vekirî hene, ew mêl dikin ku bi pîvan têne sêwirandin, ku sazkirin û domandina bêyî endezyarek DevOps-ê dijwar dijwar dike. Ji ber vê yekê min biryar da ku tiştek nû biafirînim.

Whale: Amûrek vedîtina daneyê ya bêaqil û hêsan

Meriv çawa bi Whale re zû û bi hêsanî daneyan bigere

Û erê, bi ehmeqî sade mebesta min ew ehmeqî sade ye. Whale tenê du beşan hene:

  1. Pirtûkxaneyek Python ku metadata berhev dike û di MarkDown de format dike.
  2. Navrûya rêza fermanê Rust ji bo lêgerîna di nav vê daneyê de.

Ji nihêrîna binesaziya navxweyî ya ji bo lênihêrînê, tenê gelek pelên nivîsê û bernameyek ku nivîsê nûve dike hene. Ew ew e, ji ber vê yekê mêvandariya li ser serverek git wekî Github ne hindik e. Zimanek nû ya lêgerînê tune ku meriv fêr bibe, ne binesaziya rêveberiyê, ne paşvekêşan. Her kes Git dizane, ji ber vê yekê hevrêzkirin û hevkarî belaş e. Werin em ji nêz ve li fonksiyonê binêrin Whale v1.0.

GUI-ya-based git-a tevahî taybetmendî

Whale ji bo avjeniyê di okyanûsa serverek git a dûr de hatî çêkirin. Ew pir hêsan e veavakirin: hin girêdan diyar bikin, skrîpta Github Actions kopî bikin (an jî yek ji bo platforma xweya CI/CD ya bijartî binivîsin) û hûn ê tavilê bibin xwediyê amûrek tevna vedîtina daneyê. Hûn ê bikaribin rasterast li ser Github-ê pelgeyên xwe bigerin, bibînin, belge bikin û parve bikin.

Meriv çawa bi Whale re zû û bi hêsanî daneyan bigere
Nimûneyek tabloyek stûyê ku bi karanîna Github Actions hatî çêkirin. Demo xebitandina tevahî di vê beşê de bibînin.

Birûsk bi lez CLI ji bo depoya xwe digere

Whale li ser xeta fermanê dijî û hilm dike, lêgerînên hêzdar, millisecond li seranserê maseyên we peyda dike. Tewra digel bi mîlyonan tabloyan, me bi karanîna hin mekanîzmayên cachkirinê yên biaqil û hem jî bi ji nû ve avakirina paşperdeya li Rust karî ku whale bi rengek bêhempa performansê bike. Hûn ê derengiya lêgerînê nebînin [silav Google DS].

Meriv çawa bi Whale re zû û bi hêsanî daneyan bigere
Demo whale, lêgerîna bi mîlyonan maseyê.

Hesabkirina otomatîkî ya metrîkan [di beta de]

Wekî zanyarek daneyê yek ji tiştên min ên herî kêm bijare ev e ku heman pirsan dîsa û dûbare dimeşîne tenê ji bo kontrolkirina kalîteya daneyên ku têne bikar anîn. Whale şiyana danasîna metrîkên di SQL-ya sade de piştgirî dike ku dê were plansaz kirin ku digel lûleyên paqijkirina metadata we were xebitandin. Di hundurê tabloya stûyê de bloka metrîka YAML destnîşan bikin, û Whale dê bixweber li ser nexşeyek bimeşîne û pirsên ku di metrikan de nehêle bimeşîne.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Meriv çawa bi Whale re zû û bi hêsanî daneyan bigere
Bi Github re, ev nêzîkatî tê vê wateyê ku whale dikare wekî çavkaniyek navendî ya hêsan a rastiyê ji bo pênaseyên metrîkî re xizmet bike. Whale tewra di "~/" de nirxan digel nîşana demjimêrê jî hilîne. whale / metrics" heke hûn dixwazin nexşeyek an lêkolînek kûrtir bikin.

Pêşeroj

Piştî ku bi bikarhênerên guhertoyên me yên berî-weşandî yên whale re axivîn, me fêm kir ku hewcedariya mirovan bêtir fonksiyonê heye. Çima amûrek lêgerîna tabloyê? Çima ne amûrek lêgerîna metrîkê ye? Çima çavdêrî nakin? Çima ne amûrek darvekirina pirsê ya SQL? Dema ku whale v1 bi eslê xwe wekî amûrek hevalbendê CLI-ya hêsan hate fikirîn Dataportal/Amundsen, ew jixwe veguheriye platformek serbixwe ya tevahî-taybetmendî, û em hêvî dikin ku ew ê bibe parçeyek yekgirtî ya amûra Daneyên Zanyarê.

Ger tiştek heye ku hûn dixwazin di pêvajoya pêşkeftinê de bibînin, beşdarî me bibin ji civaka Slack re, Pirsgirêkan vekin li Githuban jî rasterast têkilî daynin LinkedIn. Jixwe gelek taybetmendiyên me yên xweş hene - şablonên Jinja, nîşangir, fîlterên lêgerînê, hişyariyên Slack, entegrasyona Jupyter, tewra tabloyek CLI ji bo metrîkan - lê em ji têketina we hez dikin.

encamê

Whale ji hêla Dataframe ve hatî pêşve xistin û domandin, destpêkek ku min vê dawiyê kêfxweşiya ku ez bi mirovên din re hevkariyê bikim. Dema ku whale ji bo zanyarên daneyê tê çêkirin, Dataframe ji bo zanyarên daneyê tê çêkirin. Ji bo we yên ku dixwazin ji nêz ve zêdetir hevkariyê bikin, xwe azad bikin navnîşanem ê we têxin lîsteya bendê.

Meriv çawa bi Whale re zû û bi hêsanî daneyan bigere
Û bi koda promosyonê HABR, hûn dikarin ji erzaniya ku li ser pankartê hatî destnîşan kirin 10% zêde bistînin.

Kursên bêtir

Gotarên Taybetî

Source: www.habr.com