Si të kërkoni të dhëna shpejt dhe me lehtësi me Whale

Si të kërkoni të dhëna shpejt dhe me lehtësi me Whale
Ky artikull flet për mjetin më të thjeshtë dhe më të shpejtë të zbulimit të të dhënave, punën e të cilit e shihni në KDPV. Interesante, balena është krijuar për t'u pritur në një server git në distancë. Detaje nën prerje.

Si më ndryshoi jetën mjeti i zbulimit të të dhënave të Airbnb

Në karrierën time, kam pasur kënaqësinë të punoj në disa probleme argëtuese: kam studiuar matematikë rrjedhëse ndërsa diplomova në MIT, kam punuar në modele në rritje dhe me një projekt me burim të hapur pilift në Wayfair dhe zbatoi modele të reja të synimit të faqeve kryesore dhe përmirësime CUPED në Airbnb. Por e gjithë kjo punë nuk ishte kurrë magjepsëse - në fakt, unë shpesh e kaloja pjesën më të madhe të kohës duke kërkuar, hulumtuar dhe vërtetuar të dhëna. Megjithëse kjo ishte një gjendje e vazhdueshme në punë, nuk më shkoi mendja se ky ishte një problem derisa arrita në Airbnb ku u zgjidh me një mjet për zbulimin e të dhënave - portali i të dhënave.

Ku mund të gjej {{data}}? portali i të dhënave.
Çfarë do të thotë kjo kolonë? portali i të dhënave.
Si po shkon sot {{metric}}? portali i të dhënave.
Çfarë është ndjenja e jetës? NË portali i të dhënave, ndoshta.

Në rregull, ju e keni paraqitur foton. Gjetja e të dhënave dhe kuptimi i kuptimit të tyre, si u krijua dhe si t'i përdorni të gjitha kërkon vetëm disa minuta, jo orë. Mund ta kaloj kohën time duke nxjerrë përfundime të thjeshta, ose algoritme të reja, (… ose duke iu përgjigjur pyetjeve të rastësishme rreth të dhënave) në vend që të gërmoj nëpër shënime, të shkruaj pyetje të përsëritura SQL dhe të përmend kolegët në Slack për të provuar dhe rikrijuar kontekstin që dikush tjetër e kishte tashmë. .

Ku qendron problemi?

Kuptova se shumica e miqve të mi nuk kishin akses në një mjet të tillë. Pak kompani janë të gatshme të kushtojnë burime të mëdha për ndërtimin dhe mirëmbajtjen e një mjeti platformë si Dataportal. Dhe ndërsa ka disa zgjidhje me burim të hapur, ato priren të jenë të dizajnuara në shkallë, duke e bërë të vështirë konfigurimin dhe mirëmbajtjen pa një inxhinier të dedikuar DevOps. Kështu që vendosa të krijoj diçka të re.

Whale: Një mjet i thjeshtë për zbulimin e të dhënave

Si të kërkoni të dhëna shpejt dhe me lehtësi me Whale

Dhe po, me budallallëk të thjeshtë nënkuptoj budallallëk të thjeshtë. Balena ka vetëm dy përbërës:

  1. Një bibliotekë Python që mbledh meta të dhëna dhe i formaton në MarkDown.
  2. Ndërfaqja e linjës së komandës Rust për kërkimin përmes këtyre të dhënave.

Nga pikëpamja e infrastrukturës së brendshme për mirëmbajtje, ka vetëm shumë skedarë teksti dhe një program që përditëson tekstin. Kjo është ajo, kështu që pritja në një server git si Github është e parëndësishme. Asnjë gjuhë e re e pyetjeve për të mësuar, asnjë infrastrukturë menaxhimi, pa kopje rezervë. Të gjithë e njohin Git, kështu që sinkronizimi dhe bashkëpunimi janë falas. Le të hedhim një vështrim më të afërt në funksionalitetin Balenë v1.0.

GUI i plotë i veçuar i bazuar në git

Whale është projektuar për të notuar në oqeanin e një serveri git të largët. Ai shumë e lehtë i konfigurueshëm: përcaktoni disa lidhje, kopjoni skriptin e Veprimeve të Github (ose shkruani një për platformën tuaj CI/CD të zgjedhur) dhe do të keni menjëherë një mjet për zbulimin e të dhënave në ueb. Ju do të jeni në gjendje të kërkoni, shikoni, dokumentoni dhe ndani tabelat tuaja direkt në Github.

Si të kërkoni të dhëna shpejt dhe me lehtësi me Whale
Një shembull i një tabele cung të krijuar duke përdorur Veprimet e Github. Demo e plotë pune shih në këtë seksion.

Kërkim rrufe i shpejtë CLI për depon tuaj

Balena jeton dhe merr frymë në vijën e komandës, duke ofruar kërkime të fuqishme milisekonda nëpër tavolinat tuaja. Edhe me miliona tabela, ne arritëm ta bëjmë balenën jashtëzakonisht performuese duke përdorur disa mekanizma të zgjuar të ruajtjes në memorie dhe gjithashtu duke rindërtuar pjesën e pasme në Rust. Nuk do të vini re ndonjë vonesë kërkimi [përshëndetje Google DS].

Si të kërkoni të dhëna shpejt dhe me lehtësi me Whale
Demontimi i balenës, kërkimi i miliona tabelave.

Llogaritja automatike e metrikës [në beta]

Një nga gjërat e mia më pak të preferuara si shkencëtar i të dhënave është kryerja e të njëjtave pyetje pa pushim vetëm për të kontrolluar cilësinë e të dhënave që përdoren. Whale mbështet aftësinë për të përcaktuar metrikat në SQL të thjeshtë që do të planifikohen të ekzekutohen së bashku me tubacionet tuaja të pastrimit të meta të dhënave. Përcaktoni një bllok metrikë YAML brenda tabelës së cungëve dhe Whale do të ekzekutohet automatikisht sipas një plani dhe do të ekzekutojë pyetje të ndërlidhura në metrikë.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Si të kërkoni të dhëna shpejt dhe me lehtësi me Whale
E kombinuar me Github, kjo qasje do të thotë se balena mund të shërbejë si një burim i lehtë qendror i së vërtetës për përkufizimet metrike. Whale madje ruan vlerat së bashku me vulën kohore në "~/. balenë/metrika" nëse doni të bëni disa grafikime ose kërkime më të thelluara.

e ardhmja

Pasi folëm me përdoruesit e versioneve tona të para-publikimit të balenës, kuptuam se njerëzit kishin nevojë për më shumë funksionalitet. Pse një mjet i kërkimit të tabelës? Pse jo një mjet kërkimi metrikë? Pse jo monitorimi? Pse jo një mjet për ekzekutimin e pyetjeve SQL? Ndërsa balena v1 fillimisht u konceptua si një mjet i thjeshtë shoqërues CLI Dataportal/Amundsen, ajo tashmë ka evoluar në një platformë të pavarur me funksione të plota dhe shpresojmë se do të bëhet pjesë integrale e paketës së veglave të Shkencëtarit të të Dhënave.

Nëse ka diçka që dëshironi të shihni në procesin e zhvillimit, bashkohuni me ne për komunitetin Slack, hapni Çështjet në Githubapo edhe kontakt direkt LinkedIn. Ne tashmë kemi një sërë veçorish interesante - shabllone Jinja, faqeshënues, filtra kërkimi, sinjalizime të Slack, integrimin e Jupyter, madje edhe një panel kontrolli CLI për metrikë - por do të donim të donim kontributin tuaj.

Përfundim

Whale është zhvilluar dhe mirëmbajtur nga Dataframe, një startup që së fundmi pata kënaqësinë ta bashkëthemeloj me njerëz të tjerë. Ndërsa balena është bërë për shkencëtarët e të dhënave, Dataframe është bërë për shkencëtarët e të dhënave. Për ju që dëshironi të bashkëpunoni më ngushtë, mos ngurroni adresëne do t'ju shtojmë në listën e pritjes.

Si të kërkoni të dhëna shpejt dhe me lehtësi me Whale
Dhe me kod promovues HABR, mund të përfitoni 10% shtesë në zbritjen e treguar në baner.

Më shumë kurse

Artikuj të veçuar

Burimi: www.habr.com