Kā ātri un ērti meklēt datus, izmantojot Whale

Kā ātri un ērti meklēt datus, izmantojot Whale
Å ajā materiālā ir aprakstÄ«ts vienkārŔākais un ātrākais datu atklāŔanas rÄ«ks, kura darbÄ«bu redzat uz KDPV. Interesanti, ka valis ir paredzēts mitināŔanai attālā git serverÄ«. SÄ«kāka informācija zem griezuma.

Kā Airbnb datu atklāŔanas rīks mainīja manu dzīvi

Man ir paveicies savā karjerā piestrādāt pie dažām jautrām problēmām: es studēju pavedienu matemātiku, iegÅ«stot grādu MIT, strādāju pie inkrementālajiem modeļiem un atvērtā pirmkoda projekta. pilfs Wayfair, kā arÄ« jaunu mājaslapu mērÄ·auditorijas atlases modeļu un CUPED uzlabojumu ievieÅ”ana Airbnb. Bet viss Å”is darbs nekad nav bijis krāŔņs ā€“ patiesÄ«bā es lielāko daļu laika pavadÄ«ju, meklējot, pētot un pārbaudot datus. Lai gan tas bija pastāvÄ«gs stāvoklis darbā, man neienāca prātā, ka tā ir problēma, lÄ«dz es nokļuvu Airbnb, kur tā tika atrisināta, izmantojot datu atklāŔanas rÄ«ku. Datu portāls.

Kur es varu atrast {{data}}? Datu portāls.
Ko nozÄ«mē Ŕī kolonna? Datu portāls.
Kā {{metric}} klājas Ŕodien? Datu portāls.
Kas ir dzīves izjūta? IN Datu portāls, droŔi vien.

Labi, jums ir attēls. Datu atraÅ”ana un izpratne par to nozÄ«mi, kā tie tika izveidoti un kā to visu izmantot aizņem minÅ«tes, nevis stundas. Es varētu pavadÄ«t savu laiku, izdarot vienkārÅ”us secinājumus vai jaunus algoritmus (...vai atbildot uz nejauÅ”iem jautājumiem par datiem), nevis rakņāties pa piezÄ«mēm, rakstÄ«t atkārtotus SQL vaicājumus un pieminēt kolēģus Slack, lai mēģinātu atjaunot kontekstu, ko kāds cits jau bija.

Kāda ir problēma?

Es sapratu, ka lielākajai daļai manu draugu nebija pieejams Ŕāds rÄ«ks. Tikai daži uzņēmumi vēlas veltÄ«t milzÄ«gus resursus tāda platformas rÄ«ka kā Dataportal izveidei un uzturÄ“Å”anai. Un, lai gan ir pieejami vairāki atvērtā pirmkoda risinājumi, tie parasti ir paredzēti mērogoÅ”anai, apgrÅ«tinot iestatÄ«Å”anu un apkopi bez Ä«paÅ”a DevOps inženiera. Tāpēc es nolēmu izveidot kaut ko jaunu.

Valis: muļķīgi vienkārŔs datu atklāŔanas rīks

Kā ātri un ērti meklēt datus, izmantojot Whale

Un jā, ar vienkārŔu līdz stulbumam es domāju vienkārŔu līdz stulbumam. valim ir tikai divas sastāvdaļas:

  1. Python bibliotēka, kas apkopo metadatus un formatē tos pakalpojumā MarkDown.
  2. Rust komandrindas saskarne Ŕo datu meklēŔanai.

No tehniskās apkopes iekŔējās infrastruktÅ«ras viedokļa ir tikai daudz teksta failu un programma, kas atjaunina tekstu. Tas arÄ« viss, tāpēc mitināŔana tādā Git serverÄ« kā Github ir mazsvarÄ«ga. Nav jaunas vaicājumu valodas, kas jāapgÅ«st, nav pārvaldÄ«bas infrastruktÅ«ras, nav rezerves kopiju. Git ir zināms visiem, tāpēc sinhronizācija un sadarbÄ«ba ir bez maksas. SÄ«kāk apskatÄ«sim funkcionalitāti Valis v1.0.

Pilnībā aprīkots git balstīts GUI

Valis ir paredzēts, lai kuÄ£otu attālā Git servera okeānā. ViņŔ ļoti viegli pielāgojams: definējiet dažus savienojumus, nokopējiet Github Actions skriptu (vai uzrakstiet to savai CI/CD platformai pēc izvēles), un jums ātri bÅ«s pieejams tÄ«mekļa datu atklāŔanas rÄ«ks. JÅ«s varēsiet meklēt, skatÄ«t, dokumentēt un kopÄ«got savas izklājlapas tieÅ”i vietnē Github.

Kā ātri un ērti meklēt datus, izmantojot Whale
Galda tabulas piemērs, kas Ä£enerēts, izmantojot Github Actions. Pilna darba demonstrācija skatieties Å”ajā sadaļā.

Zibens ātra CLI meklÄ“Å”ana jÅ«su repozitorijā

Valis dzÄ«vo un elpo komandrindā, nodroÅ”inot jaudÄ«gus milisekundes meklējumus jÅ«su tabulās. Pat ar miljoniem tabulu mums izdevās padarÄ«t vaļu neticami efektÄ«vu, izmantojot dažus gudrus keÅ”atmiņas mehānismus, kā arÄ« atjaunojot Rust aizmugursistēmu. JÅ«s nepamanÄ«sit nekādu meklÄ“Å”anas aizkavi [sveiki, Google DS].

Kā ātri un ērti meklēt datus, izmantojot Whale
Vaļu demonstrÄ“Å”ana, meklÄ“Å”ana caur miljons tabulām.

Automātisks metrikas aprēķins [beta versijā]

Viena no manām vismazāk iecienÄ«tākajām lietām kā datu zinātnieks ir viena un tā pati vaicājumu izpilde atkal un atkal, lai pārbaudÄ«tu izmantoto datu kvalitāti. Whale atbalsta iespēju definēt metriku vienkārŔā SQL, kas tiks ieplānota darboties kopā ar jÅ«su metadatu skrāpÄ“Å”anas konveijeriem. Definējiet metrikas bloku YAML formātā apakÅ”galda iekÅ”pusē, un Whale automātiski darbosies pēc grafika un izpildÄ«s metrikā ligzdotus vaicājumus.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Kā ātri un ērti meklēt datus, izmantojot Whale
Apvienojumā ar Github Ŕī pieeja nozÄ«mē, ka valis var kalpot kā viegls centrālais patiesÄ«bas avots metrisko definÄ«cijām. Whale pat saglabā vērtÄ«bas kopā ar laikspiedolu direktorijā "~/". valis/metrikaā€, ja vēlaties veikt kādu grafiku vai padziļinātu izpēti.

Nākotne

Pēc sarunām ar mÅ«su vaļu pirmsizlaides versiju lietotājiem mēs sapratām, ka cilvēkiem ir nepiecieÅ”ama plaŔāka funkcionalitāte. Kāpēc tabulu meklÄ“Å”anas rÄ«ks? Kāpēc ne metrikas meklÄ“Å”anas rÄ«ks? Kāpēc ne uzraudzÄ«t? Kāpēc ne SQL vaicājumu rÄ«ks? Lai gan valis v1 sākotnēji bija paredzēts kā vienkārÅ”s CLI pavadoÅ”ais rÄ«ks Dataportal/Amundsen, tā jau ir kļuvusi par pilnÄ«bā funkcionējoÅ”u savrupu platformu, un mēs ceram, ka tā kļūs par datu zinātnieka rÄ«ku komplekta neatņemamu sastāvdaļu.

Ja ir kaut kas, ko vēlaties redzēt attÄ«stÄ«bā, pievienojieties mÅ«su Slinka kopiena, atveriet Izdevumi plkst GitHubvai pat sazināties tieÅ”i LinkedIn. Mums jau ir vairākas lieliskas funkcijas ā€” Jinja veidnes, grāmatzÄ«mes, meklÄ“Å”anas filtri, Slack brÄ«dinājumi, Jupyter integrācija, pat CLI informācijas panelis metrikai ā€” taču mēs priecāsimies par jÅ«su ieguldÄ«jumu.

Secinājums

Whale izstrādā un atbalsta Dataframe ā€” jaunizveidots uzņēmums, kuram nesen bija prieks dibināt kopā ar citiem. Lai gan valis ir paredzēts datu zinātniekiem, Dataframe ir paredzēts datu zinātnes komandām. Tiem no jums, kuri vēlas cieŔāk sadarboties, jÅ«tieties brÄ«vi adrese, mēs jÅ«s pievienosim gaidÄ«Å”anas sarakstam.

Kā ātri un ērti meklēt datus, izmantojot Whale
Un ar reklāmas kodu HABR, var saņemt papildus 10% uz banerī norādītās atlaides.

Vairāk kursu

Piedāvātie raksti

Avots: www.habr.com