Kumaha milarian data gancang sareng gampang sareng Paus

Kumaha milarian data gancang sareng gampang sareng Paus
Tulisan ieu nyarioskeun ngeunaan alat panemuan data anu pangbasajanna sareng panggancangna anu anjeun tingali damel di KDPV. Narikna, paus dirancang pikeun di-host dina server git jauh. Rinci handapeun cut.

Kumaha Alat Papanggihan Data Airbnb Ngarobih Kahirupan Abdi

Dina karir mah, kuring geus cukup untung pikeun berpungsi dina sababaraha masalah fun: Kuring diajar aliran math bari ngalakukeun gelar kuring di MIT, digawé dina model incremental, sarta kalawan proyék open source. pylift di Wayfair, sareng ngalaksanakeun modél nargetkeun halaman utama énggal sareng perbaikan CUPED di Airbnb. Tapi sadaya karya ieu henteu pernah glamorous - kanyataanna, kuring sering nyéépkeun waktos kuring milarian, nalungtik, sareng validasi data. Sanaos kaayaan ieu tetep di tempat damel, kuring henteu nyangka yén ieu mangrupikeun masalah dugi ka kuring dugi ka Airbnb dimana éta direngsekeun ku alat panemuan data − portal data.

Dimana abdi tiasa mendakan {{data}}? portal data.
Naon hartosna kolom ieu? portal data.
Kumaha kabarna {{metric}} ayeuna? portal data.
Naon rasa hirup? DI portal data, meureun.

Oké, anjeun geus dibere gambar. Milarian data sareng ngartos naon hartosna, kumaha éta diciptakeun sareng cara ngagunakeun éta sadayana ngan ukur peryogi sababaraha menit, sanés jam. Kuring bisa méakkeun waktu kuring nyieun conclusions basajan, atawa algoritma anyar, (... atawa ngajawab patarosan acak ngeunaan data), tinimbang ngagali ngaliwatan catetan, nulis queries SQL repetitive, sarta mentioning kolega on Slack pikeun nyobaan jeung nyieun deui konteks. kungsi.

Naon masalahna?

Kuring sadar yén kalolobaan réréncangan kuring henteu ngagaduhan aksés kana alat sapertos kitu. Sababaraha pausahaan anu daék bakti sumberdaya badag pikeun ngawangun jeung ngajaga alat platform kawas Dataportal. Bari aya sababaraha solusi open source, aranjeunna condong dirancang pikeun skala, sahingga hésé nyetél jeung ngajaga tanpa insinyur DevOps dedicated. Ku kituna kuring mutuskeun pikeun nyieun hal anyar.

Paus: Hiji alat kapanggihna data stupidly basajan

Kumaha milarian data gancang sareng gampang sareng Paus

Na enya, ku stupidly basajan Maksad abdi stupidly basajan. lauk paus ngan boga dua komponén:

  1. Perpustakaan Python anu ngumpulkeun metadata sareng pormatna dina MarkDown.
  2. Antarbeungeut garis paréntah karat pikeun milarian data ieu.

Tina sudut pandang infrastruktur internal pikeun pangropéa, ngan ukur seueur file téks sareng program anu ngamutahirkeun téks. Éta waé, janten hosting dina server git sapertos Github teu penting. Taya basa query anyar pikeun neuleuman, euweuh infrastruktur manajemén, euweuh cadangan. Sadayana terang Git, janten singkronisasi sareng kolaborasi gratis. Hayu urang nyandak katingal ngadeukeutan di pungsionalitasna Lauk paus v1.0.

Pinuh diulas GUI basis git

Paus dirancang pikeun ngojay di sagara server git jauh. Anjeunna gampang pisan bisa dikonfigurasi: ngartikeun sababaraha sambungan, salin skrip Github Actions (atanapi nyerat hiji kanggo platform CI/CD anu anjeun pilih) sareng anjeun bakal langsung gaduh alat wéb panemuan data. Anjeun bakal tiasa milarian, ningali, ngadokuméntasikeun sareng ngabagikeun hamparan anjeun langsung dina Github.

Kumaha milarian data gancang sareng gampang sareng Paus
Conto tabel rintisan anu dihasilkeun nganggo Github Actions. demo gawé pinuh tingali dina bagian ieu.

Pilarian CLI gancang pikeun gudang anjeun

Paus hirup sareng ngambekan dina garis paréntah, nyayogikeun panéangan millidetik anu kuat dina méja anjeun. Malah ku jutaan tabel, urang junun nyieun paus incredibly performant ku ngagunakeun sababaraha mékanisme caching palinter sarta ogé ku ngawangun deui backend di Rust. Anjeun moal aya bewara sagala reureuh pilarian [halo Google DS].

Kumaha milarian data gancang sareng gampang sareng Paus
demo lauk paus, juta méja lookup.

Itungan otomatis métrik [dina béta]

Salah sahiji hal anu paling karesep kuring salaku élmuwan data nyaéta ngajalankeun patarosan anu sami sakali-kali deui ngan ukur pikeun mariksa kualitas data anu dianggo. Paus ngadukung kamampuan pikeun ngartikeun métrik dina SQL polos anu bakal dijadwalkeun pikeun ngajalankeun sareng jalur pipa ngabersihan metadata anjeun. Nangtukeun blok métrik YAML di jero méja rintisan, sareng Paus bakal otomatis dijalankeun dina jadwal sareng ngajalankeun patarosan anu disarangkeun dina métrik.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Kumaha milarian data gancang sareng gampang sareng Paus
Digabungkeun sareng Github, pendekatan ieu hartosna lauk paus tiasa janten sumber bebeneran anu gampang pikeun definisi métrik. Paus malah nyimpen nilai-nilai sareng cap waktu dina "~/. paus / metrics" upami anjeun hoyong ngalakukeun sababaraha charting atanapi panalungtikan anu langkung jero.

Ka hareup

Saatos ngobrol sareng pangguna tina versi pre-release paus, urang sadar yén jalma peryogi langkung seueur fungsionalitas. Naha alat milarian méja? Naha henteu alat milarian métrik? Naha henteu ngawaskeun? Naha sanés alat palaksanaan query SQL? Bari paus v1 asalna katimu salaku alat pendamping CLI basajan Dataportal/Amundsen, éta parantos mekar janten platform mandiri anu lengkep, sareng kami ngarepkeun éta bakal janten bagian integral tina toolkit Data Scientist.

Upami aya anu anjeun hoyong tingali dina prosés pamekaran, gabung kami ka komunitas Slack, muka Isu di Githubatawa malah kontak langsung LinkedIn. Kami parantos ngagaduhan sababaraha fitur anu saé - template Jinja, téténggér, saringan milarian, Slack ngageter, integrasi Jupyter, bahkan panel CLI pikeun métrik - tapi kami ngabagéakeun input anjeun.

kacindekan

Paus dikembangkeun sareng diurus ku Dataframe, hiji ngamimitian anu nembe kuring resep ngadegkeun sareng jalma sanés. Bari paus dijieun pikeun élmuwan data, Dataframe dijieun pikeun élmuwan data. Pikeun anjeun anu hoyong kolaborasi langkung caket, mangga alamatkami bakal nambihan anjeun kana daptar ngantosan.

Kumaha milarian data gancang sareng gampang sareng Paus
Sareng ku kode promo HABR, Anjeun bisa meunangkeun tambahan 10% kana diskon dituduhkeun dina spanduk.

Langkung kursus

Artikel Diulas

sumber: www.habr.com