Cara nggoleki data kanthi cepet lan gampang nganggo Whale

Cara nggoleki data kanthi cepet lan gampang nganggo Whale
Artikel iki ngomong babagan alat panemuan data sing paling gampang lan paling cepet, sing sampeyan deleng ing KDPV. Apike, paus dirancang kanggo di-host ing server git remot. Rincian ing ngisor potong.

Kepiye Alat Panemuan Data Airbnb Ngganti Uripku

Ing karirku, aku wis cukup begja kanggo ngrampungake sawetara masalah sing nyenengake: Aku sinau math aliran nalika nindakake gelar ing MIT, nggarap model tambahan, lan karo proyek open source. pylift ing Wayfair, lan ngetrapake model penargetan homepage anyar lan dandan CUPED ing Airbnb. Nanging kabeh karya iki ora tau glamor - nyatane, aku kerep ngentekake wektu nggoleki, riset, lan validasi data. Sanajan iki minangka kahanan kerja sing terus-terusan, aku ora ngerti yen iki masalah nganti aku tekan Airbnb sing wis dirampungake kanthi alat panemuan data βˆ’ portal data.

Ing endi aku bisa nemokake {{data}}? portal data.
Apa tegese kolom iki? portal data.
Piye kabare {{metric}} dina iki? portal data.
Apa rasa urip? ING portal data, mbokmenawa.

Oke, sampeyan wis nampilake gambar kasebut. Nemokake data lan mangerteni apa tegese, carane digawe lan carane nggunakake kabeh mung sawetara menit, ora jam. Aku bisa nglampahi wektu kanggo nggawe kesimpulan sing prasaja, utawa algoritma anyar, (... utawa mangsuli pitakon acak babagan data), tinimbang nggali cathetan, nulis pitakon SQL sing bola-bali, lan nyebutake rekan-rekan ing Slack kanggo nyoba lan nggawe ulang konteks. wis.

Apa masalahe?

Aku ngerti manawa akeh kanca-kancaku ora duwe akses menyang alat kasebut. Sawetara perusahaan gelem nyawisake sumber daya gedhe kanggo mbangun lan njaga alat platform kaya Dataportal. Lan nalika ana sawetara solusi open source, padha cenderung dirancang kanggo skala, dadi angel nyiyapake lan njaga tanpa insinyur DevOps sing darmabakti. Dadi aku mutusake nggawe sing anyar.

Whale: Alat panemuan data sing gampang banget

Cara nggoleki data kanthi cepet lan gampang nganggo Whale

Lan ya, dening prasaja kanggo stupidity tegese prasaja kanggo stupidity. Paus mung nduweni rong komponen:

  1. Pustaka Python sing ngumpulake metadata lan format ing MarkDown.
  2. Antarmuka baris printah Rust kanggo nggoleki data iki.

Saka sudut pandang infrastruktur internal kanggo pangopènan, mung ana akeh file teks lan program sing nganyari teks. Mekaten, dadi hosting ing server git kaya Github ora pati penting. Ora ana basa pitakon anyar kanggo sinau, ora ana infrastruktur manajemen, ora ana serep. Kabeh wong ngerti Git, mula sinkronisasi lan kolaborasi gratis. Ayo goleki kanthi luwih rinci babagan fungsi kasebut Paus v1.0.

Fitur lengkap GUI basis git

Paus dirancang kanggo nglangi ing segara saka server git remot. Dheweke gampang banget bisa dikonfigurasi: nemtokake sawetara sambungan, nyalin skrip Tindakan Github (utawa nulis siji kanggo platform CI / CD sing dipilih) lan sampeyan bakal duwe alat web panemuan data langsung. Sampeyan bakal bisa nelusuri, ndeleng, dokumen lan nuduhake spreadsheet langsung ing Github.

Cara nggoleki data kanthi cepet lan gampang nganggo Whale
Conto tabel rintisan sing digawe nggunakake Tindakan Github. Demo kerja lengkap ndeleng ing bagean iki.

Telusuri CLI kanthi cepet kanggo repositori sampeyan

Paus urip lan ambegan ing baris printah, nyedhiyakake panelusur milidetik sing kuat ing meja sampeyan. Malah kanthi mayuta-yuta tabel, kita bisa nggawe paus luar biasa performa kanthi nggunakake sawetara mekanisme caching sing cerdas lan uga kanthi mbangun backend ing Rust. Sampeyan ora bakal sok dong mirsani wektu tundha panelusuran [hello Google DS].

Cara nggoleki data kanthi cepet lan gampang nganggo Whale
Tur paus, yuta nggoleki meja.

Pitungan otomatis metrik [ing beta]

Salah sawijining perkara sing paling disenengi minangka ilmuwan data nglakokake pitakon sing padha bola-bali mung kanggo mriksa kualitas data sing digunakake. Whale ndhukung kemampuan kanggo nemtokake metrik ing SQL kosong sing bakal dijadwalake kanggo mlaku bebarengan karo pipelines ngresiki metadata. Nemtokake blok metrik YAML ing tabel rintisan, lan Paus bakal kanthi otomatis mbukak jadwal lan mbukak pitakon sing disusun ing metrik.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Cara nggoleki data kanthi cepet lan gampang nganggo Whale
Digabungake karo Github, pendekatan iki tegese paus bisa dadi sumber bebener sing gampang kanggo definisi metrik. Paus malah nyimpen nilai bebarengan karo cap wektu ing "~/. whale/metrics" yen sampeyan pengin nindakake sawetara charting utawa riset luwih jero.

Ing masa depan

Sawise ngomong karo pangguna paus versi pra-release, kita ngerti yen wong butuh fungsi liyane. Apa alat golek meja? Apa ora alat telusuran metrik? Apa ora ngawasi? Napa ora alat eksekusi query SQL? Nalika paus v1 wiwitane disusun minangka alat pendamping CLI sing prasaja Dataportal/Amundsen, wis berkembang dadi platform mandiri kanthi fitur lengkap, lan kita ngarep-arep bakal dadi bagean integral saka toolkit Data Scientist.

Yen ana sing pengin dideleng ing proses pangembangan, gabung karo kita menyang komunitas Slack, mbukak Masalah ing GitHubutawa malah kontak langsung LinkedIn. Kita wis duwe sawetara fitur keren - Cithakan Jinja, tetenger, saringan telusuran, tandha Slack, integrasi Jupyter, malah panel CLI kanggo metrik - nanging kita nampa input sampeyan.

kesimpulan

Whale dikembangake lan dikelola dening Dataframe, sawijining startup sing bubar aku seneng karo wong liya. Nalika paus digawe kanggo ilmuwan data, Dataframe digawe kanggo ilmuwan data. Kanggo sampeyan sing pengin kolaborasi luwih cedhak, aja ragu-ragu alamatkita bakal nambah sampeyan menyang dhaptar tunggu.

Cara nggoleki data kanthi cepet lan gampang nganggo Whale
Lan kanthi kode promo HABR, sampeyan bisa entuk tambahan 10% kanggo diskon sing dituduhake ing spanduk.

Kursus liyane

Artikel Pilihan

Source: www.habr.com