Cara mencari data dengan cepat dan mudah dengan Whale

Cara mencari data dengan cepat dan mudah dengan Whale
Bahan ini menerangkan alat penemuan data yang paling mudah dan terpantas, kerja yang anda lihat di KDPV. Menariknya, paus direka untuk dihoskan pada pelayan git jauh. Butiran di bawah potongan.

Cara Alat Penemuan Data Airbnb Mengubah Kehidupan Saya

Saya cukup bertuah untuk menyelesaikan beberapa masalah yang menyeronokkan dalam kerjaya saya: Saya belajar matematik benang semasa mendapat ijazah saya di MIT, bekerja pada model tambahan dan projek sumber terbuka pylift di Wayfair, serta melaksanakan model penyasaran halaman utama baharu dan penambahbaikan CUPED di Airbnb. Tetapi semua kerja ini tidak pernah glamor - sebenarnya, saya sering menghabiskan sebahagian besar masa saya mencari, mengkaji dan mengesahkan data. Walaupun ini adalah keadaan yang berterusan di tempat kerja, saya tidak terfikir bahawa ini adalah masalah sehingga saya sampai ke Airbnb, di mana ia diselesaikan menggunakan alat penemuan data - Portal data.

Di manakah saya boleh mencari {{data}}? Portal data.
Apakah maksud lajur ini? Portal data.
Bagaimanakah keadaan {{metric}} hari ini? Portal data.
Apakah rasa hidup? DALAM Portal data, mungkin.

Okay, awak dah dapat gambarnya. Mencari data dan memahami maksudnya, cara ia dicipta dan cara menggunakannya semuanya mengambil masa beberapa minit, bukan berjam-jam. Saya boleh menghabiskan masa saya membuat inferens mudah, atau algoritma baharu, (... atau menjawab soalan rawak tentang data) daripada menyelongkar nota, menulis pertanyaan SQL berulang dan menyebut rakan sekerja di Slack untuk cuba mencipta semula konteks , yang mana orang lain sudah ada.

Apa masalahnya?

Saya menyedari bahawa kebanyakan rakan saya tidak mempunyai akses kepada alat sedemikian. Beberapa syarikat ingin menumpukan sumber yang besar untuk mencipta dan menyelenggara alat platform seperti Dataportal. Dan walaupun terdapat beberapa penyelesaian sumber terbuka yang tersedia, ia biasanya direka untuk skala, menjadikan persediaan dan penyelenggaraan sukar tanpa jurutera DevOps yang berdedikasi. Jadi saya memutuskan untuk mencipta sesuatu yang baru.

Paus: alat penemuan data yang sangat mudah

Cara mencari data dengan cepat dan mudah dengan Whale

Dan ya, dengan mudah ke tahap kebodohan, saya maksudkan mudah ke tahap kebodohan. paus hanya mempunyai dua komponen:

  1. Pustaka Python yang mengumpul metadata dan memformatnya dalam MarkDown.
  2. Antara muka baris arahan Rust untuk mencari data ini.

Dari sudut pandangan infrastruktur dalaman untuk penyelenggaraan, terdapat hanya banyak fail teks dan program yang mengemas kini teks. Itu sahaja, jadi pengehosan pada pelayan git seperti Github adalah remeh. Tiada bahasa pertanyaan baharu untuk dipelajari, tiada infrastruktur pengurusan, tiada sandaran. Git diketahui oleh semua orang, jadi penyegerakan dan kerjasama menjadi percuma. Mari kita lihat lebih dekat fungsinya Paus v1.0.

GUI berasaskan git berciri penuh

Paus direka untuk melayari lautan pelayan git jauh. Dia sangat mudah boleh disesuaikan: tentukan beberapa sambungan, salin skrip Github Actions (atau tulis satu untuk platform CI/CD pilihan anda) dan anda akan mempunyai alat penemuan data berasaskan web dalam masa yang singkat. Anda akan dapat mencari, melihat, mendokumentasikan dan berkongsi hamparan anda secara langsung di Github.

Cara mencari data dengan cepat dan mudah dengan Whale
Contoh jadual rintisan yang dijana menggunakan Tindakan Github. Demo kerja penuh lihat di bahagian ini.

Carian CLI sepantas kilat untuk repositori anda

Paus hidup dan bernafas dalam baris arahan, menyediakan carian milisaat yang berkuasa merentas jadual anda. Walaupun dengan berjuta-juta jadual, kami berjaya menjadikan ikan paus berprestasi luar biasa dengan menggunakan beberapa mekanisme caching yang bijak, serta membina semula bahagian belakang di Rust. Anda tidak akan melihat sebarang lag carian [hello, Google DS].

Cara mencari data dengan cepat dan mudah dengan Whale
Demonstrasi ikan paus, cari melalui sejuta meja.

Pengiraan automatik metrik [dalam beta]

Salah satu perkara yang paling saya gemari sebagai saintis data menjalankan pertanyaan yang sama berulang kali hanya untuk menyemak kualiti data yang digunakan. Whale menyokong keupayaan untuk mentakrifkan metrik dalam SQL mudah yang akan dijadualkan untuk dijalankan bersama saluran paip pengikisan metadata anda. Tentukan blok metrik dalam format YAML di dalam jadual rintisan dan Whale akan berjalan secara automatik mengikut jadual dan menjalankan pertanyaan yang bersarang dalam metrik.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Cara mencari data dengan cepat dan mudah dengan Whale
Digabungkan dengan Github, pendekatan ini bermakna ikan paus boleh berfungsi sebagai sumber utama kebenaran yang mudah untuk definisi metrik. Whale juga menyimpan nilai bersama-sama dengan cap masa dalam direktori "~/". paus/metrik" jika anda ingin melakukan beberapa jenis graf atau penyelidikan yang lebih mendalam.

Masa Depan

Selepas bercakap dengan pengguna paus versi pra-keluaran kami, kami menyedari bahawa orang memerlukan fungsi yang lebih luas. Mengapa memilih alat carian jadual? Mengapa bukan alat carian metrik? Kenapa tidak dipantau? Mengapa bukan alat pertanyaan SQL? Walaupun paus v1 pada asalnya bertujuan untuk menjadi alat pendamping CLI yang mudah Dataportal/Amundsen, ia telah berkembang menjadi platform kendiri yang berfungsi sepenuhnya, dan kami berharap ia akan menjadi sebahagian daripada kit alat saintis data.

Jika ada sesuatu yang anda ingin lihat dalam pembangunan, sertai kami Komuniti kendur, buka Isu di Github, atau hubungi terus LinkedIn. Kami sudah mempunyai beberapa ciri hebat - templat Jinja, penanda halaman, penapis carian, makluman Slack, penyepaduan Jupyter, malah papan pemuka CLI untuk metrik - tetapi kami menghargai input anda.

Kesimpulan

Whale dibangunkan dan disokong oleh Dataframe, sebuah syarikat permulaan yang baru-baru ini saya sukai untuk ditubuhkan dengan orang lain. Walaupun paus direka untuk saintis data, Dataframe direka untuk pasukan sains data. Bagi anda yang ingin bekerjasama dengan lebih erat, sila berasa bebas alamat, kami akan menambahkan anda ke senarai menunggu.

Cara mencari data dengan cepat dan mudah dengan Whale
Dan dengan kod promosi HABR, anda boleh mendapat tambahan 10% daripada diskaun yang tertera pada sepanduk.

Lebih banyak kursus

Artikel Pilihan

Sumber: www.habr.com