Cara mencari data dengan cepat dan mudah dengan Whale

Cara mencari data dengan cepat dan mudah dengan Whale
Artikel ini berbicara tentang alat penemuan data paling sederhana dan tercepat, yang pekerjaannya Anda lihat di KDPV. Menariknya, whale dirancang untuk dihosting di server jarak jauh git. Detail di bawah potongan.

Bagaimana Alat Penemuan Data Airbnb Mengubah Hidup Saya

Dalam karir saya, saya merasa senang mengerjakan beberapa masalah yang menyenangkan: Saya belajar matematika aliran sambil mengambil gelar saya di MIT, mengerjakan model inkremental, dan dengan proyek sumber terbuka pylift di Wayfair, dan mengimplementasikan model penargetan beranda baru dan peningkatan CUPED di Airbnb. Tapi semua pekerjaan ini tidak pernah glamor—sebenarnya, saya sering menghabiskan sebagian besar waktu saya untuk mencari, meneliti, dan memvalidasi data. Meskipun ini adalah keadaan konstan yang bekerja, tidak terpikir oleh saya bahwa ini adalah masalah sampai saya tiba di Airbnb di mana masalah ini diselesaikan dengan alat penemuan data − portal data.

Di mana saya dapat menemukan {{data}}? portal data.
Apa arti kolom ini? portal data.
Bagaimana kabar {{metric}} hari ini? portal data.
Apa itu rasa hidup? DI DALAM portal data, mungkin.

Oke, Anda telah menyajikan gambarnya. Menemukan data dan memahami artinya, cara membuatnya, dan cara menggunakannya, semuanya hanya membutuhkan beberapa menit, bukan berjam-jam. Saya dapat menghabiskan waktu untuk menggambar kesimpulan sederhana, atau algoritme baru, (… atau menjawab pertanyaan acak tentang data) daripada menggali melalui catatan, menulis kueri SQL berulang, dan menyebutkan rekan kerja di Slack untuk mencoba dan membuat ulang konteks. .

Apa masalahnya?

Saya menyadari bahwa sebagian besar teman saya tidak memiliki akses ke alat tersebut. Beberapa perusahaan bersedia mencurahkan sumber daya yang besar untuk membangun dan memelihara alat platform seperti Dataportal. Dan meskipun ada beberapa solusi open source, mereka cenderung dirancang untuk diskalakan, membuatnya sulit untuk disiapkan dan dipelihara tanpa teknisi DevOps khusus. Jadi saya memutuskan untuk membuat sesuatu yang baru.

Paus: Alat penemuan data yang sangat sederhana

Cara mencari data dengan cepat dan mudah dengan Whale

Dan ya, dengan sangat sederhana yang saya maksud adalah sangat sederhana. Paus hanya memiliki dua komponen:

  1. Pustaka Python yang mengumpulkan metadata dan memformatnya dalam MarkDown.
  2. Antarmuka baris perintah Rust untuk mencari melalui data ini.

Dari segi infrastruktur internal untuk pemeliharaan, hanya ada banyak file teks dan program yang memperbarui teks. Itu saja, jadi hosting di server git seperti Github itu sepele. Tidak ada bahasa kueri baru untuk dipelajari, tidak ada infrastruktur manajemen, tidak ada cadangan. Semua orang tahu Git, jadi sinkronisasi dan kolaborasi itu gratis. Mari kita lihat lebih dekat fungsinya Paus v1.0.

GUI berbasis git berfitur lengkap

Paus dirancang untuk berenang di lautan server git jarak jauh. Dia sangat mudah dapat dikonfigurasi: tentukan beberapa koneksi, salin skrip Tindakan Github (atau tulis satu untuk platform CI/CD pilihan Anda) dan Anda akan segera memiliki alat web penemuan data. Anda akan dapat mencari, melihat, mendokumentasikan, dan membagikan spreadsheet Anda langsung di Github.

Cara mencari data dengan cepat dan mudah dengan Whale
Contoh tabel rintisan yang dihasilkan menggunakan Github Actions. Demo kerja penuh lihat di bagian ini.

Pencarian CLI secepat kilat untuk repositori Anda

Whale hidup dan bernapas di baris perintah, menyediakan pencarian milidetik yang andal di seluruh tabel Anda. Bahkan dengan jutaan tabel, kami berhasil membuat kinerja paus luar biasa dengan menggunakan beberapa mekanisme caching yang cerdas dan juga dengan membangun kembali backend di Rust. Anda tidak akan melihat adanya penundaan pencarian [hello Google DS].

Cara mencari data dengan cepat dan mudah dengan Whale
Demo paus, pencarian jutaan tabel.

Penghitungan otomatis metrik [dalam versi beta]

Salah satu hal yang paling tidak saya sukai sebagai ilmuwan data adalah menjalankan kueri yang sama berulang kali hanya untuk memeriksa kualitas data yang digunakan. Whale mendukung kemampuan untuk menentukan metrik dalam SQL biasa yang akan dijadwalkan untuk berjalan bersama dengan pipeline pembersihan metadata Anda. Tetapkan blok metrik YAML di dalam tabel rintisan, dan Whale akan secara otomatis berjalan sesuai jadwal dan menjalankan kueri yang bersarang di metrik.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Cara mencari data dengan cepat dan mudah dengan Whale
Dikombinasikan dengan Github, pendekatan ini berarti whale dapat berfungsi sebagai sumber kebenaran utama yang mudah untuk definisi metrik. Whale bahkan menyimpan nilai bersama dengan stempel waktu di folder "~/.bashrc". whale/metrics" jika Anda ingin melakukan pembuatan bagan atau penelitian yang lebih mendalam.

Masa depan

Setelah berbicara dengan pengguna Whale versi pra-rilis kami, kami menyadari bahwa orang membutuhkan lebih banyak fungsi. Mengapa alat pencarian tabel? Mengapa bukan alat pencarian metrik? Mengapa tidak memantau? Mengapa bukan alat eksekusi kueri SQL? Sedangkan Whale v1 pada awalnya dianggap sebagai alat pendamping CLI sederhana Dataportal/Amundsen, ini telah berkembang menjadi platform mandiri berfitur lengkap, dan kami berharap ini akan menjadi bagian integral dari perangkat Data Scientist.

Jika ada sesuatu yang ingin Anda lihat dalam proses pengembangan, bergabunglah dengan kami kepada komunitas Slack, buka Masalah di Githubatau bahkan menghubungi langsung LinkedIn. Kami sudah memiliki sejumlah fitur keren - template Jinja, bookmark, filter pencarian, peringatan Slack, integrasi Jupyter, bahkan dasbor CLI untuk metrik - tetapi kami akan menyukai masukan Anda.

Kesimpulan

Whale dikembangkan dan dikelola oleh Dataframe, sebuah startup yang baru-baru ini saya senangi sebagai pendiri bersama dengan orang lain. Sementara paus dibuat untuk ilmuwan data, Dataframe dibuat untuk ilmuwan data. Bagi Anda yang ingin berkolaborasi lebih erat, jangan ragu alamatkami akan menambahkan Anda ke daftar tunggu.

Cara mencari data dengan cepat dan mudah dengan Whale
Dan dengan kode promo HABR, Anda bisa mendapatkan tambahan 10% dari diskon yang tertera di banner.

Lebih banyak kursus

Artikel Pilihan

Sumber: www.habr.com