Whale yordamida ma'lumotlarni qanday tez va oson qidirish mumkin

Whale yordamida ma'lumotlarni qanday tez va oson qidirish mumkin
Ushbu maqolada KDPV da ko'rgan eng oddiy va tezkor ma'lumotlarni topish vositasi haqida so'z boradi. Qizig'i shundaki, kit uzoq git serverida joylashtirish uchun mo'ljallangan. Kesish ostidagi tafsilotlar.

Airbnb ma'lumotlarini aniqlash vositasi hayotimni qanday o'zgartirdi

Faoliyatimda ba'zi qiziqarli muammolar ustida ishlashdan zavqlandim: MITda o'z darajamni o'qiyotganda oqim matematikasini o'rgandim, qo'shimcha modellar ustida ishladim va ochiq manba loyihasi bilan ishladim. pilift Wayfair-da va Airbnb-da yangi bosh sahifani maqsadli modellar va CUPED takomillashtirishlarini joriy qildi. Ammo bu ishlarning barchasi hech qachon jozibali bo'lmagan - aslida men ko'p vaqtimni ma'lumotlarni qidirish, tadqiq qilish va tasdiqlashga sarflaganman. Garchi bu ishda doimiy holat bo'lsa-da, men Airbnb-ga borgunimcha bu muammo ekanligi xayolimga ham kelmagan edi. ma'lumotlar portali.

{{data}} ni qayerdan topsam bo'ladi? ma'lumotlar portali.
Bu ustun nimani anglatadi? ma'lumotlar portali.
{{metrik}} bugungi kundagi ahvoli qanday? ma'lumotlar portali.
Hayot tuyg'usi nima? IN ma'lumotlar portali, ehtimol.

OK, siz rasmni taqdim etdingiz. Ma'lumotlarni topish va uning nimani anglatishini, qanday yaratilganligini va ulardan qanday foydalanishni tushunish soatlar emas, bir necha daqiqa vaqt oladi. Men vaqtimni oddiy xulosalar yoki yangi algoritmlar (... yoki ma'lumotlar bo'yicha tasodifiy savollarga javob berish) bilan o'tkazishim mumkin edi, o'rniga eslatmalarni qazish, takroriy SQL so'rovlarini yozish va Slack'dagi hamkasblarimni eslatib o'tish o'rniga boshqa birovda mavjud bo'lgan kontekstni sinab ko'rishim mumkin edi. .

Muammo nimada?

Ko'pchilik do'stlarim bunday vositadan foydalanish imkoniyatiga ega emasligini angladim. Bir nechta kompaniyalar Dataportal kabi platforma vositasini yaratish va saqlash uchun katta resurslarni sarflashga tayyor. Va bir nechta ochiq manbali echimlar mavjud bo'lsa-da, ular miqyosda ishlab chiqilgan bo'lib, maxsus DevOps muhandisisiz sozlash va texnik xizmat ko'rsatishni qiyinlashtiradi. Shuning uchun men yangi narsa yaratishga qaror qildim.

Whale: ahmoqona oddiy ma'lumotlarni topish vositasi

Whale yordamida ma'lumotlarni qanday tez va oson qidirish mumkin

Ha, ahmoqona sodda deganda men ahmoqona soddalikni nazarda tutyapman. Kitda faqat ikkita komponent mavjud:

  1. Metadata to'playdigan va uni MarkDown'da formatlaydigan Python kutubxonasi.
  2. Ushbu ma'lumotlar orqali qidirish uchun Rust buyruq qatori interfeysi.

Xizmat ko'rsatish uchun ichki infratuzilma nuqtai nazaridan, faqat ko'plab matnli fayllar va matnni yangilaydigan dastur mavjud. Hammasi shunday, shuning uchun Github kabi git serverida hosting ahamiyatsiz. O'rganish uchun yangi so'rovlar tili, boshqaruv infratuzilmasi, zaxira nusxalari yo'q. Git-ni hamma biladi, shuning uchun sinxronlash va hamkorlik bepul. Keling, funksionallikni batafsil ko'rib chiqaylik Kit v1.0.

To'liq xususiyatli git-ga asoslangan GUI

Whale uzoq git server okeanida suzish uchun mo'ljallangan. U juda oson sozlanishi: ba'zi ulanishlarni aniqlang, Github Actions skriptini nusxalang (yoki tanlagan CI/CD platformangiz uchun bittasini yozing) va siz darhol ma'lumotlarni kashf qilish veb-vositasiga ega bo'lasiz. Elektron jadvallaringizni to'g'ridan-to'g'ri Github'da qidirish, ko'rish, hujjatlashtirish va almashish imkoniyatiga ega bo'lasiz.

Whale yordamida ma'lumotlarni qanday tez va oson qidirish mumkin
Github Actions yordamida yaratilgan stub jadvaliga misol. To'liq ishlaydigan demo ushbu bo'limga qarang.

Sizning omboringiz uchun Lightning tezkor CLI qidiruvi

Kit buyruq satrida yashaydi va nafas oladi, bu sizning jadvallaringiz bo'ylab kuchli, millisekundlik qidiruvlarni ta'minlaydi. Millionlab jadvallar mavjud bo'lsa ham, biz ba'zi aqlli keshlash mexanizmlaridan foydalangan holda, shuningdek, Rust-ning orqa qismini qayta qurish orqali kitni ajoyib darajada ishlashga muvaffaq bo'ldik. Qidiruv kechikishini sezmaysiz [hello Google DS].

Whale yordamida ma'lumotlarni qanday tez va oson qidirish mumkin
Kit demosi, million jadvalni qidirish.

Ko'rsatkichlarni avtomatik hisoblash [beta versiyasida]

Ma'lumot olimi sifatida mening eng sevimli narsalarimdan biri bu foydalanilayotgan ma'lumotlar sifatini tekshirish uchun bir xil so'rovlarni qayta-qayta bajarishdir. Whale metadata tozalash quvurlari bilan birga ishlashi rejalashtirilgan oddiy SQL ko'rsatkichlarini aniqlash qobiliyatini qo'llab-quvvatlaydi. YAML ko'rsatkichlari blokini stub jadvalida belgilang va Whale avtomatik ravishda jadval bo'yicha ishlaydi va ko'rsatkichlarga joylashtirilgan so'rovlarni bajaradi.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Whale yordamida ma'lumotlarni qanday tez va oson qidirish mumkin
Github bilan birgalikda bu yondashuv kit metrik ta'riflar uchun haqiqatning oson markaziy manbai bo'lib xizmat qilishi mumkinligini anglatadi. Whale hatto qiymatlarni vaqt tamg'asi bilan birga "~/" da saqlaydi. kit/metrikalar" diagrammasi yoki chuqurroq tadqiqot qilishni istasangiz.

Kelajak

Kitning chiqarilishidan oldingi versiyalarimiz foydalanuvchilari bilan suhbatlashganimizdan so'ng, biz odamlarga ko'proq funksionallik kerakligini angladik. Nima uchun jadvalni qidirish vositasi? Nega ko'rsatkichlarni qidirish vositasi emas? Nega kuzatilmaydi? Nima uchun SQL so'rovlarini bajarish vositasi emas? Whale v1 dastlab oddiy CLI yordamchi vositasi sifatida yaratilgan Dataportal/Amundsen, u allaqachon to'liq xususiyatli mustaqil platformaga aylangan va umid qilamizki, u Data Scientist asboblar to'plamining ajralmas qismiga aylanadi.

Rivojlanish jarayonida biror narsani ko'rmoqchi bo'lsangiz, bizning safimizga qo'shiling Slack hamjamiyatiga, Masalalarni oching Githubyoki hatto to'g'ridan-to'g'ri bog'laning LinkedIn. Bizda allaqachon bir qator ajoyib funksiyalar mavjud – Jinja shablonlari, xatchoβ€˜plar, qidiruv filtrlari, Slack ogohlantirishlari, Jupyter integratsiyasi, hatto koβ€˜rsatkichlar uchun CLI boshqaruv paneli – lekin biz sizning fikringizni bildirishingizni xohlaymiz.

xulosa

Whale kompaniyasi Dataframe tomonidan ishlab chiqilgan va qo'llab-quvvatlangan, men yaqinda boshqa odamlar bilan hamkorlikda tashkil etishdan mamnunman. Kit ma'lumotlar olimlari uchun yaratilgan bo'lsa, Dataframe ma'lumotlar olimlari uchun yaratilgan. Yana yaqinroq hamkorlik qilishni istaganlar uchun bemalol manzilbiz sizni kutish ro'yxatiga qo'shamiz.

Whale yordamida ma'lumotlarni qanday tez va oson qidirish mumkin
Va promo-kod orqali HABR, siz bannerda ko'rsatilgan chegirmaga qo'shimcha 10% olishingiz mumkin.

Ko'proq kurslar

Tavsiya etilgan maqolalar

Manba: www.habr.com