Whale ашиглан өгөгдлийг хэрхэн хурдан бөгөөд хялбар хайх вэ

Whale ашиглан өгөгдлийг хэрхэн хурдан бөгөөд хялбар хайх вэ
Энэ нийтлэл нь KDPV дээр харж буй хамгийн энгийн бөгөөд хурдан өгөгдөл илрүүлэх хэрэгслийн талаар өгүүлдэг. Сонирхолтой нь, халим нь алслагдсан git сервер дээр байрлуулахаар бүтээгдсэн. Зүсэлтийн доор дэлгэрэнгүй мэдээлэл.

Airbnb-ийн өгөгдөл илрүүлэх хэрэгсэл миний амьдралыг хэрхэн өөрчилсөн бэ?

Ажил мэргэжлийнхээ хувьд би хөгжилтэй бодлого дээр ажиллах хангалттай азтай байсан: Би MIT-д зэрэг хамгаалж байхдаа урсгалын математикийн чиглэлээр суралцаж, нэмэлт загварууд дээр ажиллаж, нээлттэй эхийн төсөл дээр ажилласан. пилифт Wayfair дээр, мөн Airbnb дээр нүүр хуудасны шинэ зорилтот загварууд болон CUPED сайжруулалтыг хэрэгжүүлсэн. Гэхдээ энэ бүх ажил хэзээ ч дур булаам байгаагүй - үнэндээ би ихэнх цагаа өгөгдөл хайх, судлах, баталгаажуулахад зарцуулдаг. Хэдийгээр энэ нь ажил дээрээ байнга тохиолддог байсан ч Airbnb-д очих хүртлээ энэ асуудал байсан гэж бодож байгаагүй бөгөөд үүнийг мэдээлэл олж илрүүлэх хэрэгслээр шийдвэрлэсэн - мэдээллийн портал.

Би {{дата}}-г хаанаас олох вэ? мэдээллийн портал.
Энэ багана юу гэсэн үг вэ? мэдээллийн портал.
Өнөөдөр {{metric}} ямар байна вэ? мэдээллийн портал.
Амьдралын мэдрэмж гэж юу вэ? IN мэдээллийн портал, магадгүй.

За, та зургаа танилцууллаа. Өгөгдлийг хайж олох, энэ нь юу гэсэн үг, хэрхэн бүтээгдсэн, хэрхэн ашиглах талаар ойлгоход хэдэн цаг биш, хэдхэн минут зарцуулдаг. Би тэмдэглэл ухах, дахин давтагдах SQL асуулга бичих, Slack дээр хамтран ажиллагсдынхаа тухай дурдахын оронд энгийн дүгнэлт, шинэ алгоритм (... эсвэл өгөгдлийн талаарх санамсаргүй асуултад хариулахад) цагаа зарцуулж чадна. байсан.

Юу болов?

Миний найзуудын ихэнх нь ийм хэрэгсэл ашиглах боломжгүй гэдгийг би ойлгосон. Dataportal гэх мэт платформ хэрэгслийг бий болгох, хадгалахад асар их нөөцийг зарцуулах хүсэлтэй компаниуд цөөхөн байдаг. Нээлттэй эхийн цөөн хэдэн шийдлүүд байдаг ч тэдгээр нь цар хүрээтэй байхаар бүтээгдсэн байдаг тул тусгайлан зориулсан DevOps инженергүйгээр тохируулах, засвар үйлчилгээ хийхэд хэцүү болгодог. Тиймээс би шинэ зүйл бүтээхээр шийдсэн.

Халим: Тэнэг энгийн өгөгдөл илрүүлэх хэрэгсэл

Whale ашиглан өгөгдлийг хэрхэн хурдан бөгөөд хялбар хайх вэ

Тийм ээ, тэнэг энгийн гэж би тэнэг энгийн гэж хэлж байна. Халим нь зөвхөн хоёр бүрэлдэхүүн хэсэгтэй:

  1. Мета өгөгдлийг цуглуулж, MarkDown дээр форматладаг Python номын сан.
  2. Rust командын мөрийн интерфэйс нь энэ өгөгдлийг хайхад зориулагдсан.

Засвар үйлчилгээ хийх дотоод дэд бүтцийн үүднээс авч үзвэл маш олон текст файлууд, текстийг шинэчлэх програмууд л байдаг. Ингээд л Github шиг git сервер дээр байршуулах нь маш энгийн зүйл юм. Сурах шинэ хайлтын хэл, удирдлагын дэд бүтэц, нөөцлөлт байхгүй. Хүн бүр Git-ийг мэддэг тул синк хийх, хамтран ажиллах нь үнэ төлбөргүй байдаг. Функцийг нарийвчлан авч үзье Халим v1.0.

Бүрэн боломжит git дээр суурилсан GUI

Whale нь алслагдсан git серверийн далайд сэлэх зориулалттай. Тэр маш амархан тохируулах боломжтой: зарим холболтыг тодорхойлж, Github Actions скриптийг хуулж (эсвэл сонгосон CI/CD платформдоо зориулж нэгийг нь бичээрэй) танд өгөгдөл илрүүлэх вэб хэрэгсэлтэй болно. Та Github дээр шууд хүснэгтээ хайх, үзэх, баримтжуулах, хуваалцах боломжтой болно.

Whale ашиглан өгөгдлийг хэрхэн хурдан бөгөөд хялбар хайх вэ
Github үйлдлийг ашиглан үүсгэсэн бүдүүвч хүснэгтийн жишээ. Бүрэн ажиллаж байгаа демо энэ хэсгээс үзнэ үү.

Таны агуулахыг маш хурдан CLI хайлт

Халим командын мөрөнд амьдарч, амьсгалж, таны хүснэгтийг миллисекундэд хүчирхэг хайлтаар хангадаг. Сая сая ширээтэй байсан ч бид хэд хэдэн ухаалаг кэш хийх механизмыг ашиглан халимыг гайхалтай гүйцэтгэлтэй болгож, мөн Rust-ийн арын хэсгийг сэргээж чадсан. Хайлтын саатал та анзаарагдахгүй [Сайн уу Google DS].

Whale ашиглан өгөгдлийг хэрхэн хурдан бөгөөд хялбар хайх вэ
Халимны үзүүлбэр, сая хүснэгт хайх.

Хэмжилтийн автомат тооцоо [бета хувилбарт]

Дата судлаачийн хувьд миний хамгийн дургүй зүйлсийн нэг бол ашигласан өгөгдлийн чанарыг шалгахын тулд ижил асуултуудыг дахин дахин ажиллуулах явдал юм. Whale нь энгийн SQL-д хэмжигдэхүүнийг тодорхойлох чадварыг дэмждэг бөгөөд энэ нь таны мета өгөгдлийг цэвэрлэх шугамтай хамт ажиллахаар төлөвлөгддөг. YAML хэмжүүрийн блокыг stub хүснэгтэд тодорхойлсноор Whale автоматаар хуваарийн дагуу ажиллаж, хэмжигдэхүүн дотор байрлуулсан асуулга ажиллуулна.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Whale ашиглан өгөгдлийг хэрхэн хурдан бөгөөд хялбар хайх вэ
Github-тэй хослуулсан нь халим нь хэмжигдэхүүнийг тодорхойлох үнэний төв эх сурвалж болж чадна гэсэн үг юм. Халим "~/"-д цагийн тэмдэгтийн хамт утгуудыг хадгалдаг. халим/ хэмжүүр "хэрэв та график эсвэл илүү гүнзгий судалгаа хийхийг хүсвэл.

Ирээдүй

Халимыг гаргахаас өмнөх хувилбаруудын хэрэглэгчидтэй ярилцсаны дараа бид хүмүүст илүү их функц хэрэгтэй байгааг ойлгосон. Яагаад хүснэгт хайх хэрэгсэл гэж? Яагаад хэмжүүр хайх хэрэгсэл болохгүй гэж? Яагаад хяналт тавьж болохгүй гэж? Яагаад SQL асуулга гүйцэтгэх хэрэгсэл болохгүй гэж? Whale v1 нь анх энгийн CLI хамтрагч хэрэгсэл болгон бүтээгдсэн Dataportal/Amundsen, энэ нь аль хэдийн бүрэн боломжтой бие даасан платформ болон өөрчлөгдсөн бөгөөд энэ нь Data Scientist-ийн хэрэгслийн салшгүй хэсэг болно гэж найдаж байна.

Хэрэв та хөгжлийн явцад харахыг хүсч байгаа зүйл байвал манайд нэгдээрэй Slack нийгэмлэгт, Асуудлыг нээнэ үү Githubэсвэл бүр шууд холбоо барина уу LinkedIn. Jinja загварууд, хавчуурга, хайлтын шүүлтүүр, Slack дохио, Бархасбадь гаригийн интеграцчилал, хэмжүүрт зориулсан CLI хяналтын самбар ч гэсэн бидэнд аль хэдийнээ хэд хэдэн гайхалтай боломжууд байгаа ч бид таны оруулсан зүйлд баяртай байх болно.

дүгнэлт

Whale-ийг Dataframe компани хөгжүүлж, засвар үйлчилгээ хийдэг бөгөөд би саяхан бусад хүмүүстэй хамтран үүсгэн байгуулсандаа баяртай байсан. Халимыг өгөгдөл судлаачдад зориулан бүтээдэг бол Dataframe-ийг мэдээлэл судлаачдад зориулан бүтээдэг. Илүү нягт хамтран ажиллахыг хүсч буй хүмүүс чөлөөтэй оролцоорой хаягБид таныг хүлээлгийн жагсаалтад оруулах болно.

Whale ашиглан өгөгдлийг хэрхэн хурдан бөгөөд хялбар хайх вэ
Мөн сурталчилгааны кодоор ХАБР, та баннер дээр заасан хөнгөлөлтийн 10% -ийг нэмж авах боломжтой.

Илүү олон курс

Онцлох нийтлэлүүд

Эх сурвалж: www.habr.com