Энэ нийтлэл нь KDPV дээр харж буй хамгийн энгийн бөгөөд хурдан өгөгдөл илрүүлэх хэрэгслийн талаар өгүүлдэг. Сонирхолтой нь, халим нь алслагдсан git сервер дээр байрлуулахаар бүтээгдсэн. Зүсэлтийн доор дэлгэрэнгүй мэдээлэл.
Airbnb-ийн өгөгдөл илрүүлэх хэрэгсэл миний амьдралыг хэрхэн өөрчилсөн бэ?
Ажил мэргэжлийнхээ хувьд би хөгжилтэй бодлого дээр ажиллах хангалттай азтай байсан: Би MIT-д зэрэг хамгаалж байхдаа урсгалын математикийн чиглэлээр суралцаж, нэмэлт загварууд дээр ажиллаж, нээлттэй эхийн төсөл дээр ажилласан.
Би {{дата}}-г хаанаас олох вэ? мэдээллийн портал.
Энэ багана юу гэсэн үг вэ? мэдээллийн портал.
Өнөөдөр {{metric}} ямар байна вэ? мэдээллийн портал.
Амьдралын мэдрэмж гэж юу вэ? IN мэдээллийн портал, магадгүй.
За, та зургаа танилцууллаа. Өгөгдлийг хайж олох, энэ нь юу гэсэн үг, хэрхэн бүтээгдсэн, хэрхэн ашиглах талаар ойлгоход хэдэн цаг биш, хэдхэн минут зарцуулдаг. Би тэмдэглэл ухах, дахин давтагдах SQL асуулга бичих, Slack дээр хамтран ажиллагсдынхаа тухай дурдахын оронд энгийн дүгнэлт, шинэ алгоритм (... эсвэл өгөгдлийн талаарх санамсаргүй асуултад хариулахад) цагаа зарцуулж чадна. байсан.
Юу болов?
Миний найзуудын ихэнх нь ийм хэрэгсэл ашиглах боломжгүй гэдгийг би ойлгосон. Dataportal гэх мэт платформ хэрэгслийг бий болгох, хадгалахад асар их нөөцийг зарцуулах хүсэлтэй компаниуд цөөхөн байдаг. Нээлттэй эхийн цөөн хэдэн шийдлүүд байдаг ч тэдгээр нь цар хүрээтэй байхаар бүтээгдсэн байдаг тул тусгайлан зориулсан DevOps инженергүйгээр тохируулах, засвар үйлчилгээ хийхэд хэцүү болгодог. Тиймээс би шинэ зүйл бүтээхээр шийдсэн.
Халим: Тэнэг энгийн өгөгдөл илрүүлэх хэрэгсэл
Тийм ээ, тэнэг энгийн гэж би тэнэг энгийн гэж хэлж байна. Халим нь зөвхөн хоёр бүрэлдэхүүн хэсэгтэй:
- Мета өгөгдлийг цуглуулж, MarkDown дээр форматладаг Python номын сан.
- Rust командын мөрийн интерфэйс нь энэ өгөгдлийг хайхад зориулагдсан.
Засвар үйлчилгээ хийх дотоод дэд бүтцийн үүднээс авч үзвэл маш олон текст файлууд, текстийг шинэчлэх програмууд л байдаг. Ингээд л Github шиг git сервер дээр байршуулах нь маш энгийн зүйл юм. Сурах шинэ хайлтын хэл, удирдлагын дэд бүтэц, нөөцлөлт байхгүй. Хүн бүр Git-ийг мэддэг тул синк хийх, хамтран ажиллах нь үнэ төлбөргүй байдаг. Функцийг нарийвчлан авч үзье
Бүрэн боломжит git дээр суурилсан GUI
Whale нь алслагдсан git серверийн далайд сэлэх зориулалттай. Тэр
Github үйлдлийг ашиглан үүсгэсэн бүдүүвч хүснэгтийн жишээ. Бүрэн ажиллаж байгаа демо
Таны агуулахыг маш хурдан CLI хайлт
Халим командын мөрөнд амьдарч, амьсгалж, таны хүснэгтийг миллисекундэд хүчирхэг хайлтаар хангадаг. Сая сая ширээтэй байсан ч бид хэд хэдэн ухаалаг кэш хийх механизмыг ашиглан халимыг гайхалтай гүйцэтгэлтэй болгож, мөн Rust-ийн арын хэсгийг сэргээж чадсан. Хайлтын саатал та анзаарагдахгүй [Сайн уу Google DS].
Халимны үзүүлбэр, сая хүснэгт хайх.
Хэмжилтийн автомат тооцоо [бета хувилбарт]
Дата судлаачийн хувьд миний хамгийн дургүй зүйлсийн нэг бол ашигласан өгөгдлийн чанарыг шалгахын тулд ижил асуултуудыг дахин дахин ажиллуулах явдал юм. Whale нь энгийн SQL-д хэмжигдэхүүнийг тодорхойлох чадварыг дэмждэг бөгөөд энэ нь таны мета өгөгдлийг цэвэрлэх шугамтай хамт ажиллахаар төлөвлөгддөг. YAML хэмжүүрийн блокыг stub хүснэгтэд тодорхойлсноор Whale автоматаар хуваарийн дагуу ажиллаж, хэмжигдэхүүн дотор байрлуулсан асуулга ажиллуулна.
```metrics
metric-name:
sql: |
select count(*) from table
```
Github-тэй хослуулсан нь халим нь хэмжигдэхүүнийг тодорхойлох үнэний төв эх сурвалж болж чадна гэсэн үг юм. Халим "~/"-д цагийн тэмдэгтийн хамт утгуудыг хадгалдаг. халим/ хэмжүүр "хэрэв та график эсвэл илүү гүнзгий судалгаа хийхийг хүсвэл.
Ирээдүй
Халимыг гаргахаас өмнөх хувилбаруудын хэрэглэгчидтэй ярилцсаны дараа бид хүмүүст илүү их функц хэрэгтэй байгааг ойлгосон. Яагаад хүснэгт хайх хэрэгсэл гэж? Яагаад хэмжүүр хайх хэрэгсэл болохгүй гэж? Яагаад хяналт тавьж болохгүй гэж? Яагаад SQL асуулга гүйцэтгэх хэрэгсэл болохгүй гэж? Whale v1 нь анх энгийн CLI хамтрагч хэрэгсэл болгон бүтээгдсэн Dataportal/Amundsen
, энэ нь аль хэдийн бүрэн боломжтой бие даасан платформ болон өөрчлөгдсөн бөгөөд энэ нь Data Scientist-ийн хэрэгслийн салшгүй хэсэг болно гэж найдаж байна.
Хэрэв та хөгжлийн явцад харахыг хүсч байгаа зүйл байвал манайд нэгдээрэй
дүгнэлт
Whale-ийг Dataframe компани хөгжүүлж, засвар үйлчилгээ хийдэг бөгөөд би саяхан бусад хүмүүстэй хамтран үүсгэн байгуулсандаа баяртай байсан. Халимыг өгөгдөл судлаачдад зориулан бүтээдэг бол Dataframe-ийг мэдээлэл судлаачдад зориулан бүтээдэг. Илүү нягт хамтран ажиллахыг хүсч буй хүмүүс чөлөөтэй оролцоорой
Мөн сурталчилгааны кодоор ХАБР, та баннер дээр заасан хөнгөлөлтийн 10% -ийг нэмж авах боломжтой.
Мэдээллийн шинжлэх ухааны онлайн сургалт Мэдээллийн шинжээчийн мэргэжлийг эхнээс нь сургах Data Analytics Online Bootcamp Мэдээллийн шинжлэх ухааны мэргэжлийг эхнээс нь заах Вэб хөгжүүлэлтийн курст зориулсан Python
Илүү олон курс
Өгөгдлийн аналитик курс DevOps курс Мэргэжил вэб хөгжүүлэгч Эхнээс нь iOS хөгжүүлэгч мэргэжил Мэргэжил нь эхнээс нь Android хөгжүүлэгч Эхнээс нь Java хөгжүүлэгч мэргэжил JavaScript курс Машины сургалтын курс "Өгөгдлийн шинжлэх ухаанд зориулсан математик ба машин сургалт" курс "Machine Learning Pro + Deep Learning" ахисан түвшний сургалт
Онцлох нийтлэлүүд
Хэрхэн онлайн курсгүйгээр өгөгдөл судлаач болох вэ Айви лигийн 450 үнэгүй курс 5 сар дараалан долоо хоногт 9 өдөр Машины сургалтыг хэрхэн судлах вэ Мэдээллийн шинжээч хэр их орлого олдог вэ: 2020 онд Орос болон гадаад дахь цалин, сул ажлын байрны тойм. Уул уурхайн салбар дахь машин сургалт ба компьютерийн хараа
Эх сурвалж: www.habr.com