Како брзо и лако претраживати податке помоћу Вхале-а

Како брзо и лако претраживати податке помоћу Вхале-а
Овај чланак говори о најједноставнијем и најбржем алату за откривање података, чији рад видите на КДПВ-у. Занимљиво је да је кит дизајниран да буде хостован на удаљеном гит серверу. Детаљи испод реза.

Како ми је Аирбнб-ова алатка за откривање података променила живот

У својој каријери, имао сам довољно среће да радим на неким забавним проблемима: студирао сам математику протока док сам дипломирао на МИТ-у, радио на инкременталним моделима и са пројектом отвореног кода пилифт у Ваифаир-у и имплементирали нове моделе циљања почетне странице и ЦУПЕД побољшања на Аирбнб-у. Али сав овај посао никада није био гламурозан – у ствари, често сам проводио већину свог времена тражећи, истражујући и потврђујући податке. Иако је ово било стално стање на послу, није ми пало на памет да је то проблем све док нисам стигао до Аирбнб-а где је решен помоћу алата за откривање података – датапортал.

Где могу да пронађем {{дата}}? датапортал.
Шта значи ова колона? датапортал.
Како је {{метриц}} данас? датапортал.
Шта је смисао за живот? ИН датапортал, вероватно.

У реду, представили сте слику. Проналажење података и разумевање шта то значи, како је настало и како се све то користи траје само неколико минута, а не сати. Могао бих да проведем своје време изводећи једноставне закључке или нове алгоритме (...или одговарајући на насумична питања о подацима), уместо да копам по белешкама, пишем понављајуће СКЛ упите и помињем колеге на Слацк-у да покушам да поново креирам контекст. да неко други већ имао.

У чему је проблем?

Схватио сам да већина мојих пријатеља није имала приступ таквом алату. Мало компанија је спремно да посвети огромне ресурсе изградњи и одржавању платформског алата као што је Датапортал. И док постоји неколико решења отвореног кода, они су обично дизајнирани да буду скалирани, што отежава постављање и одржавање без посвећеног ДевОпс инжењера. Зато сам одлучио да створим нешто ново.

Кит: глупо једноставан алат за откривање података

Како брзо и лако претраживати податке помоћу Вхале-а

И да, под глупо једноставно мислим на глупо једноставно. Кит има само две компоненте:

  1. Питхон библиотека која прикупља метаподатке и форматира их у МаркДовн-у.
  2. Руст интерфејс командне линије за претрагу ових података.

Са становишта унутрашње инфраструктуре за одржавање, постоји само много текстуалних датотека и програм који ажурира текст. То је то, тако да је хостовање на гит серверу као што је Гитхуб тривијално. Нема новог језика за упите за учење, нема инфраструктуре за управљање, нема резервних копија. Сви знају Гит, тако да су синхронизација и сарадња бесплатни. Хајде да детаљније погледамо функционалност Вхале в1.0.

Комплетан ГУИ заснован на ГУИ

Вхале је дизајниран да плива у океану удаљеног гит сервера. Он врло лако конфигурабилно: дефинишите неке везе, копирајте скрипту Гитхуб Ацтионс (или је напишите за одабрану ЦИ/ЦД платформу) и одмах ћете имати веб алат за откривање података. Моћи ћете да претражујете, прегледате, документујете и делите своје табеле директно на Гитхуб-у.

Како брзо и лако претраживати податке помоћу Вхале-а
Пример табеле стубова генерисане коришћењем Гитхуб Ацтионс. Комплетан радни демо види у овом одељку.

Муњевито брза ЦЛИ претрага вашег спремишта

Вхале живи и дише на командној линији, пружајући моћне претраге у милисекунди по вашим табелама. Чак и са милионима табела, успели смо да учинимо кита невероватно ефикасним коришћењем неких паметних механизама за кеширање и тако што смо поново изградили позадину у Русту. Нећете приметити кашњење претраге [здраво Гоогле ДС].

Како брзо и лако претраживати податке помоћу Вхале-а
Вхале демо, милион табела претраживања.

Аутоматско израчунавање метрике [у бета]

Једна од мојих најмање омиљених ствари као научника података је покретање истих упита изнова и изнова само да бих проверио квалитет података који се користе. Вхале подржава могућност дефинисања метрика у обичном СКЛ-у који ће бити заказани за покретање заједно са вашим цевоводима за чишћење метаподатака. Дефинишите ИАМЛ метрички блок унутар табеле стубова, а Вхале ће се аутоматски покренути према распореду и покренути упите угнежђене у метрику.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Како брзо и лако претраживати податке помоћу Вхале-а
У комбинацији са Гитхуб-ом, овај приступ значи да кит може послужити као једноставан централни извор истине за метричке дефиниције. Вхале чак чува вредности заједно са временском ознаком у „~/. кит/метрика" ако желите да направите неке графиконе или дубље истраживање.

Будућност

Након разговора са корисницима наших верзија Вхале-а пре издања, схватили смо да је људима потребно више функционалности. Зашто алат за тражење табеле? Зашто не алат за претрагу метрика? Зашто не пратити? Зашто не алат за извршавање СКЛ упита? Док је вхале в1 првобитно замишљен као једноставан алат за ЦЛИ Dataportal/Amundsen, већ је еволуирао у потпуно функционалну самосталну платформу и надамо се да ће постати саставни део алата Дата Сциентист-а.

Ако постоји нешто што желите да видите у процесу развоја, придружите нам се заједници Слацк, отворите Проблеми на Гитхубили чак директно контактирајте ЛинкедИн. Већ имамо низ сјајних функција – Јиња шаблоне, обележиваче, филтере за претрагу, Слацк упозорења, Јупитер интеграцију, чак и ЦЛИ контролну таблу за метрике – али бисмо волели да нам дате свој допринос.

Закључак

Вхале развија и одржава Датафраме, стартуп који сам недавно имао задовољство да будем суоснивач са другим људима. Док је кит направљен за научнике података, Датафраме је направљен за научнике података. За оне од вас који желе ближу сарадњу, слободно адресадодаћемо вас на листу чекања.

Како брзо и лако претраживати податке помоћу Вхале-а
И по промо коду ХАБР, можете добити додатних 10% на попуст назначен на банеру.

Више курсева

Рекомендуемие статьи

Извор: ввв.хабр.цом