Как да търсите данни бързо и лесно с Whale

Как да търсите данни бързо и лесно с Whale
Тази статия говори за най-простия и бърз инструмент за откриване на данни, чиято работа виждате на KDPV. Интересното е, че whale е проектиран да бъде хостван на отдалечен git сървър. Детайли под кройката.

Как инструментът за откриване на данни на Airbnb промени живота ми

В кариерата си имах удоволствието да работя върху някои забавни проблеми: учих математика на потока, докато получавах диплома в MIT, работих върху инкрементални модели и с проект с отворен код pylift в Wayfair и внедри нови модели за насочване към началната страница и подобрения на CUPED в Airbnb. Но цялата тази работа никога не е била бляскава - всъщност често прекарвах по-голямата част от времето си в търсене, проучване и валидиране на данни. Въпреки че това беше постоянно състояние на работа, не ми хрумна, че това е проблем, докато не стигнах до Airbnb, където беше решен с инструмент за откриване на данни − портал за данни.

Къде мога да намеря {{data}}? портал за данни.
Какво означава тази колона? портал за данни.
Как се справя {{metric}} днес? портал за данни.
Какво е усещане за живот? IN портал за данни, вероятно.

Добре, представихте снимката. Намирането на данни и разбирането какво означават, как са създадени и как да ги използвате отнема само няколко минути, а не часове. Бих могъл да прекарвам времето си в правене на прости изводи или нови алгоритми (...или отговаряне на произволни въпроси относно данните), вместо да ровя в бележки, да пиша повтарящи се SQL заявки и да споменавам колеги в Slack, за да се опитам да пресъздам контекст. който някой друг вече е имал .

Какъв е проблема?

Разбрах, че повечето ми приятели нямат достъп до такъв инструмент. Малко компании искат да отделят огромни ресурси за създаване и поддържане на платформен инструмент като Dataportal. И въпреки че има няколко налични решения с отворен код, те обикновено са проектирани да се мащабират, което прави настройката и поддръжката трудни без специализиран DevOps инженер. Затова реших да създам нещо ново.

Whale: Глупаво прост инструмент за откриване на данни

Как да търсите данни бързо и лесно с Whale

И да, под глупаво просто имам предвид глупаво просто. Китът има само два компонента:

  1. Библиотека на Python, която събира метаданни и ги форматира в MarkDown.
  2. Интерфейс на командния ред на Rust за търсене в тези данни.

От гледна точка на вътрешната инфраструктура за поддръжка има само много текстови файлове и програма, която актуализира текста. Това е всичко, така че хостването на git сървър като Github е тривиално. Няма нов език за заявки за изучаване, няма инфраструктура за управление, няма резервни копия. Git е познат на всички, така че синхронизирането и сътрудничеството са безплатни. Нека разгледаме по-отблизо функционалността Кит v1.0.

Пълнофункционален базиран на git GUI

Whale е проектиран да плува в океана на отдалечен git сървър. Той много лесно конфигурируеми: дефинирайте някои връзки, копирайте скрипта Github Actions (или напишете такъв за избраната от вас CI/CD платформа) и веднага ще имате уеб инструмент за откриване на данни. Ще можете да търсите, преглеждате, документирате и споделяте вашите електронни таблици директно в Github.

Как да търсите данни бързо и лесно с Whale
Пример за таблица с мъничета, генерирана с помощта на Github Actions. Пълна работеща демонстрация вижте в този раздел.

Светкавично бързо CLI търсене на вашето хранилище

Whale живее и диша на командния ред, осигурявайки мощни милисекунди търсения на вашите маси. Дори с милиони таблици успяхме да направим whale невероятно производителен, като използвахме някои интелигентни механизми за кеширане, а също и чрез възстановяване на бекенда в Rust. Няма да забележите забавяне на търсенето [здравей Google DS].

Как да търсите данни бързо и лесно с Whale
Демо Whale, търсене на милиони таблици.

Автоматично изчисляване на показателите [в бета версия]

Едно от най-малко любимите ми неща като учен по данни е да изпълнявам едни и същи заявки отново и отново, само за да проверя качеството на използваните данни. Whale поддържа възможността за дефиниране на показатели в обикновен SQL, които ще бъдат планирани да работят заедно с вашите тръбопроводи за почистване на метаданни. Дефинирайте блок с показатели на YAML вътре в таблицата за мънича и Whale автоматично ще работи по график и ще изпълнява заявки, вложени в показатели.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Как да търсите данни бързо и лесно с Whale
Комбиниран с Github, този подход означава, че whale може да служи като лесен централен източник на истина за метричните дефиниции. Whale дори запазва стойностите заедно с клеймото за време в "~/. whale/metrics", ако искате да направите диаграми или по-задълбочено проучване.

Бъдещето

След като разговаряхме с потребителите на нашите предварителни версии на whale, осъзнахме, че хората се нуждаят от повече функционалност. Защо инструмент за търсене в таблица? Защо не инструмент за търсене на показатели? Защо не мониторинг? Защо не инструмент за изпълнение на SQL заявки? Докато whale v1 първоначално беше замислен като прост CLI придружаващ инструмент Dataportal/Amundsen, той вече се превърна в пълнофункционална самостоятелна платформа и се надяваме, че ще стане неразделна част от инструментариума на Data Scientist.

Ако има нещо, което искате да видите в процеса на разработка, присъединете се към нас към общността на Slack, отворете Проблеми на Githubили дори да се свържете директно LinkedIn. Вече имаме редица страхотни функции – шаблони на Jinja, отметки, филтри за търсене, сигнали за Slack, интеграция на Jupyter, дори CLI табло за показатели – но ще се радваме на вашия принос.

Заключение

Whale е разработен и поддържан от Dataframe, стартираща компания, която наскоро имах удоволствието да съучредя с други хора. Докато whale е направен за учени по данни, Dataframe е създаден за учени по данни. За тези от вас, които искат да си сътрудничат по-тясно, не се колебайте адресще ви добавим в списъка на чакащите.

Как да търсите данни бързо и лесно с Whale
И с промо код ХАБР, можете да получите допълнителни 10% към отстъпката, посочена на банера.

Още курсове

Препоръчани статии

Източник: www.habr.com