Whale көмегімен деректерді қалай тез және оңай іздеуге болады

Whale көмегімен деректерді қалай тез және оңай іздеуге болады
Бұл мақалада сіз KDPV-де жұмыс істейтін деректерді табудың ең қарапайым және жылдам құралы туралы айтылады. Бір қызығы, кит қашықтағы гит серверінде орналастыруға арналған. Кесу астындағы мәліметтер.

Airbnb деректерін табу құралы менің өмірімді қалай өзгертті

Менің мансабымда көңілді есептер бойынша жұмыс істеу бақытына ие болдым: мен MIT-те білім алу кезінде ағындық математиканы оқыдым, қосымша модельдермен және ашық бастапқы жобамен жұмыс істедім. пилифт Wayfair сайтында және Airbnb сайтында жаңа басты беттің мақсатты үлгілері мен CUPED жақсартуларын енгізді. Бірақ бұл жұмыстың бәрі ешқашан әсем болған емес - шын мәнінде, мен уақытымның көп бөлігін деректерді іздеуге, зерттеуге және тексеруге жұмсадым. Бұл жұмыстағы тұрақты жағдай болса да, мен Airbnb-ге жеткенше, бұл мәселе деректерді табу құралымен шешілгенге дейін ойыма келмеді - деректер порталы.

{{деректер}} қайдан табуға болады? деректер порталы.
Бұл баған нені білдіреді? деректер порталы.
{{метрика}} бүгін қалай? деректер порталы.
Өмірдің мәні неде? IN деректер порталы, мүмкін.

Жарайды, сіз суретті ұсындыңыз. Деректерді табу және оның нені білдіретінін, қалай жасалғанын және оны қалай пайдалану керектігін түсіну сағаттарды емес, бірнеше минутты алады. Мен басқа біреудің контекстін қайта құру үшін жазбаларды зерделеудің, қайталанатын SQL сұрауларын жазудың және Slack-тегі әріптестерімді атап өтудің орнына қарапайым қорытындыларды немесе жаңа алгоритмдерді (... немесе деректер туралы кездейсоқ сұрақтарға жауап беруге) жұмсай аламын. болды.

Мәселе қандай?

Мен достарымның көпшілігінің мұндай құралға қол жеткізе алмайтынын түсіндім. Dataportal сияқты платформа құралын құруға және қолдауға үлкен ресурстарды бөлуге аз компаниялар дайын. Бірнеше ашық бастапқы шешімдер бар болса да, олар әдетте масштабтауға арналған, бұл арнайы DevOps инженерінсіз орнатуды және қызмет көрсетуді қиындатады. Сондықтан мен жаңа нәрсе жасауды шештім.

Whale: Деректерді табудың өте қарапайым құралы

Whale көмегімен деректерді қалай тез және оңай іздеуге болады

Иә, ақымақ қарапайым деп мен ақымақ қарапайымды айтамын. Китте тек екі компонент бар:

  1. Метадеректерді жинайтын және оны MarkDown ішінде пішімдейтін Python кітапханасы.
  2. Осы деректер арқылы іздеуге арналған Rust пәрмен жолы интерфейсі.

Техникалық қызмет көрсетуге арналған ішкі инфрақұрылым тұрғысынан тек көптеген мәтіндік файлдар мен мәтінді жаңартатын бағдарлама бар. Міне, сондықтан Github сияқты git серверінде хостинг тривиальды. Үйренетін жаңа сұрау тілі, басқару инфрақұрылымы, сақтық көшірмелер жоқ. Git-ті барлығы біледі, сондықтан синхрондау және бірлесіп жұмыс істеу тегін. Функционалдылықты толығырақ қарастырайық Whale v1.0.

Толық мүмкіндікті git негізіндегі GUI

Whale қашықтағы гит серверінің мұхитында жүзуге арналған. Ол өте оңай конфигурацияланатын: кейбір қосылымдарды анықтаңыз, Github Actions сценарийін көшіріңіз (немесе таңдаған CI/CD платформасы үшін біреуін жазыңыз) және сізде дереу деректерді табу веб-құралы болады. Электрондық кестелерді тікелей Github қолданбасында іздеу, қарау, құжаттау және ортақ пайдалану мүмкіндігіне ие боласыз.

Whale көмегімен деректерді қалай тез және оңай іздеуге болады
Github әрекеттері арқылы жасалған нақты кестенің мысалы. Толық жұмыс демо осы бөлімде қараңыз.

Репозиторийіңізді жылдам CLI іздеу

Кит пәрмен жолында өмір сүреді және тыныс алады, бұл кестелеріңізде күшті, миллисекундтық іздеулерді қамтамасыз етеді. Миллиондаған кестелер болса да, біз кейбір ақылды кэштеу механизмдерін пайдаланып, сондай-ақ Rust-та бэкендті қалпына келтіру арқылы китті керемет өнімді ете алдық. Сіз іздеудің кешігуін байқамайсыз [hello Google DS].

Whale көмегімен деректерді қалай тез және оңай іздеуге болады
Кит демонстрациясы, миллион кестені іздеу.

Көрсеткіштерді автоматты түрде есептеу [бета нұсқасында]

Деректер ғалымы ретінде менің ең ұнамайтын нәрселерімнің бірі - пайдаланылатын деректердің сапасын тексеру үшін бірдей сұрауларды қайта-қайта орындау. Whale бағдарламасы метадеректерді тазалау құбырларымен бірге іске қосу жоспарланған қарапайым SQL-де метриканы анықтау мүмкіндігін қолдайды. Түпнұсқалық кесте ішінде YAML метрикасының блогын анықтаңыз және Whale автоматты түрде кестеде іске қосылады және метрикада кірістірілген сұрауларды іске қосады.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Whale көмегімен деректерді қалай тез және оңай іздеуге болады
Github-пен біріктірілген бұл тәсіл киттің метрикалық анықтамалар үшін ақиқаттың оңай орталық көзі бола алатынын білдіреді. Whale тіпті мәндерді уақыт белгісімен бірге «~/. кит/метрика» диаграммасын немесе тереңірек зерттеуді орындағыңыз келсе.

Болашақ

Киттің шығарылымға дейінгі нұсқаларын пайдаланушылармен сөйлескеннен кейін біз адамдарға көбірек функционалдылық қажет екенін түсіндік. Неліктен кестені іздеу құралы? Неліктен көрсеткіштерді іздеу құралы емес? Неге бақыланбайды? Неліктен SQL сұрауын орындау құралы емес? Whale v1 бастапқыда қарапайым CLI серіктес құралы ретінде ойластырылған Dataportal/Amundsen, ол қазірдің өзінде толық мүмкіндіктері бар дербес платформаға айналды және ол Data Scientist құралдары жинағының ажырамас бөлігі болады деп үміттенеміз.

Егер сіз әзірлеу процесінде көргіңіз келетін нәрсе болса, бізге қосылыңыз Slack қауымдастығына, Мәселелерді ашыңыз GitHubнемесе тіпті тікелей хабарласыңыз LinkedIn. Бізде қазірдің өзінде бірқатар керемет мүмкіндіктер бар - Jinja үлгілері, бетбелгілер, іздеу сүзгілері, Slack ескертулері, Jupyter интеграциясы, тіпті метрикаға арналған CLI бақылау тақтасы - бірақ біз сіздің енгізуіңізді жақсы көреміз.

қорытынды

Whale-ді Dataframe стартап әзірлеп, жүргізеді, мен жақында басқа адамдармен бірге құрғаным ұнады. Кит деректер ғалымдары үшін жасалған болса, Dataframe деректер ғалымдары үшін жасалған. Тығыз ынтымақтасқысы келетіндер үшін еркін болыңыз мекен -жайыбіз сізді күту тізіміне қосамыз.

Whale көмегімен деректерді қалай тез және оңай іздеуге болады
Және промокод арқылы HABR, баннерде көрсетілген жеңілдікке қосымша 10% ала аласыз.

Қосымша курстар

Таңдаулы мақалалар

Ақпарат көзі: www.habr.com