Como pesquisar dados de forma rápida e fácil com o Whale

Como pesquisar dados de forma rápida e fácil com o Whale
Este artigo fala sobre a ferramenta de descoberta de dados mais simples e rápida, cujo trabalho você vê no KDPV. Curiosamente, a baleia foi projetada para ser hospedada em um servidor git remoto. Detalhes sob o corte.

Como a ferramenta de descoberta de dados do Airbnb mudou minha vida

Em minha carreira, tive a sorte de trabalhar em alguns problemas divertidos: estudei matemática de fluxo enquanto me graduava no MIT, trabalhei em modelos incrementais e com um projeto de código aberto pylift na Wayfair, e implementou novos modelos de direcionamento de página inicial e melhorias CUPED no Airbnb. Mas todo esse trabalho nunca foi glamoroso - na verdade, muitas vezes passei a maior parte do tempo pesquisando, pesquisando e validando dados. Embora esse fosse um estado constante no trabalho, não me ocorreu que isso fosse um problema até chegar ao Airbnb, onde foi resolvido com uma ferramenta de descoberta de dados − portal de dados.

Onde posso encontrar {{dados}}? portal de dados.
O que significa esta coluna? portal de dados.
Como está {{metric}} hoje? portal de dados.
O que é um sentido de vida? EM portal de dados, provavelmente.

Ok, você apresentou a imagem. Encontrar dados e entender o que eles significam, como foram criados e como usá-los leva apenas alguns minutos, não horas. Eu poderia gastar meu tempo tirando conclusões simples ou novos algoritmos (… ou respondendo a perguntas aleatórias sobre os dados), em vez de vasculhar notas, escrever consultas SQL repetitivas e mencionar colegas no Slack para tentar recriar o contexto. tive.

E qual é o problema?

Percebi que a maioria dos meus amigos não tinha acesso a essa ferramenta. Poucas empresas estão dispostas a dedicar grandes recursos para construir e manter uma ferramenta de plataforma como o Dataportal. E, embora existam algumas soluções de código aberto, elas tendem a ser projetadas para dimensionar, dificultando a configuração e a manutenção sem um engenheiro de DevOps dedicado. Então resolvi criar algo novo.

Whale: uma ferramenta de descoberta de dados estupidamente simples

Como pesquisar dados de forma rápida e fácil com o Whale

E sim, estupidamente simples, quero dizer estupidamente simples. A baleia tem apenas dois componentes:

  1. Uma biblioteca Python que coleta metadados e os formata no MarkDown.
  2. Interface de linha de comando Rust para pesquisar esses dados.

Do ponto de vista da infraestrutura interna para manutenção, são apenas muitos arquivos de texto e um programa que atualiza o texto. É isso, então hospedar em um servidor git como o Github é trivial. Nenhuma nova linguagem de consulta para aprender, nenhuma infraestrutura de gerenciamento, nenhum backup. Todo mundo conhece o Git, então a sincronização e a colaboração são gratuitas. Vamos dar uma olhada mais de perto na funcionalidade Baleia v1.0.

GUI baseada em git cheia de recursos

O Whale foi projetado para nadar no oceano de um servidor git remoto. Ele muito facil configurável: defina algumas conexões, copie o script Github Actions (ou escreva um para a plataforma de CI/CD escolhida) e você terá uma ferramenta da Web de descoberta de dados imediatamente. Você poderá pesquisar, visualizar, documentar e compartilhar suas planilhas diretamente no Github.

Como pesquisar dados de forma rápida e fácil com o Whale
Um exemplo de uma tabela de stub gerada usando o Github Actions. Demonstração completa de trabalho veja nesta seção.

Pesquisa CLI extremamente rápida para o seu repositório

O Whale vive e respira na linha de comando, fornecendo pesquisas poderosas de milissegundos em suas tabelas. Mesmo com milhões de tabelas, conseguimos tornar o Whale incrivelmente eficiente usando alguns mecanismos de cache inteligentes e também reconstruindo o back-end em Rust. Você não notará nenhum atraso na pesquisa [olá Google DS].

Como pesquisar dados de forma rápida e fácil com o Whale
Demonstração de baleia, pesquisa de tabela de milhões.

Cálculo automático de métricas [em beta]

Uma das coisas que menos gosto como cientista de dados é executar as mesmas consultas repetidamente apenas para verificar a qualidade dos dados que estão sendo usados. O Whale oferece suporte à capacidade de definir métricas em SQL simples que serão agendadas para serem executadas junto com seus pipelines de limpeza de metadados. Defina um bloco de métricas YAML dentro da tabela de stub e o Whale será executado automaticamente em uma programação e executará consultas aninhadas em métricas.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Como pesquisar dados de forma rápida e fácil com o Whale
Combinada com o Github, essa abordagem significa que a baleia pode servir como uma fonte central fácil de verdade para definições de métricas. O Whale ainda salva os valores junto com o carimbo de data/hora no arquivo "~/. baleia/métrica" ​​se você quiser fazer algum gráfico ou uma pesquisa mais aprofundada.

O futuro

Depois de conversar com os usuários de nossas versões de pré-lançamento do Whale, percebemos que as pessoas precisavam de mais funcionalidades. Por que uma ferramenta de pesquisa de tabela? Por que não uma ferramenta de busca de métricas? Por que não monitorar? Por que não uma ferramenta de execução de consultas SQL? Embora a baleia v1 tenha sido originalmente concebida como uma ferramenta complementar CLI simples Dataportal/Amundsen, ele já evoluiu para uma plataforma autônoma com todos os recursos e esperamos que se torne parte integrante do kit de ferramentas do Cientista de Dados.

Se há algo que você deseja ver no processo de desenvolvimento, junte-se ao nosso para a comunidade Slack, abra Problemas em Githubou mesmo entre em contato diretamente LinkedIn. Já temos vários recursos interessantes - modelos Jinja, favoritos, filtros de pesquisa, alertas Slack, integração Jupyter e até mesmo um painel CLI para métricas - mas adoraríamos sua opinião.

Conclusão

O Whale é desenvolvido e mantido pela Dataframe, uma startup que recentemente tive o prazer de fundar com outras pessoas. Enquanto a baleia é feita para cientistas de dados, o Dataframe é feito para cientistas de dados. Para aqueles de vocês que desejam colaborar mais de perto, sintam-se à vontade para lidariremos adicioná-lo à lista de espera.

Como pesquisar dados de forma rápida e fácil com o Whale
E por código promocional HORNBEAM, você pode obter 10% adicionais ao desconto indicado no banner.

Mais cursos

artigos em destaque

Fonte: habr.com