Como buscar datos de forma rápida e sinxela con Whale

Como buscar datos de forma rápida e sinxela con Whale
Este artigo fala da ferramenta de descubrimento de datos máis sinxela e rápida, cuxo traballo ves en KDPV. Curiosamente, whale está deseñado para ser aloxado nun servidor git remoto. Detalles baixo o corte.

Como a ferramenta de descubrimento de datos de Airbnb cambiou a miña vida

Na miña carreira, tiven a sorte de traballar nalgúns problemas divertidos: estudei matemáticas de fluxo mentres cursaba a carreira no MIT, traballei en modelos incrementais e cun proxecto de código aberto. pylift en Wayfair e implementou novos modelos de orientación na páxina de inicio e melloras de CUPED en Airbnb. Pero todo este traballo nunca foi glamuroso; de feito, moitas veces pasaba a maior parte do tempo buscando, investigando e validando datos. Aínda que este era un estado constante no traballo, non se me ocorreu que se tratase dun problema ata que cheguei a Airbnb onde se resolveu cunha ferramenta de descubrimento de datos − portal de datos.

Onde podo atopar {{datos}}? portal de datos.
Que significa esta columna? portal de datos.
Como está a {{metric}} hoxe? portal de datos.
Que é o sentido da vida? EN portal de datos, probablemente.

Está ben, presentaches a imaxe. Encontrar datos e comprender o que significan, como se creou e como utilizalos todo leva só uns minutos, non horas. Podería pasar o meu tempo extraendo conclusións sinxelas ou algoritmos novos (... ou respondendo preguntas aleatorias sobre os datos), en lugar de buscar notas, escribir consultas SQL repetitivas e mencionar colegas en Slack para tentar recrear o contexto. tiña.

Cal é o problema?

Decateime de que a maioría dos meus amigos non tiñan acceso a tal ferramenta. Poucas empresas están dispostas a dedicar enormes recursos á construción e mantemento dunha ferramenta de plataforma como Dataportal. E aínda que hai algunhas solucións de código aberto, adoitan estar deseñadas para escalar, o que dificulta a súa configuración e mantemento sen un enxeñeiro de DevOps dedicado. Entón decidín crear algo novo.

Balea: unha ferramenta de descubrimento de datos estúpidamente sinxela

Como buscar datos de forma rápida e sinxela con Whale

E si, por estúpidamente sinxelo quero dicir estúpidamente sinxelo. A balea só ten dous compoñentes:

  1. Unha biblioteca de Python que recolle metadatos e os formatea en MarkDown.
  2. Interface de liña de comandos de Rust para buscar a través destes datos.

Desde o punto de vista da infraestrutura interna para o mantemento, só hai unha gran cantidade de ficheiros de texto e un programa que actualiza o texto. Iso é todo, polo que o hospedaxe nun servidor git como Github é trivial. Sen linguaxe de consulta nova para aprender, sen infraestrutura de xestión, sen copias de seguridade. Todo o mundo coñece Git, polo que a sincronización e a colaboración son gratuítas. Vexamos máis de cerca a funcionalidade Balea v1.0.

GUI baseada en git con todas as funcións

Whale está deseñada para nadar no océano dun servidor git remoto. El moi doado configurable: define algunhas conexións, copia o script de Github Actions (ou escribe un para a plataforma CI/CD que escolliches) e terás unha ferramenta web de descubrimento de datos de inmediato. Poderás buscar, ver, documentar e compartir as túas follas de cálculo directamente en Github.

Como buscar datos de forma rápida e sinxela con Whale
Un exemplo dunha táboa stub xerada usando Github Actions. Demostración completa de traballo ver nesta sección.

Busca rápida CLI para o teu repositorio

Whale vive e respira na liña de comandos, proporcionando potentes buscas de milisegundos nas túas táboas. Incluso con millóns de táboas, conseguimos que whale teña un rendemento incrible usando algúns intelixentes mecanismos de almacenamento en caché e tamén reconstruíndo o backend en Rust. Non notarás ningún atraso na busca [hola Google DS].

Como buscar datos de forma rápida e sinxela con Whale
Demostración de Whale, busca de táboas de millóns.

Cálculo automático de métricas [en versión beta]

Unha das cousas que menos me gustan como científico de datos é realizar as mesmas consultas unha e outra vez só para comprobar a calidade dos datos que se utilizan. Whale admite a capacidade de definir métricas en SQL simple que se programarán para executarse xunto coas túas canalizacións de limpeza de metadatos. Define un bloque de métricas YAML dentro da táboa de códigos e Whale executarase automaticamente segundo unha programación e executará consultas aniñadas nas métricas.

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Como buscar datos de forma rápida e sinxela con Whale
Combinado con Github, este enfoque significa que a balea pode servir como unha fonte central sinxela de verdade para as definicións métricas. Whale mesmo garda os valores xunto coa marca de tempo no "~/. whale/metrics" se queres facer uns gráficos ou unha investigación máis en profundidade.

Futuro

Despois de falar cos usuarios das nosas versións previas ao lanzamento de whale, decatámonos de que a xente necesitaba máis funcionalidades. Por que unha ferramenta de busca de táboas? Por que non é unha ferramenta de busca de métricas? Por que non vixiar? Por que non é unha ferramenta de execución de consultas SQL? Mentres que whale v1 foi concibida orixinalmente como unha sinxela ferramenta complementaria da CLI Dataportal/Amundsen, xa se converteu nunha plataforma autónoma con todas as funcións, e esperamos que se converta nunha parte integrante do conxunto de ferramentas do Data Scientist.

Se hai algo que queres ver no proceso de desenvolvemento, únete ao noso á comunidade Slack, abre Asuntos en Githubou mesmo contactar directamente LinkedIn. Xa temos unha serie de funcións interesantes: modelos de Jinja, marcadores, filtros de busca, alertas de Slack, integración de Jupyter e incluso un panel de control CLI para métricas, pero encantaríanos a túa entrada.

Conclusión

Whale é desenvolvido e mantido por Dataframe, unha startup que recentemente tiven o pracer de cofundar con outras persoas. Mentres que whale está feito para científicos de datos, Dataframe está feito para científicos de datos. Para aqueles de vós que queirades colaborar máis estreitamente, non dubidedes en facelo enderezoengadirémoste á lista de espera.

Como buscar datos de forma rápida e sinxela con Whale
E por código promocional HABR, podes obter un 10% adicional ao desconto indicado no banner.

Máis cursos

Artigos destacados

Fonte: www.habr.com