如何使用Whale快速轻松地搜索数据

如何使用Whale快速轻松地搜索数据
本文讨论最简单、最快的数据发现工具,您可以在 KDPV 上看到该工具的工作。 有趣的是,whale 被设计为托管在远程 git 服务器上。 细节下切。

Airbnb 的数据发现工具如何改变了我的生活

在我的职业生涯中,我很高兴能够解决一些有趣的问题:我在麻省理工学院攻读学位时学习了流数学,研究了增量模型,并参与了一个开源项目 皮利夫 Wayfair,并在 Airbnb 实施了新的主页定位模型和 CUPED 改进。 但所有这些工作从来都不是光鲜亮丽的——事实上,我经常把大部分时间花在搜索、研究和验证数据上。 尽管这是工作中的一种持续状态,但我并没有意识到这是一个问题,直到我到达 Airbnb,并通过数据发现工具解决了这个问题 - 数据门户.

我在哪里可以找到{{data}}? 数据门户.
这一栏是什么意思? 数据门户.
{{metric}} 今天怎么样? 数据门户.
什么是生活感? 在 数据门户, 大概。

好的,你已经展示了图片。 查找数据并了解其含义、数据的创建方式以及如何使用数据,只需几分钟,而不是几个小时。 我可以花时间得出简单的结论或新的算法(……或回答有关数据的随机问题),而不是深入笔记、编写重复的 SQL 查询以及在 Slack 上提及同事来尝试重新创建上下文。其他人已经有了。

有什么问题吗?

我意识到我的大多数朋友都无法使用这样的工具。 很少有公司愿意投入大量资源来构建和维护像 Dataportal 这样的平台工具。 虽然有一些开源解决方案,但它们往往被设计为可扩展的,因此如果没有专门的 DevOps 工程师就很难设置和维护。 所以我决定创造一些新的东西。

Whale:一个极其简单的数据发现工具

如何使用Whale快速轻松地搜索数据

是的,我所说的“愚蠢的简单”是指“愚蠢的简单”。 鲸鱼只有两个组成部分:

  1. 一个 Python 库,用于收集元数据并以 MarkDown 格式对其进行格式化。
  2. 用于搜索这些数据的 Rust 命令行界面。

从维护的内部基础设施来看,只有大量的文本文件和更新文本的程序。 就是这样,所以托管在像 Github 这样的 git 服务器上是微不足道的。 无需学习新的查询语言,无需管理基础设施,无需备份。 每个人都知道 Git,因此同步和协作是免费的。 让我们仔细看看功能 鲸鱼 v1.0.

基于 git 的全功能 GUI

Whale 被设计为在远程 git 服务器的海洋中游泳。 他 很容易 可配置:定义一些连接,复制 Github Actions 脚本(或为您选择的 CI/CD 平台编写一个脚本),您将立即拥有一个数据发现 Web 工具。 您将能够直接在 Github 上搜索、查看、记录和共享您的电子表格。

如何使用Whale快速轻松地搜索数据
使用 Github Actions 生成的存根表的示例。 完整的工作演示 请参阅本节.

闪电般快速的 CLI 搜索您的存储库

Whale 在命令行上生存和呼吸,在您的表中提供强大的毫秒级查找。 即使有数百万张表,我们也通过使用一些巧妙的缓存机制以及在 Rust 中重建后端,设法使鲸鱼具有令人难以置信的性能。 您不会注意到任何搜索延迟 [hello Google DS]。

如何使用Whale快速轻松地搜索数据
鲸鱼演示,百万查表。

自动计算指标[测试版]

作为一名数据科学家,我最不喜欢的事情之一就是一遍又一遍地运行相同的查询,只是为了检查所使用的数据的质量。 Whale 支持在纯 SQL 中定义指标的能力,这些指标将被安排与元数据清理管道一起运行。 在存根表中定义一个 YAML 指标块,Whale 将自动按计划运行并运行嵌套在指标中的查询。

```metrics
metric-name:
  sql: |
    select count(*) from table
```

如何使用Whale快速轻松地搜索数据
与 Github 相结合,这种方法意味着鲸鱼可以作为指标定义的一个简单的中心事实来源。 Whale 甚至将这些值与时间戳一起保存在“~/. 鲸鱼/指标”如果您想做一些图表或更深入的研究。

未来

在与我们的鲸鱼预发布版本的用户交谈后,我们意识到人们需要更多的功能。 为什么要使用查表工具? 为什么不使用指标搜索工具呢? 为什么不监控? 为什么不使用 SQL 查询执行工具呢? 虽然鲸鱼 v1 最初被设想为一个简单的 CLI 配套工具 Dataportal/Amundsen,它已经发展成为一个功能齐全的独立平台,我们希望它能够成为数据科学家工具包中不可或缺的一部分。

如果您想在开发过程中看到一些东西,请加入我们 到 Slack 社区,打开问题 Github上甚至直接联系 LinkedIn。 我们已经拥有许多很酷的功能 - Jinja 模板、书签、搜索过滤器、Slack 警报、Jupyter 集成,甚至用于指标的 CLI 仪表板 - 但我们希望您能提供意见。

结论

Whale 由 Dataframe 开发和维护,Dataframe 是一家初创公司,我最近有幸与其他人共同创立了该公司。 Whale 是为数据科学家设计的,而 Dataframe 则是为数据科学家设计的。 对于那些想要更密切合作的人,请随时 地址我们会将您添加到等候名单中。

如何使用Whale快速轻松地搜索数据
并通过促销代码 哈勃,您可以获得横幅上所示折扣的额外 10%。

更多课程

推荐文章

来源: habr.com