本文讨论最简单、最快的数据发现工具,您可以在 KDPV 上看到该工具的工作。 有趣的是,whale 被设计为托管在远程 git 服务器上。 细节下切。
Airbnb 的数据发现工具如何改变了我的生活
在我的职业生涯中,我很高兴能够解决一些有趣的问题:我在麻省理工学院攻读学位时学习了流数学,研究了增量模型,并参与了一个开源项目
我在哪里可以找到{{data}}? 数据门户.
这一栏是什么意思? 数据门户.
{{metric}} 今天怎么样? 数据门户.
什么是生活感? 在 数据门户, 大概。
好的,你已经展示了图片。 查找数据并了解其含义、数据的创建方式以及如何使用数据,只需几分钟,而不是几个小时。 我可以花时间得出简单的结论或新的算法(……或回答有关数据的随机问题),而不是深入笔记、编写重复的 SQL 查询以及在 Slack 上提及同事来尝试重新创建上下文。其他人已经有了。
有什么问题吗?
我意识到我的大多数朋友都无法使用这样的工具。 很少有公司愿意投入大量资源来构建和维护像 Dataportal 这样的平台工具。 虽然有一些开源解决方案,但它们往往被设计为可扩展的,因此如果没有专门的 DevOps 工程师就很难设置和维护。 所以我决定创造一些新的东西。
Whale:一个极其简单的数据发现工具
是的,我所说的“愚蠢的简单”是指“愚蠢的简单”。 鲸鱼只有两个组成部分:
- 一个 Python 库,用于收集元数据并以 MarkDown 格式对其进行格式化。
- 用于搜索这些数据的 Rust 命令行界面。
从维护的内部基础设施来看,只有大量的文本文件和更新文本的程序。 就是这样,所以托管在像 Github 这样的 git 服务器上是微不足道的。 无需学习新的查询语言,无需管理基础设施,无需备份。 每个人都知道 Git,因此同步和协作是免费的。 让我们仔细看看功能
基于 git 的全功能 GUI
Whale 被设计为在远程 git 服务器的海洋中游泳。 他
使用 Github Actions 生成的存根表的示例。 完整的工作演示
闪电般快速的 CLI 搜索您的存储库
Whale 在命令行上生存和呼吸,在您的表中提供强大的毫秒级查找。 即使有数百万张表,我们也通过使用一些巧妙的缓存机制以及在 Rust 中重建后端,设法使鲸鱼具有令人难以置信的性能。 您不会注意到任何搜索延迟 [hello Google DS]。
鲸鱼演示,百万查表。
自动计算指标[测试版]
作为一名数据科学家,我最不喜欢的事情之一就是一遍又一遍地运行相同的查询,只是为了检查所使用的数据的质量。 Whale 支持在纯 SQL 中定义指标的能力,这些指标将被安排与元数据清理管道一起运行。 在存根表中定义一个 YAML 指标块,Whale 将自动按计划运行并运行嵌套在指标中的查询。
```metrics
metric-name:
sql: |
select count(*) from table
```
与 Github 相结合,这种方法意味着鲸鱼可以作为指标定义的一个简单的中心事实来源。 Whale 甚至将这些值与时间戳一起保存在“~/. 鲸鱼/指标”如果您想做一些图表或更深入的研究。
未来
在与我们的鲸鱼预发布版本的用户交谈后,我们意识到人们需要更多的功能。 为什么要使用查表工具? 为什么不使用指标搜索工具呢? 为什么不监控? 为什么不使用 SQL 查询执行工具呢? 虽然鲸鱼 v1 最初被设想为一个简单的 CLI 配套工具 Dataportal/Amundsen
,它已经发展成为一个功能齐全的独立平台,我们希望它能够成为数据科学家工具包中不可或缺的一部分。
如果您想在开发过程中看到一些东西,请加入我们
结论
Whale 由 Dataframe 开发和维护,Dataframe 是一家初创公司,我最近有幸与其他人共同创立了该公司。 Whale 是为数据科学家设计的,而 Dataframe 则是为数据科学家设计的。 对于那些想要更密切合作的人,请随时
并通过促销代码 哈勃,您可以获得横幅上所示折扣的额外 10%。
更多课程
数据分析课程 开发运营课程 职业网络开发人员 从零开始的职业 iOS 开发者 从零开始的职业 Android 开发者 从零开始的职业 Java 开发人员 JavaScript课程 机器学习课程 “数据科学的数学和机器学习”课程 进阶课程《机器学习Pro+深度学习》
推荐文章
如何在没有在线课程的情况下成为数据科学家 450 个免费的常春藤盟校课程 如何连续 5 个月每周 9 天学习机器学习 数据分析师的收入是多少:2020 年俄罗斯和国外的薪资和职位空缺概览 采矿业中的机器学习和计算机视觉
来源: habr.com