這篇文章講的是最簡單和最快的數據發現工具,你在 KDPV 上看到它的工作。 有趣的是,whale 被設計為託管在遠程 git 服務器上。 下切細節。
Airbnb 的數據發現工具如何改變我的生活
在我的職業生涯中,我很幸運能夠解決一些有趣的問題:我在麻省理工學院攻讀學位時學習了流數學,研究了增量模型,並參與了一個開源項目
我在哪裡可以找到{{數據}}? 數據門戶.
這個專欄是什麼意思? 數據門戶.
{{metric}} 今天怎麼樣? 數據門戶.
什麼是人生感悟? 在 數據門戶, 大概。
好的,你已經展示了圖片。 查找數據並理解它的含義、創建方式以及使用方式只需幾分鐘,而不是幾個小時。 我可以花時間得出簡單的結論或新算法(......或回答有關數據的隨機問題),而不是挖掘筆記,編寫重複的 SQL 查詢,並提及 Slack 上的同事以嘗試重新創建上下文。其他人已經有。
有什麼問題?
我意識到我的大多數朋友都無法使用這樣的工具。 很少有公司願意投入大量資源來構建和維護像 Dataportal 這樣的平台工具。 雖然有一些開源解決方案,但它們往往是為擴展而設計的,因此如果沒有專門的 DevOps 工程師就很難設置和維護。 所以我決定創造一些新的東西。
Whale:一個非常簡單的數據發現工具
是的,我所說的愚蠢簡單是指愚蠢簡單。 鯨魚只有兩個組成部分:
- 一個收集元數據並在 MarkDown 中對其進行格式化的 Python 庫。
- 用於搜索此數據的 Rust 命令行界面。
從維護的內部基礎設施的角度來看,只有很多文本文件和一個更新文本的程序。 就是這樣,所以在像 Github 這樣的 git 服務器上託管是微不足道的。 無需學習新的查詢語言,無需管理基礎設施,無需備份。 每個人都知道 Git,因此同步和協作是免費的。 讓我們仔細看看功能
全功能基於 git 的 GUI
Whale 旨在在遠程 git 服務器的海洋中游泳。 他
使用 Github Actions 生成的存根表示例。 完整的工作演示
閃電般快速的 CLI 搜索您的存儲庫
Whale 在命令行中生存和呼吸,提供跨表的強大的毫秒查找。 即使有數百萬張表,我們也通過使用一些聰明的緩存機制並通過在 Rust 中重建後端,設法使 whale 具有令人難以置信的性能。 您不會注意到任何搜索延遲 [hello Google DS]。
鯨魚演示,萬表查表。
自動計算指標 [測試版]
作為一名數據科學家,我最不喜歡的事情之一就是一遍又一遍地運行相同的查詢,只是為了檢查所使用數據的質量。 Whale 支持在普通 SQL 中定義指標的能力,這些指標將被安排與元數據清理管道一起運行。 在存根表中定義一個 YAML 指標塊,Whale 將自動按計劃運行並運行嵌套在指標中的查詢。
```metrics
metric-name:
sql: |
select count(*) from table
```
與 Github 相結合,這種方法意味著 whale 可以作為度量標准定義的一個簡單的中心事實來源。 Whale 甚至將值連同時間戳一起保存在“~/. whale/metrics”,如果你想做一些圖表或更深入的研究。
未來
在與 whale 預發布版本的用戶交談後,我們意識到人們需要更多功能。 為什麼要使用查表工具? 為什麼不使用指標搜索工具? 為什麼不監控? 為什麼不用 SQL 查詢執行工具呢? 雖然 whale v1 最初被設想為一個簡單的 CLI 配套工具 Dataportal/Amundsen
,它已經發展成為一個功能齊全的獨立平台,我們希望它能成為數據科學家工具包中不可或缺的一部分。
如果在開發過程中有什麼想看的,加入我們
結論
Whale 由 Dataframe 開發和維護,這是一家我最近有幸與其他人共同創立的初創公司。 whale 是為數據科學家製作的,而 Dataframe 是為數據科學家製作的。 對於那些想要更緊密合作的人,請隨時
並通過促銷代碼 哈伯, 您可以獲得橫幅上所示折扣的額外 10%。
更多課程
數據分析課程 開發運營課程 職業網絡開發人員 從零開始的職業 iOS 開發者 從零開始的職業 Android 開發者 從零開始的職業 Java 開發人員 JavaScript課程 機器學習課程 “數據科學的數學和機器學習”課程 進階課程《機器學習Pro+深度學習》
推薦文章
如何在沒有在線課程的情況下成為數據科學家 450 個免費的常春藤盟校課程 如何連續 5 個月每週 9 天學習機器學習 數據分析師的收入是多少:2020 年俄羅斯和國外的薪資和職位空缺概覽 採礦業中的機器學習和計算機視覺
來源: www.habr.com