如何使用 Whale 快速輕鬆地搜索數據

如何使用 Whale 快速輕鬆地搜索數據
這篇文章講的是最簡單和最快的數據發現工具,你在 KDPV 上看到它的工作。 有趣的是,whale 被設計為託管在遠程 git 服務器上。 下切細節。

Airbnb 的數據發現工具如何改變我的生活

在我的職業生涯中,我很幸運能夠解決一些有趣的問題:我在麻省理工學院攻讀學位時學習了流數學,研究了增量模型,並參與了一個開源項目 升降機 在 Wayfair,並在 Airbnb 實施了新的主頁定位模型和 CUPED 改進。 但所有這些工作從來都不是光鮮亮麗的——事實上,我經常把大部分時間花在搜索、研究和驗證數據上。 儘管這是工作中的常態,但我並沒有意識到這是一個問題,直到我到達 Airbnb 並使用數據發現工具解決了這個問題 - 數據門戶.

我在哪裡可以找到{{數據}}? 數據門戶.
這個專欄是什麼意思? 數據門戶.
{{metric}} 今天怎麼樣? 數據門戶.
什麼是人生感悟? 在 數據門戶, 大概。

好的,你已經展示了圖片。 查找數據並理解它的含義、創建方式以及使用方式只需幾分鐘,而不是幾個小時。 我可以花時間得出簡單的結論或新算法(......或回答有關數據的隨機問題),而不是挖掘筆記,編寫重複的 SQL 查詢,並提及 ​​Slack 上的同事以嘗試重新創建上下文。其他人已經有。

有什麼問題?

我意識到我的大多數朋友都無法使用這樣的工具。 很少有公司願意投入大量資源來構建和維護像 Dataportal 這樣的平台工具。 雖然有一些開源解決方案,但它們往往是為擴展而設計的,因此如果沒有專門的 DevOps 工程師就很難設置和維護。 所以我決定創造一些新的東西。

Whale:一個非常簡單的數據發現工具

如何使用 Whale 快速輕鬆地搜索數據

是的,我所說的愚蠢簡單是指愚蠢簡單。 鯨魚只有兩個組成部分:

  1. 一個收集元數據並在 MarkDown 中對其進行格式化的 Python 庫。
  2. 用於搜索此數據的 Rust 命令行界面。

從維護的內部基礎設施的角度來看,只有很多文本文件和一個更新文本的程序。 就是這樣,所以在像 Github 這樣的 git 服務器上託管是微不足道的。 無需學習新的查詢語言,無需管理基礎設施,無需備份。 每個人都知道 Git,因此同步和協作是免費的。 讓我們仔細看看功能 鯨魚v1.0.

全功能基於 git 的 GUI

Whale 旨在在遠程 git 服務器的海洋中游泳。 他 好簡單 可配置:定義一些連接,複製 Github Actions 腳本(或為您選擇的 CI/CD 平台編寫一個腳本),您將立即擁有一個數據發現 Web 工具。 您將能夠直接在 Github 上搜索、查看、記錄和共享您的電子表格。

如何使用 Whale 快速輕鬆地搜索數據
使用 Github Actions 生成的存根表示例。 完整的工作演示 見本節.

閃電般快速的 CLI 搜索您的存儲庫

Whale 在命令行中生存和呼吸,提供跨表的強大的毫秒查找。 即使有數百萬張表,我們也通過使用一些聰明的緩存機制並通過在 Rust 中重建後端,設法使 whale 具有令人難以置信的性能。 您不會注意到任何搜索延遲 [hello Google DS]。

如何使用 Whale 快速輕鬆地搜索數據
鯨魚演示,萬表查表。

自動計算指標 [測試版]

作為一名數據科學家,我最不喜歡的事情之一就是一遍又一遍地運行相同的查詢,只是為了檢查所使用數據的質量。 Whale 支持在普通 SQL 中定義指標的能力,這些指標將被安排與元數據清理管道一起運行。 在存根表中定義一個 YAML 指標塊,Whale 將自動按計劃運行並運行嵌套在指標中的查詢。

```metrics
metric-name:
  sql: |
    select count(*) from table
```

如何使用 Whale 快速輕鬆地搜索數據
與 Github 相結合,這種方法意味著 whale 可以作為度量標准定義的一個簡單的中心事實來源。 Whale 甚至將值連同時間戳一起保存在“~/. whale/metrics”,如果你想做一些圖表或更深入的研究。

未來

在與 whale 預發布版本的用戶交談後,我們意識到人們需要更多功能。 為什麼要使用查表工具? 為什麼不使用指標搜索工具? 為什麼不監控? 為什麼不用 SQL 查詢執行工具呢? 雖然 whale v1 最初被設想為一個簡單的 CLI 配套工具 Dataportal/Amundsen,它已經發展成為一個功能齊全的獨立平台,我們希望它能成為數據科學家工具包中不可或缺的一部分。

如果在開發過程中有什麼想看的,加入我們 到 Slack 社區, 打開問題 Github上甚至直接聯繫 LinkedIn. 我們已經擁有許多很酷的功能——Jinja 模板、書籤、搜索過濾器、Slack 警報、Jupyter 集成,甚至是用於指標的 CLI 儀表板——但我們希望您能提供意見。

結論

Whale 由 Dataframe 開發和維護,這是一家我最近有幸與其他人共同創立的初創公司。 whale 是為數據科學家製作的,而 Dataframe 是為數據科學家製作的。 對於那些想要更緊密合作的人,請隨時 地址我們會將您添加到等候名單中。

如何使用 Whale 快速輕鬆地搜索數據
並通過促銷代碼 哈伯, 您可以獲得橫幅上所示折扣的額外 10%。

更多課程

推薦文章

來源: www.habr.com