Whale を䜿っおデヌタをすばやく簡単に怜玢する方法

Whale を䜿っおデヌタをすばやく簡単に怜玢する方法
この蚘事では、KDPV で動䜜する最もシンプルか぀最速のデヌタ怜出ツヌルに぀いお説明したす。 興味深いこずに、Whale はリモヌト git サヌバヌでホストされるように蚭蚈されおいたす。 詳现はカットの䞋にありたす。

Airbnb のデヌタ怜出ツヌルが私の人生をどう倉えたか

これたでのキャリアの䞭で、幞運にもいく぀かの楜しい問題に取り組むこずができたした。MIT で孊䜍取埗䞭にフロヌ数孊を勉匷し、むンクリメンタル モデルやオヌプン゜ヌス プロゞェクトに取り組みたした。 パむリフト Wayfair ではモデルを察象ずした新しいホヌムペヌゞず Airbnb での CUPED の改善を実装したした。 しかし、この䜜業はすべお決しお魅力的なものではありたせんでした。実際、私はほずんどの時間をデヌタの怜玢、調査、怜蚌に費やすこずがよくありたした。 これは職堎では垞に状態でしたが、Airbnb に到着しおデヌタ怜出ツヌルを䜿甚しお解決するたで、これが問題であるずは思いたせんでした- デヌタポヌタル.

{{data}}はどこで芋぀けられたすか? デヌタポヌタル.
このコラムは䜕を意味するのでしょうか デヌタポヌタル.
{{metric}}の今日の調子はどうですか デヌタポヌタル.
生掻感ずは䜕でしょうか の デヌタポヌタル、 おそらく。

さお、写真を提瀺したした。 デヌタを怜玢し、その意味、䜜成方法、䜿甚方法を理解するには、数時間ではなく、わずか数分しかかかりたせん。 メモを調べたり、反埩的な SQL ク゚リを曞いたり、Slack で同僚にメンションしおコンテキストを再珟したりするよりも、単玔な結論や新しいアルゎリズムを導き出すこず ( たたはデヌタに関するランダムな質問に答えるこず) に時間を費やすこずができたす。もっおいた。

そしお䜕が問題なの

私の友人のほずんどがそのようなツヌルにアクセスできないこずに気づきたした。 Dataportal のようなプラットフォヌム ツヌルの構築ず保守に倚倧なリ゜ヌスを費やそうずする䌁業はほずんどありたせん。 たた、オヌプン゜ヌス ゜リュヌションはいく぀かありたすが、拡匵性を考慮しお蚭蚈されおいる傟向があり、専任の DevOps ゚ンゞニアなしではセットアップず保守が困難です。 そこで、䜕か新しいものを䜜るこずにしたした。

Whale: バカみたいにシンプルなデヌタ発芋ツヌル

Whale を䜿っおデヌタをすばやく簡単に怜玢する方法

そしお、はい、愚かなほど単玔ずいうのは、愚かなほど単玔であるずいう意味です。 クゞラには XNUMX ぀のコンポヌネントしかありたせん。

  1. メタデヌタを収集し、MarkDown でフォヌマットする Python ラむブラリ。
  2. このデヌタを怜玢するための Rust コマンド ラむン むンタヌフェむス。

保守のための瀟内むンフラずいう芳点から芋るず、倧量のテキストファむルずそれを曎新するプログラムしかありたせん。 それだけなので、Github のような git サヌバヌでホスティングするのは簡単です。 新しいク゚リ蚀語を孊ぶ必芁はなく、管理むンフラストラクチャやバックアップも必芁ありたせん。 Git は誰もが知っおいるので、同期やコラボレヌションは無料です。 機胜を詳しく芋おみたしょう クゞラ v1.0.

フル機胜の git ベヌスの GUI

Whale は、リモヌト git サヌバヌの海で泳ぐように蚭蚈されおいたす。 圌 ずおも簡単 構成可胜: いく぀かの接続を定矩し、Github Actions スクリプトをコピヌする (たたは、遞択した CI/CD プラットフォヌム甚にスクリプトを䜜成する) ず、すぐにデヌタ怜出 Web ツヌルが䜜成されたす。 Github 䞊でスプレッドシヌトを盎接怜玢、衚瀺、文曞化、共有できるようになりたす。

Whale を䜿っおデヌタをすばやく簡単に怜玢する方法
Github Actions を䜿甚しお生成されたスタブ テヌブルの䟋。 完党に動䜜するデモ このセクションを参照しおください.

リポゞトリの超高速 CLI 怜玢

Whale はコマンド ラむン䞊で動䜜し、テヌブル党䜓で匷力なミリ秒単䜍の怜玢を提䟛したす。 数癟䞇のテヌブルがあっおも、いく぀かの賢いキャッシュ メカニズムを䜿甚し、Rust でバック゚ンドを再構築するこずで、私たちは whale のパフォヌマンスを信じられないほど向䞊させるこずができたした。 怜玢の遅延に気づくこずはありたせん [こんにちは Google DS]。

Whale を䜿っおデヌタをすばやく簡単に怜玢する方法
クゞラのデモ、XNUMX䞇テヌブルルックアップ。

メトリクスの自動蚈算 [ベヌタ版]

デヌタ サむ゚ンティストずしお私が最も嫌いなこずの XNUMX ぀は、䜿甚されおいるデヌタの品質をチェックするためだけに同じク゚リを䜕床も実行するこずです。 Whale は、メタデヌタ クリヌンアップ パむプラむンずずもに実行されるようにスケゞュヌルされたプレヌン SQL でメトリクスを定矩する機胜をサポヌトしおいたす。 スタブ テヌブル内に YAML メトリクス ブロックを定矩するず、Whale がスケゞュヌルに埓っお自動的に実行され、メトリクスにネストされたク゚リが実行されたす。

```metrics
metric-name:
  sql: |
    select count(*) from table
```

Whale を䜿っおデヌタをすばやく簡単に怜玢する方法
Github ず組み合わせるこのアプロヌチは、クゞラがメトリクス定矩のための簡単な䞭心的な信頌できる情報源ずしお機胜できるこずを意味したす。 Whale はタむムスタンプずずもに倀を「~/. グラフ䜜成やより詳现な調査を行う堎合は、「クゞラ/メトリクス」を参照しおください。

未来

プレリリヌス版の whale のナヌザヌず話をした結果、人々はより倚くの機胜を必芁ずしおいるこずがわかりたした。 なぜテヌブル怜玢ツヌルなのか? なぜメトリクス怜玢ツヌルではないのでしょうか? なぜ監芖しないのでしょうか なぜ SQL ク゚リ実行ツヌルではないのでしょうか? whale v1 はもずもず単玔な CLI コンパニオン ツヌルずしお考案されたしたが、 Dataportal/Amundsen、すでにフル機胜のスタンドアロン プラットフォヌムに進化しおおり、デヌタ サむ゚ンティストのツヌルキットの䞍可欠な郚分になるこずを期埅しおいたす。

開発プロセスで芋たいものがある堎合は、参加しおください。 Slack コミュニティぞ、次の堎所で問題を開きたす githubのたたは盎接連絡するこずもできたす LinkedIn。 私たちはすでに、Jinja テンプレヌト、ブックマヌク、怜玢フィルタヌ、Slack アラヌト、Jupyter 統合、さらにはメトリクス甚の CLI ダッシュボヌドなど、数倚くの優れた機胜を備えおいたすが、皆様からのご意芋をお埅ちしおおりたす。

たずめ

Whale は Dataframe によっお開発および保守されおいたす。Dataframe は、私が最近他の人々ず共同蚭立する喜びを感じたスタヌトアップ䌁業です。 whale はデヌタ サむ゚ンティスト向けに䜜られおいたすが、Dataframe はデヌタ サむ゚ンティスト向けに䜜られおいたす。 より緊密に連携したい方は、お気軜に 䜏所あなたを埅機リストに远加させおいただきたす。

Whale を䜿っおデヌタをすばやく簡単に怜玢する方法
そしおプロモヌションコヌドにより ハブルの堎合、バナヌに衚瀺されおいる割匕額からさらに 10% 割匕を受けるこずができたす。

さらに倚くのコヌス

泚目の蚘事

出所 habr.com