DATA VAULT 的開發以及向 BUSINESS DATA VAULT 的過渡

在上一篇文章中,我討論了 DATA VAULT 的基礎知識,描述了 DATA VAULT 的主要元素及其用途。 DATA VAULT的話題到此還不能說完,有必要談談DATA VAULT下一步的演變。

在本文中,我將重點放在 DATA VAULT 的開發以及向 BUSINESS DATA VAULT 或簡稱 BUSINESS VAULT 的過渡。

Business DATA VAULT 出現的原因

應該指出的是,DATA VAULT 雖然具有一定的優勢,但並非沒有缺點。 這些缺點之一是編寫分析查詢的困難。 查詢有大量的JOIN,程式碼又長又繁瑣。 此外,進入 DATA VAULT 的資料不會經過任何轉換,因此,從業務角度來看,純粹形式的 DATA VAULT 沒有絕對價值。

為了消除這些缺點,DATA VAULT 方法進行了擴展,並添加了以下元素:

  • PIT(時間點)表;
  • 橋台;
  • 預定義的推導。

讓我們仔細看看這些元素的用途。

坑表

通常,一個業務實體(HUB) 可能包含具有不同更新率的數據,例如,如果我們談論的是表徵一個人的數據,我們可以說有關電話號碼、地址或電子郵件的資訊的更新率高於以下內容:全名、護照詳細資料、婚姻狀況或性別。

因此,在確定衛星時,應注意其更新頻率。 為什麼它如此重要?

如果將具有不同更新率的屬性儲存在同一個表中,則每次更新最頻繁變更的屬性時,都必須在表中新增一行。 結果是磁碟空間增加和查詢執行時間增加。

現在我們已經按照更新頻率劃分了衛星,並且可以獨立加載數據,我們應該確保我們可以接收到最新的數據。 更好的是,不要使用不必要的 JOIN。

讓我解釋一下,例如,您需要從具有不同更新速率的衛星獲取當前(根據上次更新的日期)資訊。 為此,您不僅需要進行 JOIN,還需要建立多個巢狀查詢(針對包含資訊的每個衛星)並選擇最大更新日期 MAX(更新日期)。 隨著每一個新的 JOIN,這樣的程式碼都會成長並且很快變得難以理解。

PIT 表旨在簡化此類查詢;PIT 表格在將新資料寫入 DATA VAULT 的同時被填入。 坑表:

DATA VAULT 的開發以及向 BUSINESS DATA VAULT 的過渡

因此,我們掌握了每個時間點所有衛星資料的相關性資訊。 使用 JOIN 到 PIT 表,我們可以完全消除嵌套查詢,當然條件是 PIT 每天都被填滿且沒有間隙。 即使 PIT 中存在間隙,您也只需使用對 PIT 本身的嵌套查詢即可取得最新資料。 一個巢狀查詢的處理速度比對每顆衛星的巢狀查詢的處理速度更快。

BRIDGE 表也用於簡化分析查詢。 然而,與 PIT 不同的是一種簡化和加速各種集線器、連結及其衛星之間請求的方法。

該表包含所有衛星的所有必要鍵,這些鍵經常在查詢中使用。 另外,如果需要,如果需要密鑰名稱進行分析,則可以在雜湊業務密鑰中補充文字形式的密鑰。

事實是,如果不使用 BRIDGE,在接收屬於不同集線器的衛星中的資料的過程中,不僅需要對衛星本身進行 JOIN,還需要對連接集線器的鏈路進行 JOIN。

BRIDGE 的存在或不存在由儲存配置和最佳化查詢執行速度的需要決定。 很難想出一個通用的 BRIGE 例子。

預定義的推導

另一個使我們更接近業務資料庫的物件是包含預先計算的指標的表格。 此類表對於業務確實非常重要;它們包含根據給定規則聚合的信息,並且使其相對容易訪問。

從架構上講,預先定義衍生性商品只不過是某個中心的另一顆衛星。 與常規衛星一樣,它包含業務金鑰和衛星中記錄的建立日期。 然而,相似之處就到此為止。 這種「專業」衛星的屬性的進一步組成是由商業用戶根據最受歡迎的預先計算的指標來確定的。

例如,包含員工資訊的中心可能包括帶有以下指示器的衛星:

  • 最低工資;
  • 最高工資;
  • 平均工資;
  • 應計工資等的累計總額

在同一中心的 PIT 表中包含 PREDEFINED DERIVATIONS 是合乎邏輯的,然後您可以輕鬆取得特定選定日期的員工的資料切片。

結論

實踐表明,業務用戶使用 DATA VAULT 存在一定困難,原因如下:

  • 查詢程式碼複雜、繁瑣;
  • JOIN 的豐富度會影響查詢的效能;
  • 編寫分析查詢需要出色的儲存設計知識。

為了簡化資料訪問,DATA VAULT 透過附加物件進行了擴展:

  • PIT(時間點)表;
  • 橋台;
  • 預定義的推導。

下一個 文章 在我看來,我打算告訴那些從事 BI 工作的人最有趣的事情。 我將介紹基於 DATA VAULT 建立事實表和維度表的方法。

文章的資料是基於:

  • 發表 Kenta Graziano,除了詳細描述外,還包含模型圖;
  • 書籍:《使用 DATA VAULT 2.0 建置可擴充的資料倉儲》;
  • 文章 資料倉儲基礎知識.

來源: www.habr.com

添加評論