Phát triển DATA VAULT và chuyển sang BUSINESS DATA VAULT

Trong bài viết trước, tôi đã nói về những điều cơ bản của DATA VAULT, mô tả các thành phần chính của DATA VAULT và mục đích của chúng. Đây không thể coi là chủ đề về DATA VAULT đã cạn kiệt mà cần phải nói đến những bước tiếp theo trong quá trình phát triển của DATA VAULT.

Và trong bài viết này mình sẽ tập trung vào việc phát triển DATA VAULT và chuyển sang BUSINESS DATA VAULT hay đơn giản hơn là BUSINESS VAULT.

Lý do xuất hiện BUSINESS DATA VAULT

Cần lưu ý rằng DATA VAULT tuy có những điểm mạnh nhất định nhưng không phải không có nhược điểm. Một trong những nhược điểm này là khó viết các truy vấn phân tích. Các truy vấn có số lượng THAM GIA đáng kể, mã dài và cồng kềnh. Ngoài ra, dữ liệu nhập vào DATA VAULT không trải qua bất kỳ biến đổi nào, do đó, theo quan điểm kinh doanh, DATA VAULT ở dạng thuần túy không có giá trị tuyệt đối.

Để loại bỏ những thiếu sót này, phương pháp DATA VAULT đã được mở rộng với các yếu tố như:

  • bảng PIT (thời điểm);
  • bảng CẦU;
  • ĐẠO ĐỨC ĐƯỢC XÁC ĐỊNH TRƯỚC.

Chúng ta hãy xem xét kỹ hơn mục đích của các yếu tố này.

bảng thuế TNCN

Thông thường, một thực thể doanh nghiệp (HUB) có thể chứa dữ liệu với tốc độ cập nhật khác nhau, ví dụ: nếu chúng ta đang nói về dữ liệu đặc trưng của một người, chúng ta có thể nói rằng thông tin về số điện thoại, địa chỉ hoặc email có tốc độ cập nhật cao hơn nói, tên đầy đủ, chi tiết hộ chiếu, tình trạng hôn nhân hoặc giới tính.

Vì vậy, khi xác định vệ tinh, bạn nên lưu ý tần suất cập nhật của chúng. Tại sao nó lại quan trọng?

Nếu bạn lưu trữ các thuộc tính có tốc độ cập nhật khác nhau trong cùng một bảng, bạn sẽ phải thêm một hàng vào bảng mỗi khi thuộc tính được thay đổi thường xuyên nhất được cập nhật. Kết quả là tăng dung lượng ổ đĩa và tăng thời gian thực hiện truy vấn.

Bây giờ chúng tôi đã chia các vệ tinh theo tần suất cập nhật và có thể tải dữ liệu vào chúng một cách độc lập, chúng tôi nên đảm bảo rằng chúng tôi có thể nhận được dữ liệu cập nhật. Tốt hơn, không cần sử dụng THAM GIA không cần thiết.

Hãy để tôi giải thích, ví dụ, bạn cần lấy thông tin hiện tại (theo ngày cập nhật gần đây nhất) từ các vệ tinh có tốc độ cập nhật khác nhau. Để thực hiện việc này, bạn không chỉ cần thực hiện THAM GIA mà còn phải tạo một số truy vấn lồng nhau (cho mỗi vệ tinh chứa thông tin) với việc chọn ngày cập nhật tối đa MAX (Ngày cập nhật). Với mỗi THAM GIA mới, mã như vậy sẽ phát triển và rất nhanh chóng trở nên khó hiểu.

Bảng PIT được thiết kế để đơn giản hóa các truy vấn như vậy; Bảng PIT được điền đồng thời với việc ghi dữ liệu mới vào DATA VAULT. Bảng thuế TNCN:

Phát triển DATA VAULT và chuyển sang BUSINESS DATA VAULT

Do đó, chúng ta có thông tin về mức độ liên quan của dữ liệu đối với tất cả các vệ tinh tại mỗi thời điểm. Sử dụng JOIN vào bảng PIT, chúng ta có thể loại bỏ hoàn toàn các truy vấn lồng nhau, một cách tự nhiên với điều kiện PIT được điền hàng ngày và không có khoảng trống. Ngay cả khi có lỗ hổng trong PIT, bạn chỉ có thể nhận được dữ liệu mới nhất bằng cách sử dụng một truy vấn lồng nhau vào chính PIT. Một truy vấn lồng nhau sẽ xử lý nhanh hơn các truy vấn lồng nhau đối với mỗi vệ tinh.

CẦU

Bảng BRIDGE cũng được sử dụng để đơn giản hóa các truy vấn phân tích. Tuy nhiên, điểm khác biệt với PIT là phương tiện đơn giản hóa và tăng tốc các yêu cầu giữa các trung tâm, liên kết và vệ tinh khác nhau của chúng.

Bảng chứa tất cả các khóa cần thiết cho tất cả các vệ tinh, thường được sử dụng trong các truy vấn. Ngoài ra, nếu cần, các khóa nghiệp vụ đã băm có thể được bổ sung bằng các khóa ở dạng văn bản nếu tên của các khóa cần thiết để phân tích.

Thực tế là nếu không sử dụng BRIDGE, trong quá trình nhận dữ liệu nằm trong các vệ tinh thuộc các trung tâm khác nhau, sẽ cần phải thực hiện THAM GIA không chỉ các vệ tinh mà còn cả các liên kết kết nối các trung tâm.

Sự hiện diện hay vắng mặt của BRIDGE được xác định bởi cấu hình lưu trữ và nhu cầu tối ưu hóa tốc độ thực hiện truy vấn. Thật khó để đưa ra một ví dụ phổ quát về BRIGE.

ĐẠO ĐỨC ĐƯỢC XÁC ĐỊNH TRƯỚC

Một loại đối tượng khác đưa chúng ta đến gần hơn với VAULT DỮ LIỆU DOANH NGHIỆP là các bảng chứa các chỉ số được tính toán trước. Những bảng như vậy thực sự quan trọng đối với doanh nghiệp; chúng chứa thông tin được tổng hợp theo các quy tắc nhất định và làm cho việc truy cập tương đối dễ dàng.

Về mặt kiến ​​trúc, CÁC ĐẠI DIỆN ĐƯỢC XÁC ĐỊNH TRƯỚC không gì khác hơn là một vệ tinh khác của một trung tâm nhất định. Nó, giống như một vệ tinh thông thường, chứa khóa kinh doanh và ngày tạo bản ghi trên vệ tinh. Tuy nhiên, đây là nơi kết thúc những điểm tương đồng. Thành phần bổ sung của các thuộc tính của một vệ tinh “chuyên dụng” như vậy được xác định bởi người dùng doanh nghiệp dựa trên các chỉ số được tính toán trước, phổ biến nhất.

Ví dụ: một trung tâm chứa thông tin về nhân viên có thể bao gồm một vệ tinh với các chỉ số như:

  • Lương tối thiểu;
  • Mức lương tối đa;
  • Lương trung bình;
  • Tổng tích lũy của tiền lương tích lũy, v.v.

Sẽ hợp lý nếu đưa CÁC ĐẠI HỌC ĐƯỢC XÁC ĐỊNH TRƯỚC vào bảng PIT của cùng một trung tâm, sau đó bạn có thể dễ dàng lấy được các lát dữ liệu cho nhân viên vào một ngày được chọn cụ thể.

KẾT LUẬN

Thực tế cho thấy, việc sử dụng DATA VAULT của người dùng doanh nghiệp có phần khó khăn vì một số lý do:

  • Mã truy vấn phức tạp và cồng kềnh;
  • Sự phong phú của THAM GIA ảnh hưởng đến hiệu suất của các truy vấn;
  • Viết truy vấn phân tích đòi hỏi kiến ​​thức vượt trội về thiết kế lưu trữ.

Để đơn giản hóa việc truy cập dữ liệu, DATA VAULT được mở rộng với các đối tượng bổ sung:

  • bảng PIT (thời điểm);
  • bảng CẦU;
  • ĐẠO ĐỨC ĐƯỢC XÁC ĐỊNH TRƯỚC.

Kế tiếp Bài viết Theo ý kiến ​​​​của tôi, tôi định kể điều thú vị nhất đối với những người làm việc với BI. Tôi sẽ trình bày các cách tạo bảng sự kiện và bảng thứ nguyên dựa trên DATA VAULT.

Các tài liệu của bài viết được dựa trên:

Nguồn: www.habr.com

Thêm một lời nhận xét