Chất lượng dữ liệu trong kho

Chất lượng của dữ liệu trong kho là điều kiện tiên quyết quan trọng để có được thông tin có giá trị. Chất lượng kém dẫn đến phản ứng dây chuyền tiêu cực về lâu dài.
Đầu tiên, niềm tin vào thông tin được cung cấp sẽ bị mất. Mọi người đang bắt đầu sử dụng các ứng dụng Business Intelligence ít hơn; tiềm năng của các ứng dụng vẫn chưa được xác nhận.
Do đó, việc đầu tư thêm vào dự án phân tích đang bị đặt dấu hỏi.

Chịu trách nhiệm về chất lượng dữ liệu

Khía cạnh liên quan đến việc cải thiện chất lượng dữ liệu là cực kỳ quan trọng trong các dự án BI. Tuy nhiên, đó không phải là đặc quyền của chỉ các chuyên gia kỹ thuật.
Chất lượng dữ liệu cũng bị ảnh hưởng bởi các khía cạnh như

Văn hóa doanh nghiệp

  • Bản thân người lao động có quan tâm đến việc sản xuất chất lượng tốt không?
  • Nếu không, tai sao không? Có thể có xung đột lợi ích.
  • Có thể có những quy định của công ty xác định ai chịu trách nhiệm về chất lượng?

Процессы

  • Dữ liệu nào được tạo ra ở cuối chuỗi này?
  • Có lẽ hệ điều hành được cấu hình theo cách mà bạn cần phải “xoay chuyển” để phản ánh tình huống này hay tình huống kia trong thực tế.
  • Hệ điều hành có tự thực hiện việc xác minh và đối chiếu dữ liệu không?

Mọi người trong tổ chức đều chịu trách nhiệm về chất lượng dữ liệu trong hệ thống báo cáo.

Định nghĩa và ý nghĩa

Chất lượng là sự thỏa mãn đã được chứng minh đối với sự mong đợi của khách hàng.

Nhưng chất lượng dữ liệu không chứa định nghĩa. Nó luôn phản ánh bối cảnh sử dụng. Kho dữ liệu và hệ thống BI phục vụ các mục đích khác với hệ điều hành nơi chứa dữ liệu.

Ví dụ: trên hệ điều hành, thuộc tính khách hàng có thể là trường tùy chọn. Trong kho lưu trữ, thuộc tính này có thể được sử dụng làm thứ nguyên và việc điền nó là bắt buộc. Do đó, đưa ra nhu cầu điền vào các giá trị mặc định.

Yêu cầu lưu trữ dữ liệu liên tục thay đổi và chúng thường cao hơn yêu cầu đối với hệ điều hành. Nhưng cũng có thể ngược lại, khi không cần lưu trữ thông tin chi tiết từ hệ điều hành vào bộ lưu trữ.

Để làm cho chất lượng dữ liệu có thể đo lường được, các tiêu chuẩn của nó phải được mô tả. Những người sử dụng thông tin và số liệu cho công việc của mình phải tham gia vào quá trình mô tả. Kết quả của sự tham gia này có thể là một quy tắc, theo đó người ta có thể chỉ cần nhìn vào bảng là có thể biết được có sai sót hay không. Quy tắc này phải được định dạng dưới dạng tập lệnh/mã cho lần xác minh tiếp theo.

Cải thiện chất lượng dữ liệu

Không thể dọn sạch và sửa chữa hết các lỗi giả định trong quá trình nạp dữ liệu vào kho. Chất lượng dữ liệu tốt chỉ có thể đạt được thông qua sự hợp tác chặt chẽ giữa tất cả những người tham gia. Những người nhập dữ liệu vào hệ điều hành cần tìm hiểu những hành động nào dẫn đến lỗi.

Chất lượng dữ liệu là một quá trình. Thật không may, nhiều tổ chức không có chiến lược cải tiến liên tục. Nhiều người tự giới hạn mình chỉ lưu trữ dữ liệu và không sử dụng hết tiềm năng của hệ thống phân tích. Thông thường, khi phát triển kho dữ liệu, 70-80% ngân sách được dành cho việc triển khai tích hợp dữ liệu. Quá trình giám sát và cải tiến vẫn chưa đầy đủ, nếu có.

Dụng cụ

Việc sử dụng các công cụ phần mềm có thể giúp ích trong quá trình tự động hóa việc giám sát và cải thiện chất lượng dữ liệu. Ví dụ: họ có thể tự động hóa hoàn toàn việc xác minh kỹ thuật của cấu trúc lưu trữ: định dạng trường, sự hiện diện của các giá trị mặc định, tuân thủ tên trường bảng.

Việc kiểm tra nội dung có thể khó khăn hơn. Khi yêu cầu lưu trữ thay đổi, việc diễn giải dữ liệu cũng có thể thay đổi. Bản thân công cụ này có thể trở thành một dự án lớn cần được hỗ trợ.

Tư vấn

Cơ sở dữ liệu quan hệ, trong đó các cửa hàng thường được thiết kế, có khả năng tạo ra các khung nhìn vượt trội. Chúng có thể được sử dụng để kiểm tra dữ liệu nhanh chóng nếu bạn biết chi tiết cụ thể về nội dung. Mỗi trường hợp phát hiện lỗi hoặc vấn đề trong dữ liệu có thể được ghi lại dưới dạng truy vấn cơ sở dữ liệu.

Bằng cách này, nền tảng kiến ​​thức về nội dung sẽ được hình thành. Tất nhiên, những yêu cầu như vậy phải nhanh chóng. Chế độ xem thường yêu cầu ít thời gian của con người hơn để duy trì so với các công cụ dựa trên bảng. Chế độ xem luôn sẵn sàng hiển thị kết quả kiểm tra.
Trong trường hợp các báo cáo quan trọng, chế độ xem có thể chứa một cột có người nhận. Sẽ rất hợp lý khi sử dụng cùng các công cụ BI để báo cáo về trạng thái chất lượng dữ liệu trong kho.

Ví dụ

Truy vấn được viết cho cơ sở dữ liệu Oracle. Trong ví dụ này, các bài kiểm tra trả về một giá trị số có thể được hiểu theo ý muốn. Giá trị T_MIN và T_MAX có thể được sử dụng để điều chỉnh mức báo động. Trường BÁO CÁO từng được sử dụng làm tin nhắn trong một sản phẩm ETL thương mại không biết cách gửi email đúng cách, vì vậy rpad là một “cái nạng”.

Trong trường hợp bảng lớn, bạn có thể thêm, ví dụ: AND ROWNUM <= 10, tức là nếu có 10 lỗi thì cũng đủ gây báo động.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Ấn phẩm sử dụng tài liệu từ cuốn sách
Ronald Bachmann, Tiến sĩ. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Nguồn: www.habr.com

Thêm một lời nhận xét