ಗೋದಾಮಿನಲ್ಲಿ ಡೇಟಾ ಗುಣಮಟ್ಟ

ಮೌಲ್ಯಯುತ ಮಾಹಿತಿಯನ್ನು ಪಡೆಯಲು ಗೋದಾಮಿನಲ್ಲಿನ ಡೇಟಾದ ಗುಣಮಟ್ಟವು ಪ್ರಮುಖ ಪೂರ್ವಾಪೇಕ್ಷಿತವಾಗಿದೆ. ಕಳಪೆ ಗುಣಮಟ್ಟವು ದೀರ್ಘಾವಧಿಯಲ್ಲಿ ನಕಾರಾತ್ಮಕ ಸರಣಿ ಪ್ರತಿಕ್ರಿಯೆಗೆ ಕಾರಣವಾಗುತ್ತದೆ.
ಮೊದಲನೆಯದಾಗಿ, ಒದಗಿಸಿದ ಮಾಹಿತಿಯ ಮೇಲಿನ ನಂಬಿಕೆ ಕಳೆದುಹೋಗುತ್ತದೆ. ಜನರು ಬಿಸಿನೆಸ್ ಇಂಟೆಲಿಜೆನ್ಸ್ ಅಪ್ಲಿಕೇಶನ್‌ಗಳನ್ನು ಕಡಿಮೆ ಬಳಸಲು ಪ್ರಾರಂಭಿಸುತ್ತಿದ್ದಾರೆ; ಅಪ್ಲಿಕೇಶನ್‌ಗಳ ಸಾಮರ್ಥ್ಯವು ಹಕ್ಕು ಪಡೆಯದೆ ಉಳಿದಿದೆ.
ಪರಿಣಾಮವಾಗಿ, ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಯೋಜನೆಯಲ್ಲಿ ಹೆಚ್ಚಿನ ಹೂಡಿಕೆಯನ್ನು ಪ್ರಶ್ನಿಸಲಾಗುತ್ತದೆ.

ಡೇಟಾ ಗುಣಮಟ್ಟಕ್ಕೆ ಜವಾಬ್ದಾರಿ

ಡೇಟಾ ಗುಣಮಟ್ಟವನ್ನು ಸುಧಾರಿಸಲು ಸಂಬಂಧಿಸಿದ ಅಂಶವು BI ಯೋಜನೆಗಳಲ್ಲಿ ಮೆಗಾ-ಪ್ರಮುಖವಾಗಿದೆ. ಆದಾಗ್ಯೂ, ಇದು ಕೇವಲ ತಾಂತ್ರಿಕ ತಜ್ಞರ ಸವಲತ್ತು ಅಲ್ಲ.
ಡೇಟಾ ಗುಣಮಟ್ಟವು ಅಂತಹ ಅಂಶಗಳಿಂದ ಪ್ರಭಾವಿತವಾಗಿರುತ್ತದೆ

ಕಾರ್ಪೊರೇಟ್ ಸಂಸ್ಕೃತಿ

  • ಕಾರ್ಮಿಕರು ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಉತ್ಪಾದನೆಯಲ್ಲಿ ಆಸಕ್ತಿ ಹೊಂದಿದ್ದಾರೆಯೇ?
  • ಇಲ್ಲದಿದ್ದರೆ, ಏಕೆ ಮಾಡಬಾರದು? ಹಿತಾಸಕ್ತಿ ಸಂಘರ್ಷ ಇರಬಹುದು.
  • ಗುಣಮಟ್ಟಕ್ಕೆ ಯಾರು ಜವಾಬ್ದಾರರು ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸುವ ಕಾರ್ಪೊರೇಟ್ ನಿಯಮಗಳಿವೆಯೇ?

ಪ್ರಕ್ರಿಯೆಗಳು

  • ಈ ಸರಪಳಿಗಳ ಕೊನೆಯಲ್ಲಿ ಯಾವ ಡೇಟಾವನ್ನು ರಚಿಸಲಾಗಿದೆ?
  • ಬಹುಶಃ ಈ ಅಥವಾ ಆ ಪರಿಸ್ಥಿತಿಯನ್ನು ವಾಸ್ತವದಲ್ಲಿ ಪ್ರತಿಬಿಂಬಿಸಲು ನೀವು "ಟ್ವಿಸ್ಟ್" ಮಾಡಬೇಕಾದ ರೀತಿಯಲ್ಲಿ ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಂಗಳನ್ನು ಕಾನ್ಫಿಗರ್ ಮಾಡಲಾಗಿದೆ.
  • ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಂಗಳು ಡೇಟಾ ಪರಿಶೀಲನೆ ಮತ್ತು ಸಮನ್ವಯವನ್ನು ಸ್ವತಃ ನಿರ್ವಹಿಸುತ್ತವೆಯೇ?

ವರದಿ ಮಾಡುವ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿನ ಡೇಟಾದ ಗುಣಮಟ್ಟಕ್ಕೆ ಸಂಸ್ಥೆಯ ಪ್ರತಿಯೊಬ್ಬರೂ ಜವಾಬ್ದಾರರಾಗಿರುತ್ತಾರೆ.

ವ್ಯಾಖ್ಯಾನ ಮತ್ತು ಅರ್ಥ

ಗುಣಮಟ್ಟವು ಗ್ರಾಹಕರ ನಿರೀಕ್ಷೆಗಳ ಸಾಬೀತಾದ ತೃಪ್ತಿಯಾಗಿದೆ.

ಆದರೆ ಡೇಟಾ ಗುಣಮಟ್ಟವು ವ್ಯಾಖ್ಯಾನವನ್ನು ಹೊಂದಿಲ್ಲ. ಇದು ಯಾವಾಗಲೂ ಬಳಕೆಯ ಸಂದರ್ಭವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ. ಡೇಟಾ ವೇರ್‌ಹೌಸ್ ಮತ್ತು ಬಿಐ ಸಿಸ್ಟಮ್ ಡೇಟಾ ಬರುವ ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಮ್‌ಗಿಂತ ವಿಭಿನ್ನ ಉದ್ದೇಶಗಳನ್ನು ಪೂರೈಸುತ್ತದೆ.

ಉದಾಹರಣೆಗೆ, ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಂನಲ್ಲಿ, ಗ್ರಾಹಕರ ಗುಣಲಕ್ಷಣವು ಐಚ್ಛಿಕ ಕ್ಷೇತ್ರವಾಗಿರಬಹುದು. ರೆಪೊಸಿಟರಿಯಲ್ಲಿ, ಈ ಗುಣಲಕ್ಷಣವನ್ನು ಆಯಾಮವಾಗಿ ಬಳಸಬಹುದು ಮತ್ತು ಅದರ ಭರ್ತಿ ಅಗತ್ಯವಿದೆ. ಇದು ಪ್ರತಿಯಾಗಿ, ಡೀಫಾಲ್ಟ್ ಮೌಲ್ಯಗಳನ್ನು ತುಂಬುವ ಅಗತ್ಯವನ್ನು ಪರಿಚಯಿಸುತ್ತದೆ.

ಡೇಟಾ ಸಂಗ್ರಹಣೆಯ ಅಗತ್ಯತೆಗಳು ನಿರಂತರವಾಗಿ ಬದಲಾಗುತ್ತಿವೆ ಮತ್ತು ಅವು ಸಾಮಾನ್ಯವಾಗಿ ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಮ್‌ಗಳಿಗಿಂತ ಹೆಚ್ಚಾಗಿರುತ್ತದೆ. ಆದರೆ ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಂನಿಂದ ವಿವರವಾದ ಮಾಹಿತಿಯನ್ನು ಶೇಖರಣೆಯಲ್ಲಿ ಸಂಗ್ರಹಿಸಲು ಅಗತ್ಯವಿಲ್ಲದಿದ್ದಾಗ ಇದು ಇನ್ನೊಂದು ಮಾರ್ಗವಾಗಿರಬಹುದು.

ಡೇಟಾ ಗುಣಮಟ್ಟವನ್ನು ಅಳೆಯಬಹುದಾದಂತೆ ಮಾಡಲು, ಅದರ ಮಾನದಂಡಗಳನ್ನು ವಿವರಿಸಬೇಕು. ತಮ್ಮ ಕೆಲಸಕ್ಕಾಗಿ ಮಾಹಿತಿ ಮತ್ತು ಅಂಕಿಅಂಶಗಳನ್ನು ಬಳಸುವ ಜನರು ವಿವರಣೆ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ತೊಡಗಿಸಿಕೊಂಡಿರಬೇಕು. ಈ ಒಳಗೊಳ್ಳುವಿಕೆಯ ಫಲಿತಾಂಶವು ಒಂದು ನಿಯಮವಾಗಿರಬಹುದು, ಅದನ್ನು ಅನುಸರಿಸಿ ದೋಷವಿದೆಯೇ ಅಥವಾ ಇಲ್ಲವೇ ಎಂದು ಮೇಜಿನ ಮೇಲೆ ಒಂದು ನೋಟದಲ್ಲಿ ಹೇಳಬಹುದು. ಈ ನಿಯಮವನ್ನು ನಂತರದ ಪರಿಶೀಲನೆಗಾಗಿ ಸ್ಕ್ರಿಪ್ಟ್/ಕೋಡ್ ಆಗಿ ಫಾರ್ಮ್ಯಾಟ್ ಮಾಡಬೇಕು.

ಡೇಟಾ ಗುಣಮಟ್ಟವನ್ನು ಸುಧಾರಿಸುವುದು

ಗೋದಾಮಿನೊಳಗೆ ಡೇಟಾವನ್ನು ಲೋಡ್ ಮಾಡುವ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಎಲ್ಲಾ ಕಾಲ್ಪನಿಕ ದೋಷಗಳನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಲು ಮತ್ತು ಸರಿಪಡಿಸಲು ಅಸಾಧ್ಯವಾಗಿದೆ. ಎಲ್ಲಾ ಭಾಗವಹಿಸುವವರ ನಡುವಿನ ನಿಕಟ ಸಹಯೋಗದ ಮೂಲಕ ಮಾತ್ರ ಉತ್ತಮ ಡೇಟಾ ಗುಣಮಟ್ಟವನ್ನು ಸಾಧಿಸಬಹುದು. ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಂಗಳಲ್ಲಿ ಡೇಟಾವನ್ನು ನಮೂದಿಸುವ ಜನರು ಯಾವ ಕ್ರಮಗಳು ದೋಷಗಳಿಗೆ ಕಾರಣವಾಗುತ್ತವೆ ಎಂಬುದನ್ನು ತಿಳಿದುಕೊಳ್ಳಬೇಕು.

ಡೇಟಾ ಗುಣಮಟ್ಟ ಒಂದು ಪ್ರಕ್ರಿಯೆ. ದುರದೃಷ್ಟವಶಾತ್, ಅನೇಕ ಸಂಸ್ಥೆಗಳು ನಿರಂತರ ಸುಧಾರಣೆಗೆ ತಂತ್ರವನ್ನು ಹೊಂದಿಲ್ಲ. ಅನೇಕರು ಕೇವಲ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು ತಮ್ಮನ್ನು ಮಿತಿಗೊಳಿಸುತ್ತಾರೆ ಮತ್ತು ವಿಶ್ಲೇಷಣಾತ್ಮಕ ವ್ಯವಸ್ಥೆಗಳ ಸಂಪೂರ್ಣ ಸಾಮರ್ಥ್ಯವನ್ನು ಬಳಸುವುದಿಲ್ಲ. ವಿಶಿಷ್ಟವಾಗಿ, ಡೇಟಾ ಗೋದಾಮುಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವಾಗ, 70-80% ಬಜೆಟ್ ಅನ್ನು ಡೇಟಾ ಏಕೀಕರಣವನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಲು ಖರ್ಚು ಮಾಡಲಾಗುತ್ತದೆ. ಮೇಲ್ವಿಚಾರಣೆ ಮತ್ತು ಸುಧಾರಣೆ ಪ್ರಕ್ರಿಯೆಯು ಅಪೂರ್ಣವಾಗಿಯೇ ಉಳಿದಿದೆ.

ಪರಿಕರಗಳು

ಸಾಫ್ಟ್‌ವೇರ್ ಪರಿಕರಗಳ ಬಳಕೆಯು ಡೇಟಾ ಗುಣಮಟ್ಟ ಸುಧಾರಣೆ ಮತ್ತು ಮೇಲ್ವಿಚಾರಣೆಯನ್ನು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸುವ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಅವರು ಶೇಖರಣಾ ರಚನೆಗಳ ತಾಂತ್ರಿಕ ಪರಿಶೀಲನೆಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಬಹುದು: ಕ್ಷೇತ್ರ ಸ್ವರೂಪ, ಡೀಫಾಲ್ಟ್ ಮೌಲ್ಯಗಳ ಉಪಸ್ಥಿತಿ, ಟೇಬಲ್ ಕ್ಷೇತ್ರದ ಹೆಸರುಗಳ ಅನುಸರಣೆ.

ವಿಷಯವನ್ನು ಪರಿಶೀಲಿಸಲು ಹೆಚ್ಚು ಕಷ್ಟವಾಗಬಹುದು. ಸಂಗ್ರಹಣೆಯ ಅಗತ್ಯತೆಗಳು ಬದಲಾದಂತೆ, ಡೇಟಾದ ವ್ಯಾಖ್ಯಾನವೂ ಬದಲಾಗಬಹುದು. ಉಪಕರಣವು ಬೆಂಬಲದ ಅಗತ್ಯವಿರುವ ಬೃಹತ್ ಯೋಜನೆಯಾಗಬಹುದು.

ಸಲಹೆ

ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳು, ಇದರಲ್ಲಿ ಅಂಗಡಿಗಳನ್ನು ವಿಶಿಷ್ಟವಾಗಿ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ, ವೀಕ್ಷಣೆಗಳನ್ನು ರಚಿಸುವ ಗಮನಾರ್ಹ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿವೆ. ವಿಷಯದ ನಿಶ್ಚಿತಗಳು ನಿಮಗೆ ತಿಳಿದಿದ್ದರೆ ಡೇಟಾವನ್ನು ತ್ವರಿತವಾಗಿ ಪರಿಶೀಲಿಸಲು ಅವುಗಳನ್ನು ಬಳಸಬಹುದು. ಡೇಟಾದಲ್ಲಿ ದೋಷ ಅಥವಾ ಸಮಸ್ಯೆಯನ್ನು ಕಂಡುಹಿಡಿಯುವ ಪ್ರತಿಯೊಂದು ಪ್ರಕರಣವನ್ನು ಡೇಟಾಬೇಸ್ ಪ್ರಶ್ನೆಯ ರೂಪದಲ್ಲಿ ದಾಖಲಿಸಬಹುದು.

ಈ ರೀತಿಯಾಗಿ, ವಿಷಯದ ಬಗ್ಗೆ ಜ್ಞಾನದ ನೆಲೆಯನ್ನು ರಚಿಸಲಾಗುತ್ತದೆ. ಸಹಜವಾಗಿ, ಅಂತಹ ವಿನಂತಿಗಳು ವೇಗವಾಗಿರಬೇಕು. ವೀಕ್ಷಣೆಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಟೇಬಲ್-ಆಧಾರಿತ ಪರಿಕರಗಳಿಗಿಂತ ನಿರ್ವಹಿಸಲು ಕಡಿಮೆ ಮಾನವ ಸಮಯವನ್ನು ಬೇಕಾಗುತ್ತದೆ. ಪರೀಕ್ಷೆಯ ಫಲಿತಾಂಶವನ್ನು ಪ್ರದರ್ಶಿಸಲು ವೀಕ್ಷಣೆ ಯಾವಾಗಲೂ ಸಿದ್ಧವಾಗಿದೆ.
ಪ್ರಮುಖ ವರದಿಗಳ ಸಂದರ್ಭದಲ್ಲಿ, ವೀಕ್ಷಣೆಯು ಸ್ವೀಕರಿಸುವವರೊಂದಿಗೆ ಕಾಲಮ್ ಅನ್ನು ಹೊಂದಿರಬಹುದು. ಗೋದಾಮಿನಲ್ಲಿನ ಡೇಟಾ ಗುಣಮಟ್ಟದ ಸ್ಥಿತಿಯನ್ನು ವರದಿ ಮಾಡಲು ಅದೇ BI ಪರಿಕರಗಳನ್ನು ಬಳಸುವುದು ಅರ್ಥಪೂರ್ಣವಾಗಿದೆ.

ಉದಾಹರಣೆಗೆ

ಪ್ರಶ್ನೆಯನ್ನು ಒರಾಕಲ್ ಡೇಟಾಬೇಸ್‌ಗಾಗಿ ಬರೆಯಲಾಗಿದೆ. ಈ ಉದಾಹರಣೆಯಲ್ಲಿ, ಪರೀಕ್ಷೆಗಳು ಸಂಖ್ಯಾತ್ಮಕ ಮೌಲ್ಯವನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತವೆ, ಅದನ್ನು ಬಯಸಿದಂತೆ ಅರ್ಥೈಸಿಕೊಳ್ಳಬಹುದು. ಎಚ್ಚರಿಕೆಯ ಮಟ್ಟವನ್ನು ಸರಿಹೊಂದಿಸಲು T_MIN ಮತ್ತು T_MAX ಮೌಲ್ಯಗಳನ್ನು ಬಳಸಬಹುದು. ಇಮೇಲ್‌ಗಳನ್ನು ಸರಿಯಾಗಿ ಕಳುಹಿಸುವುದು ಹೇಗೆ ಎಂದು ತಿಳಿದಿರದ ವಾಣಿಜ್ಯ ETL ಉತ್ಪನ್ನದಲ್ಲಿ ವರದಿ ಕ್ಷೇತ್ರವನ್ನು ಒಮ್ಮೆ ಸಂದೇಶವಾಗಿ ಬಳಸಲಾಗುತ್ತಿತ್ತು, ಆದ್ದರಿಂದ rpad ಒಂದು "ಊರುಗೋಲು" ಆಗಿದೆ.

ದೊಡ್ಡ ಕೋಷ್ಟಕದ ಸಂದರ್ಭದಲ್ಲಿ, ನೀವು ಸೇರಿಸಬಹುದು, ಉದಾಹರಣೆಗೆ, ಮತ್ತು ROWNUM <= 10, ಅಂದರೆ. 10 ದೋಷಗಳಿದ್ದರೆ, ಎಚ್ಚರಿಕೆಯನ್ನು ಉಂಟುಮಾಡಲು ಇದು ಸಾಕು.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

ಪ್ರಕಟಣೆಯು ಪುಸ್ತಕದಿಂದ ವಸ್ತುಗಳನ್ನು ಬಳಸುತ್ತದೆ
ರೊನಾಲ್ಡ್ ಬ್ಯಾಚ್‌ಮನ್, ಡಾ. ಗಿಡೋ ಕೆಂಪರ್
ರಾಸ್ ಔಸ್ ಡೆರ್ ಬಿಐ-ಫಾಲ್ಲೆ
ವೈ ಬಿಸಿನೆಸ್ ಇಂಟೆಲಿಜೆನ್ಸ್ ಜುಮ್ ಎರ್ಫೋಲ್ಗ್ ವೈರ್ಡ್


ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ