ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ

1. ಆರಂಭಿಕ ಡೇಟಾ

ಡೇಟಾ ಶುಚಿಗೊಳಿಸುವಿಕೆಯು ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಕಾರ್ಯಗಳನ್ನು ಎದುರಿಸುತ್ತಿರುವ ಸವಾಲುಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. ಕ್ಯಾಡಾಸ್ಟ್ರಲ್ ಮೌಲ್ಯದ ರಚನೆಯಲ್ಲಿ ಡೇಟಾಬೇಸ್ ಅನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಪ್ರಾಯೋಗಿಕ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುವ ಪರಿಣಾಮವಾಗಿ ಉದ್ಭವಿಸಿದ ಬೆಳವಣಿಗೆಗಳು ಮತ್ತು ಪರಿಹಾರಗಳನ್ನು ಈ ವಸ್ತುವು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ. ಮೂಲಗಳು ಇಲ್ಲಿವೆ "ಖಾಂಟಿ-ಮಾನ್ಸಿಸ್ಕ್ ಸ್ವಾಯತ್ತ ಒಕ್ರುಗ್ - ಉಗ್ರಾ ಪ್ರದೇಶದ ಎಲ್ಲಾ ರೀತಿಯ ರಿಯಲ್ ಎಸ್ಟೇಟ್ (ಭೂಮಿ ಪ್ಲಾಟ್‌ಗಳನ್ನು ಹೊರತುಪಡಿಸಿ) ರಾಜ್ಯ ಕ್ಯಾಡಾಸ್ಟ್ರಲ್ ಮೌಲ್ಯಮಾಪನದ ಫಲಿತಾಂಶಗಳ ಕುರಿತು ವರದಿ ಸಂಖ್ಯೆ 01/OKS-2019".

"ಅನುಬಂಧ B. KS ಅನ್ನು ನಿರ್ಧರಿಸುವ ಫಲಿತಾಂಶಗಳು 5. ಕ್ಯಾಡಾಸ್ಟ್ರಲ್ ಮೌಲ್ಯವನ್ನು ನಿರ್ಧರಿಸುವ ವಿಧಾನದ ಮಾಹಿತಿ 5.1 ತುಲನಾತ್ಮಕ ವಿಧಾನ" ನಲ್ಲಿ "ತುಲನಾತ್ಮಕ ಮಾದರಿ total.ods" ಫೈಲ್ ಅನ್ನು ಪರಿಗಣಿಸಲಾಗಿದೆ.

ಕೋಷ್ಟಕ 1. "ತುಲನಾತ್ಮಕ ಮಾದರಿ total.ods" ಫೈಲ್‌ನಲ್ಲಿರುವ ಡೇಟಾಸೆಟ್‌ನ ಅಂಕಿಅಂಶಗಳ ಸೂಚಕಗಳು
ಕ್ಷೇತ್ರಗಳ ಒಟ್ಟು ಸಂಖ್ಯೆ, ಪಿಸಿಗಳು. - 44
ದಾಖಲೆಗಳ ಒಟ್ಟು ಸಂಖ್ಯೆ, ಪಿಸಿಗಳು. - 365 490
ಅಕ್ಷರಗಳ ಒಟ್ಟು ಸಂಖ್ಯೆ, ಪಿಸಿಗಳು. - 101 714 693
ದಾಖಲೆಯಲ್ಲಿನ ಅಕ್ಷರಗಳ ಸರಾಸರಿ ಸಂಖ್ಯೆ, ಪಿಸಿಗಳು. - 278,297
ದಾಖಲೆಯಲ್ಲಿನ ಅಕ್ಷರಗಳ ಪ್ರಮಾಣಿತ ವಿಚಲನ, ಪಿಸಿಗಳು. - 15,510
ಪ್ರವೇಶದಲ್ಲಿ ಕನಿಷ್ಠ ಸಂಖ್ಯೆಯ ಅಕ್ಷರಗಳು, ಪಿಸಿಗಳು. - 198
ಪ್ರವೇಶದಲ್ಲಿ ಗರಿಷ್ಠ ಸಂಖ್ಯೆಯ ಅಕ್ಷರಗಳು, ಪಿಸಿಗಳು. - 363

2. ಪರಿಚಯಾತ್ಮಕ ಭಾಗ. ಮೂಲ ಮಾನದಂಡಗಳು

ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಡೇಟಾಬೇಸ್ ಅನ್ನು ವಿಶ್ಲೇಷಿಸುವಾಗ, ಶುದ್ಧೀಕರಣದ ಮಟ್ಟಕ್ಕೆ ಅಗತ್ಯತೆಗಳನ್ನು ನಿರ್ದಿಷ್ಟಪಡಿಸಲು ಒಂದು ಕಾರ್ಯವನ್ನು ರಚಿಸಲಾಗಿದೆ, ಏಕೆಂದರೆ ಎಲ್ಲರಿಗೂ ಸ್ಪಷ್ಟವಾದಂತೆ, ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಡೇಟಾಬೇಸ್ ಬಳಕೆದಾರರಿಗೆ ಕಾನೂನು ಮತ್ತು ಆರ್ಥಿಕ ಪರಿಣಾಮಗಳನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ. ಕೆಲಸದ ಸಮಯದಲ್ಲಿ, ದೊಡ್ಡ ಡೇಟಾದ ಶುಚಿಗೊಳಿಸುವ ಮಟ್ಟಕ್ಕೆ ಯಾವುದೇ ನಿರ್ದಿಷ್ಟ ಅವಶ್ಯಕತೆಗಳಿಲ್ಲ ಎಂದು ಅದು ಬದಲಾಯಿತು. ಈ ವಿಷಯದಲ್ಲಿ ಕಾನೂನು ಮಾನದಂಡಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಿ, ಅವೆಲ್ಲವೂ ಸಾಧ್ಯತೆಗಳಿಂದ ರೂಪುಗೊಂಡಿವೆ ಎಂದು ನಾನು ತೀರ್ಮಾನಕ್ಕೆ ಬಂದಿದ್ದೇನೆ. ಅಂದರೆ, ಒಂದು ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯವು ಕಾಣಿಸಿಕೊಂಡಿದೆ, ಕಾರ್ಯಕ್ಕಾಗಿ ಮಾಹಿತಿ ಮೂಲಗಳನ್ನು ಸಂಕಲಿಸಲಾಗುತ್ತದೆ, ನಂತರ ಡೇಟಾಸೆಟ್ ರಚನೆಯಾಗುತ್ತದೆ ಮತ್ತು ರಚಿಸಿದ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಆಧರಿಸಿ, ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುವ ಸಾಧನಗಳು. ಪರಿಣಾಮವಾಗಿ ಪರಿಹಾರಗಳು ಪರ್ಯಾಯಗಳಿಂದ ಆಯ್ಕೆಮಾಡುವಲ್ಲಿ ಉಲ್ಲೇಖ ಬಿಂದುಗಳಾಗಿವೆ. ನಾನು ಇದನ್ನು ಚಿತ್ರ 1 ರಲ್ಲಿ ಪ್ರಸ್ತುತಪಡಿಸಿದ್ದೇನೆ.

ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ

ಯಾವುದೇ ಮಾನದಂಡಗಳನ್ನು ನಿರ್ಧರಿಸುವ ವಿಷಯಗಳಲ್ಲಿ, ಸಾಬೀತಾದ ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ಅವಲಂಬಿಸುವುದು ಉತ್ತಮವಾದ ಕಾರಣ, ನಾನು ನಿಗದಿಪಡಿಸಿದ ಅವಶ್ಯಕತೆಗಳನ್ನು ಆರಿಸಿದೆ "MHRA GxP ಡೇಟಾ ಸಮಗ್ರತೆಯ ವ್ಯಾಖ್ಯಾನಗಳು ಮತ್ತು ಉದ್ಯಮಕ್ಕಾಗಿ ಮಾರ್ಗದರ್ಶನ", ಏಕೆಂದರೆ ನಾನು ಈ ಡಾಕ್ಯುಮೆಂಟ್ ಅನ್ನು ಈ ಸಮಸ್ಯೆಗೆ ಅತ್ಯಂತ ಸಮಗ್ರವೆಂದು ಪರಿಗಣಿಸಿದ್ದೇನೆ. ನಿರ್ದಿಷ್ಟವಾಗಿ ಹೇಳುವುದಾದರೆ, ಈ ಡಾಕ್ಯುಮೆಂಟ್‌ನಲ್ಲಿ ವಿಭಾಗವು "ಡೇಟಾ ಸಮಗ್ರತೆಯ ಅವಶ್ಯಕತೆಗಳು ಕೈಪಿಡಿ (ಕಾಗದ) ಮತ್ತು ಎಲೆಕ್ಟ್ರಾನಿಕ್ ಡೇಟಾಗೆ ಸಮಾನವಾಗಿ ಅನ್ವಯಿಸುತ್ತವೆ ಎಂದು ಗಮನಿಸಬೇಕು." (ಅನುವಾದ: "... ಡೇಟಾ ಸಮಗ್ರತೆಯ ಅವಶ್ಯಕತೆಗಳು ಕೈಪಿಡಿ (ಕಾಗದ) ಮತ್ತು ಎಲೆಕ್ಟ್ರಾನಿಕ್ ಡೇಟಾಗೆ ಸಮಾನವಾಗಿ ಅನ್ವಯಿಸುತ್ತವೆ"). ಈ ಸೂತ್ರೀಕರಣವು ಸಿವಿಲ್ ಪ್ರೊಸೀಜರ್ ಸಂಹಿತೆಯ ಆರ್ಟಿಕಲ್ 71 ರ ನಿಬಂಧನೆಗಳಲ್ಲಿ "ಲಿಖಿತ ಸಾಕ್ಷ್ಯ" ಎಂಬ ಪರಿಕಲ್ಪನೆಯೊಂದಿಗೆ ನಿರ್ದಿಷ್ಟವಾಗಿ ಸಂಬಂಧಿಸಿದೆ. 70 CAS, ಕಲೆ. 75 APC, "ಬರಹದಲ್ಲಿ" ಕಲೆ. 84 ಸಿವಿಲ್ ಪ್ರೊಸೀಜರ್ ಕೋಡ್.

ಚಿತ್ರ 2 ನ್ಯಾಯಶಾಸ್ತ್ರದಲ್ಲಿ ಮಾಹಿತಿಯ ಪ್ರಕಾರಗಳಿಗೆ ವಿಧಾನಗಳ ರಚನೆಯ ರೇಖಾಚಿತ್ರವನ್ನು ಪ್ರಸ್ತುತಪಡಿಸುತ್ತದೆ.

ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ
ಅಕ್ಕಿ. 2. ಮೂಲ ಇಲ್ಲಿ.

ಮೇಲಿನ "ಮಾರ್ಗದರ್ಶನ" ದ ಕಾರ್ಯಗಳಿಗಾಗಿ ಚಿತ್ರ 3 ಚಿತ್ರ 1 ರ ಕಾರ್ಯವಿಧಾನವನ್ನು ತೋರಿಸುತ್ತದೆ. ಮಾಹಿತಿ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಆಧುನಿಕ ಮಾನದಂಡಗಳಲ್ಲಿ ಮಾಹಿತಿ ಸಮಗ್ರತೆಯ ಅವಶ್ಯಕತೆಗಳನ್ನು ಪೂರೈಸುವಾಗ ಬಳಸುವ ವಿಧಾನಗಳು ಮಾಹಿತಿಯ ಕಾನೂನು ಪರಿಕಲ್ಪನೆಗೆ ಹೋಲಿಸಿದರೆ ಗಮನಾರ್ಹವಾಗಿ ಸೀಮಿತವಾಗಿವೆ ಎಂದು ಹೋಲಿಕೆ ಮಾಡುವ ಮೂಲಕ ಸುಲಭವಾಗಿದೆ.

ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ
ಚಿತ್ರ 3

ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಡಾಕ್ಯುಮೆಂಟ್ (ಮಾರ್ಗದರ್ಶನ) ನಲ್ಲಿ, ತಾಂತ್ರಿಕ ಭಾಗಕ್ಕೆ ಸಂಪರ್ಕ, ಡೇಟಾವನ್ನು ಸಂಸ್ಕರಿಸುವ ಮತ್ತು ಸಂಗ್ರಹಿಸುವ ಸಾಮರ್ಥ್ಯಗಳು, ಅಧ್ಯಾಯ 18.2 ರ ಉಲ್ಲೇಖದಿಂದ ಉತ್ತಮವಾಗಿ ದೃಢೀಕರಿಸಲ್ಪಟ್ಟಿದೆ. ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್: "ದತ್ತಾಂಶ ಮತ್ತು ಮೆಟಾಡೇಟಾ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಸಂರಕ್ಷಿಸುವ ದೊಡ್ಡ ಫೈಲ್ ಸ್ವರೂಪದಲ್ಲಿ ಡೇಟಾವನ್ನು ಹಿಡಿದಿಟ್ಟುಕೊಳ್ಳುವುದರಿಂದ ಈ ಫೈಲ್ ರಚನೆಯು ಅಂತರ್ಗತವಾಗಿ ಹೆಚ್ಚು ಸುರಕ್ಷಿತವಾಗಿದೆ."

ವಾಸ್ತವವಾಗಿ, ಈ ವಿಧಾನದಲ್ಲಿ - ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ತಾಂತ್ರಿಕ ಸಾಮರ್ಥ್ಯಗಳಿಂದ, ಅಸಹಜವಾದ ಏನೂ ಇಲ್ಲ ಮತ್ತು ಸ್ವತಃ, ಇದು ನೈಸರ್ಗಿಕ ಪ್ರಕ್ರಿಯೆಯಾಗಿದೆ, ಏಕೆಂದರೆ ಪರಿಕಲ್ಪನೆಗಳ ವಿಸ್ತರಣೆಯು ಹೆಚ್ಚು ಅಧ್ಯಯನ ಮಾಡಿದ ಚಟುವಟಿಕೆಯಿಂದ ಬರುತ್ತದೆ - ಡೇಟಾಬೇಸ್ ವಿನ್ಯಾಸ. ಆದರೆ, ಮತ್ತೊಂದೆಡೆ, ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ವ್ಯವಸ್ಥೆಗಳ ತಾಂತ್ರಿಕ ಸಾಮರ್ಥ್ಯಗಳ ಮೇಲೆ ರಿಯಾಯಿತಿಗಳನ್ನು ಒದಗಿಸದ ಕಾನೂನು ರೂಢಿಗಳು ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತವೆ, ಉದಾಹರಣೆಗೆ: GDPR - ಸಾಮಾನ್ಯ ಡೇಟಾ ಸಂರಕ್ಷಣಾ ನಿಯಂತ್ರಣ.

ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ
ಅಕ್ಕಿ. 4. ತಾಂತ್ರಿಕ ಸಾಮರ್ಥ್ಯಗಳ ಕೊಳವೆ (ಮೂಲ).

ಈ ಅಂಶಗಳಲ್ಲಿ, ಮೂಲ ಡೇಟಾಸೆಟ್ (Fig. 1) ಅನ್ನು ಮೊದಲನೆಯದಾಗಿ ಉಳಿಸಬೇಕು ಮತ್ತು ಎರಡನೆಯದಾಗಿ ಅದರಿಂದ ಹೆಚ್ಚುವರಿ ಮಾಹಿತಿಯನ್ನು ಹೊರತೆಗೆಯಲು ಆಧಾರವಾಗಿರಬೇಕು ಎಂಬುದು ಸ್ಪಷ್ಟವಾಗುತ್ತದೆ. ಒಳ್ಳೆಯದು, ಉದಾಹರಣೆಯಾಗಿ: ಟ್ರಾಫಿಕ್ ನಿಯಮಗಳನ್ನು ರೆಕಾರ್ಡಿಂಗ್ ಮಾಡುವ ಕ್ಯಾಮೆರಾಗಳು ಸರ್ವತ್ರವಾಗಿವೆ, ಮಾಹಿತಿ ಸಂಸ್ಕರಣಾ ವ್ಯವಸ್ಥೆಗಳು ಉಲ್ಲಂಘಿಸುವವರನ್ನು ಹೊರಹಾಕುತ್ತವೆ, ಆದರೆ ಇತರ ಮಾಹಿತಿಯನ್ನು ಇತರ ಗ್ರಾಹಕರಿಗೆ ಸಹ ನೀಡಬಹುದು, ಉದಾಹರಣೆಗೆ, ಶಾಪಿಂಗ್ ಕೇಂದ್ರಕ್ಕೆ ಗ್ರಾಹಕರ ಹರಿವಿನ ರಚನೆಯ ಮಾರ್ಕೆಟಿಂಗ್ ಮೇಲ್ವಿಚಾರಣೆಯಂತೆ. ಮತ್ತು ಇದು BigDat ಬಳಸುವಾಗ ಹೆಚ್ಚುವರಿ ಮೌಲ್ಯದ ಮೂಲವಾಗಿದೆ. ಪ್ರಸ್ತುತ ಸಮಯದಲ್ಲಿ 1700 ರ ಅಪರೂಪದ ಆವೃತ್ತಿಗಳ ಮೌಲ್ಯವನ್ನು ಹೋಲುವ ಕಾರ್ಯವಿಧಾನದ ಪ್ರಕಾರ ಭವಿಷ್ಯದಲ್ಲಿ ಎಲ್ಲೋ ಈಗ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತಿರುವ ಡೇಟಾಸೆಟ್‌ಗಳು ಮೌಲ್ಯವನ್ನು ಹೊಂದುವ ಸಾಧ್ಯತೆಯಿದೆ. ಎಲ್ಲಾ ನಂತರ, ವಾಸ್ತವವಾಗಿ, ತಾತ್ಕಾಲಿಕ ಡೇಟಾಸೆಟ್‌ಗಳು ಅನನ್ಯವಾಗಿವೆ ಮತ್ತು ಭವಿಷ್ಯದಲ್ಲಿ ಪುನರಾವರ್ತಿಸಲು ಅಸಂಭವವಾಗಿದೆ.

3. ಪರಿಚಯಾತ್ಮಕ ಭಾಗ. ಮೌಲ್ಯಮಾಪನ ಮಾನದಂಡಗಳು

ಪ್ರಕ್ರಿಯೆ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ, ದೋಷಗಳ ಕೆಳಗಿನ ವರ್ಗೀಕರಣವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ.

1. ದೋಷ ವರ್ಗ (GOST R 8.736-2011 ಆಧರಿಸಿ): a) ವ್ಯವಸ್ಥಿತ ದೋಷಗಳು; ಬಿ) ಯಾದೃಚ್ಛಿಕ ದೋಷಗಳು; ಸಿ) ಒಂದು ಪ್ರಮಾದ.

2. ಗುಣಾಕಾರದಿಂದ: a) ಮೊನೊ ಅಸ್ಪಷ್ಟತೆ; ಬಿ) ಬಹು-ಅಸ್ಪಷ್ಟತೆ.

3. ಪರಿಣಾಮಗಳ ವಿಮರ್ಶಾತ್ಮಕತೆಯ ಪ್ರಕಾರ: a) ನಿರ್ಣಾಯಕ; ಬಿ) ನಿರ್ಣಾಯಕವಲ್ಲ.

4. ಸಂಭವಿಸುವಿಕೆಯ ಮೂಲದಿಂದ:

ಎ) ತಾಂತ್ರಿಕ - ಉಪಕರಣದ ಕಾರ್ಯಾಚರಣೆಯ ಸಮಯದಲ್ಲಿ ಸಂಭವಿಸುವ ದೋಷಗಳು. IoT ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಸಾಕಷ್ಟು ಸಂಬಂಧಿತ ದೋಷ, ಸಂವಹನದ ಗುಣಮಟ್ಟ, ಉಪಕರಣಗಳು (ಹಾರ್ಡ್‌ವೇರ್) ಮೇಲೆ ಗಮನಾರ್ಹ ಮಟ್ಟದ ಪ್ರಭಾವವನ್ನು ಹೊಂದಿರುವ ವ್ಯವಸ್ಥೆಗಳು.

ಬಿ) ಆಪರೇಟರ್ ದೋಷಗಳು - ಇನ್‌ಪುಟ್ ಸಮಯದಲ್ಲಿ ಆಪರೇಟರ್ ಟೈಪೋಸ್‌ನಿಂದ ಡೇಟಾಬೇಸ್ ವಿನ್ಯಾಸಕ್ಕಾಗಿ ತಾಂತ್ರಿಕ ವಿಶೇಷಣಗಳಲ್ಲಿನ ದೋಷಗಳವರೆಗೆ ವ್ಯಾಪಕ ಶ್ರೇಣಿಯಲ್ಲಿನ ದೋಷಗಳು.

ಸಿ) ಬಳಕೆದಾರ ದೋಷಗಳು - "ಲೇಔಟ್ ಅನ್ನು ಬದಲಾಯಿಸಲು ಮರೆತಿದ್ದೇನೆ" ನಿಂದ ಪಾದಗಳಿಗೆ ಮೀಟರ್‌ಗಳನ್ನು ತಪ್ಪಾಗಿ ಗ್ರಹಿಸುವವರೆಗೆ ಸಂಪೂರ್ಣ ಶ್ರೇಣಿಯಲ್ಲಿನ ಬಳಕೆದಾರರ ದೋಷಗಳು ಇಲ್ಲಿವೆ.

5. ಪ್ರತ್ಯೇಕ ವರ್ಗವಾಗಿ ಪ್ರತ್ಯೇಕಿಸಲಾಗಿದೆ:

ಎ) “ವಿಭಜಕದ ಕಾರ್ಯ,” ಅಂದರೆ, ಸ್ಥಳ ಮತ್ತು “:” (ನಮ್ಮ ಸಂದರ್ಭದಲ್ಲಿ) ಅದನ್ನು ನಕಲು ಮಾಡಿದಾಗ;
ಬಿ) ಒಟ್ಟಿಗೆ ಬರೆದ ಪದಗಳು;
ಸಿ) ಸೇವಾ ಅಕ್ಷರಗಳ ನಂತರ ಯಾವುದೇ ಸ್ಥಳಾವಕಾಶವಿಲ್ಲ
d) ಸಮ್ಮಿತೀಯವಾಗಿ ಬಹು ಚಿಹ್ನೆಗಳು: (), "", "...".

ಒಟ್ಟಾಗಿ ತೆಗೆದುಕೊಂಡರೆ, ಚಿತ್ರ 5 ರಲ್ಲಿ ಪ್ರಸ್ತುತಪಡಿಸಲಾದ ಡೇಟಾಬೇಸ್ ದೋಷಗಳ ವ್ಯವಸ್ಥಿತಗೊಳಿಸುವಿಕೆಯೊಂದಿಗೆ, ದೋಷಗಳನ್ನು ಹುಡುಕಲು ಮತ್ತು ಈ ಉದಾಹರಣೆಗಾಗಿ ಡೇಟಾ ಶುಚಿಗೊಳಿಸುವ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಸಾಕಷ್ಟು ಪರಿಣಾಮಕಾರಿ ನಿರ್ದೇಶಾಂಕ ವ್ಯವಸ್ಥೆಯನ್ನು ರಚಿಸಲಾಗಿದೆ.

ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ
ಅಕ್ಕಿ. 5. ಡೇಟಾಬೇಸ್‌ನ ರಚನಾತ್ಮಕ ಘಟಕಗಳಿಗೆ ಅನುಗುಣವಾದ ವಿಶಿಷ್ಟ ದೋಷಗಳು (ಮೂಲ: ಓರೆಶ್ಕೋವ್ ವಿ.ಐ., ಪಾಕ್ಲಿನ್ ಎನ್.ಬಿ. "ಡೇಟಾ ಕ್ರೋಡೀಕರಣದ ಪ್ರಮುಖ ಪರಿಕಲ್ಪನೆಗಳು").

ನಿಖರತೆ, ಡೊಮೇನ್ ಸಮಗ್ರತೆ, ಡೇಟಾ ಪ್ರಕಾರ, ಸ್ಥಿರತೆ, ಪುನರುಜ್ಜೀವನ, ಸಂಪೂರ್ಣತೆ, ನಕಲು, ವ್ಯವಹಾರ ನಿಯಮಗಳಿಗೆ ಅನುಸರಣೆ, ರಚನಾತ್ಮಕ ಖಚಿತತೆ, ಡೇಟಾ ಅಸಂಗತತೆ, ಸ್ಪಷ್ಟತೆ, ಸಮಯೋಚಿತತೆ, ಡೇಟಾ ಸಮಗ್ರತೆಯ ನಿಯಮಗಳ ಅನುಸರಣೆ. (ಪುಟ 334. ಐಟಿ ವೃತ್ತಿಪರರಿಗೆ ಡೇಟಾ ವೇರ್‌ಹೌಸಿಂಗ್ ಫಂಡಮೆಂಟಲ್ಸ್ / ಪೌಲ್‌ರಾಜ್ ಪೊನ್ನಯ್ಯ.-2ನೇ ಆವೃತ್ತಿ.)

ಬ್ರಾಕೆಟ್‌ಗಳಲ್ಲಿ ಇಂಗ್ಲಿಷ್ ಪದಗಳು ಮತ್ತು ರಷ್ಯನ್ ಯಂತ್ರ ಅನುವಾದವನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ.

ನಿಖರತೆ. ಡೇಟಾ ಅಂಶಕ್ಕಾಗಿ ಸಿಸ್ಟಮ್‌ನಲ್ಲಿ ಸಂಗ್ರಹವಾಗಿರುವ ಮೌಲ್ಯವು ಡೇಟಾ ಅಂಶದ ಸಂಭವಿಸುವಿಕೆಗೆ ಸರಿಯಾದ ಮೌಲ್ಯವಾಗಿದೆ. ನೀವು ಗ್ರಾಹಕರ ಹೆಸರನ್ನು ಹೊಂದಿದ್ದರೆ ಮತ್ತು ದಾಖಲೆಯಲ್ಲಿ ವಿಳಾಸವನ್ನು ಸಂಗ್ರಹಿಸಿದ್ದರೆ, ಆ ಹೆಸರಿನೊಂದಿಗೆ ಗ್ರಾಹಕರಿಗೆ ವಿಳಾಸವು ಸರಿಯಾದ ವಿಳಾಸವಾಗಿದೆ. ಆರ್ಡರ್ ಸಂಖ್ಯೆ 1000 ರ ದಾಖಲೆಯಲ್ಲಿ 12345678 ಯೂನಿಟ್‌ಗಳಂತೆ ಆರ್ಡರ್ ಮಾಡಲಾದ ಪ್ರಮಾಣವನ್ನು ನೀವು ಕಂಡುಕೊಂಡರೆ, ಆ ಪ್ರಮಾಣವು ಆ ಆದೇಶಕ್ಕೆ ನಿಖರವಾದ ಪ್ರಮಾಣವಾಗಿದೆ.
[ನಿಖರತೆ. ಡೇಟಾ ಅಂಶಕ್ಕಾಗಿ ಸಿಸ್ಟಮ್‌ನಲ್ಲಿ ಸಂಗ್ರಹವಾಗಿರುವ ಮೌಲ್ಯವು ಡೇಟಾ ಅಂಶದ ಸಂಭವಿಸುವಿಕೆಯ ಸರಿಯಾದ ಮೌಲ್ಯವಾಗಿದೆ. ನೀವು ಗ್ರಾಹಕರ ಹೆಸರು ಮತ್ತು ವಿಳಾಸವನ್ನು ದಾಖಲೆಯಲ್ಲಿ ಸಂಗ್ರಹಿಸಿದ್ದರೆ, ಆ ಹೆಸರಿನ ಗ್ರಾಹಕರಿಗೆ ವಿಳಾಸವು ಸರಿಯಾದ ವಿಳಾಸವಾಗಿದೆ. ಆರ್ಡರ್ ಸಂಖ್ಯೆ 1000 ರ ದಾಖಲೆಯಲ್ಲಿ 12345678 ಯೂನಿಟ್‌ಗಳಂತೆ ಆರ್ಡರ್ ಮಾಡಲಾದ ಪ್ರಮಾಣವನ್ನು ನೀವು ಕಂಡುಕೊಂಡರೆ, ಆ ಪ್ರಮಾಣವು ಆ ಆದೇಶಕ್ಕೆ ನಿಖರವಾದ ಪ್ರಮಾಣವಾಗಿದೆ.]

ಡೊಮೇನ್ ಸಮಗ್ರತೆ. ಗುಣಲಕ್ಷಣದ ಡೇಟಾ ಮೌಲ್ಯವು ಅನುಮತಿಸುವ, ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ಮೌಲ್ಯಗಳ ವ್ಯಾಪ್ತಿಯಲ್ಲಿ ಬರುತ್ತದೆ. ಸಾಮಾನ್ಯ ಉದಾಹರಣೆಯೆಂದರೆ ಲಿಂಗ ಡೇಟಾ ಅಂಶಕ್ಕೆ ಅನುಮತಿಸುವ ಮೌಲ್ಯಗಳು "ಪುರುಷ" ಮತ್ತು "ಹೆಣ್ಣು".
[ಡೊಮೇನ್ ಸಮಗ್ರತೆ. ಗುಣಲಕ್ಷಣ ಡೇಟಾ ಮೌಲ್ಯವು ಮಾನ್ಯ, ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ಮೌಲ್ಯಗಳ ವ್ಯಾಪ್ತಿಯಲ್ಲಿ ಬರುತ್ತದೆ. ಲಿಂಗ ಡೇಟಾ ಅಂಶಕ್ಕಾಗಿ "ಪುರುಷ" ಮತ್ತು "ಹೆಣ್ಣು" ಮಾನ್ಯ ಮೌಲ್ಯಗಳು ಸಾಮಾನ್ಯ ಉದಾಹರಣೆಯಾಗಿದೆ.]

ಡೇಟಾ ಪ್ರಕಾರ. ಡೇಟಾ ಗುಣಲಕ್ಷಣದ ಮೌಲ್ಯವನ್ನು ವಾಸ್ತವವಾಗಿ ಆ ಗುಣಲಕ್ಷಣಕ್ಕಾಗಿ ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ಡೇಟಾ ಪ್ರಕಾರವಾಗಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. ಸ್ಟೋರ್ ಹೆಸರಿನ ಕ್ಷೇತ್ರದ ಡೇಟಾ ಪ್ರಕಾರವನ್ನು "ಪಠ್ಯ" ಎಂದು ವ್ಯಾಖ್ಯಾನಿಸಿದಾಗ, ಆ ಕ್ಷೇತ್ರದ ಎಲ್ಲಾ ನಿದರ್ಶನಗಳು ಪಠ್ಯ ಸ್ವರೂಪದಲ್ಲಿ ತೋರಿಸಿರುವ ಸ್ಟೋರ್ ಹೆಸರನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ ಮತ್ತು ಸಂಖ್ಯಾ ಕೋಡ್‌ಗಳಲ್ಲ.
[ಡೇಟಾ ಪ್ರಕಾರ. ಡೇಟಾ ಗುಣಲಕ್ಷಣದ ಮೌಲ್ಯವನ್ನು ವಾಸ್ತವವಾಗಿ ಆ ಗುಣಲಕ್ಷಣಕ್ಕಾಗಿ ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ಡೇಟಾ ಪ್ರಕಾರವಾಗಿ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. ಸ್ಟೋರ್ ಹೆಸರು ಕ್ಷೇತ್ರದ ಡೇಟಾ ಪ್ರಕಾರವನ್ನು "ಪಠ್ಯ" ಎಂದು ವ್ಯಾಖ್ಯಾನಿಸಿದರೆ, ಈ ಕ್ಷೇತ್ರದ ಎಲ್ಲಾ ನಿದರ್ಶನಗಳು ಸಂಖ್ಯಾತ್ಮಕ ಕೋಡ್‌ಗಳಿಗಿಂತ ಪಠ್ಯ ಸ್ವರೂಪದಲ್ಲಿ ಪ್ರದರ್ಶಿಸಲಾದ ಸ್ಟೋರ್ ಹೆಸರನ್ನು ಹೊಂದಿರುತ್ತವೆ.]

ಸ್ಥಿರತೆ. ಡೇಟಾ ಕ್ಷೇತ್ರದ ರೂಪ ಮತ್ತು ವಿಷಯವು ಬಹು ಮೂಲ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಒಂದೇ ಆಗಿರುತ್ತದೆ. ಒಂದು ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಉತ್ಪನ್ನ ABC ಗಾಗಿ ಉತ್ಪನ್ನ ಕೋಡ್ 1234 ಆಗಿದ್ದರೆ, ನಂತರ ಈ ಉತ್ಪನ್ನದ ಕೋಡ್ ಪ್ರತಿ ಮೂಲ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ 1234 ಆಗಿದೆ.
[ಸ್ಥಿರತೆ. ಡೇಟಾ ಕ್ಷೇತ್ರದ ರೂಪ ಮತ್ತು ವಿಷಯವು ವಿಭಿನ್ನ ಮೂಲ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಒಂದೇ ಆಗಿರುತ್ತದೆ. ಒಂದು ಸಿಸ್ಟಂನಲ್ಲಿ ಎಬಿಸಿ ಉತ್ಪನ್ನದ ಉತ್ಪನ್ನ ಕೋಡ್ 1234 ಆಗಿದ್ದರೆ, ಆ ಉತ್ಪನ್ನದ ಕೋಡ್ ಪ್ರತಿ ಮೂಲ ಸಿಸ್ಟಂನಲ್ಲಿ 1234 ಆಗಿರುತ್ತದೆ.]

ಪುನರಾವರ್ತನೆ. ಒಂದೇ ಡೇಟಾವನ್ನು ಸಿಸ್ಟಮ್‌ನಲ್ಲಿ ಒಂದಕ್ಕಿಂತ ಹೆಚ್ಚು ಸ್ಥಳಗಳಲ್ಲಿ ಸಂಗ್ರಹಿಸಬಾರದು. ದಕ್ಷತೆಯ ಕಾರಣಗಳಿಗಾಗಿ, ಡೇಟಾ ಅಂಶವನ್ನು ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಸಿಸ್ಟಮ್‌ನಲ್ಲಿ ಒಂದಕ್ಕಿಂತ ಹೆಚ್ಚು ಸ್ಥಳಗಳಲ್ಲಿ ಸಂಗ್ರಹಿಸಿದ್ದರೆ, ನಂತರ ಪುನರುಕ್ತಿಯನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಗುರುತಿಸಬೇಕು ಮತ್ತು ಪರಿಶೀಲಿಸಬೇಕು.
[ಪುನರುಕ್ತಿ. ಒಂದೇ ಡೇಟಾವನ್ನು ಸಿಸ್ಟಂನಲ್ಲಿ ಒಂದಕ್ಕಿಂತ ಹೆಚ್ಚು ಸ್ಥಳಗಳಲ್ಲಿ ಸಂಗ್ರಹಿಸಬಾರದು. ದಕ್ಷತೆಯ ಕಾರಣಗಳಿಗಾಗಿ, ಡೇಟಾ ಅಂಶವನ್ನು ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಸಿಸ್ಟಮ್‌ನಲ್ಲಿ ಅನೇಕ ಸ್ಥಳಗಳಲ್ಲಿ ಸಂಗ್ರಹಿಸಿದ್ದರೆ, ನಂತರ ಪುನರುಕ್ತಿಯನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ವ್ಯಾಖ್ಯಾನಿಸಬೇಕು ಮತ್ತು ಪರಿಶೀಲಿಸಬೇಕು.]

ಸಂಪೂರ್ಣತೆ. ಸಿಸ್ಟಮ್‌ನಲ್ಲಿ ನಿರ್ದಿಷ್ಟ ಗುಣಲಕ್ಷಣಕ್ಕಾಗಿ ಯಾವುದೇ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಗ್ರಾಹಕ ಫೈಲ್‌ನಲ್ಲಿ, ಪ್ರತಿ ಗ್ರಾಹಕರಿಗೆ "ರಾಜ್ಯ" ಕ್ಷೇತ್ರಕ್ಕೆ ಮಾನ್ಯವಾದ ಮೌಲ್ಯ ಇರಬೇಕು. ಆರ್ಡರ್ ವಿವರಗಳಿಗಾಗಿ ಫೈಲ್‌ನಲ್ಲಿ, ಆರ್ಡರ್‌ಗಾಗಿ ಪ್ರತಿ ವಿವರ ದಾಖಲೆಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಭರ್ತಿ ಮಾಡಬೇಕು.
[ಸಂಪೂರ್ಣತೆ. ಈ ಗುಣಲಕ್ಷಣಕ್ಕಾಗಿ ಸಿಸ್ಟಮ್‌ನಲ್ಲಿ ಯಾವುದೇ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಕ್ಲೈಂಟ್ ಫೈಲ್ ಪ್ರತಿ ಕ್ಲೈಂಟ್‌ಗೆ "ಸ್ಥಿತಿ" ಕ್ಷೇತ್ರಕ್ಕೆ ಮಾನ್ಯವಾದ ಮೌಲ್ಯವನ್ನು ಹೊಂದಿರಬೇಕು. ಆರ್ಡರ್ ವಿವರ ಫೈಲ್‌ನಲ್ಲಿ, ಪ್ರತಿ ಆರ್ಡರ್ ವಿವರ ದಾಖಲೆಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪೂರ್ಣಗೊಳಿಸಬೇಕು.]

ನಕಲು. ವ್ಯವಸ್ಥೆಯಲ್ಲಿನ ದಾಖಲೆಗಳ ನಕಲು ಸಂಪೂರ್ಣವಾಗಿ ಪರಿಹರಿಸಲ್ಪಡುತ್ತದೆ. ಉತ್ಪನ್ನ ಫೈಲ್ ನಕಲಿ ದಾಖಲೆಗಳನ್ನು ಹೊಂದಿದೆ ಎಂದು ತಿಳಿದಿದ್ದರೆ, ಪ್ರತಿ ಉತ್ಪನ್ನಕ್ಕೆ ಎಲ್ಲಾ ನಕಲಿ ದಾಖಲೆಗಳನ್ನು ಗುರುತಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಅಡ್ಡ-ಉಲ್ಲೇಖವನ್ನು ರಚಿಸಲಾಗುತ್ತದೆ.
[ನಕಲು. ವ್ಯವಸ್ಥೆಯಲ್ಲಿನ ದಾಖಲೆಗಳ ನಕಲು ಸಂಪೂರ್ಣವಾಗಿ ತೆಗೆದುಹಾಕಲಾಗಿದೆ. ಉತ್ಪನ್ನ ಫೈಲ್ ನಕಲಿ ನಮೂದುಗಳನ್ನು ಹೊಂದಿದೆ ಎಂದು ತಿಳಿದಿದ್ದರೆ, ಪ್ರತಿ ಉತ್ಪನ್ನಕ್ಕೆ ಎಲ್ಲಾ ನಕಲಿ ನಮೂದುಗಳನ್ನು ಗುರುತಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಅಡ್ಡ-ಉಲ್ಲೇಖವನ್ನು ರಚಿಸಲಾಗುತ್ತದೆ.]

ವ್ಯಾಪಾರ ನಿಯಮಗಳಿಗೆ ಅನುಸರಣೆ. ಪ್ರತಿ ಡೇಟಾ ಐಟಂನ ಮೌಲ್ಯಗಳು ನಿಗದಿತ ವ್ಯಾಪಾರ ನಿಯಮಗಳಿಗೆ ಬದ್ಧವಾಗಿರುತ್ತವೆ. ಹರಾಜು ವ್ಯವಸ್ಥೆಯಲ್ಲಿ, ಸುತ್ತಿಗೆ ಅಥವಾ ಮಾರಾಟದ ಬೆಲೆಯು ಮೀಸಲು ಬೆಲೆಗಿಂತ ಕಡಿಮೆ ಇರುವಂತಿಲ್ಲ. ಬ್ಯಾಂಕ್ ಸಾಲ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ, ಸಾಲದ ಬಾಕಿ ಯಾವಾಗಲೂ ಧನಾತ್ಮಕ ಅಥವಾ ಶೂನ್ಯವಾಗಿರಬೇಕು.
[ವ್ಯಾಪಾರ ನಿಯಮಗಳ ಅನುಸರಣೆ. ಪ್ರತಿ ಡೇಟಾ ಅಂಶದ ಮೌಲ್ಯಗಳು ಸ್ಥಾಪಿತ ವ್ಯಾಪಾರ ನಿಯಮಗಳನ್ನು ಅನುಸರಿಸುತ್ತವೆ. ಹರಾಜು ವ್ಯವಸ್ಥೆಯಲ್ಲಿ, ಸುತ್ತಿಗೆ ಅಥವಾ ಮಾರಾಟದ ಬೆಲೆಯು ಮೀಸಲು ಬೆಲೆಗಿಂತ ಕಡಿಮೆ ಇರುವಂತಿಲ್ಲ. ಬ್ಯಾಂಕಿಂಗ್ ಕ್ರೆಡಿಟ್ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ, ಸಾಲದ ಬಾಕಿ ಯಾವಾಗಲೂ ಧನಾತ್ಮಕ ಅಥವಾ ಶೂನ್ಯವಾಗಿರಬೇಕು.]

ರಚನಾತ್ಮಕ ನಿಶ್ಚಿತತೆ. ಡೇಟಾ ಐಟಂ ಅನ್ನು ಸ್ವಾಭಾವಿಕವಾಗಿ ಪ್ರತ್ಯೇಕ ಘಟಕಗಳಾಗಿ ರಚಿಸಬಹುದಾದಲ್ಲೆಲ್ಲಾ, ಐಟಂ ಈ ಉತ್ತಮವಾಗಿ ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ರಚನೆಯನ್ನು ಹೊಂದಿರಬೇಕು. ಉದಾಹರಣೆಗೆ, ಒಬ್ಬ ವ್ಯಕ್ತಿಯ ಹೆಸರು ಸ್ವಾಭಾವಿಕವಾಗಿ ಮೊದಲ ಹೆಸರು, ಮಧ್ಯಮ ಆರಂಭಿಕ ಮತ್ತು ಕೊನೆಯ ಹೆಸರು ಎಂದು ವಿಭಜಿಸುತ್ತದೆ. ವ್ಯಕ್ತಿಗಳ ಹೆಸರುಗಳ ಮೌಲ್ಯಗಳನ್ನು ಮೊದಲ ಹೆಸರು, ಮಧ್ಯದ ಆರಂಭಿಕ ಮತ್ತು ಕೊನೆಯ ಹೆಸರು ಎಂದು ಸಂಗ್ರಹಿಸಬೇಕು. ಡೇಟಾ ಗುಣಮಟ್ಟದ ಈ ಗುಣಲಕ್ಷಣವು ಮಾನದಂಡಗಳ ಜಾರಿಯನ್ನು ಸರಳಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
[ರಚನಾತ್ಮಕ ನಿಶ್ಚಿತತೆ. ಡೇಟಾ ಅಂಶವನ್ನು ಸ್ವಾಭಾವಿಕವಾಗಿ ಪ್ರತ್ಯೇಕ ಘಟಕಗಳಾಗಿ ರಚಿಸಬಹುದಾದಲ್ಲಿ, ಅಂಶವು ಈ ಉತ್ತಮವಾಗಿ ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ರಚನೆಯನ್ನು ಹೊಂದಿರಬೇಕು. ಉದಾಹರಣೆಗೆ, ವ್ಯಕ್ತಿಯ ಹೆಸರನ್ನು ಸ್ವಾಭಾವಿಕವಾಗಿ ಮೊದಲ ಹೆಸರು, ಮಧ್ಯಮ ಆರಂಭಿಕ ಮತ್ತು ಕೊನೆಯ ಹೆಸರು ಎಂದು ವಿಂಗಡಿಸಲಾಗಿದೆ. ವೈಯಕ್ತಿಕ ಹೆಸರುಗಳ ಮೌಲ್ಯಗಳನ್ನು ಮೊದಲ ಹೆಸರು, ಮಧ್ಯದ ಆರಂಭಿಕ ಮತ್ತು ಕೊನೆಯ ಹೆಸರು ಎಂದು ಸಂಗ್ರಹಿಸಬೇಕು. ಈ ಡೇಟಾ ಗುಣಮಟ್ಟದ ಗುಣಲಕ್ಷಣವು ಮಾನದಂಡಗಳ ಅನ್ವಯವನ್ನು ಸರಳಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.]

ಡೇಟಾ ಅಸಂಗತತೆ. ಒಂದು ಕ್ಷೇತ್ರವನ್ನು ಅದನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ಉದ್ದೇಶಕ್ಕಾಗಿ ಮಾತ್ರ ಬಳಸಬೇಕು. ದೀರ್ಘ ವಿಳಾಸಗಳಿಗಾಗಿ ಯಾವುದೇ ಸಂಭವನೀಯ ಮೂರನೇ ಸಾಲಿನ ವಿಳಾಸಕ್ಕಾಗಿ ಕ್ಷೇತ್ರ ವಿಳಾಸ-3 ಅನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಿದರೆ, ಈ ಕ್ಷೇತ್ರವನ್ನು ಮೂರನೇ ಸಾಲಿನ ವಿಳಾಸವನ್ನು ದಾಖಲಿಸಲು ಮಾತ್ರ ಬಳಸಬೇಕು. ಗ್ರಾಹಕರಿಗೆ ಫೋನ್ ಅಥವಾ ಫ್ಯಾಕ್ಸ್ ಸಂಖ್ಯೆಯನ್ನು ನಮೂದಿಸಲು ಇದನ್ನು ಬಳಸಬಾರದು.
[ಡೇಟಾ ಅಸಂಗತತೆ. ಕ್ಷೇತ್ರವನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಲಾದ ಉದ್ದೇಶಕ್ಕಾಗಿ ಮಾತ್ರ ಬಳಸಬೇಕು. ದೀರ್ಘ ವಿಳಾಸಗಳಿಗಾಗಿ ಯಾವುದೇ ಸಂಭವನೀಯ ಮೂರನೇ ವಿಳಾಸದ ಸಾಲಿಗೆ ವಿಳಾಸ-3 ಕ್ಷೇತ್ರವನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಿದರೆ, ಈ ಕ್ಷೇತ್ರವನ್ನು ಮೂರನೇ ವಿಳಾಸದ ಸಾಲನ್ನು ದಾಖಲಿಸಲು ಮಾತ್ರ ಬಳಸಲಾಗುತ್ತದೆ. ಗ್ರಾಹಕರಿಗಾಗಿ ದೂರವಾಣಿ ಅಥವಾ ಫ್ಯಾಕ್ಸ್ ಸಂಖ್ಯೆಯನ್ನು ನಮೂದಿಸಲು ಇದನ್ನು ಬಳಸಬಾರದು.]

ಸ್ಪಷ್ಟತೆ. ಡೇಟಾ ಅಂಶವು ಗುಣಮಟ್ಟದ ಡೇಟಾದ ಎಲ್ಲಾ ಇತರ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಹೊಂದಿರಬಹುದು ಆದರೆ ಬಳಕೆದಾರರು ಅದರ ಅರ್ಥವನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳದಿದ್ದರೆ, ಡೇಟಾ ಅಂಶವು ಬಳಕೆದಾರರಿಗೆ ಯಾವುದೇ ಮೌಲ್ಯವನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ. ಸರಿಯಾದ ಹೆಸರಿಸುವ ಸಂಪ್ರದಾಯಗಳು ಡೇಟಾ ಅಂಶಗಳನ್ನು ಬಳಕೆದಾರರಿಗೆ ಚೆನ್ನಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
[ಸ್ಪಷ್ಟತೆ. ಡೇಟಾ ಅಂಶವು ಉತ್ತಮ ಡೇಟಾದ ಎಲ್ಲಾ ಇತರ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಹೊಂದಿರಬಹುದು, ಆದರೆ ಬಳಕೆದಾರರು ಅದರ ಅರ್ಥವನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳದಿದ್ದರೆ, ಡೇಟಾ ಅಂಶವು ಬಳಕೆದಾರರಿಗೆ ಯಾವುದೇ ಮೌಲ್ಯವನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ. ಸರಿಯಾದ ಹೆಸರಿಸುವ ಸಂಪ್ರದಾಯಗಳು ಡೇಟಾ ಅಂಶಗಳನ್ನು ಬಳಕೆದಾರರಿಗೆ ಚೆನ್ನಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.]

ಸಮಯೋಚಿತ. ಬಳಕೆದಾರರು ಡೇಟಾದ ಸಮಯವನ್ನು ನಿರ್ಧರಿಸುತ್ತಾರೆ. ಗ್ರಾಹಕ ಆಯಾಮದ ಡೇಟಾವು ಒಂದು ದಿನಕ್ಕಿಂತ ಹಳೆಯದಾಗಿರಬಾರದು ಎಂದು ಬಳಕೆದಾರರು ನಿರೀಕ್ಷಿಸಿದರೆ, ಮೂಲ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿನ ಗ್ರಾಹಕರ ಡೇಟಾಗೆ ಬದಲಾವಣೆಗಳನ್ನು ಪ್ರತಿದಿನ ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ಗೆ ಅನ್ವಯಿಸಬೇಕು.
[ಸಮಯಕ್ಕೆ ಸರಿಯಾಗಿ. ಡೇಟಾದ ಸಮಯೋಚಿತತೆಯನ್ನು ಬಳಕೆದಾರರು ನಿರ್ಧರಿಸುತ್ತಾರೆ. ಗ್ರಾಹಕ ಆಯಾಮದ ಡೇಟಾವು ಒಂದು ದಿನಕ್ಕಿಂತ ಹಳೆಯದಾಗಿಲ್ಲ ಎಂದು ಬಳಕೆದಾರರು ನಿರೀಕ್ಷಿಸಿದರೆ, ಮೂಲ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿನ ಗ್ರಾಹಕರ ಡೇಟಾಗೆ ಬದಲಾವಣೆಗಳನ್ನು ಪ್ರತಿದಿನ ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ಗೆ ಅನ್ವಯಿಸಬೇಕು.]

ಉಪಯುಕ್ತತೆ. ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ನಲ್ಲಿರುವ ಪ್ರತಿಯೊಂದು ಡೇಟಾ ಅಂಶವು ಬಳಕೆದಾರರ ಸಂಗ್ರಹಣೆಯ ಕೆಲವು ಅವಶ್ಯಕತೆಗಳನ್ನು ಪೂರೈಸಬೇಕು. ಡೇಟಾ ಅಂಶವು ನಿಖರ ಮತ್ತು ಉತ್ತಮ ಗುಣಮಟ್ಟದ್ದಾಗಿರಬಹುದು, ಆದರೆ ಅದು ಬಳಕೆದಾರರಿಗೆ ಯಾವುದೇ ಮೌಲ್ಯವನ್ನು ಹೊಂದಿಲ್ಲದಿದ್ದರೆ, ಆ ಡೇಟಾ ಅಂಶವು ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ನಲ್ಲಿರುವುದು ಸಂಪೂರ್ಣವಾಗಿ ಅನಗತ್ಯವಾಗಿರುತ್ತದೆ.
[ಉಪಯುಕ್ತತೆ. ಡೇಟಾ ಸ್ಟೋರ್‌ನಲ್ಲಿರುವ ಪ್ರತಿಯೊಂದು ಡೇಟಾ ಐಟಂ ಬಳಕೆದಾರರ ಸಂಗ್ರಹಣೆಯ ಕೆಲವು ಅವಶ್ಯಕತೆಗಳನ್ನು ಪೂರೈಸಬೇಕು. ಡೇಟಾ ಅಂಶವು ನಿಖರ ಮತ್ತು ಉತ್ತಮ ಗುಣಮಟ್ಟದ್ದಾಗಿರಬಹುದು, ಆದರೆ ಅದು ಬಳಕೆದಾರರಿಗೆ ಮೌಲ್ಯವನ್ನು ಒದಗಿಸದಿದ್ದರೆ, ಆ ಡೇಟಾ ಅಂಶವು ಡೇಟಾ ವೇರ್‌ಹೌಸ್‌ನಲ್ಲಿರುವುದು ಅನಿವಾರ್ಯವಲ್ಲ.]

ಡೇಟಾ ಸಮಗ್ರತೆಯ ನಿಯಮಗಳ ಅನುಸರಣೆ. ಮೂಲ ವ್ಯವಸ್ಥೆಗಳ ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾದ ಡೇಟಾವು ಘಟಕದ ಸಮಗ್ರತೆ ಮತ್ತು ಉಲ್ಲೇಖಿತ ಸಮಗ್ರತೆಯ ನಿಯಮಗಳಿಗೆ ಬದ್ಧವಾಗಿರಬೇಕು. ಪ್ರಾಥಮಿಕ ಕೀಲಿಯಾಗಿ ಶೂನ್ಯವನ್ನು ಅನುಮತಿಸುವ ಯಾವುದೇ ಕೋಷ್ಟಕವು ಘಟಕದ ಸಮಗ್ರತೆಯನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ. ಉಲ್ಲೇಖಿತ ಸಮಗ್ರತೆಯು ಪೋಷಕ-ಮಕ್ಕಳ ಸಂಬಂಧಗಳನ್ನು ಸರಿಯಾಗಿ ಸ್ಥಾಪಿಸಲು ಒತ್ತಾಯಿಸುತ್ತದೆ. ಗ್ರಾಹಕರಿಂದ ಆದೇಶದ ಸಂಬಂಧದಲ್ಲಿ, ಉಲ್ಲೇಖಿತ ಸಮಗ್ರತೆಯು ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ಆದೇಶಕ್ಕೂ ಗ್ರಾಹಕರ ಅಸ್ತಿತ್ವವನ್ನು ಖಾತ್ರಿಗೊಳಿಸುತ್ತದೆ.
[ಡೇಟಾ ಸಮಗ್ರತೆಯ ನಿಯಮಗಳ ಅನುಸರಣೆ. ಮೂಲ ವ್ಯವಸ್ಥೆಗಳ ಸಂಬಂಧಿತ ಡೇಟಾಬೇಸ್‌ಗಳಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾದ ಡೇಟಾವು ಘಟಕದ ಸಮಗ್ರತೆ ಮತ್ತು ಉಲ್ಲೇಖಿತ ಸಮಗ್ರತೆಯ ನಿಯಮಗಳನ್ನು ಅನುಸರಿಸಬೇಕು. ಶೂನ್ಯವನ್ನು ಪ್ರಾಥಮಿಕ ಕೀಲಿಯಾಗಿ ಅನುಮತಿಸುವ ಯಾವುದೇ ಟೇಬಲ್ ಘಟಕದ ಸಮಗ್ರತೆಯನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ. ಉಲ್ಲೇಖಿತ ಸಮಗ್ರತೆಯು ಪೋಷಕರು ಮತ್ತು ಮಕ್ಕಳ ನಡುವಿನ ಸಂಬಂಧವನ್ನು ಸರಿಯಾಗಿ ಸ್ಥಾಪಿಸಲು ಒತ್ತಾಯಿಸುತ್ತದೆ. ಗ್ರಾಹಕ-ಆರ್ಡರ್ ಸಂಬಂಧದಲ್ಲಿ, ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ಆದೇಶಕ್ಕೂ ಗ್ರಾಹಕರು ಅಸ್ತಿತ್ವದಲ್ಲಿರುತ್ತಾರೆ ಎಂದು ಉಲ್ಲೇಖಿತ ಸಮಗ್ರತೆಯು ಖಚಿತಪಡಿಸುತ್ತದೆ.]

4. ಡೇಟಾ ಶುಚಿಗೊಳಿಸುವ ಗುಣಮಟ್ಟ

ಬಿಗ್‌ಡೇಟಾದಲ್ಲಿ ಡೇಟಾ ಶುದ್ಧೀಕರಣದ ಗುಣಮಟ್ಟವು ಸಮಸ್ಯಾತ್ಮಕ ಸಮಸ್ಯೆಯಾಗಿದೆ. ಕಾರ್ಯವನ್ನು ಪೂರ್ಣಗೊಳಿಸಲು ಯಾವ ಹಂತದ ಡೇಟಾ ಶುಚಿಗೊಳಿಸುವಿಕೆ ಅಗತ್ಯ ಎಂಬ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸುವುದು ಪ್ರತಿ ಡೇಟಾ ವಿಶ್ಲೇಷಕರಿಗೆ ಮೂಲಭೂತವಾಗಿದೆ. ಹೆಚ್ಚಿನ ಪ್ರಸ್ತುತ ಸಮಸ್ಯೆಗಳಲ್ಲಿ, ಪ್ರತಿಯೊಬ್ಬ ವಿಶ್ಲೇಷಕನು ಇದನ್ನು ಸ್ವತಃ ನಿರ್ಧರಿಸುತ್ತಾನೆ ಮತ್ತು ಹೊರಗಿನಿಂದ ಯಾರಾದರೂ ತನ್ನ ಪರಿಹಾರದಲ್ಲಿ ಈ ಅಂಶವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ ಎಂಬುದು ಅಸಂಭವವಾಗಿದೆ. ಆದರೆ ಈ ಸಂದರ್ಭದಲ್ಲಿ ಕೈಯಲ್ಲಿರುವ ಕಾರ್ಯಕ್ಕಾಗಿ, ಈ ಸಮಸ್ಯೆಯು ಬಹಳ ಮುಖ್ಯವಾಗಿತ್ತು, ಏಕೆಂದರೆ ಕಾನೂನು ಡೇಟಾದ ವಿಶ್ವಾಸಾರ್ಹತೆಯು ಒಂದಕ್ಕೆ ಒಲವು ತೋರಬೇಕು.

ಕಾರ್ಯಾಚರಣೆಯ ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು ನಿರ್ಧರಿಸಲು ಸಾಫ್ಟ್‌ವೇರ್ ಪರೀಕ್ಷಾ ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ಪರಿಗಣಿಸಿ. ಇಂದು ಈ ಮಾದರಿಗಳಿಗಿಂತ ಹೆಚ್ಚು ಇವೆ 200. ಅನೇಕ ಮಾದರಿಗಳು ಕ್ಲೈಮ್ ಸರ್ವಿಸಿಂಗ್ ಮಾದರಿಯನ್ನು ಬಳಸುತ್ತವೆ:

ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ
ಅಂಜೂರ. 6

ಈ ಕೆಳಗಿನಂತೆ ಯೋಚಿಸುವುದು: "ಈ ಮಾದರಿಯಲ್ಲಿನ ವೈಫಲ್ಯದ ಘಟನೆಗೆ ಹೋಲುವ ದೋಷವು ಕಂಡುಬಂದರೆ, ಟಿ ನಿಯತಾಂಕದ ಅನಲಾಗ್ ಅನ್ನು ಹೇಗೆ ಕಂಡುಹಿಡಿಯುವುದು?" ಮತ್ತು ನಾನು ಈ ಕೆಳಗಿನ ಮಾದರಿಯನ್ನು ಸಂಕಲಿಸಿದ್ದೇನೆ: ಒಂದು ದಾಖಲೆಯನ್ನು ಪರಿಶೀಲಿಸಲು ಪರೀಕ್ಷಕನು ತೆಗೆದುಕೊಳ್ಳುವ ಸಮಯವು 1 ನಿಮಿಷ (ಪ್ರಶ್ನೆಯಲ್ಲಿರುವ ಡೇಟಾಬೇಸ್‌ಗಾಗಿ) ಎಂದು ಊಹಿಸೋಣ, ನಂತರ ಎಲ್ಲಾ ದೋಷಗಳನ್ನು ಕಂಡುಹಿಡಿಯಲು ಅವನಿಗೆ 365 ನಿಮಿಷಗಳು ಬೇಕಾಗುತ್ತವೆ, ಅಂದರೆ ಸರಿಸುಮಾರು 494 ವರ್ಷಗಳು ಮತ್ತು 3 ತಿಂಗಳ ಕೆಲಸದ ಸಮಯ. ನಾವು ಅರ್ಥಮಾಡಿಕೊಂಡಂತೆ, ಇದು ಬಹಳ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಕೆಲಸವಾಗಿದೆ ಮತ್ತು ಡೇಟಾಬೇಸ್ ಅನ್ನು ಪರಿಶೀಲಿಸುವ ವೆಚ್ಚಗಳು ಈ ಡೇಟಾಬೇಸ್‌ನ ಕಂಪೈಲರ್‌ಗೆ ನಿಷೇಧಿತವಾಗಿರುತ್ತದೆ. ಈ ಪ್ರತಿಬಿಂಬದಲ್ಲಿ, ವೆಚ್ಚಗಳ ಆರ್ಥಿಕ ಪರಿಕಲ್ಪನೆಯು ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ವಿಶ್ಲೇಷಣೆಯ ನಂತರ ಇದು ಸಾಕಷ್ಟು ಪರಿಣಾಮಕಾರಿ ಸಾಧನವಾಗಿದೆ ಎಂದು ನಾನು ತೀರ್ಮಾನಕ್ಕೆ ಬಂದಿದ್ದೇನೆ. ಅರ್ಥಶಾಸ್ತ್ರದ ನಿಯಮವನ್ನು ಆಧರಿಸಿ: “ಸಂಸ್ಥೆಯ ಗರಿಷ್ಠ ಲಾಭವನ್ನು ಸಾಧಿಸುವ ಉತ್ಪಾದನೆಯ ಪ್ರಮಾಣವು (ಘಟಕಗಳಲ್ಲಿ) ಹೊಸ ಘಟಕ ಉತ್ಪಾದನೆಯ ಕನಿಷ್ಠ ವೆಚ್ಚವನ್ನು ಈ ಸಂಸ್ಥೆಯು ಪಡೆಯಬಹುದಾದ ಬೆಲೆಯೊಂದಿಗೆ ಹೋಲಿಸುವ ಹಂತದಲ್ಲಿದೆ. ಹೊಸ ಘಟಕಕ್ಕಾಗಿ." ಪ್ರತಿ ನಂತರದ ದೋಷವನ್ನು ಕಂಡುಹಿಡಿಯಲು ದಾಖಲೆಗಳ ಹೆಚ್ಚಿನ ಪರಿಶೀಲನೆಯ ಅಗತ್ಯವಿರುತ್ತದೆ ಎಂಬ ಪ್ರತಿಪಾದನೆಯ ಆಧಾರದ ಮೇಲೆ, ಇದು ವೆಚ್ಚದ ಅಂಶವಾಗಿದೆ. ಅಂದರೆ, ಪರೀಕ್ಷಾ ಮಾದರಿಗಳಲ್ಲಿ ಅಳವಡಿಸಿಕೊಂಡ ಪೋಸ್ಟುಲೇಟ್ ಈ ಕೆಳಗಿನ ಮಾದರಿಯಲ್ಲಿ ಭೌತಿಕ ಅರ್ಥವನ್ನು ಪಡೆಯುತ್ತದೆ: i-th ದೋಷವನ್ನು ಕಂಡುಹಿಡಿಯಲು n ದಾಖಲೆಗಳನ್ನು ಪರಿಶೀಲಿಸುವುದು ಅಗತ್ಯವಾಗಿದ್ದರೆ, ಮುಂದಿನ (i+3) ದೋಷವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಅದು ಅಗತ್ಯವಾಗಿರುತ್ತದೆ. m ದಾಖಲೆಗಳನ್ನು ಪರಿಶೀಲಿಸಲು ಮತ್ತು ಅದೇ ಸಮಯದಲ್ಲಿ n<m. ಪರೀಕ್ಷಾ ಮಾದರಿಗಳಲ್ಲಿ ಈ ಪ್ರತಿಪಾದನೆಯು ಮುಖ್ಯವಾಗಿ ಕಂಡುಬರುವ ದೋಷಗಳನ್ನು ದಾಖಲಿಸಬೇಕು, ಆದರೆ ಸರಿಪಡಿಸಬಾರದು ಎಂಬ ಅವಶ್ಯಕತೆಯಿಂದ ರೂಪಿಸಲಾಗಿದೆ, ಇದರಿಂದ ಸಾಫ್ಟ್‌ವೇರ್ ಅನ್ನು ಅದರ ನೈಸರ್ಗಿಕ ಸ್ಥಿತಿಯಲ್ಲಿ ಪರೀಕ್ಷಿಸಲಾಗುತ್ತದೆ, ಅಂದರೆ, ವೈಫಲ್ಯಗಳ ಹರಿವು ಏಕರೂಪವಾಗಿರುತ್ತದೆ. ಅಂತೆಯೇ, ನಮ್ಮ ಸಂದರ್ಭದಲ್ಲಿ, ದಾಖಲೆಗಳನ್ನು ಪರಿಶೀಲಿಸುವುದು ಏಕರೂಪತೆಗೆ ಎರಡು ಆಯ್ಕೆಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸಬಹುದು:

  1. ಹೊಸ ದೋಷ ಕಂಡು ಬರುವ ಮೊದಲು ಪರಿಶೀಲಿಸಲಾದ ದಾಖಲೆಗಳ ಸಂಖ್ಯೆಯು ಸ್ಥಿರಗೊಳ್ಳುತ್ತದೆ;
  2. ಮುಂದಿನ ದೋಷವನ್ನು ಕಂಡುಹಿಡಿಯುವ ಮೊದಲು ಪರಿಶೀಲಿಸಲಾದ ದಾಖಲೆಗಳ ಸಂಖ್ಯೆಯು ಹೆಚ್ಚಾಗುತ್ತದೆ.

ನಿರ್ಣಾಯಕ ಮೌಲ್ಯವನ್ನು ನಿರ್ಧರಿಸಲು, ನಾನು ಆರ್ಥಿಕ ಕಾರ್ಯಸಾಧ್ಯತೆಯ ಪರಿಕಲ್ಪನೆಗೆ ತಿರುಗಿದೆ, ಈ ಸಂದರ್ಭದಲ್ಲಿ, ಸಾಮಾಜಿಕ ವೆಚ್ಚಗಳ ಪರಿಕಲ್ಪನೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಈ ಕೆಳಗಿನಂತೆ ರೂಪಿಸಬಹುದು: "ದೋಷವನ್ನು ಸರಿಪಡಿಸುವ ವೆಚ್ಚವನ್ನು ಆರ್ಥಿಕ ಏಜೆಂಟ್ ಭರಿಸಬೇಕು. ಇದು ಅತ್ಯಂತ ಕಡಿಮೆ ವೆಚ್ಚದಲ್ಲಿ." ನಾವು ಒಬ್ಬ ಏಜೆಂಟ್ ಅನ್ನು ಹೊಂದಿದ್ದೇವೆ - ಒಂದು ದಾಖಲೆಯನ್ನು ಪರಿಶೀಲಿಸಲು 1 ನಿಮಿಷವನ್ನು ಕಳೆಯುವ ಪರೀಕ್ಷಕ. ವಿತ್ತೀಯ ಪರಿಭಾಷೆಯಲ್ಲಿ, ನೀವು ದಿನಕ್ಕೆ 6000 ರೂಬಲ್ಸ್ಗಳನ್ನು ಗಳಿಸಿದರೆ, ಇದು 12,2 ರೂಬಲ್ಸ್ಗಳಾಗಿರುತ್ತದೆ. (ಅಂದಾಜು ಇಂದು). ಆರ್ಥಿಕ ಕಾನೂನಿನಲ್ಲಿ ಸಮತೋಲನದ ಎರಡನೇ ಭಾಗವನ್ನು ನಿರ್ಧರಿಸಲು ಇದು ಉಳಿದಿದೆ. ನಾನು ಹೀಗೆ ತರ್ಕಿಸಿದೆ. ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ದೋಷವು ಅದನ್ನು ಸರಿಪಡಿಸಲು, ಅಂದರೆ ಆಸ್ತಿಯ ಮಾಲೀಕರಿಗೆ ಪ್ರಯತ್ನವನ್ನು ವ್ಯಯಿಸುವ ಅಗತ್ಯವಿದೆ. ಇದಕ್ಕೆ 1 ದಿನದ ಕ್ರಿಯೆಯ ಅಗತ್ಯವಿದೆ ಎಂದು ಹೇಳೋಣ (ಅರ್ಜಿಯನ್ನು ಸಲ್ಲಿಸಿ, ಸರಿಪಡಿಸಿದ ಡಾಕ್ಯುಮೆಂಟ್ ಅನ್ನು ಸ್ವೀಕರಿಸಿ). ನಂತರ, ಸಾಮಾಜಿಕ ದೃಷ್ಟಿಕೋನದಿಂದ, ಅವನ ವೆಚ್ಚಗಳು ದಿನಕ್ಕೆ ಸರಾಸರಿ ಸಂಬಳಕ್ಕೆ ಸಮಾನವಾಗಿರುತ್ತದೆ. ಖಾಂಟಿ-ಮಾನ್ಸಿ ಸ್ವಾಯತ್ತ ಒಕ್ರುಗ್‌ನಲ್ಲಿ ಸರಾಸರಿ ಸಂಚಿತ ವೇತನ "ಖಾಂಟಿ-ಮಾನ್ಸಿಸ್ಕ್ ಸ್ವಾಯತ್ತ ಒಕ್ರುಗ್ನ ಸಾಮಾಜಿಕ-ಆರ್ಥಿಕ ಅಭಿವೃದ್ಧಿಯ ಫಲಿತಾಂಶಗಳು - ಜನವರಿ-ಸೆಪ್ಟೆಂಬರ್ 2019 ಗಾಗಿ ಉಗ್ರಾ" 73285 ರಬ್. ಅಥವಾ 3053,542 ರೂಬಲ್ಸ್ / ದಿನ. ಅಂತೆಯೇ, ನಾವು ಇದಕ್ಕೆ ಸಮಾನವಾದ ನಿರ್ಣಾಯಕ ಮೌಲ್ಯವನ್ನು ಪಡೆಯುತ್ತೇವೆ:
3053,542: 12,2 = 250,4 ದಾಖಲೆಗಳ ಘಟಕಗಳು.

ಇದರರ್ಥ, ಸಾಮಾಜಿಕ ದೃಷ್ಟಿಕೋನದಿಂದ, ಪರೀಕ್ಷಕನು 251 ದಾಖಲೆಗಳನ್ನು ಪರಿಶೀಲಿಸಿದರೆ ಮತ್ತು ಒಂದು ದೋಷವನ್ನು ಕಂಡುಕೊಂಡರೆ, ಬಳಕೆದಾರರು ಈ ದೋಷವನ್ನು ಸ್ವತಃ ಸರಿಪಡಿಸುವುದಕ್ಕೆ ಸಮನಾಗಿರುತ್ತದೆ. ಅಂತೆಯೇ, ಮುಂದಿನ ದೋಷವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಪರೀಕ್ಷಕರು 252 ದಾಖಲೆಗಳನ್ನು ಪರಿಶೀಲಿಸಲು ಸಮಾನ ಸಮಯವನ್ನು ಕಳೆದರೆ, ಈ ಸಂದರ್ಭದಲ್ಲಿ ಬಳಕೆದಾರರಿಗೆ ತಿದ್ದುಪಡಿಯ ವೆಚ್ಚವನ್ನು ಬದಲಾಯಿಸುವುದು ಉತ್ತಮ.

ಸರಳೀಕೃತ ವಿಧಾನವನ್ನು ಇಲ್ಲಿ ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ, ಏಕೆಂದರೆ ಸಾಮಾಜಿಕ ದೃಷ್ಟಿಕೋನದಿಂದ ಪ್ರತಿಯೊಬ್ಬ ತಜ್ಞರು ಉತ್ಪಾದಿಸುವ ಎಲ್ಲಾ ಹೆಚ್ಚುವರಿ ಮೌಲ್ಯವನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವುದು ಅವಶ್ಯಕ, ಅಂದರೆ ತೆರಿಗೆಗಳು ಮತ್ತು ಸಾಮಾಜಿಕ ಪಾವತಿಗಳು ಸೇರಿದಂತೆ ವೆಚ್ಚಗಳು, ಆದರೆ ಮಾದರಿಯು ಸ್ಪಷ್ಟವಾಗಿದೆ. ಈ ಸಂಬಂಧದ ಪರಿಣಾಮವೆಂದರೆ ತಜ್ಞರಿಗೆ ಈ ಕೆಳಗಿನ ಅವಶ್ಯಕತೆಗಳು: ಐಟಿ ಉದ್ಯಮದ ತಜ್ಞರು ರಾಷ್ಟ್ರೀಯ ಸರಾಸರಿಗಿಂತ ಹೆಚ್ಚಿನ ಸಂಬಳವನ್ನು ಹೊಂದಿರಬೇಕು. ಸಂಭಾವ್ಯ ಡೇಟಾಬೇಸ್ ಬಳಕೆದಾರರ ಸರಾಸರಿ ಸಂಬಳಕ್ಕಿಂತ ಅವನ ಸಂಬಳ ಕಡಿಮೆಯಿದ್ದರೆ, ಅವನು ಸ್ವತಃ ಸಂಪೂರ್ಣ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಕೈಯಿಂದ ಪರಿಶೀಲಿಸಬೇಕು.

ವಿವರಿಸಿದ ಮಾನದಂಡವನ್ನು ಬಳಸುವಾಗ, ಡೇಟಾಬೇಸ್ನ ಗುಣಮಟ್ಟಕ್ಕೆ ಮೊದಲ ಅವಶ್ಯಕತೆಯು ರೂಪುಗೊಳ್ಳುತ್ತದೆ:
I(tr). ನಿರ್ಣಾಯಕ ದೋಷಗಳ ಪಾಲು 1/250,4 = 0,39938% ಮೀರಬಾರದು. ಗಿಂತ ಸ್ವಲ್ಪ ಕಡಿಮೆ ಪರಿಷ್ಕರಣೆ ಉದ್ಯಮದಲ್ಲಿ ಚಿನ್ನ. ಮತ್ತು ಭೌತಿಕ ಪರಿಭಾಷೆಯಲ್ಲಿ ದೋಷಗಳೊಂದಿಗೆ 1459 ಕ್ಕಿಂತ ಹೆಚ್ಚು ದಾಖಲೆಗಳಿಲ್ಲ.

ಆರ್ಥಿಕ ಹಿಮ್ಮೆಟ್ಟುವಿಕೆ.

ವಾಸ್ತವವಾಗಿ, ದಾಖಲೆಗಳಲ್ಲಿ ಇಂತಹ ಹಲವಾರು ದೋಷಗಳನ್ನು ಮಾಡುವ ಮೂಲಕ, ಸಮಾಜವು ಆರ್ಥಿಕ ನಷ್ಟಗಳಿಗೆ ಸಮ್ಮತಿಸುತ್ತದೆ:

1459 * 3053,542 = 4 ರೂಬಲ್ಸ್ಗಳು.

ಈ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಸಮಾಜವು ಸಾಧನಗಳನ್ನು ಹೊಂದಿಲ್ಲ ಎಂಬ ಅಂಶದಿಂದ ಈ ಮೊತ್ತವನ್ನು ನಿರ್ಧರಿಸಲಾಗುತ್ತದೆ. ಯಾರಾದರೂ ತಂತ್ರಜ್ಞಾನವನ್ನು ಹೊಂದಿದ್ದರೆ ಅದು ದೋಷಗಳೊಂದಿಗೆ ದಾಖಲೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಅನುಮತಿಸುತ್ತದೆ, ಉದಾಹರಣೆಗೆ, 259, ನಂತರ ಇದು ಸಮಾಜವನ್ನು ಉಳಿಸಲು ಅನುಮತಿಸುತ್ತದೆ:
1200 * 3053,542 = 3 ರೂಬಲ್ಸ್ಗಳು.

ಆದರೆ ಅದೇ ಸಮಯದಲ್ಲಿ, ಅವನು ತನ್ನ ಪ್ರತಿಭೆ ಮತ್ತು ಕೆಲಸವನ್ನು ಕೇಳಬಹುದು, ಅಲ್ಲದೆ, ಹೇಳೋಣ - 1 ಮಿಲಿಯನ್ ರೂಬಲ್ಸ್ಗಳು.
ಅಂದರೆ, ಸಾಮಾಜಿಕ ವೆಚ್ಚಗಳು ಕಡಿಮೆಯಾಗುತ್ತವೆ:

3 - 664 = 250 ರೂಬಲ್ಸ್ಗಳು.

ಮೂಲಭೂತವಾಗಿ, ಈ ಪರಿಣಾಮವು BigDat ತಂತ್ರಜ್ಞಾನಗಳ ಬಳಕೆಯಿಂದ ಹೆಚ್ಚುವರಿ ಮೌಲ್ಯವಾಗಿದೆ.

ಆದರೆ ಇಲ್ಲಿ ಇದು ಸಾಮಾಜಿಕ ಪರಿಣಾಮವಾಗಿದೆ ಎಂದು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಬೇಕು ಮತ್ತು ಡೇಟಾಬೇಸ್ ಮಾಲೀಕರು ಪುರಸಭೆಯ ಅಧಿಕಾರಿಗಳು, ಈ ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿ ದಾಖಲಾದ ಆಸ್ತಿಯ ಬಳಕೆಯಿಂದ ಅವರ ಆದಾಯವು 0,3% ದರದಲ್ಲಿ: 2,778 ಬಿಲಿಯನ್ ರೂಬಲ್ಸ್ / ವರ್ಷ. ಮತ್ತು ಈ ವೆಚ್ಚಗಳು (4 ರೂಬಲ್ಸ್ಗಳು) ಅವರಿಗೆ ಹೆಚ್ಚು ತೊಂದರೆಯಾಗುವುದಿಲ್ಲ, ಏಕೆಂದರೆ ಅವುಗಳನ್ನು ಆಸ್ತಿ ಮಾಲೀಕರಿಗೆ ವರ್ಗಾಯಿಸಲಾಗುತ್ತದೆ. ಮತ್ತು, ಈ ಅಂಶದಲ್ಲಿ, ಬಿಗ್‌ಡೇಟಾದಲ್ಲಿ ಹೆಚ್ಚು ಪರಿಷ್ಕರಿಸುವ ತಂತ್ರಜ್ಞಾನಗಳ ಡೆವಲಪರ್ ಈ ಡೇಟಾಬೇಸ್‌ನ ಮಾಲೀಕರನ್ನು ಮನವೊಲಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ತೋರಿಸಬೇಕಾಗುತ್ತದೆ ಮತ್ತು ಅಂತಹ ವಿಷಯಗಳಿಗೆ ಗಣನೀಯ ಪ್ರತಿಭೆಯ ಅಗತ್ಯವಿರುತ್ತದೆ.

ಈ ಉದಾಹರಣೆಯಲ್ಲಿ, ವಿಶ್ವಾಸಾರ್ಹತೆ ಪರೀಕ್ಷೆಯ ಸಮಯದಲ್ಲಿ ಸಾಫ್ಟ್‌ವೇರ್ ಪರಿಶೀಲನೆಯ ಶುಮನ್ ಮಾದರಿ [2] ಅನ್ನು ಆಧರಿಸಿ ದೋಷ ಮೌಲ್ಯಮಾಪನ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಲಾಗಿದೆ. ಇಂಟರ್ನೆಟ್ನಲ್ಲಿ ಅದರ ಹರಡುವಿಕೆ ಮತ್ತು ಅಗತ್ಯ ಅಂಕಿಅಂಶಗಳ ಸೂಚಕಗಳನ್ನು ಪಡೆಯುವ ಸಾಮರ್ಥ್ಯದಿಂದಾಗಿ. ವಿಧಾನವನ್ನು ಮೊನಾಖೋವ್ ಯು.ಎಂ ನಿಂದ ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ. "ಮಾಹಿತಿ ವ್ಯವಸ್ಥೆಗಳ ಕ್ರಿಯಾತ್ಮಕ ಸ್ಥಿರತೆ", ಅಂಜೂರದಲ್ಲಿ ಸ್ಪಾಯ್ಲರ್ ಅಡಿಯಲ್ಲಿ ನೋಡಿ. 7-9.

ಅಕ್ಕಿ. 7 - 9 ಶುಮನ್ ಮಾದರಿಯ ವಿಧಾನರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ

ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ

ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ

ಈ ವಸ್ತುವಿನ ಎರಡನೇ ಭಾಗವು ಡೇಟಾ ಶುಚಿಗೊಳಿಸುವಿಕೆಯ ಉದಾಹರಣೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ, ಇದರಲ್ಲಿ ಶುಮನ್ ಮಾದರಿಯನ್ನು ಬಳಸುವ ಫಲಿತಾಂಶಗಳನ್ನು ಪಡೆಯಲಾಗುತ್ತದೆ.
ಪಡೆದ ಫಲಿತಾಂಶಗಳನ್ನು ನಾನು ಪ್ರಸ್ತುತಪಡಿಸುತ್ತೇನೆ:
ದೋಷಗಳ ಅಂದಾಜು ಸಂಖ್ಯೆ N = 3167 n.
ಪ್ಯಾರಾಮೀಟರ್ ಸಿ, ಲ್ಯಾಂಬ್ಡಾ ಮತ್ತು ವಿಶ್ವಾಸಾರ್ಹತೆ ಕಾರ್ಯ:

ರಾಕ್, ಪೇಪರ್, ಕತ್ತರಿ ಆಟದಂತಹ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ಇದು ಅಂತ್ಯವಿರುವ ಅಥವಾ ಅಂತ್ಯವಿಲ್ಲದ ಆಟವೇ? ಭಾಗ 1. ಸೈದ್ಧಾಂತಿಕ
ಚಿತ್ರ 17

ಮೂಲಭೂತವಾಗಿ, ಲ್ಯಾಂಬ್ಡಾ ಪ್ರತಿ ಹಂತದಲ್ಲಿ ದೋಷಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುವ ತೀವ್ರತೆಯ ನಿಜವಾದ ಸೂಚಕವಾಗಿದೆ. ನೀವು ಎರಡನೇ ಭಾಗವನ್ನು ನೋಡಿದರೆ, ಈ ಸೂಚಕದ ಅಂದಾಜು ಗಂಟೆಗೆ 42,4 ದೋಷಗಳು, ಇದು ಶುಮನ್ ಸೂಚಕಕ್ಕೆ ಹೋಲಿಸಬಹುದು. ಮೇಲೆ, ಪ್ರತಿ ನಿಮಿಷಕ್ಕೆ 1 ದಾಖಲೆಯನ್ನು ಪರಿಶೀಲಿಸುವಾಗ ಡೆವಲಪರ್ ದೋಷಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವ ದರವು 250,4 ದಾಖಲೆಗಳಿಗೆ 1 ದೋಷಕ್ಕಿಂತ ಕಡಿಮೆ ಇರಬಾರದು ಎಂದು ನಿರ್ಧರಿಸಲಾಗಿದೆ. ಆದ್ದರಿಂದ ಶುಮನ್ ಮಾದರಿಗೆ ಲ್ಯಾಂಬ್ಡಾದ ನಿರ್ಣಾಯಕ ಮೌಲ್ಯ:

60 / 250,4 = 0,239617.

ಅಂದರೆ, ಲ್ಯಾಂಬ್ಡಾ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ 38,964 ರಿಂದ 0,239617 ಕ್ಕೆ ಕಡಿಮೆಯಾಗುವವರೆಗೆ ದೋಷ ಪತ್ತೆ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ಕೈಗೊಳ್ಳುವ ಅಗತ್ಯವನ್ನು ಕೈಗೊಳ್ಳಬೇಕು.

ಅಥವಾ ಸೂಚಕ N (ದೋಷಗಳ ಸಂಭಾವ್ಯ ಸಂಖ್ಯೆ) ಮೈನಸ್ n (ಸರಿಪಡಿಸಿದ ದೋಷಗಳ ಸಂಖ್ಯೆ) ನಮ್ಮ ಅಂಗೀಕೃತ ಮಿತಿಗಿಂತ ಕಡಿಮೆಯಾಗುವವರೆಗೆ - 1459 ಪಿಸಿಗಳು.

ಸಾಹಿತ್ಯ

  1. ಮೊನಾಖೋವ್, ಯು.ಎಮ್. ಮಾಹಿತಿ ವ್ಯವಸ್ಥೆಗಳ ಕ್ರಿಯಾತ್ಮಕ ಸ್ಥಿರತೆ. 3 ಗಂಟೆಗಳಲ್ಲಿ. ಭಾಗ 1. ಸಾಫ್ಟ್‌ವೇರ್ ವಿಶ್ವಾಸಾರ್ಹತೆ: ಪಠ್ಯಪುಸ್ತಕ. ಭತ್ಯೆ / ಯು.ಎಂ. ಮೊನಾಖೋವ್; ವ್ಲಾಡಿಮ್. ರಾಜ್ಯ ವಿಶ್ವವಿದ್ಯಾಲಯ - ವ್ಲಾಡಿಮಿರ್: ಇಜ್ವೊ ವ್ಲಾಡಿಮ್. ರಾಜ್ಯ ವಿಶ್ವವಿದ್ಯಾಲಯ, 2011. - 60 ಪು. – ISBN 978-5-9984-0189-3.
  2. ಮಾರ್ಟಿನ್ L. ಶೂಮನ್, "ಸಾಫ್ಟ್‌ವೇರ್ ವಿಶ್ವಾಸಾರ್ಹತೆ ಭವಿಷ್ಯಕ್ಕಾಗಿ ಸಂಭವನೀಯ ಮಾದರಿಗಳು."
  3. ಐಟಿ ವೃತ್ತಿಪರರಿಗೆ ಡೇಟಾ ವೇರ್‌ಹೌಸಿಂಗ್ ಫಂಡಮೆಂಟಲ್ಸ್ / ಪೌಲ್‌ರಾಜ್ ಪೊನ್ನಯ್ಯ.-2ನೇ ಆವೃತ್ತಿ.

ಭಾಗ ಎರಡು. ಸೈದ್ಧಾಂತಿಕ

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ