విలువైన సమాచారాన్ని పొందేందుకు గిడ్డంగిలోని డేటా నాణ్యత ఒక ముఖ్యమైన అవసరం. పేలవమైన నాణ్యత దీర్ఘకాలంలో ప్రతికూల గొలుసు ప్రతిచర్యకు దారితీస్తుంది.
మొదట, అందించిన సమాచారంపై నమ్మకం పోతుంది. ప్రజలు బిజినెస్ ఇంటెలిజెన్స్ అప్లికేషన్లను తక్కువగా ఉపయోగించడం ప్రారంభించారు;
ఫలితంగా, విశ్లేషణాత్మక ప్రాజెక్ట్లో తదుపరి పెట్టుబడి ప్రశ్నార్థకమైంది.
డేటా నాణ్యతకు బాధ్యత
BI ప్రాజెక్ట్లలో డేటా నాణ్యతను మెరుగుపరచడానికి సంబంధించిన అంశం మెగా-ముఖ్యమైనది. అయితే, ఇది కేవలం సాంకేతిక నిపుణుల ప్రత్యేకత కాదు.
వంటి అంశాల ద్వారా డేటా నాణ్యత కూడా ప్రభావితమవుతుంది
కార్పొరేట్ సంస్కృతి
- నాణ్యమైన ఉత్పత్తిపై కార్మికులు ఆసక్తి చూపుతున్నారా?
- లేకపోతే, ఎందుకు కాదు? ఆసక్తుల వైరుధ్యం ఉండవచ్చు.
- నాణ్యతకు ఎవరు బాధ్యత వహిస్తారో నిర్ణయించే కార్పొరేట్ నియమాలు ఉన్నాయా?
ప్రక్రియలు
- ఈ గొలుసుల చివర ఏ డేటా సృష్టించబడుతుంది?
- వాస్తవానికి ఈ లేదా ఆ పరిస్థితిని ప్రతిబింబించడానికి మీరు "ట్విస్ట్" చేయవలసిన విధంగా ఆపరేటింగ్ సిస్టమ్స్ కాన్ఫిగర్ చేయబడి ఉండవచ్చు.
- ఆపరేటింగ్ సిస్టమ్లు డేటా ధృవీకరణ మరియు సయోధ్యను స్వయంగా నిర్వహిస్తాయా?
రిపోర్టింగ్ సిస్టమ్లలో డేటా నాణ్యతకు సంస్థలోని ప్రతి ఒక్కరూ బాధ్యత వహిస్తారు.
నిర్వచనం మరియు అర్థం
నాణ్యత అనేది కస్టమర్ అంచనాల యొక్క నిరూపితమైన సంతృప్తి.
కానీ డేటా నాణ్యతకు నిర్వచనం లేదు. ఇది ఎల్లప్పుడూ ఉపయోగం యొక్క సందర్భాన్ని ప్రతిబింబిస్తుంది. డేటా వేర్హౌస్ మరియు BI సిస్టమ్ డేటా వచ్చే ఆపరేటింగ్ సిస్టమ్ కంటే భిన్నమైన ప్రయోజనాలను అందిస్తాయి.
ఉదాహరణకు, ఆపరేటింగ్ సిస్టమ్లో, కస్టమర్ అట్రిబ్యూట్ ఐచ్ఛిక ఫీల్డ్ కావచ్చు. రిపోజిటరీలో, ఈ లక్షణాన్ని పరిమాణంగా ఉపయోగించవచ్చు మరియు దాని పూరకం అవసరం. ఇది, డిఫాల్ట్ విలువలను పూరించవలసిన అవసరాన్ని పరిచయం చేస్తుంది.
డేటా నిల్వ అవసరాలు నిరంతరం మారుతూ ఉంటాయి మరియు అవి సాధారణంగా ఆపరేటింగ్ సిస్టమ్ల కంటే ఎక్కువగా ఉంటాయి. కానీ స్టోరేజీలో ఆపరేటింగ్ సిస్టమ్ నుండి వివరణాత్మక సమాచారాన్ని నిల్వ చేయవలసిన అవసరం లేనప్పుడు ఇది మరొక విధంగా ఉంటుంది.
డేటా నాణ్యతను కొలవడానికి, దాని ప్రమాణాలను తప్పనిసరిగా వివరించాలి. వారి పని కోసం సమాచారం మరియు బొమ్మలను ఉపయోగించే వ్యక్తులు తప్పనిసరిగా వివరణ ప్రక్రియలో పాల్గొనాలి. ఈ ప్రమేయం యొక్క ఫలితం ఒక నియమం కావచ్చు, దానిని అనుసరించి ఒక లోపం ఉందా లేదా అని టేబుల్ వద్ద ఒక చూపులో చెప్పవచ్చు. తదుపరి ధృవీకరణ కోసం ఈ నియమాన్ని తప్పనిసరిగా స్క్రిప్ట్/కోడ్గా ఫార్మాట్ చేయాలి.
డేటా నాణ్యతను మెరుగుపరచడం
గిడ్డంగిలోకి డేటాను లోడ్ చేసే ప్రక్రియలో అన్ని ఊహాత్మక లోపాలను శుభ్రం చేయడం మరియు సరిదిద్దడం అసాధ్యం. పాల్గొనే వారందరి మధ్య సన్నిహిత సహకారం ద్వారా మాత్రమే మంచి డేటా నాణ్యతను సాధించవచ్చు. ఆపరేటింగ్ సిస్టమ్లలో డేటాను నమోదు చేసే వ్యక్తులు ఏ చర్యలు లోపాలకు దారితీస్తాయో తెలుసుకోవాలి.
డేటా నాణ్యత ఒక ప్రక్రియ. దురదృష్టవశాత్తు, అనేక సంస్థలకు నిరంతర అభివృద్ధి కోసం వ్యూహం లేదు. చాలా మంది తమను తాము డేటాను నిల్వ చేయడానికి మాత్రమే పరిమితం చేసుకుంటారు మరియు విశ్లేషణాత్మక వ్యవస్థల యొక్క పూర్తి సామర్థ్యాన్ని ఉపయోగించరు. సాధారణంగా, డేటా గిడ్డంగులను అభివృద్ధి చేస్తున్నప్పుడు, బడ్జెట్లో 70-80% డేటా ఇంటిగ్రేషన్ను అమలు చేయడానికి ఖర్చు చేయబడుతుంది. పర్యవేక్షణ మరియు మెరుగుదల ప్రక్రియ అసంపూర్తిగా మిగిలిపోయింది.
సాధన
సాఫ్ట్వేర్ సాధనాల ఉపయోగం డేటా నాణ్యత మెరుగుదల మరియు పర్యవేక్షణను ఆటోమేట్ చేసే ప్రక్రియలో సహాయపడుతుంది. ఉదాహరణకు, వారు నిల్వ నిర్మాణాల యొక్క సాంకేతిక ధృవీకరణను పూర్తిగా ఆటోమేట్ చేయగలరు: ఫీల్డ్ ఫార్మాట్, డిఫాల్ట్ విలువల ఉనికి, టేబుల్ ఫీల్డ్ పేర్లతో సమ్మతి.
కంటెంట్ని తనిఖీ చేయడం మరింత కష్టం కావచ్చు. నిల్వ అవసరాలు మారినప్పుడు, డేటా యొక్క వివరణ కూడా మారవచ్చు. సాధనం మద్దతు అవసరమయ్యే భారీ ప్రాజెక్ట్గా మారుతుంది.
కౌన్సిల్
రిలేషనల్ డేటాబేస్లు, స్టోర్లు సాధారణంగా రూపొందించబడినవి, వీక్షణలను సృష్టించే అద్భుతమైన సామర్థ్యాన్ని కలిగి ఉంటాయి. మీకు కంటెంట్ యొక్క ప్రత్యేకతలు తెలిస్తే, డేటాను త్వరగా తనిఖీ చేయడానికి వాటిని ఉపయోగించవచ్చు. డేటాలో లోపం లేదా సమస్యను కనుగొనే ప్రతి సందర్భం డేటాబేస్ ప్రశ్న రూపంలో రికార్డ్ చేయబడుతుంది.
ఈ విధంగా, కంటెంట్ గురించి నాలెడ్జ్ బేస్ ఏర్పడుతుంది. వాస్తవానికి, అటువంటి అభ్యర్థనలు వేగంగా ఉండాలి. వీక్షణలు సాధారణంగా పట్టిక ఆధారిత సాధనాల కంటే నిర్వహించడానికి తక్కువ మానవ సమయం అవసరం. పరీక్ష ఫలితాన్ని ప్రదర్శించడానికి వీక్షణ ఎల్లప్పుడూ సిద్ధంగా ఉంటుంది.
ముఖ్యమైన నివేదికల విషయంలో, వీక్షణలో గ్రహీతతో కాలమ్ ఉండవచ్చు. గిడ్డంగిలో డేటా నాణ్యత స్థితిపై నివేదించడానికి అదే BI సాధనాలను ఉపయోగించడం అర్ధమే.
ఉదాహరణకు
ప్రశ్న ఒరాకిల్ డేటాబేస్ కోసం వ్రాయబడింది. ఈ ఉదాహరణలో, పరీక్షలు కావలసిన విధంగా అర్థం చేసుకోగల సంఖ్యా విలువను అందిస్తాయి. అలారం స్థాయిని సర్దుబాటు చేయడానికి T_MIN మరియు T_MAX విలువలను ఉపయోగించవచ్చు. REPORT ఫీల్డ్ ఒకప్పుడు వాణిజ్య ETL ఉత్పత్తిలో సందేశంగా ఉపయోగించబడింది, అది ఇమెయిల్లను ఎలా సరిగ్గా పంపాలో తెలియదు, కాబట్టి rpad అనేది "క్రచ్".
పెద్ద పట్టిక విషయంలో, మీరు జోడించవచ్చు, ఉదాహరణకు, మరియు ROWNUM <= 10, అనగా. 10 లోపాలు ఉంటే, అలారం కలిగించడానికి ఇది సరిపోతుంది.
CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
THEN 'OK' ELSE 'ERROR' END AS RESULT,
DESCRIPTION,
TABLE_NAME,
OUTPUT,
T_MIN,
T_MAX,
rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
SELECT
'DIM_PRODUCT' AS TABLE_NAME,
'Count of blanks' AS DESCRIPTION,
COUNT(*) AS OUTPUT,
0 AS T_MIN,
10 AS T_MAX
FROM DIM_PRODUCT
WHERE DIM_PRODUCT_ID != -1 -- not default value
AND ATTRIBUTE IS NULL ); -- count blanks
ప్రచురణ పుస్తకం నుండి పదార్థాలను ఉపయోగిస్తుంది
రోనాల్డ్ బాచ్మన్, డా. గైడో కెంపర్
రౌస్ ఆస్ డెర్ బిఐ-ఫాల్లే
వీ బిజినెస్ ఇంటెలిజెన్స్ జుమ్ ఎర్ఫోల్గ్ వైర్డ్
మూలం: www.habr.com