గిడ్డంగిలో డేటా నాణ్యత

విలువైన సమాచారాన్ని పొందేందుకు గిడ్డంగిలోని డేటా నాణ్యత ఒక ముఖ్యమైన అవసరం. పేలవమైన నాణ్యత దీర్ఘకాలంలో ప్రతికూల గొలుసు ప్రతిచర్యకు దారితీస్తుంది.
మొదట, అందించిన సమాచారంపై నమ్మకం పోతుంది. ప్రజలు బిజినెస్ ఇంటెలిజెన్స్ అప్లికేషన్‌లను తక్కువగా ఉపయోగించడం ప్రారంభించారు;
ఫలితంగా, విశ్లేషణాత్మక ప్రాజెక్ట్‌లో తదుపరి పెట్టుబడి ప్రశ్నార్థకమైంది.

డేటా నాణ్యతకు బాధ్యత

BI ప్రాజెక్ట్‌లలో డేటా నాణ్యతను మెరుగుపరచడానికి సంబంధించిన అంశం మెగా-ముఖ్యమైనది. అయితే, ఇది కేవలం సాంకేతిక నిపుణుల ప్రత్యేకత కాదు.
వంటి అంశాల ద్వారా డేటా నాణ్యత కూడా ప్రభావితమవుతుంది

కార్పొరేట్ సంస్కృతి

  • నాణ్యమైన ఉత్పత్తిపై కార్మికులు ఆసక్తి చూపుతున్నారా?
  • లేకపోతే, ఎందుకు కాదు? ఆసక్తుల వైరుధ్యం ఉండవచ్చు.
  • నాణ్యతకు ఎవరు బాధ్యత వహిస్తారో నిర్ణయించే కార్పొరేట్ నియమాలు ఉన్నాయా?

ప్రక్రియలు

  • ఈ గొలుసుల చివర ఏ డేటా సృష్టించబడుతుంది?
  • వాస్తవానికి ఈ లేదా ఆ పరిస్థితిని ప్రతిబింబించడానికి మీరు "ట్విస్ట్" చేయవలసిన విధంగా ఆపరేటింగ్ సిస్టమ్స్ కాన్ఫిగర్ చేయబడి ఉండవచ్చు.
  • ఆపరేటింగ్ సిస్టమ్‌లు డేటా ధృవీకరణ మరియు సయోధ్యను స్వయంగా నిర్వహిస్తాయా?

రిపోర్టింగ్ సిస్టమ్‌లలో డేటా నాణ్యతకు సంస్థలోని ప్రతి ఒక్కరూ బాధ్యత వహిస్తారు.

నిర్వచనం మరియు అర్థం

నాణ్యత అనేది కస్టమర్ అంచనాల యొక్క నిరూపితమైన సంతృప్తి.

కానీ డేటా నాణ్యతకు నిర్వచనం లేదు. ఇది ఎల్లప్పుడూ ఉపయోగం యొక్క సందర్భాన్ని ప్రతిబింబిస్తుంది. డేటా వేర్‌హౌస్ మరియు BI సిస్టమ్ డేటా వచ్చే ఆపరేటింగ్ సిస్టమ్ కంటే భిన్నమైన ప్రయోజనాలను అందిస్తాయి.

ఉదాహరణకు, ఆపరేటింగ్ సిస్టమ్‌లో, కస్టమర్ అట్రిబ్యూట్ ఐచ్ఛిక ఫీల్డ్ కావచ్చు. రిపోజిటరీలో, ఈ లక్షణాన్ని పరిమాణంగా ఉపయోగించవచ్చు మరియు దాని పూరకం అవసరం. ఇది, డిఫాల్ట్ విలువలను పూరించవలసిన అవసరాన్ని పరిచయం చేస్తుంది.

డేటా నిల్వ అవసరాలు నిరంతరం మారుతూ ఉంటాయి మరియు అవి సాధారణంగా ఆపరేటింగ్ సిస్టమ్‌ల కంటే ఎక్కువగా ఉంటాయి. కానీ స్టోరేజీలో ఆపరేటింగ్ సిస్టమ్ నుండి వివరణాత్మక సమాచారాన్ని నిల్వ చేయవలసిన అవసరం లేనప్పుడు ఇది మరొక విధంగా ఉంటుంది.

డేటా నాణ్యతను కొలవడానికి, దాని ప్రమాణాలను తప్పనిసరిగా వివరించాలి. వారి పని కోసం సమాచారం మరియు బొమ్మలను ఉపయోగించే వ్యక్తులు తప్పనిసరిగా వివరణ ప్రక్రియలో పాల్గొనాలి. ఈ ప్రమేయం యొక్క ఫలితం ఒక నియమం కావచ్చు, దానిని అనుసరించి ఒక లోపం ఉందా లేదా అని టేబుల్ వద్ద ఒక చూపులో చెప్పవచ్చు. తదుపరి ధృవీకరణ కోసం ఈ నియమాన్ని తప్పనిసరిగా స్క్రిప్ట్/కోడ్‌గా ఫార్మాట్ చేయాలి.

డేటా నాణ్యతను మెరుగుపరచడం

గిడ్డంగిలోకి డేటాను లోడ్ చేసే ప్రక్రియలో అన్ని ఊహాత్మక లోపాలను శుభ్రం చేయడం మరియు సరిదిద్దడం అసాధ్యం. పాల్గొనే వారందరి మధ్య సన్నిహిత సహకారం ద్వారా మాత్రమే మంచి డేటా నాణ్యతను సాధించవచ్చు. ఆపరేటింగ్ సిస్టమ్‌లలో డేటాను నమోదు చేసే వ్యక్తులు ఏ చర్యలు లోపాలకు దారితీస్తాయో తెలుసుకోవాలి.

డేటా నాణ్యత ఒక ప్రక్రియ. దురదృష్టవశాత్తు, అనేక సంస్థలకు నిరంతర అభివృద్ధి కోసం వ్యూహం లేదు. చాలా మంది తమను తాము డేటాను నిల్వ చేయడానికి మాత్రమే పరిమితం చేసుకుంటారు మరియు విశ్లేషణాత్మక వ్యవస్థల యొక్క పూర్తి సామర్థ్యాన్ని ఉపయోగించరు. సాధారణంగా, డేటా గిడ్డంగులను అభివృద్ధి చేస్తున్నప్పుడు, బడ్జెట్‌లో 70-80% డేటా ఇంటిగ్రేషన్‌ను అమలు చేయడానికి ఖర్చు చేయబడుతుంది. పర్యవేక్షణ మరియు మెరుగుదల ప్రక్రియ అసంపూర్తిగా మిగిలిపోయింది.

సాధన

సాఫ్ట్‌వేర్ సాధనాల ఉపయోగం డేటా నాణ్యత మెరుగుదల మరియు పర్యవేక్షణను ఆటోమేట్ చేసే ప్రక్రియలో సహాయపడుతుంది. ఉదాహరణకు, వారు నిల్వ నిర్మాణాల యొక్క సాంకేతిక ధృవీకరణను పూర్తిగా ఆటోమేట్ చేయగలరు: ఫీల్డ్ ఫార్మాట్, డిఫాల్ట్ విలువల ఉనికి, టేబుల్ ఫీల్డ్ పేర్లతో సమ్మతి.

కంటెంట్‌ని తనిఖీ చేయడం మరింత కష్టం కావచ్చు. నిల్వ అవసరాలు మారినప్పుడు, డేటా యొక్క వివరణ కూడా మారవచ్చు. సాధనం మద్దతు అవసరమయ్యే భారీ ప్రాజెక్ట్‌గా మారుతుంది.

కౌన్సిల్

రిలేషనల్ డేటాబేస్‌లు, స్టోర్‌లు సాధారణంగా రూపొందించబడినవి, వీక్షణలను సృష్టించే అద్భుతమైన సామర్థ్యాన్ని కలిగి ఉంటాయి. మీకు కంటెంట్ యొక్క ప్రత్యేకతలు తెలిస్తే, డేటాను త్వరగా తనిఖీ చేయడానికి వాటిని ఉపయోగించవచ్చు. డేటాలో లోపం లేదా సమస్యను కనుగొనే ప్రతి సందర్భం డేటాబేస్ ప్రశ్న రూపంలో రికార్డ్ చేయబడుతుంది.

ఈ విధంగా, కంటెంట్ గురించి నాలెడ్జ్ బేస్ ఏర్పడుతుంది. వాస్తవానికి, అటువంటి అభ్యర్థనలు వేగంగా ఉండాలి. వీక్షణలు సాధారణంగా పట్టిక ఆధారిత సాధనాల కంటే నిర్వహించడానికి తక్కువ మానవ సమయం అవసరం. పరీక్ష ఫలితాన్ని ప్రదర్శించడానికి వీక్షణ ఎల్లప్పుడూ సిద్ధంగా ఉంటుంది.
ముఖ్యమైన నివేదికల విషయంలో, వీక్షణలో గ్రహీతతో కాలమ్ ఉండవచ్చు. గిడ్డంగిలో డేటా నాణ్యత స్థితిపై నివేదించడానికి అదే BI సాధనాలను ఉపయోగించడం అర్ధమే.

ఉదాహరణకు

ప్రశ్న ఒరాకిల్ డేటాబేస్ కోసం వ్రాయబడింది. ఈ ఉదాహరణలో, పరీక్షలు కావలసిన విధంగా అర్థం చేసుకోగల సంఖ్యా విలువను అందిస్తాయి. అలారం స్థాయిని సర్దుబాటు చేయడానికి T_MIN మరియు T_MAX విలువలను ఉపయోగించవచ్చు. REPORT ఫీల్డ్ ఒకప్పుడు వాణిజ్య ETL ఉత్పత్తిలో సందేశంగా ఉపయోగించబడింది, అది ఇమెయిల్‌లను ఎలా సరిగ్గా పంపాలో తెలియదు, కాబట్టి rpad అనేది "క్రచ్".

పెద్ద పట్టిక విషయంలో, మీరు జోడించవచ్చు, ఉదాహరణకు, మరియు ROWNUM <= 10, అనగా. 10 లోపాలు ఉంటే, అలారం కలిగించడానికి ఇది సరిపోతుంది.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

ప్రచురణ పుస్తకం నుండి పదార్థాలను ఉపయోగిస్తుంది
రోనాల్డ్ బాచ్‌మన్, డా. గైడో కెంపర్
రౌస్ ఆస్ డెర్ బిఐ-ఫాల్లే
వీ బిజినెస్ ఇంటెలిజెన్స్ జుమ్ ఎర్ఫోల్గ్ వైర్డ్


మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి