Datuen kalitatea biltegian

Biltegiko datuen kalitatea ezinbesteko baldintza da informazio baliotsua lortzeko. Kalitate txarrak kate-erreakzio negatiboa dakar epe luzera.
Lehenik eta behin, emandako informazioan konfiantza galtzen da. Jendea Business Intelligence aplikazioak gutxiago erabiltzen hasten da; aplikazioen potentziala ez da erreklamatu.
Ondorioz, proiektu analitikoan inbertsio gehiago kolokan jartzen dira.

Datuen kalitatearen erantzukizuna

Datuen kalitatea hobetzearekin lotutako alderdia oso garrantzitsua da BI proiektuetan. Hala ere, ez da espezialista teknikoen pribilegioa soilik.
Datuen kalitatea bezalako alderdiek ere eragiten dute

Kultura korporatiboa

  • Langileek beraiek interesa al dute kalitate oneko ekoizpena?
  • Ez bada, zergatik ez? Interes-gatazka bat egon daiteke.
  • Baliteke kalitatearen arduraduna nor den zehazten duten arau korporatiboak?

Prozesuak

  • Zein datu sortzen dira kate horien amaieran?
  • Agian sistema eragileak egoera hau edo beste errealitatean islatzeko "bihurritu" behar duzun moduan konfiguratuta daude.
  • Sistema eragileek beraiek egiten al dituzte datuak egiaztatzea eta bateratzea?

Erakundeko pertsona guztiak dira txosten-sistemetako datuen kalitatearen erantzule.

Definizioa eta esanahia

Kalitatea bezeroen itxaropenen asebetetzea da.

Baina datuen kalitateak ez du definiziorik. Beti erabileraren testuingurua islatzen du. Datu biltegiak eta BI sistemak helburu desberdinak dituzte datuak datozen sistema eragileak baino.

Adibidez, sistema eragile batean, bezeroaren atributua aukerako eremu bat izan daiteke. Biltegian, atributu hau dimentsio gisa erabil daiteke eta betetzea beharrezkoa da. Horrek, aldi berean, balio lehenetsiak bete beharra sartzen du.

Datuak biltegiratzeko eskakizunak etengabe aldatzen ari dira eta normalean sistema eragileetakoak baino handiagoak dira. Baina alderantziz ere izan daiteke, sistema eragilearen informazio zehatza biltegian gorde beharrik ez dagoenean.

Datuen kalitatea neurgarria izan dadin, bere estandarrak deskribatu behar dira. Deskribapen prozesuan informazioa eta zifrak erabiltzen dituzten pertsonek parte hartu behar dute lanerako. Inplikazio horren emaitza arau bat izan daiteke, eta horri jarraituz mahaiari begirada batean esan daiteke akatsik dagoen ala ez. Arau honek script/kode gisa formateatu behar du gero egiaztatzeko.

Datuen kalitatea hobetzea

Ezinezkoa da datuak biltegian kargatzeko prozesuan akats hipotetiko guztiak garbitu eta zuzentzea. Datuen kalitate ona parte-hartzaile guztien arteko lankidetza estuaren bidez soilik lor daiteke. Sistema eragileetan datuak sartzen dituzten pertsonek akatsak eragiten dituzten ekintzak ikasi behar dute.

Datuen kalitatea prozesu bat da. Zoritxarrez, erakunde askok ez dute etengabe hobetzeko estrategiarik. Askok datuak gordetzera mugatzen dira eta ez dute sistema analitikoen potentzial osoa erabiltzen. Normalean, datu biltegiak garatzerakoan, aurrekontuaren % 70-80 datuen integrazioa ezartzera bideratzen da. Jarraipen- eta hobekuntza-prozesuak osatu gabe jarraitzen du, bada.

Tresnak

Software-tresnak erabiltzeak datuen kalitatearen hobekuntza eta jarraipena automatizatzeko prozesuan lagun dezake. Esaterako, biltegiratze-egituren egiaztapen teknikoa guztiz automatizatu dezakete: eremu-formatua, balio lehenetsien presentzia, taula-eremuen izenak betetzea.

Baliteke edukia egiaztatzea zailagoa izatea. Biltegiratzeko baldintzak aldatzen direnez, datuen interpretazioa ere alda daiteke. Tresna bera laguntza behar duen proiektu erraldoia bihur daiteke.

Aldundiak

Erlazio datu-baseek, zeinetan dendak diseinatu ohi diren, ikuspegiak sortzeko gaitasun nabarmena dute. Datuak azkar egiaztatzeko erabil daitezke edukiaren berezitasunak ezagutzen badituzu. Datuetan errore edo arazo bat aurkitzeko kasu bakoitza datu-basearen kontsulta moduan erregistratu daiteke.

Horrela, edukiei buruzko ezagutza-base bat osatuko da. Jakina, horrelako eskaerak azkarrak izan behar dira. Ikuspegiek normalean giza denbora gutxiago behar dute mantentzeko taulan oinarritutako tresnek baino. Ikuspegia beti dago prest probaren emaitza bistaratzeko.
Txosten garrantzitsuen kasuan, ikuspegiak hartzailearekin zutabe bat eduki dezake. Zentzuzkoa da BI tresna berdinak erabiltzea biltegiko datuen kalitatearen egoeraren berri emateko.

Adibidea

Kontsulta Oracle datu-baserako idatzi da. Adibide honetan, probek nahi bezala interpreta daitekeen zenbakizko balio bat itzultzen dute. T_MIN eta T_MAX balioak alarma-maila doitzeko erabil daitezke. TXOSTENA eremua mezu elektronikoak behar bezala bidaltzen ez zekien ETL produktu komertzial batean mezu gisa erabiltzen zen, beraz, rpad "makulu" bat da.

Taula handi baten kasuan, adibidez, AND ROWNUM <= 10 gehi dezakezu, hau da. 10 akats badaude, orduan nahikoa da alarma eragiteko.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Argitalpenak liburuko materialak erabiltzen ditu
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Iturria: www.habr.com

Gehitu iruzkin berria