Datakwaliteit in die pakhuis

Die kwaliteit van die data in die pakhuis is 'n belangrike voorvereiste vir die verkryging van waardevolle inligting. Swak gehalte lei op lang termyn tot 'n negatiewe kettingreaksie.
Eerstens gaan vertroue in die inligting wat verskaf word verlore. Mense begin om Business Intelligence-toepassings minder te gebruik; die potensiaal van toepassings bly onopgeëis.
Gevolglik word verdere investering in die analitiese projek in twyfel getrek.

Verantwoordelikheid vir datakwaliteit

Die aspek wat verband hou met die verbetering van datakwaliteit is mega-belangrik in BI-projekte. Dit is egter nie die voorreg van slegs tegniese spesialiste nie.
Datakwaliteit word ook beïnvloed deur aspekte soos

Korporatiewe kultuur

  • Stel die werkers self daarin belang om goeie gehalte te produseer?
  • Indien nie, hoekom nie? Daar kan 'n botsing van belange wees.
  • Dalk is daar korporatiewe reëls wat bepaal wie vir kwaliteit verantwoordelik is?

prosesse

  • Watter data word aan die einde van hierdie kettings geskep?
  • Miskien is die bedryfstelsels op so 'n manier gekonfigureer dat jy moet "draai" om hierdie of daardie situasie in die werklikheid te weerspieël.
  • Doen bedryfstelsels dataverifikasie en rekonsiliasie self?

Almal in die organisasie is verantwoordelik vir die kwaliteit van data in verslagdoeningstelsels.

Definisie en betekenis

Kwaliteit is die bewese bevrediging van kliënte se verwagtinge.

Maar datakwaliteit bevat nie 'n definisie nie. Dit weerspieël altyd die konteks van gebruik. Die datapakhuis en BI-stelsel dien ander doeleindes as die bedryfstelsel waaruit die data kom.

Byvoorbeeld, op 'n bedryfstelsel kan die kliëntkenmerk 'n opsionele veld wees. In die bewaarplek kan hierdie kenmerk as 'n dimensie gebruik word en die vulling daarvan word vereis. Wat op sy beurt die behoefte om verstekwaardes in te vul, bekendstel.

Databergingvereistes verander voortdurend en dit is gewoonlik hoër as dié vir bedryfstelsels. Maar dit kan ook andersom wees, wanneer dit nie nodig is om gedetailleerde inligting van die bedryfstelsel in die stoor te stoor nie.

Om datakwaliteit meetbaar te maak, moet die standaarde daarvan beskryf word. Mense wat inligting en syfers vir hul werk gebruik, moet by die beskrywingsproses betrek word. Die resultaat van hierdie betrokkenheid kan 'n reël wees, waarna 'n mens met 'n oogopslag by die tafel kan sien of daar 'n fout is of nie. Hierdie reël moet as 'n skrif/kode geformateer word vir daaropvolgende verifikasie.

Verbetering van datakwaliteit

Dit is onmoontlik om alle hipotetiese foute op te ruim en reg te stel tydens die proses om data in die pakhuis te laai. Goeie datakwaliteit kan slegs bereik word deur noue samewerking tussen alle deelnemers. Mense wat data in bedryfstelsels invoer, moet leer watter aksies tot foute lei.

Datakwaliteit is 'n proses. Ongelukkig het baie organisasies nie 'n strategie vir voortdurende verbetering nie. Baie beperk hulle tot slegs die stoor van data en gebruik nie die volle potensiaal van analitiese stelsels nie. Tipies, wanneer datapakhuise ontwikkel word, word 70-80% van die begroting bestee aan die implementering van data-integrasie. Die moniterings- en verbeteringsproses bly onvolledig, indien enigsins.

Tools

Die gebruik van sagteware-instrumente kan help met die outomatisering van datakwaliteitverbetering en -monitering. Hulle kan byvoorbeeld die tegniese verifikasie van bergingstrukture volledig outomatiseer: veldformaat, teenwoordigheid van verstekwaardes, voldoening aan tabelveldname.

Dit kan moeiliker wees om die inhoud na te gaan. Soos bergingsvereistes verander, kan die interpretasie van die data ook verander. Die instrument self kan 'n groot projek word wat ondersteuning benodig.

Advies

Relasionele databasisse, waarin winkels tipies ontwerp word, het die merkwaardige vermoë om aansigte te skep. Hulle kan gebruik word om data vinnig na te gaan as jy die besonderhede van die inhoud ken. Elke geval van die vind van 'n fout of probleem in die data kan aangeteken word in die vorm van 'n databasisnavraag.

Op hierdie manier sal 'n kennisbasis oor die inhoud gevorm word. Natuurlik moet sulke versoeke vinnig wees. Aansigte verg gewoonlik minder menslike tyd om in stand te hou as tabelgebaseerde nutsgoed. Die aansig is altyd gereed om die resultaat van die toets te vertoon.
In die geval van belangrike verslae, kan die aansig 'n kolom met die ontvanger bevat. Dit maak sin om dieselfde BI-nutsmiddels te gebruik om verslag te doen oor die toestand van datakwaliteit in die pakhuis.

Voorbeeld

Die navraag is geskryf vir die Oracle-databasis. In hierdie voorbeeld gee die toetse 'n numeriese waarde terug wat na wens geïnterpreteer kan word. Die T_MIN- en T_MAX-waardes kan gebruik word om die alarmvlak aan te pas. Die VERSLAG-veld is een keer as 'n boodskap gebruik in 'n kommersiële ETL-produk wat nie geweet het hoe om e-pos behoorlik te stuur nie, so rpad is 'n "kruk".

In die geval van 'n groot tabel kan jy byvoorbeeld AND ROWNUM <= 10 byvoeg, d.w.s. as daar 10 foute is, dan is dit genoeg om alarm te veroorsaak.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Die publikasie gebruik materiaal uit die boek
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Bron: will.com

Voeg 'n opmerking