NoliktavÄ esoÅ”o datu kvalitÄte ir svarÄ«gs priekÅ”noteikums vÄrtÄ«gas informÄcijas iegÅ«Å”anai. Slikta kvalitÄte ilgtermiÅÄ noved pie negatÄ«vas Ä·Ädes reakcijas.
PirmkÄrt, tiek zaudÄta uzticÄ«ba sniegtajai informÄcijai. CilvÄki sÄk mazÄk izmantot biznesa informÄcijas lietojumprogrammas; lietojumprogrammu potenciÄls joprojÄm nav izmantots.
RezultÄtÄ tiek apÅ”aubÄ«tas turpmÄkas investÄ«cijas analÄ«tiskajÄ projektÄ.
AtbildÄ«ba par datu kvalitÄti
Ar datu kvalitÄtes uzlaboÅ”anu saistÄ«tais aspekts BI projektos ir ļoti svarÄ«gs. TomÄr tÄ nav tikai tehnisko speciÄlistu privilÄÄ£ija.
Datu kvalitÄti ietekmÄ arÄ« tÄdi aspekti kÄ
Korporatīvo kultūru
- Vai paÅ”i strÄdnieki ir ieinteresÄti ražot labu kvalitÄti?
- Ja nÄ, kÄpÄc ne? Var rasties intereÅ”u konflikts.
- VarbÅ«t ir korporatÄ«vie noteikumi, kas nosaka, kurÅ” ir atbildÄ«gs par kvalitÄti?
Procesi
- KÄdi dati tiek izveidoti Å”o Ä·Äžu beigÄs?
- IespÄjams, operÄtÄjsistÄmas ir konfigurÄtas tÄ, ka jums ir nepiecieÅ”ams āsagrieztā, lai atspoguļotu Å”o vai citu situÄciju realitÄtÄ.
- Vai operÄtÄjsistÄmas paÅ”as veic datu pÄrbaudi un saskaÅoÅ”anu?
Ikviens organizÄcijas dalÄ«bnieks ir atbildÄ«gs par datu kvalitÄti ziÅoÅ”anas sistÄmÄs.
Definīcija un nozīme
KvalitÄte ir pierÄdÄ«ta klientu cerÄ«bu apmierinÄÅ”ana.
Bet datu kvalitÄte nesatur definÄ«ciju. Tas vienmÄr atspoguļo lietoÅ”anas kontekstu. Datu noliktava un BI sistÄma kalpo citiem mÄrÄ·iem nekÄ operÄtÄjsistÄma, no kuras tiek iegÅ«ti dati.
PiemÄram, operÄtÄjsistÄmÄ klienta atribÅ«ts var bÅ«t neobligÄts lauks. RepozitorijÄ Å”o atribÅ«tu var izmantot kÄ dimensiju, un tÄ aizpildÄ«Å”ana ir nepiecieÅ”ama. Kas, savukÄrt, ievieÅ” nepiecieÅ”amÄ«bu aizpildÄ«t noklusÄjuma vÄrtÄ«bas.
Datu uzglabÄÅ”anas prasÄ«bas pastÄvÄ«gi mainÄs, un tÄs parasti ir augstÄkas nekÄ operÄtÄjsistÄmÄm. Bet var bÅ«t arÄ« otrÄdi, kad nav nepiecieÅ”ams krÄtuvÄ glabÄt detalizÄtu informÄciju no operÄtÄjsistÄmas.
Lai datu kvalitÄte bÅ«tu izmÄrÄma, ir jÄapraksta tÄ standarti. Apraksta procesÄ ir jÄiesaista cilvÄki, kuri savÄ darbÄ izmanto informÄciju un skaitļus. Å Ä«s iesaistÄ«Å”anÄs rezultÄts var bÅ«t noteikums, pÄc kura var uzreiz pateikt tabulÄ, vai kļūda ir vai nav. Å Ä« kÄrtula ir jÄformatÄ kÄ skripts/kods turpmÄkai pÄrbaudei.
Datu kvalitÄtes uzlaboÅ”ana
Datu ielÄdes procesÄ noliktavÄ nav iespÄjams iztÄ«rÄ«t un labot visas hipotÄtiskÄs kļūdas. Labu datu kvalitÄti var panÄkt, tikai cieÅ”i sadarbojoties visiem dalÄ«bniekiem. CilvÄkiem, kuri ievada datus operÄtÄjsistÄmÄs, ir jÄzina, kÄdas darbÄ«bas izraisa kļūdas.
Datu kvalitÄte ir process. DiemžÄl daudzÄm organizÄcijÄm nav nepÄrtrauktas uzlaboÅ”anas stratÄÄ£ijas. Daudzi aprobežojas tikai ar datu glabÄÅ”anu un neizmanto visu analÄ«tisko sistÄmu potenciÄlu. Parasti, izstrÄdÄjot datu noliktavas, 70-80% no budžeta tiek tÄrÄti datu integrÄcijas ievieÅ”anai. UzraudzÄ«bas un uzlaboÅ”anas process joprojÄm ir nepilnÄ«gs, ja tÄds vispÄr ir.
Darbarīki
ProgrammatÅ«ras rÄ«ku izmantoÅ”ana var palÄ«dzÄt automatizÄt datu kvalitÄtes uzlaboÅ”anu un uzraudzÄ«bu. PiemÄram, tie var pilnÄ«bÄ automatizÄt uzglabÄÅ”anas struktÅ«ru tehnisko pÄrbaudi: lauka formÄts, noklusÄjuma vÄrtÄ«bu klÄtbÅ«tne, atbilstÄ«ba tabulu lauku nosaukumiem.
Var bÅ«t grÅ«tÄk pÄrbaudÄ«t saturu. Mainoties uzglabÄÅ”anas prasÄ«bÄm, var mainÄ«ties arÄ« datu interpretÄcija. Pats rÄ«ks var kļūt par milzÄ«gu projektu, kam nepiecieÅ”ams atbalsts.
Padome
RelÄciju datubÄzÄm, kurÄs parasti tiek veidoti veikali, ir ievÄrojama iespÄja izveidot skatus. Tos var izmantot, lai Ätri pÄrbaudÄ«tu datus, ja zinÄt satura specifiku. Katru kļūdu vai problÄmas atraÅ”anas gadÄ«jumu datos var reÄ£istrÄt datu bÄzes vaicÄjuma veidÄ.
TÄdÄ veidÄ tiks veidota zinÄÅ”anu bÄze par saturu. Protams, Å”Ädiem pieprasÄ«jumiem jÄbÅ«t Ätriem. Skatu uzturÄÅ”anai parasti ir nepiecieÅ”ams mazÄk laika nekÄ tabulu rÄ«kiem. Skats vienmÄr ir gatavs parÄdÄ«t testa rezultÄtu.
SvarÄ«gu pÄrskatu gadÄ«jumÄ skatÄ var bÅ«t kolonna ar adresÄtu. Ir lietderÄ«gi izmantot tos paÅ”us BI rÄ«kus, lai ziÅotu par datu kvalitÄtes stÄvokli noliktavÄ.
PiemÄrs
VaicÄjums tika uzrakstÄ«ts Oracle datu bÄzei. Å ajÄ piemÄrÄ testi atgriež skaitlisku vÄrtÄ«bu, ko var interpretÄt pÄc vÄlÄÅ”anÄs. T_MIN un T_MAX vÄrtÄ«bas var izmantot, lai pielÄgotu trauksmes lÄ«meni. Lauks REPORT savulaik tika izmantots kÄ ziÅojums komerciÄlÄ ETL produktÄ, kas nezinÄja, kÄ pareizi nosÅ«tÄ«t e-pastus, tÄpÄc rpad ir "kruÄ·is".
Lielas tabulas gadÄ«jumÄ var pievienot, piemÄram, UN ROWNUM <= 10, t.i. ja ir 10 kļūdas, tad ar to pietiek, lai izraisÄ«tu trauksmi.
CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
THEN 'OK' ELSE 'ERROR' END AS RESULT,
DESCRIPTION,
TABLE_NAME,
OUTPUT,
T_MIN,
T_MAX,
rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
SELECT
'DIM_PRODUCT' AS TABLE_NAME,
'Count of blanks' AS DESCRIPTION,
COUNT(*) AS OUTPUT,
0 AS T_MIN,
10 AS T_MAX
FROM DIM_PRODUCT
WHERE DIM_PRODUCT_ID != -1 -- not default value
AND ATTRIBUTE IS NULL ); -- count blanks
IzdevumÄ izmantoti materiÄli no grÄmatas
Ronalds Bahmans, Dr. Gvido Kempers
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird
Avots: www.habr.com