Noliktavā esošo datu kvalitāte ir svarīgs priekšnoteikums vērtīgas informācijas iegūšanai. Slikta kvalitāte ilgtermiņā noved pie negatīvas ķēdes reakcijas.
Pirmkārt, tiek zaudēta uzticība sniegtajai informācijai. Cilvēki sāk mazāk izmantot biznesa informācijas lietojumprogrammas; lietojumprogrammu potenciāls joprojām nav izmantots.
Rezultātā tiek apšaubītas turpmākas investīcijas analītiskajā projektā.
Atbildība par datu kvalitāti
Ar datu kvalitātes uzlabošanu saistītais aspekts BI projektos ir ļoti svarīgs. Tomēr tā nav tikai tehnisko speciālistu privilēģija.
Datu kvalitāti ietekmē arī tādi aspekti kā
Korporatīvo kultūru
- Vai paši strādnieki ir ieinteresēti ražot labu kvalitāti?
- Ja nē, kāpēc ne? Var rasties interešu konflikts.
- Varbūt ir korporatīvie noteikumi, kas nosaka, kurš ir atbildīgs par kvalitāti?
Procesi
- Kādi dati tiek izveidoti šo ķēžu beigās?
- Iespējams, operētājsistēmas ir konfigurētas tā, ka jums ir nepieciešams “sagriezt”, lai atspoguļotu šo vai citu situāciju realitātē.
- Vai operētājsistēmas pašas veic datu pārbaudi un saskaņošanu?
Ikviens organizācijas dalībnieks ir atbildīgs par datu kvalitāti ziņošanas sistēmās.
Definīcija un nozīme
Kvalitāte ir pierādīta klientu cerību apmierināšana.
Bet datu kvalitāte nesatur definīciju. Tas vienmēr atspoguļo lietošanas kontekstu. Datu noliktava un BI sistēma kalpo citiem mērķiem nekā operētājsistēma, no kuras tiek iegūti dati.
Piemēram, operētājsistēmā klienta atribūts var būt neobligāts lauks. Repozitorijā šo atribūtu var izmantot kā dimensiju, un tā aizpildīšana ir nepieciešama. Kas, savukārt, ievieš nepieciešamību aizpildīt noklusējuma vērtības.
Datu uzglabāšanas prasības pastāvīgi mainās, un tās parasti ir augstākas nekā operētājsistēmām. Bet var būt arī otrādi, kad nav nepieciešams krātuvē glabāt detalizētu informāciju no operētājsistēmas.
Lai datu kvalitāte būtu izmērāma, ir jāapraksta tā standarti. Apraksta procesā ir jāiesaista cilvēki, kuri savā darbā izmanto informāciju un skaitļus. Šīs iesaistīšanās rezultāts var būt noteikums, pēc kura var uzreiz pateikt tabulā, vai kļūda ir vai nav. Šī kārtula ir jāformatē kā skripts/kods turpmākai pārbaudei.
Datu kvalitātes uzlabošana
Datu ielādes procesā noliktavā nav iespējams iztīrīt un labot visas hipotētiskās kļūdas. Labu datu kvalitāti var panākt, tikai cieši sadarbojoties visiem dalībniekiem. Cilvēkiem, kuri ievada datus operētājsistēmās, ir jāzina, kādas darbības izraisa kļūdas.
Datu kvalitāte ir process. Diemžēl daudzām organizācijām nav nepārtrauktas uzlabošanas stratēģijas. Daudzi aprobežojas tikai ar datu glabāšanu un neizmanto visu analītisko sistēmu potenciālu. Parasti, izstrādājot datu noliktavas, 70-80% no budžeta tiek tērēti datu integrācijas ieviešanai. Uzraudzības un uzlabošanas process joprojām ir nepilnīgs, ja tāds vispār ir.
Darbarīki
Programmatūras rīku izmantošana var palīdzēt automatizēt datu kvalitātes uzlabošanu un uzraudzību. Piemēram, tie var pilnībā automatizēt uzglabāšanas struktūru tehnisko pārbaudi: lauka formāts, noklusējuma vērtību klātbūtne, atbilstība tabulu lauku nosaukumiem.
Var būt grūtāk pārbaudīt saturu. Mainoties uzglabāšanas prasībām, var mainīties arī datu interpretācija. Pats rīks var kļūt par milzīgu projektu, kam nepieciešams atbalsts.
Padome
Relāciju datubāzēm, kurās parasti tiek veidoti veikali, ir ievērojama iespēja izveidot skatus. Tos var izmantot, lai ātri pārbaudītu datus, ja zināt satura specifiku. Katru kļūdu vai problēmas atrašanas gadījumu datos var reģistrēt datu bāzes vaicājuma veidā.
Tādā veidā tiks veidota zināšanu bāze par saturu. Protams, šādiem pieprasījumiem jābūt ātriem. Skatu uzturēšanai parasti ir nepieciešams mazāk laika nekā tabulu rīkiem. Skats vienmēr ir gatavs parādīt testa rezultātu.
Svarīgu pārskatu gadījumā skatā var būt kolonna ar adresātu. Ir lietderīgi izmantot tos pašus BI rīkus, lai ziņotu par datu kvalitātes stāvokli noliktavā.
Piemērs
Vaicājums tika uzrakstīts Oracle datu bāzei. Šajā piemērā testi atgriež skaitlisku vērtību, ko var interpretēt pēc vēlēšanās. T_MIN un T_MAX vērtības var izmantot, lai pielāgotu trauksmes līmeni. Lauks REPORT savulaik tika izmantots kā ziņojums komerciālā ETL produktā, kas nezināja, kā pareizi nosūtīt e-pastus, tāpēc rpad ir "kruķis".
Lielas tabulas gadījumā var pievienot, piemēram, UN ROWNUM <= 10, t.i. ja ir 10 kļūdas, tad ar to pietiek, lai izraisītu trauksmi.
CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
THEN 'OK' ELSE 'ERROR' END AS RESULT,
DESCRIPTION,
TABLE_NAME,
OUTPUT,
T_MIN,
T_MAX,
rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
SELECT
'DIM_PRODUCT' AS TABLE_NAME,
'Count of blanks' AS DESCRIPTION,
COUNT(*) AS OUTPUT,
0 AS T_MIN,
10 AS T_MAX
FROM DIM_PRODUCT
WHERE DIM_PRODUCT_ID != -1 -- not default value
AND ATTRIBUTE IS NULL ); -- count blanks
Izdevumā izmantoti materiāli no grāmatas
Ronalds Bahmans, Dr. Gvido Kempers
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird
Avots: www.habr.com
