Datu kvalitāte noliktavā

Noliktavā esoÅ”o datu kvalitāte ir svarÄ«gs priekÅ”noteikums vērtÄ«gas informācijas iegÅ«Å”anai. Slikta kvalitāte ilgtermiņā noved pie negatÄ«vas ķēdes reakcijas.
Pirmkārt, tiek zaudēta uzticība sniegtajai informācijai. Cilvēki sāk mazāk izmantot biznesa informācijas lietojumprogrammas; lietojumprogrammu potenciāls joprojām nav izmantots.
Rezultātā tiek apŔaubītas turpmākas investīcijas analītiskajā projektā.

Atbildība par datu kvalitāti

Ar datu kvalitātes uzlaboÅ”anu saistÄ«tais aspekts BI projektos ir ļoti svarÄ«gs. Tomēr tā nav tikai tehnisko speciālistu privilēģija.
Datu kvalitāti ietekmē arī tādi aspekti kā

Korporatīvo kultūru

  • Vai paÅ”i strādnieki ir ieinteresēti ražot labu kvalitāti?
  • Ja nē, kāpēc ne? Var rasties intereÅ”u konflikts.
  • VarbÅ«t ir korporatÄ«vie noteikumi, kas nosaka, kurÅ” ir atbildÄ«gs par kvalitāti?

Procesi

  • Kādi dati tiek izveidoti Å”o ķēžu beigās?
  • Iespējams, operētājsistēmas ir konfigurētas tā, ka jums ir nepiecieÅ”ams ā€œsagrieztā€, lai atspoguļotu Å”o vai citu situāciju realitātē.
  • Vai operētājsistēmas paÅ”as veic datu pārbaudi un saskaņoÅ”anu?

Ikviens organizācijas dalÄ«bnieks ir atbildÄ«gs par datu kvalitāti ziņoÅ”anas sistēmās.

Definīcija un nozīme

Kvalitāte ir pierādīta klientu cerību apmierināŔana.

Bet datu kvalitāte nesatur definÄ«ciju. Tas vienmēr atspoguļo lietoÅ”anas kontekstu. Datu noliktava un BI sistēma kalpo citiem mērÄ·iem nekā operētājsistēma, no kuras tiek iegÅ«ti dati.

Piemēram, operētājsistēmā klienta atribÅ«ts var bÅ«t neobligāts lauks. Repozitorijā Å”o atribÅ«tu var izmantot kā dimensiju, un tā aizpildÄ«Å”ana ir nepiecieÅ”ama. Kas, savukārt, ievieÅ” nepiecieÅ”amÄ«bu aizpildÄ«t noklusējuma vērtÄ«bas.

Datu uzglabāŔanas prasÄ«bas pastāvÄ«gi mainās, un tās parasti ir augstākas nekā operētājsistēmām. Bet var bÅ«t arÄ« otrādi, kad nav nepiecieÅ”ams krātuvē glabāt detalizētu informāciju no operētājsistēmas.

Lai datu kvalitāte bÅ«tu izmērāma, ir jāapraksta tā standarti. Apraksta procesā ir jāiesaista cilvēki, kuri savā darbā izmanto informāciju un skaitļus. Å Ä«s iesaistÄ«Å”anās rezultāts var bÅ«t noteikums, pēc kura var uzreiz pateikt tabulā, vai kļūda ir vai nav. Å Ä« kārtula ir jāformatē kā skripts/kods turpmākai pārbaudei.

Datu kvalitātes uzlaboŔana

Datu ielādes procesā noliktavā nav iespējams iztÄ«rÄ«t un labot visas hipotētiskās kļūdas. Labu datu kvalitāti var panākt, tikai cieÅ”i sadarbojoties visiem dalÄ«bniekiem. Cilvēkiem, kuri ievada datus operētājsistēmās, ir jāzina, kādas darbÄ«bas izraisa kļūdas.

Datu kvalitāte ir process. Diemžēl daudzām organizācijām nav nepārtrauktas uzlaboÅ”anas stratēģijas. Daudzi aprobežojas tikai ar datu glabāŔanu un neizmanto visu analÄ«tisko sistēmu potenciālu. Parasti, izstrādājot datu noliktavas, 70-80% no budžeta tiek tērēti datu integrācijas ievieÅ”anai. UzraudzÄ«bas un uzlaboÅ”anas process joprojām ir nepilnÄ«gs, ja tāds vispār ir.

Darbarīki

ProgrammatÅ«ras rÄ«ku izmantoÅ”ana var palÄ«dzēt automatizēt datu kvalitātes uzlaboÅ”anu un uzraudzÄ«bu. Piemēram, tie var pilnÄ«bā automatizēt uzglabāŔanas struktÅ«ru tehnisko pārbaudi: lauka formāts, noklusējuma vērtÄ«bu klātbÅ«tne, atbilstÄ«ba tabulu lauku nosaukumiem.

Var būt grūtāk pārbaudīt saturu. Mainoties uzglabāŔanas prasībām, var mainīties arī datu interpretācija. Pats rīks var kļūt par milzīgu projektu, kam nepiecieŔams atbalsts.

Padome

Relāciju datubāzēm, kurās parasti tiek veidoti veikali, ir ievērojama iespēja izveidot skatus. Tos var izmantot, lai ātri pārbaudÄ«tu datus, ja zināt satura specifiku. Katru kļūdu vai problēmas atraÅ”anas gadÄ«jumu datos var reÄ£istrēt datu bāzes vaicājuma veidā.

Tādā veidā tiks veidota zināŔanu bāze par saturu. Protams, Ŕādiem pieprasÄ«jumiem jābÅ«t ātriem. Skatu uzturÄ“Å”anai parasti ir nepiecieÅ”ams mazāk laika nekā tabulu rÄ«kiem. Skats vienmēr ir gatavs parādÄ«t testa rezultātu.
SvarÄ«gu pārskatu gadÄ«jumā skatā var bÅ«t kolonna ar adresātu. Ir lietderÄ«gi izmantot tos paÅ”us BI rÄ«kus, lai ziņotu par datu kvalitātes stāvokli noliktavā.

Piemērs

Vaicājums tika uzrakstÄ«ts Oracle datu bāzei. Å ajā piemērā testi atgriež skaitlisku vērtÄ«bu, ko var interpretēt pēc vēlÄ“Å”anās. T_MIN un T_MAX vērtÄ«bas var izmantot, lai pielāgotu trauksmes lÄ«meni. Lauks REPORT savulaik tika izmantots kā ziņojums komerciālā ETL produktā, kas nezināja, kā pareizi nosÅ«tÄ«t e-pastus, tāpēc rpad ir "kruÄ·is".

Lielas tabulas gadījumā var pievienot, piemēram, UN ROWNUM <= 10, t.i. ja ir 10 kļūdas, tad ar to pietiek, lai izraisītu trauksmi.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Izdevumā izmantoti materiāli no grāmatas
Ronalds Bahmans, Dr. Gvido Kempers
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Avots: www.habr.com

Pievieno komentāru