Kvalitet podataka u skladištu važan je preduslov za dobijanje vrijednih informacija. Loša kvaliteta dugoročno dovodi do negativne lančane reakcije.
Prvo, gubi se povjerenje u date informacije. Ljudi počinju manje koristiti aplikacije Business Intelligence; potencijal aplikacija ostaje neiskorišćen.
Kao rezultat, dovedeno je u pitanje dalje ulaganje u analitički projekat.
Odgovornost za kvalitet podataka
Aspekt koji se odnosi na poboljšanje kvaliteta podataka je megavažan u BI projektima. Međutim, to nije privilegija samo tehničkih stručnjaka.
Na kvalitet podataka utiču i aspekti kao što su
Korporativne kulture
- Da li su sami radnici zainteresirani za proizvodnju dobrog kvaliteta?
- Ako ne, zašto ne? Može doći do sukoba interesa.
- Možda postoje korporativna pravila koja određuju ko je odgovoran za kvalitet?
Procesi
- Koji podaci se kreiraju na kraju ovih lanaca?
- Možda su operativni sistemi konfigurisani na takav način da se morate "okrenuti" da biste odražavali ovu ili onu situaciju u stvarnosti.
- Da li operativni sistemi sami obavljaju verifikaciju i usklađivanje podataka?
Svako u organizaciji je odgovoran za kvalitet podataka u sistemima izvještavanja.
Definicija i značenje
Kvalitet je dokazano zadovoljenje očekivanja kupaca.
Ali kvalitet podataka ne sadrži definiciju. Uvijek odražava kontekst upotrebe. Skladište podataka i BI sistem služe različitim svrhama od operativnog sistema iz kojeg podaci dolaze.
Na primjer, na operativnom sistemu, atribut kupca može biti opciono polje. U spremištu, ovaj atribut se može koristiti kao dimenzija i potrebno je njegovo popunjavanje. Što, pak, uvodi potrebu za popunjavanjem zadanih vrijednosti.
Zahtjevi za skladištenje podataka se stalno mijenjaju i obično su veći od onih za operativne sisteme. Ali može biti i obrnuto, kada nema potrebe za pohranjivanjem detaljnih informacija iz operativnog sistema u skladište.
Da bi se kvalitet podataka učinio mjerljivim, moraju se opisati njegovi standardi. Ljudi koji koriste informacije i brojke za svoj rad moraju biti uključeni u proces opisa. Rezultat ove uključenosti može biti pravilo, po kojem se može na prvi pogled u tabeli reći da li postoji greška ili ne. Ovo pravilo mora biti formatirano kao skripta/kod za naknadnu verifikaciju.
Poboljšanje kvaliteta podataka
Nemoguće je očistiti i ispraviti sve hipotetičke greške tokom procesa učitavanja podataka u skladište. Dobar kvalitet podataka može se postići samo kroz blisku saradnju između svih učesnika. Ljudi koji unose podatke u operativne sisteme moraju naučiti koje radnje dovode do grešaka.
Kvalitet podataka je proces. Nažalost, mnoge organizacije nemaju strategiju za kontinuirano poboljšanje. Mnogi se ograničavaju samo na pohranjivanje podataka i ne koriste puni potencijal analitičkih sistema. Tipično, kada se razvijaju skladišta podataka, 70-80% budžeta se troši na implementaciju integracije podataka. Proces praćenja i poboljšanja ostaje nedovršen, ako je uopće.
Alati
Upotreba softverskih alata može pomoći u procesu automatizacije poboljšanja kvaliteta podataka i praćenja. Na primjer, mogu u potpunosti automatizirati tehničku verifikaciju struktura skladištenja: format polja, prisutnost zadanih vrijednosti, usklađenost s nazivima polja tablice.
Možda će biti teže provjeriti sadržaj. Kako se zahtjevi za skladištenje mijenjaju, može se promijeniti i interpretacija podataka. Alat sam po sebi može postati veliki projekt koji zahtijeva podršku.
Savjet
Relacione baze podataka, u kojima se obično dizajniraju prodavnice, imaju izuzetnu sposobnost kreiranja pogleda. Mogu se koristiti za brzu provjeru podataka ako poznajete specifičnosti sadržaja. Svaki slučaj pronalaženja greške ili problema u podacima može se zabilježiti u obliku upita baze podataka.
Na taj način će se formirati baza znanja o sadržaju. Naravno, takvi zahtjevi moraju biti brzi. Pogledi obično zahtijevaju manje ljudskog vremena za održavanje nego alati zasnovani na tablicama. Prikaz je uvijek spreman za prikaz rezultata testa.
U slučaju važnih izvještaja, prikaz može sadržavati kolonu s primaocem. Ima smisla koristiti iste BI alate za izvještavanje o stanju kvaliteta podataka u skladištu.
Primjer:
Upit je napisan za Oracle bazu podataka. U ovom primjeru, testovi vraćaju numeričku vrijednost koja se može interpretirati po želji. Vrijednosti T_MIN i T_MAX mogu se koristiti za podešavanje nivoa alarma. Polje REPORT se nekada koristilo kao poruka u komercijalnom ETL proizvodu koji nije znao kako pravilno slati e-poštu, pa je rpad „štaka“.
U slučaju velike tabele, možete dodati, na primjer, AND ROWNUM <= 10, tj. ako ima 10 grešaka, onda je to dovoljno da izazove alarm.
CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
THEN 'OK' ELSE 'ERROR' END AS RESULT,
DESCRIPTION,
TABLE_NAME,
OUTPUT,
T_MIN,
T_MAX,
rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
SELECT
'DIM_PRODUCT' AS TABLE_NAME,
'Count of blanks' AS DESCRIPTION,
COUNT(*) AS OUTPUT,
0 AS T_MIN,
10 AS T_MAX
FROM DIM_PRODUCT
WHERE DIM_PRODUCT_ID != -1 -- not default value
AND ATTRIBUTE IS NULL ); -- count blanks
Publikacija koristi materijale iz knjige
Ronald Bachmann, dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird
izvor: www.habr.com