Kvalitet podataka u skladištu

Kvalitet podataka u skladištu važan je preduslov za dobijanje vrijednih informacija. Loša kvaliteta dugoročno dovodi do negativne lančane reakcije.
Prvo, gubi se povjerenje u date informacije. Ljudi počinju manje koristiti aplikacije Business Intelligence; potencijal aplikacija ostaje neiskorišćen.
Kao rezultat, dovedeno je u pitanje dalje ulaganje u analitički projekat.

Odgovornost za kvalitet podataka

Aspekt koji se odnosi na poboljšanje kvaliteta podataka je megavažan u BI projektima. Međutim, to nije privilegija samo tehničkih stručnjaka.
Na kvalitet podataka utiču i aspekti kao što su

Korporativne kulture

  • Da li su sami radnici zainteresirani za proizvodnju dobrog kvaliteta?
  • Ako ne, zašto ne? Može doći do sukoba interesa.
  • Možda postoje korporativna pravila koja određuju ko je odgovoran za kvalitet?

Procesi

  • Koji podaci se kreiraju na kraju ovih lanaca?
  • Možda su operativni sistemi konfigurisani na takav način da se morate "okrenuti" da biste odražavali ovu ili onu situaciju u stvarnosti.
  • Da li operativni sistemi sami obavljaju verifikaciju i usklađivanje podataka?

Svako u organizaciji je odgovoran za kvalitet podataka u sistemima izvještavanja.

Definicija i značenje

Kvalitet je dokazano zadovoljenje očekivanja kupaca.

Ali kvalitet podataka ne sadrži definiciju. Uvijek odražava kontekst upotrebe. Skladište podataka i BI sistem služe različitim svrhama od operativnog sistema iz kojeg podaci dolaze.

Na primjer, na operativnom sistemu, atribut kupca može biti opciono polje. U spremištu, ovaj atribut se može koristiti kao dimenzija i potrebno je njegovo popunjavanje. Što, pak, uvodi potrebu za popunjavanjem zadanih vrijednosti.

Zahtjevi za skladištenje podataka se stalno mijenjaju i obično su veći od onih za operativne sisteme. Ali može biti i obrnuto, kada nema potrebe za pohranjivanjem detaljnih informacija iz operativnog sistema u skladište.

Da bi se kvalitet podataka učinio mjerljivim, moraju se opisati njegovi standardi. Ljudi koji koriste informacije i brojke za svoj rad moraju biti uključeni u proces opisa. Rezultat ove uključenosti može biti pravilo, po kojem se može na prvi pogled u tabeli reći da li postoji greška ili ne. Ovo pravilo mora biti formatirano kao skripta/kod za naknadnu verifikaciju.

Poboljšanje kvaliteta podataka

Nemoguće je očistiti i ispraviti sve hipotetičke greške tokom procesa učitavanja podataka u skladište. Dobar kvalitet podataka može se postići samo kroz blisku saradnju između svih učesnika. Ljudi koji unose podatke u operativne sisteme moraju naučiti koje radnje dovode do grešaka.

Kvalitet podataka je proces. Nažalost, mnoge organizacije nemaju strategiju za kontinuirano poboljšanje. Mnogi se ograničavaju samo na pohranjivanje podataka i ne koriste puni potencijal analitičkih sistema. Tipično, kada se razvijaju skladišta podataka, 70-80% budžeta se troši na implementaciju integracije podataka. Proces praćenja i poboljšanja ostaje nedovršen, ako je uopće.

Alati

Upotreba softverskih alata može pomoći u procesu automatizacije poboljšanja kvaliteta podataka i praćenja. Na primjer, mogu u potpunosti automatizirati tehničku verifikaciju struktura skladištenja: format polja, prisutnost zadanih vrijednosti, usklađenost s nazivima polja tablice.

Možda će biti teže provjeriti sadržaj. Kako se zahtjevi za skladištenje mijenjaju, može se promijeniti i interpretacija podataka. Alat sam po sebi može postati veliki projekt koji zahtijeva podršku.

Savjet

Relacione baze podataka, u kojima se obično dizajniraju prodavnice, imaju izuzetnu sposobnost kreiranja pogleda. Mogu se koristiti za brzu provjeru podataka ako poznajete specifičnosti sadržaja. Svaki slučaj pronalaženja greške ili problema u podacima može se zabilježiti u obliku upita baze podataka.

Na taj način će se formirati baza znanja o sadržaju. Naravno, takvi zahtjevi moraju biti brzi. Pogledi obično zahtijevaju manje ljudskog vremena za održavanje nego alati zasnovani na tablicama. Prikaz je uvijek spreman za prikaz rezultata testa.
U slučaju važnih izvještaja, prikaz može sadržavati kolonu s primaocem. Ima smisla koristiti iste BI alate za izvještavanje o stanju kvaliteta podataka u skladištu.

Primjer:

Upit je napisan za Oracle bazu podataka. U ovom primjeru, testovi vraćaju numeričku vrijednost koja se može interpretirati po želji. Vrijednosti T_MIN i T_MAX mogu se koristiti za podešavanje nivoa alarma. Polje REPORT se nekada koristilo kao poruka u komercijalnom ETL proizvodu koji nije znao kako pravilno slati e-poštu, pa je rpad „štaka“.

U slučaju velike tabele, možete dodati, na primjer, AND ROWNUM <= 10, tj. ako ima 10 grešaka, onda je to dovoljno da izazove alarm.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Publikacija koristi materijale iz knjige
Ronald Bachmann, dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


izvor: www.habr.com

Dodajte komentar