Kvaliteta podataka u skladištu

Kvaliteta podataka u skladištu važan je preduvjet za dobivanje vrijednih informacija. Loša kvaliteta dugoročno dovodi do negativne lančane reakcije.
Prvo, gubi se povjerenje u pružene informacije. Ljudi počinju manje koristiti aplikacije poslovne inteligencije; potencijal aplikacija ostaje neiskorišten.
Time se dovodi u pitanje daljnje ulaganje u analitički projekt.

Odgovornost za kvalitetu podataka

Aspekt koji se odnosi na poboljšanje kvalitete podataka mega je važan u BI projektima. Međutim, to nije privilegija samo tehničkih stručnjaka.
Na kvalitetu podataka također utječu aspekti kao što su

Korporativna kultura

  • Jesu li sami radnici zainteresirani za kvalitetnu proizvodnju?
  • Ako ne, zašto ne? Može postojati sukob interesa.
  • Možda postoje korporativna pravila koja određuju tko je odgovoran za kvalitetu?

procesi

  • Koji se podaci stvaraju na kraju tih lanaca?
  • Možda su operativni sustavi konfigurirani na takav način da se morate "okrenuti" kako biste odražavali ovu ili onu situaciju u stvarnosti.
  • Izvode li operativni sustavi sami provjeru podataka i usklađivanje?

Svi u organizaciji odgovorni su za kvalitetu podataka u sustavima izvješćivanja.

Definicija i značenje

Kvaliteta je dokazano zadovoljenje očekivanja kupaca.

Ali kvaliteta podataka ne sadrži definiciju. Uvijek odražava kontekst upotrebe. Skladište podataka i BI sustav imaju različite svrhe od operativnog sustava iz kojeg podaci dolaze.

Na primjer, na operativnom sustavu, atribut kupca može biti izborno polje. U repozitoriju se ovaj atribut može koristiti kao dimenzija i njegovo popunjavanje je obavezno. Što zauzvrat uvodi potrebu ispunjavanja zadanih vrijednosti.

Zahtjevi za pohranu podataka stalno se mijenjaju i obično su viši od onih za operativne sustave. Ali može biti i obrnuto, kada nema potrebe pohranjivati ​​detaljne informacije iz operativnog sustava u pohranu.

Kako bi kvaliteta podataka bila mjerljiva, njezini standardi moraju biti opisani. Ljudi koji koriste informacije i brojke za svoj rad moraju biti uključeni u proces opisa. Rezultat ovog angažmana može biti pravilo prema kojem se na prvi pogled u tablicu može vidjeti postoji li greška ili ne. Ovo pravilo mora biti oblikovano kao skripta/kod za naknadnu provjeru.

Poboljšanje kvalitete podataka

Nemoguće je očistiti i ispraviti sve hipotetske pogreške tijekom procesa učitavanja podataka u skladište. Dobra kvaliteta podataka može se postići samo bliskom suradnjom između svih sudionika. Ljudi koji unose podatke u operativne sustave moraju naučiti koje radnje dovode do pogrešaka.

Kvaliteta podataka je proces. Nažalost, mnoge organizacije nemaju strategiju kontinuiranog poboljšanja. Mnogi se ograničavaju samo na pohranu podataka i ne koriste puni potencijal analitičkih sustava. Obično se pri razvoju skladišta podataka 70-80% proračuna troši na implementaciju integracije podataka. Proces praćenja i poboljšanja ostaje nedovršen, ako uopće postoji.

Alat

Korištenje softverskih alata može pomoći u procesu automatizacije poboljšanja i praćenja kvalitete podataka. Na primjer, mogu u potpunosti automatizirati tehničku provjeru struktura pohrane: format polja, prisutnost zadanih vrijednosti, usklađenost s nazivima polja tablice.

Možda će biti teže provjeriti sadržaj. Kako se zahtjevi za pohranu mijenjaju, tumačenje podataka također se može promijeniti. Sam alat može postati ogroman projekt koji zahtijeva podršku.

vijeće

Relacijske baze podataka, u kojima su trgovine obično dizajnirane, imaju izvanrednu sposobnost stvaranja pogleda. Mogu se koristiti za brzu provjeru podataka ako poznajete specifičnosti sadržaja. Svaki slučaj pronalaženja greške ili problema u podacima može se zabilježiti u obliku upita baze podataka.

Na taj način će se formirati baza znanja o sadržaju. Naravno, takvi zahtjevi moraju biti brzi. Pogledi obično zahtijevaju manje ljudskog vremena za održavanje od alata temeljenih na tablici. Prikaz je uvijek spreman za prikaz rezultata testa.
U slučaju važnih izvješća, prikaz može sadržavati stupac s primateljem. Ima smisla koristiti iste BI alate za izvješćivanje o stanju kvalitete podataka u skladištu.

Primjer

Upit je napisan za Oracle bazu podataka. U ovom primjeru, testovi vraćaju numeričku vrijednost koja se može tumačiti po želji. Vrijednosti T_MIN i T_MAX mogu se koristiti za podešavanje razine alarma. Polje IZVJEŠĆE nekada se koristilo kao poruka u komercijalnom ETL proizvodu koji nije znao pravilno slati e-mailove, tako da je rpad “štaka”.

U slučaju velike tablice, možete dodati, na primjer, AND ROWNUM <= 10, tj. ako ima 10 grešaka, onda je to dovoljno za alarm.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Publikacija koristi materijale iz knjige
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Izvor: www.habr.com

Dodajte komentar