Calitatea datelor în depozit

Calitatea datelor din depozit este o condiție prealabilă importantă pentru obținerea de informații valoroase. Calitatea slabă duce la o reacție negativă în lanț pe termen lung.
În primul rând, se pierde încrederea în informațiile furnizate. Oamenii încep să folosească mai puțin aplicațiile de Business Intelligence; potențialul aplicațiilor rămâne nerevendicat.
Ca urmare, investițiile suplimentare în proiectul analitic sunt puse sub semnul întrebării.

Responsabilitatea pentru calitatea datelor

Aspectul legat de îmbunătățirea calității datelor este foarte important în proiectele de BI. Cu toate acestea, nu este privilegiul doar al specialiștilor tehnici.
Calitatea datelor este influențată și de aspecte precum

Cultură corporatistă

  • Sunt muncitorii înșiși interesați să producă de bună calitate?
  • Dacă nu, de ce nu? Poate exista un conflict de interese.
  • Poate că există reguli corporative care determină cine este responsabil pentru calitate?

Procesele

  • Ce date sunt create la sfârșitul acestor lanțuri?
  • Poate că sistemele de operare sunt configurate în așa fel încât trebuie să „răsuciți” pentru a reflecta cutare sau cutare situație în realitate.
  • Sistemele de operare efectuează singure verificarea și reconcilierea datelor?

Toată lumea din organizație este responsabilă pentru calitatea datelor din sistemele de raportare.

Definiție și semnificație

Calitatea este satisfacerea dovedită a așteptărilor clienților.

Dar calitatea datelor nu conține o definiție. Reflectă întotdeauna contextul de utilizare. Depozitul de date și sistemul BI servesc unor scopuri diferite decât sistemul de operare din care provin datele.

De exemplu, pe un sistem de operare, atributul client poate fi un câmp opțional. În depozit, acest atribut poate fi folosit ca dimensiune și este necesară completarea acestuia. Ceea ce, la rândul său, introduce necesitatea de a completa valorile implicite.

Cerințele de stocare a datelor sunt în continuă schimbare și sunt de obicei mai mari decât cele pentru sistemele de operare. Dar poate fi și invers, când nu este nevoie să stocați informații detaliate din sistemul de operare în stocare.

Pentru ca calitatea datelor să fie măsurabilă, trebuie descrise standardele acesteia. Persoanele care folosesc informații și cifre pentru munca lor trebuie să fie implicate în procesul de descriere. Rezultatul acestei implicări poate fi o regulă, după care se poate spune dintr-o privire pe tabel dacă există sau nu o eroare. Această regulă trebuie formatată ca script/cod pentru verificarea ulterioară.

Îmbunătățirea calității datelor

Este imposibil să curățați și să corectați toate erorile ipotetice în timpul procesului de încărcare a datelor în depozit. Calitatea bună a datelor poate fi obținută numai printr-o colaborare strânsă între toți participanții. Persoanele care introduc date în sistemele de operare trebuie să învețe ce acțiuni duc la erori.

Calitatea datelor este un proces. Din păcate, multe organizații nu au o strategie de îmbunătățire continuă. Mulți se limitează doar la stocarea datelor și nu folosesc întregul potențial al sistemelor analitice. De obicei, atunci când se dezvoltă depozite de date, 70-80% din buget este cheltuit pentru implementarea integrării datelor. Procesul de monitorizare și îmbunătățire rămâne incomplet, dacă este deloc.

Instrumente

Utilizarea instrumentelor software poate ajuta în procesul de automatizare a îmbunătățirii și monitorizării calității datelor. De exemplu, pot automatiza complet verificarea tehnică a structurilor de stocare: format câmp, prezența valorilor implicite, conformitatea cu numele câmpurilor de tabel.

Poate fi mai dificil să verifici conținutul. Pe măsură ce cerințele de stocare se modifică, se poate modifica și interpretarea datelor. Instrumentul în sine poate deveni un proiect uriaș care necesită sprijin.

consiliu

Bazele de date relaționale, în care magazinele sunt de obicei proiectate, au capacitatea remarcabilă de a crea vizualizări. Ele pot fi folosite pentru a verifica rapid datele dacă cunoașteți specificul conținutului. Fiecare caz de găsire a unei erori sau probleme în date poate fi înregistrat sub forma unei interogări în baza de date.

În acest fel, se va forma o bază de cunoștințe despre conținut. Desigur, astfel de cereri trebuie să fie rapide. Vizualizările necesită de obicei mai puțin timp uman pentru întreținere decât instrumentele bazate pe tabel. Vizualizarea este întotdeauna gata pentru a afișa rezultatul testului.
În cazul rapoartelor importante, vizualizarea poate conține o coloană cu destinatarul. Este logic să folosiți aceleași instrumente BI pentru a raporta starea calității datelor din depozit.

Exemplu

Interogarea a fost scrisă pentru baza de date Oracle. În acest exemplu, testele returnează o valoare numerică care poate fi interpretată după cum se dorește. Valorile T_MIN și T_MAX pot fi utilizate pentru a regla nivelul de alarmă. Câmpul RAPORT a fost folosit odată ca mesaj într-un produs comercial ETL care nu știa cum să trimită corect e-mailuri, așa că rpad este o „cârjă”.

În cazul unui tabel mare, puteți adăuga, de exemplu, AND ROWNUM <= 10, adică dacă există 10 erori, atunci acest lucru este suficient pentru a provoca alarma.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Publicația folosește materiale din carte
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Sursa: www.habr.com

Adauga un comentariu