Qualitat de les dades al magatzem

La qualitat de les dades del magatzem és un requisit previ important per obtenir informació valuosa. La mala qualitat condueix a una reacció en cadena negativa a la llarga.
En primer lloc, es perd la confiança en la informació proporcionada. La gent està començant a utilitzar menys aplicacions de Business Intelligence; el potencial de les aplicacions segueix sense reclamar.
Com a resultat, es qüestiona més inversió en el projecte analític.

Responsabilitat de la qualitat de les dades

L'aspecte relacionat amb la millora de la qualitat de les dades és molt important en els projectes de BI. Tanmateix, no és un privilegi només dels especialistes tècnics.
La qualitat de les dades també està influenciada per aspectes com ara

Cultura corporativa

  • Els mateixos treballadors estan interessats a produir de bona qualitat?
  • Si no, per què no? Pot haver-hi un conflicte d'interessos.
  • Potser hi ha normes corporatives que determinen qui és responsable de la qualitat?

Процессы

  • Quines dades es creen al final d'aquestes cadenes?
  • Potser els sistemes operatius estan configurats de tal manera que cal "girar" per reflectir aquesta o aquella situació en la realitat.
  • Els sistemes operatius realitzen ells mateixos la verificació i la conciliació de dades?

Tothom a l'organització és responsable de la qualitat de les dades dels sistemes d'informes.

Definició i significat

La qualitat és la satisfacció demostrada de les expectatives del client.

Però la qualitat de les dades no conté una definició. Sempre reflecteix el context d'ús. El magatzem de dades i el sistema de BI tenen finalitats diferents del sistema operatiu del qual provenen les dades.

Per exemple, en un sistema operatiu, l'atribut del client pot ser un camp opcional. Al repositori, aquest atribut es pot utilitzar com a dimensió i cal omplir-lo. El que, al seu torn, introdueix la necessitat d'omplir els valors per defecte.

Els requisits d'emmagatzematge de dades canvien constantment i solen ser superiors als dels sistemes operatius. Però també pot ser al revés, quan no cal emmagatzemar informació detallada del sistema operatiu a l'emmagatzematge.

Perquè la qualitat de les dades sigui mesurable, cal descriure els seus estàndards. En el procés de descripció s'han d'implicar les persones que utilitzen informació i xifres per al seu treball. El resultat d'aquesta implicació pot ser una regla, seguint la qual es pot dir d'un cop d'ull a la taula si hi ha un error o no. Aquesta regla s'ha de formatar com a script/codi per a la verificació posterior.

Millora de la qualitat de les dades

És impossible netejar i corregir tots els errors hipotètics durant el procés de càrrega de dades al magatzem. Una bona qualitat de les dades només es pot aconseguir mitjançant una col·laboració estreta entre tots els participants. Les persones que introdueixen dades als sistemes operatius han d'aprendre quines accions provoquen errors.

La qualitat de les dades és un procés. Malauradament, moltes organitzacions no tenen una estratègia de millora contínua. Molts es limiten a emmagatzemar dades i no utilitzen tot el potencial dels sistemes analítics. Normalment, quan es desenvolupen magatzems de dades, el 70-80% del pressupost es destina a implementar la integració de dades. El procés de seguiment i millora segueix sent incomplet, si és que ho és.

Instruments

L'ús d'eines de programari pot ajudar en el procés d'automatització de la millora i el seguiment de la qualitat de les dades. Per exemple, poden automatitzar completament la verificació tècnica de les estructures d'emmagatzematge: format de camp, presència de valors per defecte, compliment dels noms de camp de la taula.

Pot ser més difícil comprovar el contingut. A mesura que canvien els requisits d'emmagatzematge, la interpretació de les dades també pot canviar. L'eina en si pot esdevenir un gran projecte que requereix suport.

Consell

Les bases de dades relacionals, en les quals normalment es dissenyen les botigues, tenen la notable capacitat de crear vistes. Es poden utilitzar per comprovar ràpidament les dades si coneixeu les especificitats del contingut. Cada cas de trobar un error o problema a les dades es pot registrar en forma de consulta a la base de dades.

D'aquesta manera, es formarà una base de coneixement sobre el contingut. Per descomptat, aquestes peticions han de ser ràpides. Les vistes solen requerir menys temps humà per mantenir-les que les eines basades en taules. La vista sempre està a punt per mostrar el resultat de la prova.
En el cas d'informes importants, la vista pot contenir una columna amb el destinatari. Té sentit utilitzar les mateixes eines de BI per informar sobre l'estat de la qualitat de les dades al magatzem.

Exemple

La consulta es va escriure per a la base de dades Oracle. En aquest exemple, les proves retornen un valor numèric que es pot interpretar com es desitja. Els valors T_MIN i T_MAX es poden utilitzar per ajustar el nivell d'alarma. El camp INFORME es va utilitzar una vegada com a missatge en un producte comercial ETL que no sabia com enviar correctament correus electrònics, de manera que rpad és una "muleta".

En el cas d'una taula gran, podeu afegir, per exemple, AND ROWNUM <= 10, és a dir. si hi ha 10 errors, això és suficient per provocar una alarma.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

La publicació utilitza materials del llibre
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Font: www.habr.com

Afegeix comentari