Calidade dos datos no almacén

A calidade dos datos do almacén é un requisito previo importante para obter información valiosa. A mala calidade leva a unha reacción en cadea negativa a longo prazo.
En primeiro lugar, pérdese a confianza na información proporcionada. A xente está empezando a usar menos aplicacións de Business Intelligence; o potencial das aplicacións segue sen reclamar.
Como resultado, ponse en dúbida un maior investimento no proxecto analítico.

Responsabilidade pola calidade dos datos

O aspecto relacionado coa mellora da calidade dos datos é moi importante nos proxectos de BI. Non obstante, non é un privilexio só de especialistas técnicos.
A calidade dos datos tamén está influenciada por aspectos como

Cultura corporativa

  • Os propios traballadores están interesados ​​en producir boa calidade?
  • Se non, por que non? Pode haber un conflito de intereses.
  • Quizais hai regras corporativas que determinan quen é o responsable da calidade?

Os procesos

  • Que datos se crean ao final destas cadeas?
  • Quizais os sistemas operativos estean configurados de tal xeito que necesites "torcer" para reflectir tal ou aquela situación na realidade.
  • Os sistemas operativos realizan por si mesmos a verificación e conciliación de datos?

Todos os membros da organización son responsables da calidade dos datos nos sistemas de informes.

Definición e significado

A calidade é a satisfacción comprobada das expectativas dos clientes.

Pero a calidade dos datos non contén unha definición. Sempre reflicte o contexto de uso. O almacén de datos e o sistema de BI teñen propósitos diferentes aos do sistema operativo do que proceden os datos.

Por exemplo, nun sistema operativo, o atributo cliente pode ser un campo opcional. No repositorio, este atributo pode usarse como dimensión e é necesario o seu recheo. O que, á súa vez, introduce a necesidade de cubrir os valores predeterminados.

Os requisitos de almacenamento de datos están en constante cambio e adoitan ser superiores aos dos sistemas operativos. Pero tamén pode ser ao revés, cando non hai que almacenar información detallada do sistema operativo no almacenamento.

Para que a calidade dos datos sexa medible, débense describir os seus estándares. No proceso de descrición deberán participar as persoas que utilicen información e cifras para o seu traballo. O resultado desta implicación pode ser unha regra, seguindo a cal se pode dicir dunha ollada á mesa se hai un erro ou non. Esta regra debe formatearse como un script/código para a verificación posterior.

Mellora da calidade dos datos

É imposible limpar e corrixir todos os erros hipotéticos durante o proceso de carga de datos no almacén. Só se pode conseguir unha boa calidade dos datos mediante unha estreita colaboración entre todos os participantes. As persoas que introducen datos nos sistemas operativos necesitan saber cales son as accións que provocan erros.

A calidade dos datos é un proceso. Desafortunadamente, moitas organizacións non teñen unha estratexia para a mellora continua. Moitos limítanse só a almacenar datos e non empregan todo o potencial dos sistemas analíticos. Normalmente, ao desenvolver almacéns de datos, o 70-80% do orzamento gástase en implementar a integración de datos. O proceso de seguimento e mellora segue sendo incompleto, se é o caso.

Ferramentas

O uso de ferramentas de software pode axudar no proceso de automatización da mellora e seguimento da calidade dos datos. Por exemplo, poden automatizar totalmente a verificación técnica das estruturas de almacenamento: formato de campo, presenza de valores predeterminados, cumprimento dos nomes dos campos da táboa.

Pode ser máis difícil comprobar o contido. A medida que cambian os requisitos de almacenamento, a interpretación dos datos tamén pode cambiar. A ferramenta en si pode converterse nun proxecto enorme que require apoio.

Consello

As bases de datos relacionais, nas que normalmente se deseñan as tendas, teñen a notable capacidade de crear vistas. Pódense usar para comprobar rapidamente os datos se coñeces os detalles específicos do contido. Cada caso de atopar un erro ou problema nos datos pódese rexistrar en forma de consulta de base de datos.

Deste xeito, formarase unha base de coñecemento sobre o contido. Por suposto, tales solicitudes deben ser rápidas. As vistas normalmente requiren menos tempo humano para manter que as ferramentas baseadas en táboas. A vista está sempre lista para mostrar o resultado da proba.
No caso de informes importantes, a vista pode conter unha columna co destinatario. Ten sentido utilizar as mesmas ferramentas de BI para informar sobre o estado da calidade dos datos no almacén.

Exemplo

A consulta foi escrita para a base de datos Oracle. Neste exemplo, as probas devolven un valor numérico que se pode interpretar como se desexa. Os valores T_MIN e T_MAX pódense usar para axustar o nivel de alarma. O campo INFORME utilizouse unha vez como mensaxe nun produto ETL comercial que non sabía como enviar correctamente correos electrónicos, polo que rpad é unha "muleta".

No caso dunha táboa grande, pode engadir, por exemplo, AND ROWNUM <= 10, é dicir. se hai 10 erros, isto é suficiente para causar alarma.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

A publicación utiliza materiais do libro
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Fonte: www.habr.com

Engadir un comentario