Calidad de datos en el almacén.

La calidad de los datos en el almacén es un requisito previo importante para obtener información valiosa. La mala calidad conduce a largo plazo a una reacción en cadena negativa.
En primer lugar, se pierde la confianza en la información proporcionada. La gente está empezando a utilizar menos las aplicaciones de Business Intelligence; el potencial de las aplicaciones sigue sin ser reclamado.
Esto pone en duda una mayor inversión en el proyecto analítico.

Responsabilidad por la calidad de los datos.

El aspecto relacionado con la mejora de la calidad de los datos es muy importante en los proyectos de BI. Sin embargo, no es privilegio exclusivo de los especialistas técnicos.
La calidad de los datos también se ve influenciada por aspectos como

Cultura corporativa

  • ¿Están los propios trabajadores interesados ​​en producir buena calidad?
  • ¿Si no, porque no? Puede haber un conflicto de intereses.
  • ¿Quizás existen reglas corporativas que determinan quién es responsable de la calidad?

Процессы

  • ¿Qué datos se crean al final de estas cadenas?
  • Quizás los sistemas operativos estén configurados de tal manera que sea necesario "girarlos" para reflejar tal o cual situación en la realidad.
  • ¿Los sistemas operativos realizan ellos mismos la verificación y conciliación de datos?

Todos en la organización son responsables de la calidad de los datos en los sistemas de informes.

Definición y significado

La calidad es la satisfacción comprobada de las expectativas del cliente.

Pero la calidad de los datos no contiene una definición. Siempre refleja el contexto de uso. El almacén de datos y el sistema de BI tienen propósitos diferentes a los del sistema operativo del que provienen los datos.

Por ejemplo, en un sistema operativo, el atributo del cliente puede ser un campo opcional. En el repositorio, este atributo se puede utilizar como dimensión y es obligatorio completarlo. Lo que, a su vez, introduce la necesidad de completar los valores predeterminados.

Los requisitos de almacenamiento de datos cambian constantemente y suelen ser mayores que los de los sistemas operativos. Pero también puede ser al revés, cuando no es necesario almacenar información detallada del sistema operativo en el almacenamiento.

Para que la calidad de los datos sea mensurable, se deben describir sus estándares. Las personas que utilizan información y cifras para su trabajo deben participar en el proceso de descripción. El resultado de esta intervención puede ser una regla, según la cual se puede saber de un vistazo a la tabla si hay un error o no. Esta regla debe formatearse como script/código para su posterior verificación.

Mejorando la calidad de los datos

Es imposible limpiar y corregir todos los errores hipotéticos durante el proceso de carga de datos en el almacén. La buena calidad de los datos sólo se puede lograr mediante una estrecha colaboración entre todos los participantes. Las personas que ingresan datos en los sistemas operativos necesitan aprender qué acciones conducen a errores.

La calidad de los datos es un proceso. Desafortunadamente, muchas organizaciones no cuentan con una estrategia de mejora continua. Muchos se limitan a almacenar datos y no utilizan todo el potencial de los sistemas analíticos. Normalmente, cuando se desarrollan almacenes de datos, entre el 70 y el 80 % del presupuesto se gasta en implementar la integración de datos. El proceso de seguimiento y mejora sigue siendo incompleto, en todo caso.

Instrumentos

El uso de herramientas de software puede ayudar en el proceso de automatización, mejora y seguimiento de la calidad de los datos. Por ejemplo, pueden automatizar completamente la verificación técnica de las estructuras de almacenamiento: formato de campo, presencia de valores predeterminados, cumplimiento de los nombres de los campos de la tabla.

Puede resultar más difícil comprobar el contenido. A medida que cambian los requisitos de almacenamiento, la interpretación de los datos también puede cambiar. La herramienta en sí puede convertirse en un gran proyecto que requiere apoyo.

Consejo

Las bases de datos relacionales, en las que normalmente se diseñan las tiendas, tienen la notable capacidad de crear vistas. Se pueden utilizar para verificar datos rápidamente si conoce los detalles del contenido. Cada caso de encontrar un error o problema en los datos se puede registrar en forma de consulta a la base de datos.

De esta forma se formará una base de conocimiento sobre el contenido. Por supuesto, estas solicitudes deben ser rápidas. Las vistas suelen requerir menos tiempo humano para su mantenimiento que las herramientas basadas en tablas. La vista siempre está lista para mostrar el resultado de la prueba.
En el caso de informes importantes, la vista puede contener una columna con el destinatario. Tiene sentido utilizar las mismas herramientas de BI para informar sobre el estado de la calidad de los datos en el almacén.

ejemplo

La consulta fue escrita para la base de datos Oracle. En este ejemplo, las pruebas devuelven un valor numérico que se puede interpretar como se desee. Los valores T_MIN y T_MAX se pueden utilizar para ajustar el nivel de alarma. El campo INFORME alguna vez se usó como mensaje en un producto ETL comercial que no sabía cómo enviar correos electrónicos correctamente, por lo que rpad es una "muleta".

En el caso de una tabla grande, puede agregar, por ejemplo, AND ROWNUM <= 10, es decir si hay 10 errores, esto es suficiente para causar alarma.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

La publicación utiliza materiales del libro.
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Cómo utilizar Business Intelligence para Erfolg


Fuente: habr.com

Añadir un comentario