Qualidade dos dados no warehouse

A qualidade dos dados no armazém é um pré-requisito importante para a obtenção de informações valiosas. A má qualidade leva a uma reação em cadeia negativa no longo prazo.
Primeiro, perde-se a confiança nas informações fornecidas. As pessoas estão começando a usar menos aplicativos de Business Intelligence; o potencial dos aplicativos permanece não aproveitado.
Como resultado, novos investimentos no projeto analítico são questionados.

Responsabilidade pela qualidade dos dados

O aspecto relacionado à melhoria da qualidade dos dados é mega importante nos projetos de BI. Porém, não é privilégio apenas de especialistas técnicos.
A qualidade dos dados também é influenciada por aspectos como

Cultura corporativa

  • Os próprios trabalhadores estão interessados ​​em produzir de boa qualidade?
  • Se não, por que não? Pode haver um conflito de interesses.
  • Talvez existam regras corporativas que determinem quem é responsável pela qualidade?

Процессы

  • Quais dados são criados no final dessas cadeias?
  • Talvez os sistemas operacionais estejam configurados de tal forma que seja necessário “torcer” para refletir esta ou aquela situação na realidade.
  • Os sistemas operacionais realizam eles próprios a verificação e reconciliação de dados?

Todos na organização são responsáveis ​​pela qualidade dos dados nos sistemas de relatórios.

Definição e significado

Qualidade é a satisfação comprovada das expectativas do cliente.

Mas a qualidade dos dados não contém uma definição. Sempre reflete o contexto de uso. O data warehouse e o sistema de BI têm finalidades diferentes do sistema operacional do qual os dados vêm.

Por exemplo, num sistema operativo, o atributo do cliente pode ser um campo opcional. No repositório, este atributo pode ser utilizado como dimensão e seu preenchimento é obrigatório. O que, por sua vez, introduz a necessidade de preencher valores padrão.

Os requisitos de armazenamento de dados mudam constantemente e geralmente são mais elevados do que os dos sistemas operacionais. Mas também pode ser o contrário, quando não há necessidade de armazenar informações detalhadas do sistema operacional no armazenamento.

Para tornar a qualidade dos dados mensurável, os seus padrões devem ser descritos. As pessoas que utilizam informações e figuras em seu trabalho devem estar envolvidas no processo de descrição. O resultado deste envolvimento pode ser uma regra, a partir da qual se pode dizer, num relance na mesa, se há um erro ou não. Esta regra deve ser formatada como um script/código para verificação posterior.

Melhorando a qualidade dos dados

É impossível limpar e corrigir todos os erros hipotéticos durante o processo de carregamento de dados no warehouse. A boa qualidade dos dados só pode ser alcançada através de uma colaboração estreita entre todos os participantes. As pessoas que inserem dados em sistemas operacionais precisam aprender quais ações levam a erros.

A qualidade dos dados é um processo. Infelizmente, muitas organizações não possuem uma estratégia de melhoria contínua. Muitos limitam-se apenas a armazenar dados e não utilizam todo o potencial dos sistemas analíticos. Normalmente, ao desenvolver data warehouses, 70-80% do orçamento é gasto na implementação da integração de dados. O processo de monitorização e melhoria permanece incompleto, se é que o é.

Ferramentas

O uso de ferramentas de software pode auxiliar no processo de automatização da melhoria e monitoramento da qualidade dos dados. Por exemplo, eles podem automatizar totalmente a verificação técnica das estruturas de armazenamento: formato dos campos, presença de valores padrão, conformidade com os nomes dos campos da tabela.

Pode ser mais difícil verificar o conteúdo. À medida que os requisitos de armazenamento mudam, a interpretação dos dados também pode mudar. A própria ferramenta pode se tornar um grande projeto que requer suporte.

Conselho

Os bancos de dados relacionais, nos quais as lojas são normalmente projetadas, têm a notável capacidade de criar visualizações. Eles podem ser usados ​​para verificar dados rapidamente se você conhecer as especificidades do conteúdo. Cada caso de descoberta de um erro ou problema nos dados pode ser registrado na forma de uma consulta ao banco de dados.

Dessa forma, será formada uma base de conhecimento sobre o conteúdo. É claro que tais solicitações devem ser rápidas. As visualizações normalmente requerem menos tempo humano para serem mantidas do que as ferramentas baseadas em tabela. A visualização está sempre pronta para exibir o resultado do teste.
No caso de relatórios importantes, a visualização pode conter uma coluna com o destinatário. Faz sentido usar as mesmas ferramentas de BI para relatar o estado da qualidade dos dados no warehouse.

Exemplo

A consulta foi escrita para o banco de dados Oracle. Neste exemplo, os testes retornam um valor numérico que pode ser interpretado conforme desejado. Os valores T_MIN e T_MAX podem ser usados ​​para ajustar o nível de alarme. O campo REPORT já foi usado como mensagem em um produto ETL comercial que não sabia como enviar e-mails corretamente, então o rpad é uma “muleta”.

No caso de uma tabela grande, você pode adicionar, por exemplo, AND ROWNUM <= 10, ou seja, se houver 10 erros, isso será suficiente para causar alarme.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

A publicação utiliza materiais do livro
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence para Erfolg wird


Fonte: habr.com

Adicionar um comentário