Qualità dei dati nel magazzino

La qualità dei dati nel magazzino è un prerequisito importante per ottenere informazioni preziose. La scarsa qualità porta a lungo termine ad una reazione a catena negativa.
In primo luogo, si perde la fiducia nelle informazioni fornite. Le persone iniziano a utilizzare meno le applicazioni di Business Intelligence; il potenziale delle applicazioni rimane inutilizzato.
Di conseguenza, ulteriori investimenti nel progetto analitico vengono messi in discussione.

Responsabilità per la qualità dei dati

L’aspetto relativo al miglioramento della qualità dei dati è estremamente importante nei progetti BI. Tuttavia, non è un privilegio riservato solo agli specialisti tecnici.
La qualità dei dati è influenzata anche da aspetti come

Cultura aziendale

  • Sono gli stessi lavoratori interessati a produrre di buona qualità?
  • Se no, perché no? Potrebbe esserci un conflitto di interessi.
  • Forse esistono regole aziendali che determinano chi è responsabile della qualità?

processi

  • Quali dati vengono creati alla fine di queste catene?
  • Forse i sistemi operativi sono configurati in modo tale che è necessario "girare" per riflettere questa o quella situazione nella realtà.
  • I sistemi operativi eseguono autonomamente la verifica e la riconciliazione dei dati?

Tutti nell'organizzazione sono responsabili della qualità dei dati nei sistemi di reporting.

Definizione e significato

La qualità è la comprovata soddisfazione delle aspettative del cliente.

Ma la qualità dei dati non contiene una definizione. Riflette sempre il contesto d'uso. Il data warehouse e il sistema BI hanno scopi diversi rispetto al sistema operativo da cui provengono i dati.

Ad esempio, su un sistema operativo, l'attributo cliente può essere un campo facoltativo. Nel repository, questo attributo può essere utilizzato come dimensione ed è richiesto il suo riempimento. Il che, a sua volta, introduce la necessità di inserire valori predefiniti.

I requisiti di archiviazione dei dati cambiano costantemente e sono generalmente più elevati di quelli dei sistemi operativi. Ma può anche essere il contrario, quando non è necessario archiviare informazioni dettagliate dal sistema operativo nella memoria.

Per rendere misurabile la qualità dei dati, è necessario descriverne gli standard. Le persone che utilizzano informazioni e figure per il proprio lavoro devono essere coinvolte nel processo di descrizione. Il risultato di questo coinvolgimento può essere una regola, in base alla quale si può capire a colpo d'occhio se c'è un errore oppure no. Questa regola deve essere formattata come script/codice per la successiva verifica.

Migliorare la qualità dei dati

È impossibile ripulire e correggere tutti gli ipotetici errori durante il processo di caricamento dei dati nel magazzino. Una buona qualità dei dati può essere raggiunta solo attraverso una stretta collaborazione tra tutti i partecipanti. Le persone che inseriscono dati nei sistemi operativi devono sapere quali azioni portano a errori.

La qualità dei dati è un processo. Sfortunatamente, molte organizzazioni non hanno una strategia per il miglioramento continuo. Molti si limitano alla sola archiviazione dei dati e non sfruttano tutto il potenziale dei sistemi analitici. In genere, quando si sviluppano data warehouse, il 70-80% del budget viene speso per l'implementazione dell'integrazione dei dati. Il processo di monitoraggio e miglioramento rimane incompleto, se non del tutto.

Strumenti

L'uso di strumenti software può aiutare nel processo di automazione del miglioramento e del monitoraggio della qualità dei dati. Ad esempio, possono automatizzare completamente la verifica tecnica delle strutture di archiviazione: formato dei campi, presenza di valori predefiniti, conformità con i nomi dei campi delle tabelle.

Potrebbe essere più difficile controllare il contenuto. Man mano che cambiano i requisiti di archiviazione, anche l’interpretazione dei dati può cambiare. Lo strumento stesso può diventare un enorme progetto che richiede supporto.

Consiglio

I database relazionali, in cui vengono generalmente progettati i negozi, hanno la straordinaria capacità di creare visualizzazioni. Possono essere utilizzati per controllare rapidamente i dati se si conoscono le specifiche del contenuto. Ogni caso in cui viene riscontrato un errore o un problema nei dati può essere registrato sotto forma di query sul database.

In questo modo si formerà una base di conoscenza sul contenuto. Naturalmente, tali richieste devono essere veloci. Le visualizzazioni in genere richiedono meno tempo umano per la manutenzione rispetto agli strumenti basati su tabelle. La vista è sempre pronta per visualizzare il risultato del test.
Nel caso di rapporti importanti la vista può contenere una colonna con il destinatario. Ha senso utilizzare gli stessi strumenti di BI per riferire sullo stato della qualità dei dati nel magazzino.

esempio

La query è stata scritta per il database Oracle. In questo esempio, i test restituiscono un valore numerico che può essere interpretato come desiderato. I valori T_MIN e T_MAX possono essere utilizzati per regolare il livello di allarme. Il campo REPORT una volta veniva utilizzato come messaggio in un prodotto ETL commerciale che non sapeva come inviare correttamente le e-mail, quindi rpad è una "stampella".

Nel caso di una tabella di grandi dimensioni è possibile aggiungere, ad esempio, AND ROWNUM <= 10, ovvero se gli errori sono 10, questo è sufficiente per provocare l'allarme.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

La pubblicazione utilizza materiali tratti dal libro
Ronald Bachmann, Dott. Guido Kemper
Raus aus der BI-Falle
Come impareremo la Business Intelligence


Fonte: habr.com

Aggiungi un commento