Datakwaliteit in het magazijn

De kwaliteit van de data in het magazijn is een belangrijke voorwaarde voor het verkrijgen van waardevolle informatie. Slechte kwaliteit leidt op de lange termijn tot een negatieve kettingreactie.
Ten eerste gaat het vertrouwen in de verstrekte informatie verloren. Mensen gaan steeds minder gebruik maken van Business Intelligence-applicaties; de potentie van applicaties blijft onbenut.
Als gevolg hiervan worden verdere investeringen in het analytische project in twijfel getrokken.

Verantwoordelijkheid voor datakwaliteit

Het aspect dat verband houdt met het verbeteren van de datakwaliteit is van groot belang bij BI-projecten. Het is echter niet het voorrecht van alleen technische specialisten.
De kwaliteit van de gegevens wordt ook beïnvloed door aspecten als:

Bedrijfscultuur

  • Zijn de werknemers zelf geïnteresseerd in het produceren van goede kwaliteit?
  • Zo niet, waarom niet? Er kan sprake zijn van een belangenconflict.
  • Misschien zijn er bedrijfsregels die bepalen wie verantwoordelijk is voor de kwaliteit?

processen

  • Welke data ontstaat er aan het einde van deze ketens?
  • Misschien zijn de besturingssystemen zo geconfigureerd dat u moet "draaien" om deze of gene situatie in de werkelijkheid weer te geven.
  • Voeren besturingssystemen zelf gegevensverificatie en -afstemming uit?

Iedereen in de organisatie is verantwoordelijk voor de kwaliteit van gegevens in rapportagesystemen.

Definitie en betekenis

Kwaliteit is de bewezen tevredenheid van de verwachtingen van de klant.

Maar datakwaliteit bevat geen definitie. Het weerspiegelt altijd de gebruikscontext. Het datawarehouse en BI-systeem dienen andere doeleinden dan het besturingssysteem waar de data vandaan komt.

Op een besturingssysteem kan het klantkenmerk bijvoorbeeld een optioneel veld zijn. In de repository kan dit attribuut als dimensie worden gebruikt en is de vulling ervan vereist. Wat op zijn beurt de noodzaak introduceert om standaardwaarden in te vullen.

De vereisten voor gegevensopslag veranderen voortdurend en zijn doorgaans hoger dan die voor besturingssystemen. Maar het kan ook andersom zijn, wanneer het niet nodig is om gedetailleerde informatie van het besturingssysteem in de opslag op te slaan.

Om de datakwaliteit meetbaar te maken, moeten de standaarden ervan worden beschreven. Mensen die informatie en cijfers gebruiken voor hun werk moeten betrokken worden bij het beschrijvingsproces. Het resultaat van deze betrokkenheid kan een regel zijn, aan de hand waarvan men in één blik op de tabel kan zien of er sprake is van een fout of niet. Deze regel moet worden opgemaakt als een script/code voor latere verificatie.

Verbetering van de datakwaliteit

Het is onmogelijk om alle hypothetische fouten tijdens het laden van gegevens in het magazijn op te ruimen en te corrigeren. Goede datakwaliteit kan alleen worden bereikt door nauwe samenwerking tussen alle deelnemers. Mensen die gegevens in besturingssystemen invoeren, moeten leren welke acties tot fouten leiden.

Datakwaliteit is een proces. Helaas hebben veel organisaties geen strategie voor continue verbetering. Velen beperken zich tot het alleen opslaan van data en benutten niet het volledige potentieel van analytische systemen. Bij het ontwikkelen van datawarehouses wordt doorgaans 70-80% van het budget besteed aan het implementeren van data-integratie. Het monitoring- en verbeteringsproces blijft onvolledig of helemaal niet.

Gereedschap

Het gebruik van softwaretools kan helpen bij het automatiseren van de verbetering en monitoring van de gegevenskwaliteit. Ze kunnen bijvoorbeeld de technische verificatie van opslagstructuren volledig automatiseren: veldformaat, aanwezigheid van standaardwaarden, naleving van tabelveldnamen.

Het kan moeilijker zijn om de inhoud te controleren. Naarmate de opslagvereisten veranderen, kan ook de interpretatie van de gegevens veranderen. De tool zelf kan een enorm project worden dat ondersteuning vereist.

raad

Relationele databases, waarin winkels doorgaans worden ontworpen, hebben het opmerkelijke vermogen om weergaven te creëren. Ze kunnen worden gebruikt om snel gegevens te controleren als u de specifieke kenmerken van de inhoud kent. Elk geval waarin een fout of probleem in de gegevens wordt gevonden, kan worden vastgelegd in de vorm van een databasequery.

Op deze manier ontstaat er een kennisbasis over de inhoud. Dergelijke verzoeken moeten uiteraard snel zijn. Het onderhoud van weergaven vergt doorgaans minder menselijke tijd dan op tabellen gebaseerde tools. De weergave is altijd gereed om het resultaat van de test weer te geven.
Bij belangrijke rapporten kan de weergave een kolom met de ontvanger bevatten. Het is zinvol om dezelfde BI-tools te gebruiken om te rapporteren over de staat van de datakwaliteit in het magazijn.

Voorbeeld

De query is geschreven voor de Oracle-database. In dit voorbeeld retourneren de tests een numerieke waarde die naar wens kan worden geïnterpreteerd. De T_MIN- en T_MAX-waarden kunnen worden gebruikt om het alarmniveau aan te passen. Het REPORT-veld werd ooit gebruikt als bericht in een commercieel ETL-product dat niet wist hoe het e-mails correct moest verzenden, dus rpad is een “kruk”.

In het geval van een grote tabel kunt u bijvoorbeeld AND ROWNUM <= 10 toevoegen, d.w.z. als er 10 fouten zijn, is dit voldoende om alarm te veroorzaken.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

De publicatie maakt gebruik van materialen uit het boek
Ronald Bachmann, dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence op Erfolg-wird


Bron: www.habr.com

Voeg een reactie