Datakvalitet i lagret

Kvaliteten på data i lagret är en viktig förutsättning för att få värdefull information. Dålig kvalitet leder till en negativ kedjereaktion på lång sikt.
För det första förloras förtroendet för den information som tillhandahålls. Människor börjar använda Business Intelligence-applikationer mindre, applikationernas potential förblir outnyttjad.
Som ett resultat av detta ifrågasätts ytterligare investeringar i analysprojektet.

Ansvar för datakvalitet

Aspekten relaterad till att förbättra datakvaliteten är megaviktig i BI-projekt. Det är dock inte enbart tekniska specialisters privilegium.
Datakvaliteten påverkas också av sådana aspekter som

Företagskultur

  • Är arbetarna själva intresserade av att producera bra kvalitet?
  • Om inte, varför inte? Det kan finnas en intressekonflikt.
  • Kanske finns det företagsregler som avgör vem som ansvarar för kvaliteten?

Processerna

  • Vilken data skapas i slutet av dessa kedjor?
  • Kanske är operativsystemen konfigurerade på ett sådant sätt att du måste "vrida" för att återspegla den eller den situationen i verkligheten.
  • Utför operativsystemen själva dataverifiering och avstämning?

Alla i organisationen ansvarar för kvaliteten på data i rapporteringssystem.

Definition och betydelse

Kvalitet är bevisad tillfredsställelse av kundernas förväntningar.

Men datakvalitet innehåller ingen definition. Det speglar alltid användningskontexten. Datalagret och BI-systemet tjänar andra syften än det operativsystem som data kommer ifrån.

Till exempel i ett operativsystem kan kundattributet vara ett valfritt fält. I förvaret kan detta attribut användas som en dimension och dess fyllning krävs. Vilket i sin tur introducerar behovet av att fylla i standardvärden.

Datalagringskraven förändras ständigt och de är vanligtvis högre än för operativsystem. Men det kan också vara tvärtom, när man inte behöver lagra detaljerad information från operativsystemet i lagringen.

För att göra datakvalitet mätbar måste dess standarder beskrivas. Personer som använder information och figurer för sitt arbete måste involveras i beskrivningsprocessen. Resultatet av detta engagemang kan vara en regel, efter vilken man med en blick vid bordet kan se om det är ett fel eller inte. Denna regel måste formateras som ett skript/kod för efterföljande verifiering.

Förbättra datakvaliteten

Det är omöjligt att rensa upp och korrigera alla hypotetiska fel under processen att ladda data till lagret. God datakvalitet kan endast uppnås genom nära samarbete mellan alla deltagare. Människor som matar in data i operativsystem måste lära sig vilka åtgärder som leder till fel.

Datakvalitet är en process. Tyvärr har många organisationer ingen strategi för ständiga förbättringar. Många begränsar sig till att bara lagra data och utnyttjar inte analyssystemens fulla potential. Vanligtvis, när man utvecklar datalager, läggs 70-80 % av budgeten på att implementera dataintegration. Övervaknings- och förbättringsprocessen är fortfarande ofullständig, om alls.

Verktyg

Användningen av mjukvaruverktyg kan hjälpa till i processen att automatisera förbättring och övervakning av datakvalitet. Till exempel kan de helt automatisera den tekniska verifieringen av lagringsstrukturer: fältformat, förekomst av standardvärden, överensstämmelse med tabellfältnamn.

Det kan vara svårare att kontrollera innehållet. När lagringskraven förändras kan även tolkningen av data ändras. Verktyget i sig kan bli ett enormt projekt som kräver stöd.

rådet

Relationsdatabaser, där butiker vanligtvis är utformade, har den anmärkningsvärda förmågan att skapa vyer. De kan användas för att snabbt kontrollera data om du känner till innehållet. Varje fall av att hitta ett fel eller problem i data kan registreras i form av en databasfråga.

På så sätt kommer en kunskapsbas om innehållet att bildas. Naturligtvis måste sådana förfrågningar vara snabba. Vyer kräver vanligtvis mindre mänsklig tid att underhålla än tabellbaserade verktyg. Vyn är alltid redo att visa resultatet av testet.
Vid viktiga rapporter kan vyn innehålla en kolumn med mottagaren. Det är vettigt att använda samma BI-verktyg för att rapportera om tillståndet för datakvalitet i lagret.

Exempel

Frågan skrevs för Oracle-databasen. I det här exemplet returnerar testen ett numeriskt värde som kan tolkas efter önskemål. Värdena T_MIN och T_MAX kan användas för att justera larmnivån. RAPPORT-fältet användes en gång som ett meddelande i en kommersiell ETL-produkt som inte visste hur man korrekt skickade e-post, så rpad är en "krycka".

Vid ett stort bord kan du lägga till till exempel AND ROWNUM <= 10, d.v.s. om det finns 10 fel är detta tillräckligt för att orsaka larm.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Publikationen använder material från boken
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Källa: will.com

Lägg en kommentar