Kvalita dat ve skladu

Kvalita dat ve skladu je důležitým předpokladem pro získání cenných informací. Špatná kvalita vede z dlouhodobého hlediska k negativní řetězové reakci.
Za prvé se ztrácí důvěra v poskytnuté informace. Lidé začínají méně využívat aplikace Business Intelligence, potenciál aplikací zůstává nevyužit.
V důsledku toho jsou další investice do analytického projektu zpochybňovány.

Zodpovědnost za kvalitu dat

Aspekt související se zlepšováním kvality dat je v projektech BI velmi důležitý. Není to však výsada pouze technických specialistů.
Kvalitu dat ovlivňují i ​​takové aspekty, jako je např

Firemní kultura

  • Mají sami pracovníci zájem na výrobě dobré kvality?
  • Pokud ne, proč ne? Může dojít ke střetu zájmů.
  • Možná existují firemní pravidla, která určují, kdo je zodpovědný za kvalitu?

Procesy

  • Jaká data se vytvářejí na konci těchto řetězců?
  • Možná jsou operační systémy nakonfigurovány tak, že se musíte „otočit“, aby odrážely tu či onu situaci ve skutečnosti.
  • Provádějí operační systémy samy ověření a odsouhlasení dat?

Každý v organizaci je zodpovědný za kvalitu dat v systémech výkaznictví.

Definice a význam

Kvalita je prokázané uspokojení očekávání zákazníka.

Ale kvalita dat neobsahuje definici. Vždy odráží kontext použití. Datový sklad a BI systém slouží jiným účelům než operační systém, ze kterého data pocházejí.

Například v operačním systému může být atribut zákazníka volitelným polem. V úložišti lze tento atribut použít jako rozměr a je nutné jeho vyplnění. Což zase zavádí nutnost vyplnit výchozí hodnoty.

Požadavky na ukládání dat se neustále mění a jsou obvykle vyšší než požadavky na operační systémy. Ale může to být i naopak, kdy není potřeba ukládat do úložiště podrobné informace z operačního systému.

Aby byla kvalita dat měřitelná, musí být popsány její standardy. Do procesu popisu musí být zapojeni lidé, kteří pro svou práci používají informace a čísla. Výsledkem tohoto zapojení může být pravidlo, podle kterého lze na první pohled do tabulky poznat, zda došlo k chybě či nikoliv. Toto pravidlo musí být pro následné ověření naformátováno jako skript/kód.

Zlepšení kvality dat

Během procesu načítání dat do skladu není možné vyčistit a opravit všechny hypotetické chyby. Dobré kvality dat lze dosáhnout pouze úzkou spoluprací všech účastníků. Lidé, kteří zadávají data do operačních systémů, se musí naučit, jaké akce vedou k chybám.

Kvalita dat je proces. Bohužel mnoho organizací nemá strategii neustálého zlepšování. Mnozí se omezují pouze na ukládání dat a nevyužívají plný potenciál analytických systémů. Při vývoji datových skladů je obvykle 70–80 % rozpočtu vynaloženo na implementaci integrace dat. Proces monitorování a zlepšování zůstává neúplný, pokud vůbec.

Nástroje

Použití softwarových nástrojů může pomoci v procesu automatizace zlepšování kvality dat a monitorování. Například mohou plně automatizovat technické ověřování struktur úložiště: formát polí, přítomnost výchozích hodnot, soulad s názvy polí tabulek.

Může být obtížnější zkontrolovat obsah. Se změnou požadavků na úložiště se může změnit i interpretace dat. Samotný nástroj se může stát obrovským projektem, který vyžaduje podporu.

Rada

Relační databáze, ve kterých jsou obvykle navrhovány obchody, mají pozoruhodnou schopnost vytvářet pohledy. Mohou být použity k rychlé kontrole dat, pokud znáte specifika obsahu. Každý případ nalezení chyby nebo problému v datech lze zaznamenat formou databázového dotazu.

Tímto způsobem se vytvoří znalostní báze o obsahu. Takové žádosti musí být samozřejmě rychlé. Zobrazení obvykle vyžaduje méně lidského času na údržbu než nástroje založené na tabulkách. Pohled je vždy připraven zobrazit výsledek testu.
V případě důležitých sestav může pohled obsahovat sloupec s příjemcem. Pro reportování stavu kvality dat ve skladu má smysl používat stejné nástroje BI.

příklad

Dotaz byl napsán pro databázi Oracle. V tomto příkladu testy vrátí číselnou hodnotu, kterou lze interpretovat podle potřeby. Hodnoty T_MIN a T_MAX lze použít k nastavení úrovně alarmu. Pole REPORT bylo kdysi používáno jako zpráva v komerčním ETL produktu, který neuměl správně odesílat e-maily, takže rpad je „berlička“.

V případě velké tabulky můžete přidat např. AND ROWNUM <= 10, tzn. pokud je 10 chyb, pak to stačí k vyvolání alarmu.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

V publikaci jsou použity materiály z knihy
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Zdroj: www.habr.com

Přidat komentář