Kvalita dat ve skladu je důležitým předpokladem pro získání cenných informací. Špatná kvalita vede z dlouhodobého hlediska k negativní řetězové reakci.
Za prvé se ztrácí důvěra v poskytnuté informace. Lidé začínají méně využívat aplikace Business Intelligence, potenciál aplikací zůstává nevyužit.
V důsledku toho jsou další investice do analytického projektu zpochybňovány.
Zodpovědnost za kvalitu dat
Aspekt související se zlepšováním kvality dat je v projektech BI velmi důležitý. Není to však výsada pouze technických specialistů.
Kvalitu dat ovlivňují i takové aspekty, jako je např
Firemní kultura
- Mají sami pracovníci zájem na výrobě dobré kvality?
- Pokud ne, proč ne? Může dojít ke střetu zájmů.
- Možná existují firemní pravidla, která určují, kdo je zodpovědný za kvalitu?
Procesy
- Jaká data se vytvářejí na konci těchto řetězců?
- Možná jsou operační systémy nakonfigurovány tak, že se musíte „otočit“, aby odrážely tu či onu situaci ve skutečnosti.
- Provádějí operační systémy samy ověření a odsouhlasení dat?
Každý v organizaci je zodpovědný za kvalitu dat v systémech výkaznictví.
Definice a význam
Kvalita je prokázané uspokojení očekávání zákazníka.
Ale kvalita dat neobsahuje definici. Vždy odráží kontext použití. Datový sklad a BI systém slouží jiným účelům než operační systém, ze kterého data pocházejí.
Například v operačním systému může být atribut zákazníka volitelným polem. V úložišti lze tento atribut použít jako rozměr a je nutné jeho vyplnění. Což zase zavádí nutnost vyplnit výchozí hodnoty.
Požadavky na ukládání dat se neustále mění a jsou obvykle vyšší než požadavky na operační systémy. Ale může to být i naopak, kdy není potřeba ukládat do úložiště podrobné informace z operačního systému.
Aby byla kvalita dat měřitelná, musí být popsány její standardy. Do procesu popisu musí být zapojeni lidé, kteří pro svou práci používají informace a čísla. Výsledkem tohoto zapojení může být pravidlo, podle kterého lze na první pohled do tabulky poznat, zda došlo k chybě či nikoliv. Toto pravidlo musí být pro následné ověření naformátováno jako skript/kód.
Zlepšení kvality dat
Během procesu načítání dat do skladu není možné vyčistit a opravit všechny hypotetické chyby. Dobré kvality dat lze dosáhnout pouze úzkou spoluprací všech účastníků. Lidé, kteří zadávají data do operačních systémů, se musí naučit, jaké akce vedou k chybám.
Kvalita dat je proces. Bohužel mnoho organizací nemá strategii neustálého zlepšování. Mnozí se omezují pouze na ukládání dat a nevyužívají plný potenciál analytických systémů. Při vývoji datových skladů je obvykle 70–80 % rozpočtu vynaloženo na implementaci integrace dat. Proces monitorování a zlepšování zůstává neúplný, pokud vůbec.
Nástroje
Použití softwarových nástrojů může pomoci v procesu automatizace zlepšování kvality dat a monitorování. Například mohou plně automatizovat technické ověřování struktur úložiště: formát polí, přítomnost výchozích hodnot, soulad s názvy polí tabulek.
Může být obtížnější zkontrolovat obsah. Se změnou požadavků na úložiště se může změnit i interpretace dat. Samotný nástroj se může stát obrovským projektem, který vyžaduje podporu.
Rada
Relační databáze, ve kterých jsou obvykle navrhovány obchody, mají pozoruhodnou schopnost vytvářet pohledy. Mohou být použity k rychlé kontrole dat, pokud znáte specifika obsahu. Každý případ nalezení chyby nebo problému v datech lze zaznamenat formou databázového dotazu.
Tímto způsobem se vytvoří znalostní báze o obsahu. Takové žádosti musí být samozřejmě rychlé. Zobrazení obvykle vyžaduje méně lidského času na údržbu než nástroje založené na tabulkách. Pohled je vždy připraven zobrazit výsledek testu.
V případě důležitých sestav může pohled obsahovat sloupec s příjemcem. Pro reportování stavu kvality dat ve skladu má smysl používat stejné nástroje BI.
příklad
Dotaz byl napsán pro databázi Oracle. V tomto příkladu testy vrátí číselnou hodnotu, kterou lze interpretovat podle potřeby. Hodnoty T_MIN a T_MAX lze použít k nastavení úrovně alarmu. Pole REPORT bylo kdysi používáno jako zpráva v komerčním ETL produktu, který neuměl správně odesílat e-maily, takže rpad je „berlička“.
V případě velké tabulky můžete přidat např. AND ROWNUM <= 10, tzn. pokud je 10 chyb, pak to stačí k vyvolání alarmu.
CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
THEN 'OK' ELSE 'ERROR' END AS RESULT,
DESCRIPTION,
TABLE_NAME,
OUTPUT,
T_MIN,
T_MAX,
rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
SELECT
'DIM_PRODUCT' AS TABLE_NAME,
'Count of blanks' AS DESCRIPTION,
COUNT(*) AS OUTPUT,
0 AS T_MIN,
10 AS T_MAX
FROM DIM_PRODUCT
WHERE DIM_PRODUCT_ID != -1 -- not default value
AND ATTRIBUTE IS NULL ); -- count blanks
V publikaci jsou použity materiály z knihy
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird
Zdroj: www.habr.com