Kvalita dát v sklade

Kvalita údajov v sklade je dôležitým predpokladom pre získanie cenných informácií. Nízka kvalita vedie z dlhodobého hľadiska k negatívnej reťazovej reakcii.
Po prvé, dôvera v poskytnuté informácie sa stráca. Ľudia začínajú menej využívať aplikácie Business Intelligence, potenciál aplikácií zostáva nevyužitý.
V dôsledku toho sú ďalšie investície do analytického projektu spochybnené.

Zodpovednosť za kvalitu dát

Aspekt súvisiaci so zlepšovaním kvality dát je v projektoch BI mimoriadne dôležitý. Nie je to však výsada len technických špecialistov.
Kvalitu dát ovplyvňujú aj také aspekty, ako napr

Firemná kultúra

  • Majú samotní pracovníci záujem vyrábať kvalitne?
  • Ak nie, prečo nie? Môže dôjsť ku konfliktu záujmov.
  • Možno existujú firemné pravidlá, ktoré určujú, kto je zodpovedný za kvalitu?

procesy

  • Aké údaje sa vytvárajú na konci týchto reťazcov?
  • Možno sú operačné systémy nakonfigurované tak, že sa musíte „krútiť“, aby odrážali túto alebo tú situáciu v skutočnosti.
  • Vykonávajú operačné systémy overovanie a zosúlaďovanie údajov samy?

Každý v organizácii je zodpovedný za kvalitu údajov v systémoch výkazníctva.

Definícia a význam

Kvalita je preukázané uspokojenie očakávaní zákazníkov.

Ale kvalita údajov neobsahuje definíciu. Vždy odráža kontext použitia. Dátový sklad a BI systém slúžia na iné účely ako operačný systém, z ktorého dáta pochádzajú.

Napríklad v operačnom systéme môže byť atribút zákazníka voliteľným poľom. V úložisku môže byť tento atribút použitý ako dimenzia a je potrebné jeho vyplnenie. Čo zase prináša potrebu vypĺňania predvolených hodnôt.

Požiadavky na ukladanie dát sa neustále menia a zvyčajne sú vyššie ako požiadavky na operačné systémy. Môže to byť ale aj naopak, kedy nie je potrebné ukladať do úložiska podrobné informácie z operačného systému.

Aby bola kvalita údajov merateľná, musia byť opísané jej štandardy. Do procesu popisu musia byť zapojení ľudia, ktorí pre svoju prácu používajú informácie a čísla. Výsledkom tohto zapojenia môže byť pravidlo, podľa ktorého sa dá na prvý pohľad do tabuľky zistiť, či ide o chybu alebo nie. Toto pravidlo musí byť naformátované ako skript/kód pre následné overenie.

Zlepšenie kvality údajov

Počas procesu načítania dát do skladu nie je možné vyčistiť a opraviť všetky hypotetické chyby. Dobrá kvalita údajov sa dá dosiahnuť len úzkou spoluprácou medzi všetkými účastníkmi. Ľudia, ktorí zadávajú údaje do operačných systémov, sa musia naučiť, aké akcie vedú k chybám.

Kvalita údajov je proces. Bohužiaľ, mnohé organizácie nemajú stratégiu neustáleho zlepšovania. Mnohé sa obmedzujú len na ukladanie údajov a nevyužívajú plný potenciál analytických systémov. Pri vývoji dátových skladov sa zvyčajne 70 – 80 % rozpočtu vynakladá na implementáciu integrácie dát. Proces monitorovania a zlepšovania zostáva neúplný, ak vôbec.

Nástroje

Použitie softvérových nástrojov môže pomôcť v procese automatizácie zlepšovania a monitorovania kvality údajov. Napríklad môžu plne automatizovať technické overovanie štruktúr úložiska: formát polí, prítomnosť predvolených hodnôt, súlad s názvami polí tabuľky.

Kontrola obsahu môže byť náročnejšia. So zmenou požiadaviek na ukladanie sa môže zmeniť aj interpretácia údajov. Samotný nástroj sa môže stať obrovským projektom, ktorý si vyžaduje podporu.

rada

Relačné databázy, v ktorých sa zvyčajne navrhujú obchody, majú pozoruhodnú schopnosť vytvárať pohľady. Môžu sa použiť na rýchlu kontrolu údajov, ak poznáte špecifiká obsahu. Každý prípad nájdenia chyby alebo problému v dátach je možné zaznamenať formou databázového dotazu.

Týmto spôsobom sa vytvorí vedomostná základňa o obsahu. Samozrejme, takéto požiadavky musia byť rýchle. Zobrazenia zvyčajne vyžadujú menej ľudského času na údržbu ako nástroje založené na tabuľkách. Pohľad je vždy pripravený na zobrazenie výsledku testu.
V prípade dôležitých správ môže pohľad obsahovať stĺpec s príjemcom. Na reportovanie o stave kvality dát v sklade má zmysel používať rovnaké nástroje BI.

Príklad

Dotaz bol napísaný pre databázu Oracle. V tomto príklade testy vrátia číselnú hodnotu, ktorú možno interpretovať podľa potreby. Hodnoty T_MIN a T_MAX možno použiť na nastavenie úrovne alarmu. Pole REPORT sa kedysi používalo ako správa v komerčnom produkte ETL, ktorý nevedel správne odosielať e-maily, takže rpad je „barlička“.

V prípade veľkej tabuľky môžete pridať napríklad AND ROWNUM <= 10, t.j. ak je 10 chýb, stačí to na vyvolanie poplachu.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

V publikácii sú použité materiály z knihy
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Zdroj: hab.com

Pridať komentár