Квалитет на податоци во магацин

Квалитетот на податоците во магацинот е важен предуслов за добивање вредни информации. Лошиот квалитет доведува до негативна верижна реакција на долг рок.
Прво, се губи довербата во дадените информации. Луѓето почнуваат помалку да ги користат апликациите за деловна интелигенција; потенцијалот на апликациите останува неподигнат.
Како резултат на тоа, натамошното инвестирање во аналитичкиот проект е доведено во прашање.

Одговорност за квалитетот на податоците

Аспектот поврзан со подобрување на квалитетот на податоците е мега-важен во проектите на БИ. Сепак, тоа не е привилегија само на технички специјалисти.
Квалитетот на податоците е исто така под влијание на такви аспекти како

Корпоративна култура

  • Дали самите работници се заинтересирани да произведуваат добар квалитет?
  • Ако не, зошто да не? Може да има конфликт на интереси.
  • Можеби постојат корпоративни правила кои одредуваат кој е одговорен за квалитетот?

Процеси

  • Кои податоци се создаваат на крајот од овие синџири?
  • Можеби оперативните системи се конфигурирани на таков начин што треба да „извртувате“ за да ја одразите оваа или онаа ситуација во реалноста.
  • Дали оперативните системи сами вршат проверка и усогласување на податоците?

Секој во организацијата е одговорен за квалитетот на податоците во системите за известување.

Дефиниција и значење

Квалитетот е докажано задоволување на очекувањата на клиентите.

Но, квалитетот на податоците не содржи дефиниција. Секогаш го одразува контекстот на употреба. Складиштето на податоци и системот БИ служат за различни цели од оперативниот систем од кој доаѓаат податоците.

На пример, на оперативен систем, атрибутот клиент може да биде изборно поле. Во складиштето, овој атрибут може да се користи како димензија и потребно е негово пополнување. Што, пак, воведува потреба од пополнување на стандардните вредности.

Барањата за складирање податоци постојано се менуваат и тие обично се повисоки од оние за оперативните системи. Но, може да биде и обратно, кога нема потреба да се складираат детални информации од оперативниот систем во складиштето.

За да се направи квалитетот на податоците мерлив, мора да се опишат неговите стандарди. Луѓето кои користат информации и бројки за својата работа мора да бидат вклучени во процесот на опис. Резултатот од оваа вклученост може да биде правило, по кое може да се види на прв поглед на табелата дали има грешка или не. Ова правило мора да биде форматирано како скрипта/код за последователна проверка.

Подобрување на квалитетот на податоците

Невозможно е да се исчистат и поправат сите хипотетички грешки за време на процесот на вчитување на податоците во складиштето. Добар квалитет на податоците може да се постигне само преку тесна соработка помеѓу сите учесници. Луѓето кои внесуваат податоци во оперативните системи треба да научат кои дејства доведуваат до грешки.

Квалитетот на податоците е процес. За жал, многу организации немаат стратегија за постојано подобрување. Многумина се ограничуваат само на складирање податоци и не го користат целосниот потенцијал на аналитичките системи. Вообичаено, кога се развиваат складишта за податоци, 70-80% од буџетот се троши за спроведување на интеграција на податоци. Процесот на следење и подобрување останува нецелосен, ако воопшто е воопшто.

Алатки

Употребата на софтверски алатки може да помогне во процесот на автоматизирање на подобрување и следење на квалитетот на податоците. На пример, тие можат целосно да ја автоматизираат техничката верификација на структурите за складирање: формат на поле, присуство на стандардни вредности, усогласеност со имињата на полињата на табелата.

Можеби е потешко да се провери содржината. Како што се менуваат барањата за складирање, толкувањето на податоците исто така може да се промени. Самата алатка може да стане огромен проект кој бара поддршка.

Советот

Релационите бази на податоци, во кои вообичаено се дизајнирани продавници, имаат извонредна способност да создаваат погледи. Тие можат да се користат за брзо проверување на податоците ако ги знаете спецификите на содржината. Секој случај на наоѓање грешка или проблем во податоците може да се запише во форма на барање за база на податоци.

На овој начин ќе се формира база на знаење за содржината. Се разбира, таквите барања мора да бидат брзи. Погледите обично бараат помалку човечко време за одржување отколку алатките базирани на табели. Погледот е секогаш подготвен да го прикаже резултатот од тестот.
Во случај на важни извештаи, приказот може да содржи колона со примачот. Има смисла да се користат истите БИ алатки за известување за состојбата со квалитетот на податоците во складиштето.

Пример

Барањето беше напишано за базата на податоци на Oracle. Во овој пример, тестовите враќаат нумеричка вредност што може да се толкува како што сакате. Вредностите T_MIN и T_MAX може да се користат за прилагодување на нивото на алармот. Полето ИЗВЕШТАЈ некогаш се користело како порака во комерцијален производ ETL кој не знаел правилно да испраќа е-пошта, така што rpad е „патерица“.

Во случај на голема табела, можете да додадете, на пример, AND ROWNUM <= 10, т.е. ако има 10 грешки, тогаш ова е доволно за да предизвика аларм.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Публикацијата користи материјали од книгата
Роналд Бахман, Др. Гвидо Кемпер
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Извор: www.habr.com

Додадете коментар