Квалитет података у складишту

Квалитет података у магацину је важан предуслов за добијање вредних информација. Лош квалитет доводи до негативне ланчане реакције на дужи рок.
Прво, губи се поверење у дате информације. Људи почињу мање да користе апликације Бусинесс Интеллигенце; потенцијал апликација остаје непотражен.
Као резултат, доведено је у питање даље улагање у аналитички пројекат.

Одговорност за квалитет података

Аспект који се односи на побољшање квалитета података је мега-важан у БИ пројектима. Међутим, то није привилегија само техничких стручњака.
На квалитет података утичу и аспекти као што су

Корпоративна култура

  • Да ли су сами радници заинтересовани за производњу доброг квалитета?
  • Ако не, зашто не? Може доћи до сукоба интереса.
  • Можда постоје корпоративна правила која одређују ко је одговоран за квалитет?

Процеси

  • Који подаци се стварају на крају ових ланаца?
  • Можда су оперативни системи конфигурисани на такав начин да морате да се „окренете“ да бисте одразили ову или ону ситуацију у стварности.
  • Да ли оперативни системи сами врше верификацију и усаглашавање података?

Свако у организацији је одговоран за квалитет података у системима извештавања.

Дефиниција и значење

Квалитет је доказано задовољење очекивања купаца.

Али квалитет података не садржи дефиницију. Увек одражава контекст употребе. Складиште података и БИ систем служе различитим сврхама од оперативног система из којег долазе подаци.

На пример, на оперативном систему, атрибут купца може бити опционо поље. У спремишту, овај атрибут се може користити као димензија и потребно је његово попуњавање. Што, пак, уводи потребу за попуњавањем подразумеваних вредности.

Захтеви за складиштење података се стално мењају и обично су већи од оних за оперативне системе. Али може бити и обрнуто, када нема потребе да се детаљне информације из оперативног система чувају у складишту.

Да би квалитет података био мерљив, његови стандарди морају бити описани. Људи који користе информације и бројке за свој рад морају бити укључени у процес описа. Резултат ове укључености може бити правило, по коме се може на први поглед у табели рећи да ли постоји грешка или не. Ово правило мора бити форматирано као скрипта/код за накнадну верификацију.

Побољшање квалитета података

Немогуће је очистити и исправити све хипотетичке грешке током процеса учитавања података у складиште. Добар квалитет података може се постићи само кроз блиску сарадњу између свих учесника. Људи који уносе податке у оперативне системе треба да науче које радње доводе до грешака.

Квалитет података је процес. Нажалост, многе организације немају стратегију за континуирано побољшање. Многи се ограничавају само на складиштење података и не користе пуни потенцијал аналитичких система. Типично, када се развијају складишта података, 70-80% буџета се троши на имплементацију интеграције података. Процес праћења и побољшања остаје недовршен, ако је уопште.

Алат

Коришћење софтверских алата може помоћи у процесу аутоматизације побољшања квалитета података и праћења. На пример, могу у потпуности да аутоматизују техничку верификацију структура складиштења: формат поља, присуство подразумеваних вредности, усклађеност са називима поља табеле.

Можда ће бити теже проверити садржај. Како се захтеви за складиштење мењају, може се променити и тумачење података. Сам алат може постати огроман пројекат који захтева подршку.

Савет

Релационе базе података, у којима су продавнице типично дизајниране, имају изузетну способност креирања погледа. Могу се користити за брзу проверу података ако познајете специфичности садржаја. Сваки случај проналажења грешке или проблема у подацима може се забележити у облику упита базе података.

На тај начин ће се формирати база знања о садржају. Наравно, такви захтеви морају бити брзи. Погледи обично захтевају мање људског времена за одржавање него алатке засноване на табели. Приказ је увек спреман да прикаже резултат теста.
У случају важних извештаја, приказ може да садржи колону са примаоцем. Има смисла користити исте БИ алате за извештавање о стању квалитета података у складишту.

Пример

Упит је написан за Орацле базу података. У овом примеру, тестови враћају нумеричку вредност која се може интерпретирати по жељи. Вредности Т_МИН и Т_МАКС се могу користити за подешавање нивоа аларма. Поље РЕПОРТ се некада користило као порука у комерцијалном ЕТЛ производу који није знао како да правилно шаље е-пошту, тако да је рпад „штака“.

У случају велике табеле, можете додати, на пример, АНД РОВНУМ <= 10, тј. ако има 10 грешака, онда је то довољно да изазове аларм.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Публикација користи материјале из књиге
Роналд Бахман, др. Гуидо Кемпер
Раус аус дер БИ-Фалле
Вие Бусинесс Интеллигенце зум Ерфолг вирд


Извор: ввв.хабр.цом

Додај коментар