Квалитет података у магацину је важан предуслов за добијање вредних информација. Лош квалитет доводи до негативне ланчане реакције на дужи рок.
Прво, губи се поверење у дате информације. Људи почињу мање да користе апликације Бусинесс Интеллигенце; потенцијал апликација остаје непотражен.
Као резултат, доведено је у питање даље улагање у аналитички пројекат.
Одговорност за квалитет података
Аспект који се односи на побољшање квалитета података је мега-важан у БИ пројектима. Међутим, то није привилегија само техничких стручњака.
На квалитет података утичу и аспекти као што су
Корпоративна култура
- Да ли су сами радници заинтересовани за производњу доброг квалитета?
- Ако не, зашто не? Може доћи до сукоба интереса.
- Можда постоје корпоративна правила која одређују ко је одговоран за квалитет?
Процеси
- Који подаци се стварају на крају ових ланаца?
- Можда су оперативни системи конфигурисани на такав начин да морате да се „окренете“ да бисте одразили ову или ону ситуацију у стварности.
- Да ли оперативни системи сами врше верификацију и усаглашавање података?
Свако у организацији је одговоран за квалитет података у системима извештавања.
Дефиниција и значење
Квалитет је доказано задовољење очекивања купаца.
Али квалитет података не садржи дефиницију. Увек одражава контекст употребе. Складиште података и БИ систем служе различитим сврхама од оперативног система из којег долазе подаци.
На пример, на оперативном систему, атрибут купца може бити опционо поље. У спремишту, овај атрибут се може користити као димензија и потребно је његово попуњавање. Што, пак, уводи потребу за попуњавањем подразумеваних вредности.
Захтеви за складиштење података се стално мењају и обично су већи од оних за оперативне системе. Али може бити и обрнуто, када нема потребе да се детаљне информације из оперативног система чувају у складишту.
Да би квалитет података био мерљив, његови стандарди морају бити описани. Људи који користе информације и бројке за свој рад морају бити укључени у процес описа. Резултат ове укључености може бити правило, по коме се може на први поглед у табели рећи да ли постоји грешка или не. Ово правило мора бити форматирано као скрипта/код за накнадну верификацију.
Побољшање квалитета података
Немогуће је очистити и исправити све хипотетичке грешке током процеса учитавања података у складиште. Добар квалитет података може се постићи само кроз блиску сарадњу између свих учесника. Људи који уносе податке у оперативне системе треба да науче које радње доводе до грешака.
Квалитет података је процес. Нажалост, многе организације немају стратегију за континуирано побољшање. Многи се ограничавају само на складиштење података и не користе пуни потенцијал аналитичких система. Типично, када се развијају складишта података, 70-80% буџета се троши на имплементацију интеграције података. Процес праћења и побољшања остаје недовршен, ако је уопште.
Алат
Коришћење софтверских алата може помоћи у процесу аутоматизације побољшања квалитета података и праћења. На пример, могу у потпуности да аутоматизују техничку верификацију структура складиштења: формат поља, присуство подразумеваних вредности, усклађеност са називима поља табеле.
Можда ће бити теже проверити садржај. Како се захтеви за складиштење мењају, може се променити и тумачење података. Сам алат може постати огроман пројекат који захтева подршку.
Савет
Релационе базе података, у којима су продавнице типично дизајниране, имају изузетну способност креирања погледа. Могу се користити за брзу проверу података ако познајете специфичности садржаја. Сваки случај проналажења грешке или проблема у подацима може се забележити у облику упита базе података.
На тај начин ће се формирати база знања о садржају. Наравно, такви захтеви морају бити брзи. Погледи обично захтевају мање људског времена за одржавање него алатке засноване на табели. Приказ је увек спреман да прикаже резултат теста.
У случају важних извештаја, приказ може да садржи колону са примаоцем. Има смисла користити исте БИ алате за извештавање о стању квалитета података у складишту.
Пример
Упит је написан за Орацле базу података. У овом примеру, тестови враћају нумеричку вредност која се може интерпретирати по жељи. Вредности Т_МИН и Т_МАКС се могу користити за подешавање нивоа аларма. Поље РЕПОРТ се некада користило као порука у комерцијалном ЕТЛ производу који није знао како да правилно шаље е-пошту, тако да је рпад „штака“.
У случају велике табеле, можете додати, на пример, АНД РОВНУМ <= 10, тј. ако има 10 грешака, онда је то довољно да изазове аларм.
CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
THEN 'OK' ELSE 'ERROR' END AS RESULT,
DESCRIPTION,
TABLE_NAME,
OUTPUT,
T_MIN,
T_MAX,
rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
SELECT
'DIM_PRODUCT' AS TABLE_NAME,
'Count of blanks' AS DESCRIPTION,
COUNT(*) AS OUTPUT,
0 AS T_MIN,
10 AS T_MAX
FROM DIM_PRODUCT
WHERE DIM_PRODUCT_ID != -1 -- not default value
AND ATTRIBUTE IS NULL ); -- count blanks
Публикација користи материјале из књиге
Роналд Бахман, др. Гуидо Кемпер
Раус аус дер БИ-Фалле
Вие Бусинесс Интеллигенце зум Ерфолг вирд
Извор: ввв.хабр.цом