Қоймадағы деректер сапасы

Қоймадағы деректердің сапасы құнды ақпаратты алудың маңызды алғышарты болып табылады. Нашар сапа ұзақ мерзімді перспективада теріс тізбекті реакцияға әкеледі.
Біріншіден, берілген ақпаратқа деген сенім жоғалады. Адамдар Business Intelligence қолданбаларын аз пайдалана бастады; қолданбалардың әлеуеті талап етілмеген күйінде қалады.
Нәтижесінде аналитикалық жобаны одан әрі инвестициялау күмән тудырады.

Деректер сапасына жауапкершілік

Деректер сапасын жақсартуға қатысты аспект BI жобаларында өте маңызды. Дегенмен, бұл тек техникалық мамандардың артықшылығы емес.
Деректер сапасына сияқты аспектілер де әсер етеді

Корпоративтік мәдениет

  • Жұмысшылардың өздері сапалы өнім шығаруға мүдделі ме?
  • Егер жоқ болса, неге жоқ? Мүдделер қақтығысы болуы мүмкін.
  • Мүмкін сапаға кім жауапты екенін анықтайтын корпоративтік ережелер бар шығар?

Процестер

  • Осы тізбектердің соңында қандай деректер жасалады?
  • Мүмкін операциялық жүйелер осы немесе басқа жағдайды шындықта көрсету үшін «бұру» қажет болатындай конфигурацияланған болуы мүмкін.
  • Операциялық жүйелер деректерді тексеруді және салыстыруды өздері жүзеге асырады ма?

Ұйымдағы әрбір адам есеп беру жүйелеріндегі деректердің сапасына жауапты.

Анықтамасы және мағынасы

Сапа – бұл тұтынушылардың күтуінің дәлелденген қанағаттандырылуы.

Бірақ деректер сапасының анықтамасы жоқ. Ол әрқашан пайдалану контекстін көрсетеді. Деректер қоймасы мен BI жүйесі деректер келетін операциялық жүйеге қарағанда әртүрлі мақсаттарға қызмет етеді.

Мысалы, операциялық жүйеде тұтынушы атрибуты қосымша өріс болуы мүмкін. Репозиторийде бұл төлсипатты өлшем ретінде пайдалануға болады және оны толтыру қажет. Бұл, өз кезегінде, әдепкі мәндерді толтыру қажеттілігін тудырады.

Деректерді сақтауға қойылатын талаптар үнемі өзгеріп отырады және олар әдетте операциялық жүйелерге қойылатын талаптардан жоғары. Бірақ операциялық жүйеден толық ақпаратты жадта сақтаудың қажеті болмаған кезде, бұл керісінше болуы мүмкін.

Деректер сапасын өлшенетін ету үшін оның стандарттары сипатталуы керек. Сипаттау процесіне өз жұмысы үшін ақпарат пен цифрларды пайдаланатын адамдар тартылуы керек. Бұл қатысудың нәтижесі ереже болуы мүмкін, оған сәйкес үстелге бір қарағанда қате бар немесе жоқ екенін анықтауға болады. Бұл ереже кейінгі тексеру үшін сценарий/код ретінде пішімделуі керек.

Деректер сапасын жақсарту

Деректерді қоймаға жүктеу процесінде барлық гипотетикалық қателерді тазалау және түзету мүмкін емес. Жақсы деректер сапасына барлық қатысушылар арасындағы тығыз ынтымақтастық арқылы ғана қол жеткізуге болады. Операциялық жүйелерге деректерді енгізетін адамдар қандай әрекеттер қателерге әкелетінін білуі керек.

Деректер сапасы - бұл процесс. Өкінішке орай, көптеген ұйымдарда үздіксіз жетілдіру стратегиясы жоқ. Көбісі тек деректерді сақтаумен шектеледі және аналитикалық жүйелердің мүмкіндіктерін толық пайдаланбайды. Әдетте деректер қоймаларын әзірлеу кезінде бюджеттің 70-80% деректер интеграциясын жүзеге асыруға жұмсалады. Мониторинг және жетілдіру процесі, егер мүлде болса да, толық емес болып қалады.

Құралдар

Бағдарламалық құралдарды пайдалану деректер сапасын жақсарту және бақылауды автоматтандыру процесінде көмектесе алады. Мысалы, олар сақтау құрылымдарын техникалық тексеруді толығымен автоматтандыра алады: өріс форматы, стандартты мәндердің болуы, кесте өрістерінің атауларына сәйкестігі.

Мазмұнды тексеру қиынырақ болуы мүмкін. Сақтау талаптары өзгерген сайын деректерді түсіндіру де өзгеруі мүмкін. Құралдың өзі қолдауды қажет ететін үлкен жобаға айналуы мүмкін.

Кеңес

Дүкендер әдетте жобаланған реляциялық дерекқорлар көріністер жасаудың керемет мүмкіндігіне ие. Мазмұнның ерекшеліктерін білсеңіз, оларды деректерді жылдам тексеру үшін пайдалануға болады. Мәліметтердегі қатені немесе мәселені табудың әрбір жағдайы дерекқор сұрауы түрінде жазылуы мүмкін.

Осылайша мазмұн туралы білім қоры қалыптасады. Әрине, мұндай сұраныстар жылдам болуы керек. Кестеге негізделген құралдарға қарағанда, көріністерді ұстау әдетте аз уақытты қажет етеді. Көрініс әрқашан сынақ нәтижесін көрсетуге дайын.
Маңызды есептер болған жағдайда, көріністе алушы бар баған болуы мүмкін. Қоймадағы деректер сапасының күйі туралы есеп беру үшін бірдей BI құралдарын пайдалану мағынасы бар.

Мысал:

Сұрау Oracle дерекқоры үшін жазылған. Бұл мысалда сынақтар қалағандай түсіндіруге болатын сандық мәнді қайтарады. T_MIN және T_MAX мәндерін дабыл деңгейін реттеу үшін пайдалануға болады. Report өрісі бір кездері электрондық поштаны қалай дұрыс жіберу керектігін білмейтін коммерциялық ETL өнімінде хабарлама ретінде пайдаланылды, сондықтан rpad – «балдақ».

Үлкен кесте жағдайында, мысалы, ЖӘНЕ ROWNUM <= 10 қосуға болады, яғни. егер 10 қате болса, бұл дабыл тудыруға жеткілікті.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Басылым кітаптағы материалдарды пайдаланады
Рональд Бахман, доктор. Гидо Кемпер
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Ақпарат көзі: www.habr.com

пікір қалдыру