ගබඩාවේ දත්ත ගුණාත්මකභාවය

ගබඩාවේ ඇති දත්තවල ගුණාත්මකභාවය වටිනා තොරතුරු ලබා ගැනීම සඳහා වැදගත් පූර්වාවශ්යතාවයකි. දුර්වල ගුණාත්මක භාවය දිගුකාලීනව සෘණ දාම ප්රතික්රියාවක් ඇති කරයි.
පළමුව, සපයන ලද තොරතුරු කෙරෙහි විශ්වාසය නැති වී යයි. මිනිසුන් ව්‍යාපාර බුද්ධි යෙදුම් අඩුවෙන් භාවිතා කිරීමට පටන් ගෙන ඇත; යෙදුම්වල විභවය හිමිකම් නොපෙන්වයි.
එහි ප්රතිඵලයක් වශයෙන්, විශ්ලේෂණාත්මක ව්යාපෘතියේ තවදුරටත් ආයෝජනය ප්රශ්නයට ලක් වේ.

දත්තවල ගුණාත්මකභාවය සඳහා වගකීම

BI ව්‍යාපෘතිවල දත්තවල ගුණාත්මක භාවය වැඩි දියුණු කිරීමට අදාළ අංගය ඉතා වැදගත් වේ. කෙසේ වෙතත්, එය තාක්ෂණික විශේෂඥයින්ගේ පමණක් වරප්රසාදයක් නොවේ.
වැනි පැතිවලින් දත්තවල ගුණාත්මකභාවය ද බලපායි

ආයතනික සංස්කෘතිය

  • හොඳ තත්ත්වයේ නිෂ්පාදනය කිරීමට කම්කරුවන්ම උනන්දු වන්නේද?
  • එසේ නොවේ නම්, එසේ නොකරන්නේ මන්ද? උනන්දුව පිළිබඳ ගැටුමක් ඇති විය හැකිය.
  • සමහර විට ගුණාත්මකභාවය සඳහා වගකිව යුත්තේ කවුරුන්ද යන්න තීරණය කරන ආයතනික නීති තිබේද?

ක්රියාවලි

  • මෙම දාමවල අවසානයේ නිර්මාණය වන දත්ත මොනවාද?
  • සමහර විට මෙහෙයුම් පද්ධති වින්‍යාස කර ඇත්තේ යථාර්ථයේ දී මෙම හෝ එම තත්වය පිළිබිඹු කිරීම සඳහා ඔබට “ඇඹරීමට” අවශ්‍ය ආකාරයට ය.
  • මෙහෙයුම් පද්ධති දත්ත සත්‍යාපනය සහ ප්‍රතිසන්ධානය තමන් විසින්ම සිදු කරයිද?

වාර්තාකරණ පද්ධතිවල දත්තවල ගුණාත්මක භාවය සඳහා සංවිධානයේ සිටින සෑම කෙනෙකුම වගකිව යුතුය.

අර්ථ දැක්වීම සහ අර්ථය

ගුණාත්මකභාවය යනු පාරිභෝගික අපේක්ෂාවන් පිළිබඳ ඔප්පු කරන ලද තෘප්තියයි.

නමුත් දත්ත ගුණාත්මක භාවය අර්ථ දැක්වීමක් අඩංගු නොවේ. එය සෑම විටම භාවිතයේ සන්දර්භය පිළිබිඹු කරයි. දත්ත ගබඩාව සහ BI පද්ධතිය දත්ත ලැබෙන මෙහෙයුම් පද්ධතියට වඩා වෙනස් අරමුණු සඳහා සේවය කරයි.

උදාහරණයක් ලෙස, මෙහෙයුම් පද්ධතියක, පාරිභෝගික ගුණාංගය විකල්ප ක්ෂේත්‍රයක් විය හැකිය. නිධිය තුළ, මෙම ගුණාංගය මානයක් ලෙස භාවිතා කළ හැකි අතර එහි පිරවීම අවශ්ය වේ. එමඟින්, පෙරනිමි අගයන් පිරවීමේ අවශ්‍යතාවය හඳුන්වා දෙයි.

දත්ත ගබඩා කිරීමේ අවශ්‍යතා නිරන්තරයෙන් වෙනස් වන අතර ඒවා සාමාන්‍යයෙන් මෙහෙයුම් පද්ධතිවලට වඩා වැඩි වේ. නමුත් ගබඩාව තුළ මෙහෙයුම් පද්ධතියෙන් සවිස්තරාත්මක තොරතුරු ගබඩා කිරීමට අවශ්ය නොවන විට එය අනෙක් පැත්ත ද විය හැකිය.

දත්තවල ගුණාත්මකභාවය මැනිය හැකි බවට පත් කිරීම සඳහා, එහි ප්‍රමිතීන් විස්තර කළ යුතුය. ඔවුන්ගේ වැඩ සඳහා තොරතුරු සහ සංඛ්‍යා භාවිතා කරන පුද්ගලයින් විස්තර කිරීමේ ක්‍රියාවලියට සම්බන්ධ විය යුතුය. මෙම මැදිහත්වීමේ ප්‍රති result ලය රීතියක් විය හැකි අතර, එමඟින් දෝෂයක් තිබේද නැද්ද යන්න මේසය දෙස බැලූ බැල්මට පැවසිය හැකිය. මෙම රීතිය පසුකාලීන සත්‍යාපනය සඳහා ස්ක්‍රිප්ට්/කේතයක් ලෙස හැඩතල ගැන්විය යුතුය.

දත්ත ගුණාත්මක භාවය වැඩි දියුණු කිරීම

ගබඩාවට දත්ත පැටවීමේ ක්‍රියාවලියේදී සියලුම උපකල්පිත දෝෂ පිරිසිදු කිරීම සහ නිවැරදි කිරීම කළ නොහැක. හොඳ දත්ත ගුණාත්මක භාවයක් ලබා ගත හැක්කේ සියලුම සහභාගිවන්නන් අතර සමීප සහයෝගීතාවයෙන් පමණි. මෙහෙයුම් පද්ධතිවලට දත්ත ඇතුළත් කරන පුද්ගලයින්ට දෝෂ වලට තුඩු දෙන ක්‍රියා මොනවාදැයි ඉගෙන ගත යුතුය.

දත්ත ගුණාත්මකභාවය යනු ක්රියාවලියකි. අවාසනාවකට මෙන්, බොහෝ ආයතනවලට අඛණ්ඩ වැඩිදියුණු කිරීම් සඳහා උපාය මාර්ගයක් නොමැත. බොහෝ අය දත්ත ගබඩා කිරීමට පමණක් සීමා වන අතර විශ්ලේෂණ පද්ධතිවල සම්පූර්ණ විභවය භාවිතා නොකරයි. සාමාන්යයෙන්, දත්ත ගබඩා සංවර්ධනය කිරීමේදී, අයවැයෙන් 70-80% දත්ත ඒකාබද්ධ කිරීම ක්රියාත්මක කිරීම සඳහා වැය වේ. අධීක්‍ෂණය සහ වැඩිදියුණු කිරීමේ ක්‍රියාවලිය අසම්පූර්ණව පවතී.

මෙවලම්

මෘදුකාංග මෙවලම් භාවිතය ස්වයංක්‍රීය කිරීමේ ක්‍රියාවලියේදී දත්ත ගුණාත්මක භාවය වැඩි දියුණු කිරීම සහ අධීක්ෂණය කිරීම සඳහා උපකාරී වේ. උදාහරණයක් ලෙස, ගබඩා ව්‍යුහයන්ගේ තාක්ෂණික සත්‍යාපනය සම්පූර්ණයෙන්ම ස්වයංක්‍රීය කිරීමට ඔවුන්ට හැකිය: ක්ෂේත්‍ර ආකෘතිය, පෙරනිමි අගයන් තිබීම, වගු ක්ෂේත්‍ර නාම සමඟ අනුකූල වීම.

අන්තර්ගතය පරීක්ෂා කිරීම වඩාත් අපහසු විය හැකිය. ගබඩා අවශ්‍යතා වෙනස් වන විට, දත්තවල අර්ථ නිරූපණය ද වෙනස් විය හැක. මෙවලමම සහාය අවශ්ය වන දැවැන්ත ව්යාපෘතියක් බවට පත්විය හැකිය.

ඉඟිය

ගබඩා සාමාන්‍යයෙන් නිර්මාණය කර ඇති සම්බන්ධතා දත්ත සමුදායන්, දර්ශන නිර්මාණය කිරීමට විශිෂ්ට හැකියාවක් ඇත. ඔබ අන්තර්ගතයේ විශේෂතා දන්නේ නම් ඉක්මනින් දත්ත පරීක්ෂා කිරීමට ඒවා භාවිතා කළ හැක. දත්තවල දෝෂයක් හෝ ගැටලුවක් සොයාගැනීමේ සෑම අවස්ථාවක්ම දත්ත සමුදා විමසුමක ආකාරයෙන් වාර්තා කළ හැක.

මේ අනුව, අන්තර්ගතය පිළිබඳ දැනුම පදනමක් ගොඩනඟනු ඇත. ඇත්ත වශයෙන්ම, එවැනි ඉල්ලීම් වේගවත් විය යුතුය. බැලීම් සාමාන්‍යයෙන් මේස මත පදනම් වූ මෙවලම්වලට වඩා නඩත්තු කිරීමට අඩු මිනිස් කාලයක් අවශ්‍ය වේ. පරීක්ෂණයේ ප්‍රතිඵලය පෙන්වීමට දර්ශනය සැම විටම සූදානම්ය.
වැදගත් වාර්තා සම්බන්ධයෙන්, දර්ශනය ලබන්නා සමඟ තීරුවක් අඩංගු විය හැක. ගබඩාවේ දත්තවල ගුණාත්මක තත්ත්වය වාර්තා කිරීමට එම BI මෙවලම් භාවිතා කිරීම අර්ථවත් කරයි.

උදාහරණ:

විමසුම Oracle දත්ත ගබඩාව සඳහා ලියා ඇත. මෙම උදාහරණයේ දී, පරීක්ෂණ මඟින් අවශ්‍ය පරිදි අර්ථ දැක්විය හැකි සංඛ්‍යාත්මක අගයක් ලබා දෙයි. අනතුරු ඇඟවීමේ මට්ටම සීරුමාරු කිරීමට T_MIN සහ T_MAX අගයන් භාවිතා කළ හැක. REPORT ක්ෂේත්‍රය වරක් ඊමේල් නිසියාකාරව යැවීමට නොදන්නා වාණිජ ETL නිෂ්පාදනයක පණිවිඩයක් ලෙස භාවිතා කරන ලදී, එබැවින් rpad යනු "කිහිලිකරු" වේ.

විශාල වගුවක් සම්බන්ධයෙන්, ඔබට උදාහරණයක් ලෙස, සහ ROWNUM <= 10 එකතු කළ හැකිය, i.e. දෝෂ 10 ක් තිබේ නම්, අනතුරු ඇඟවීමක් ඇති කිරීමට මෙය ප්රමාණවත් වේ.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

ප්රකාශනය පොතෙන් ද්රව්ය භාවිතා කරයි
Ronald Bachmann, Dr. ගයිඩෝ කෙම්පර්
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න