Տվյալների որակը պահեստում

Պահեստում տվյալների որակը կարևոր նախապայման է արժեքավոր տեղեկատվություն ստանալու համար: Վատ որակը երկարաժամկետ հեռանկարում հանգեցնում է բացասական շղթայական ռեակցիայի:
Նախ, տրամադրված տեղեկատվության նկատմամբ վստահությունը կորչում է: Մարդիկ սկսում են ավելի քիչ օգտագործել Business Intelligence հավելվածները, հավելվածների ներուժը մնում է չպահանջված:
Արդյունքում՝ վերլուծական նախագծում հետագա ներդրումները կասկածի տակ են դրվում։

Տվյալների որակի համար պատասխանատվություն

Տվյալների որակի բարելավման հետ կապված ասպեկտը մեգակարևոր է BI նախագծերում: Սակայն դա միայն տեխնիկական մասնագետների արտոնությունը չէ։
Տվյալների որակի վրա ազդում են նաև այնպիսի ասպեկտներ, ինչպիսիք են

Կորպորատիվ մշակույթ

  • Աշխատողներն իրենք շահագրգռվա՞ծ են որակյալ արտադրությամբ։
  • Եթե ​​ոչ, ինչո՞ւ ոչ։ Հնարավոր է շահերի բախում.
  • Գուցե կան կորպորատիվ կանոններ, որոնք որոշում են, թե ով է պատասխանատու որակի համար:

Գործընթացները

  • Ի՞նչ տվյալներ են ստեղծվում այս շղթաների վերջում:
  • Միգուցե օպերացիոն համակարգերը կազմաձևված են այնպես, որ պետք է «պտտվել»՝ իրականում այս կամ այն ​​իրավիճակը արտացոլելու համար:
  • Արդյո՞ք օպերացիոն համակարգերն իրենք են կատարում տվյալների ստուգում և հաշտեցում:

Կազմակերպությունում յուրաքանչյուրը պատասխանատու է հաշվետվական համակարգերում տվյալների որակի համար:

Սահմանում և իմաստ

Որակը հաճախորդի ակնկալիքների ապացուցված բավարարումն է:

Բայց տվյալների որակը սահմանում չի պարունակում: Այն միշտ արտացոլում է օգտագործման համատեքստը: Տվյալների պահեստը և BI համակարգը ծառայում են տարբեր նպատակների, քան օպերացիոն համակարգը, որտեղից ստացվում են տվյալները:

Օրինակ, օպերացիոն համակարգում հաճախորդի հատկանիշը կարող է լինել կամընտիր դաշտ: Պահեստում այս հատկանիշը կարող է օգտագործվել որպես չափում, և դրա լրացումը պահանջվում է: Ինչն իր հերթին ներկայացնում է լռելյայն արժեքները լրացնելու անհրաժեշտությունը:

Տվյալների պահպանման պահանջները մշտապես փոփոխվում են, և դրանք սովորաբար ավելի բարձր են, քան օպերացիոն համակարգերի պահանջները: Բայց դա կարող է լինել նաև հակառակը, երբ կարիք չկա օպերացիոն համակարգից մանրամասն տեղեկություններ պահելու պահեստում։

Տվյալների որակը չափելի դարձնելու համար պետք է նկարագրվեն դրա ստանդարտները: Մարդիկ, ովքեր օգտագործում են տեղեկատվություն և թվեր իրենց աշխատանքի համար, պետք է ներգրավվեն նկարագրության գործընթացում: Այս ներգրավվածության արդյունքը կարող է լինել մի կանոն, որին հետևելով սեղանին մի հայացքով կարելի է ասել՝ կա՞ սխալ, թե՞ ոչ։ Այս կանոնը պետք է ձևակերպվի որպես սկրիպտ/կոդ՝ հետագա ստուգման համար:

Տվյալների որակի բարելավում

Տվյալները պահեստ բեռնելու գործընթացում անհնար է մաքրել և ուղղել բոլոր հիպոթետիկ սխալները: Տվյալների լավ որակ կարելի է ձեռք բերել միայն բոլոր մասնակիցների սերտ համագործակցության միջոցով: Մարդիկ, ովքեր տվյալներ են մուտքագրում օպերացիոն համակարգեր, պետք է իմանան, թե ինչ գործողությունները հանգեցնում են սխալների:

Տվյալների որակը գործընթաց է: Ցավոք, շատ կազմակերպություններ չունեն շարունակական բարելավման ռազմավարություն: Շատերը սահմանափակվում են միայն տվյալների պահպանմամբ և չեն օգտագործում վերլուծական համակարգերի ողջ ներուժը: Սովորաբար տվյալների պահեստներ մշակելիս բյուջեի 70-80%-ը ծախսվում է տվյալների ինտեգրման վրա: Մոնիտորինգի և բարելավման գործընթացը մնում է կիսատ, եթե ընդհանրապես:

Գործիքներ

Ծրագրային գործիքների օգտագործումը կարող է օգնել տվյալների որակի բարելավման և մոնիտորինգի ավտոմատացման գործընթացին: Օրինակ, նրանք կարող են լիովին ավտոմատացնել պահեստավորման կառուցվածքների տեխնիկական ստուգումը. դաշտի ձևաչափ, լռելյայն արժեքների առկայություն, համապատասխանություն աղյուսակի դաշտերի անվանումներին:

Բովանդակությունը ստուգելը կարող է ավելի դժվար լինել։ Քանի որ պահպանման պահանջները փոխվում են, տվյալների մեկնաբանությունը նույնպես կարող է փոխվել: Գործիքը ինքնին կարող է դառնալ հսկայական նախագիծ, որը պահանջում է աջակցություն:

Խորհուրդ

Հարաբերական տվյալների բազաները, որոնցում սովորաբար նախագծված են խանութները, ունեն դիտումներ ստեղծելու ուշագրավ կարողություն: Դրանք կարող են օգտագործվել տվյալների արագ ստուգման համար, եթե գիտեք բովանդակության առանձնահատկությունները: Տվյալների մեջ սխալ կամ խնդիր գտնելու յուրաքանչյուր դեպք կարող է գրանցվել տվյալների բազայի հարցման տեսքով։

Այս կերպ կձևավորվի բովանդակության վերաբերյալ գիտելիքների բազա։ Իհարկե, նման հարցումները պետք է արագ լինեն։ Դիտումները սովորաբար պահանջում են ավելի քիչ մարդկային ժամանակ, քան սեղանի վրա հիմնված գործիքները: Տեսարանը միշտ պատրաստ է թեստի արդյունքը ցուցադրելու համար:
Կարևոր հաշվետվությունների դեպքում դիտումը կարող է պարունակել հասցեատիրոջ հետ սյունակ: Խելամիտ է օգտագործել նույն BI գործիքները պահեստում տվյալների որակի վիճակի մասին զեկուցելու համար:

Օրինակ

Հարցումը գրվել է Oracle տվյալների բազայի համար: Այս օրինակում թեստերը վերադարձնում են թվային արժեք, որը կարող է մեկնաբանվել ըստ ցանկության: T_MIN և T_MAX արժեքները կարող են օգտագործվել ահազանգի մակարդակը կարգավորելու համար: REPORT դաշտը ժամանակին օգտագործվել է որպես հաղորդագրություն առևտրային ETL արտադրանքի մեջ, որը չգիտեր, թե ինչպես ճիշտ ուղարկել էլ.

Մեծ աղյուսակի դեպքում կարող եք ավելացնել, օրինակ, AND ROWNUM <= 10, այսինքն. եթե կա 10 սխալ, ապա դա բավական է տագնապ առաջացնելու համար։

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Հրատարակությունն օգտագործում է գրքի նյութերը
Ռոնալդ Բախմանը, դոկտ. Գվիդո Կեմպեր
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Source: www.habr.com

Добавить комментарий