Պահեստում տվյալների որակը կարևոր նախապայման է արժեքավոր տեղեկատվություն ստանալու համար: Վատ որակը երկարաժամկետ հեռանկարում հանգեցնում է բացասական շղթայական ռեակցիայի:
Նախ, տրամադրված տեղեկատվության նկատմամբ վստահությունը կորչում է: Մարդիկ սկսում են ավելի քիչ օգտագործել Business Intelligence հավելվածները, հավելվածների ներուժը մնում է չպահանջված:
Արդյունքում՝ վերլուծական նախագծում հետագա ներդրումները կասկածի տակ են դրվում։
Տվյալների որակի համար պատասխանատվություն
Տվյալների որակի բարելավման հետ կապված ասպեկտը մեգակարևոր է BI նախագծերում: Սակայն դա միայն տեխնիկական մասնագետների արտոնությունը չէ։
Տվյալների որակի վրա ազդում են նաև այնպիսի ասպեկտներ, ինչպիսիք են
Կորպորատիվ մշակույթ
- Աշխատողներն իրենք շահագրգռվա՞ծ են որակյալ արտադրությամբ։
- Եթե ոչ, ինչո՞ւ ոչ։ Հնարավոր է շահերի բախում.
- Գուցե կան կորպորատիվ կանոններ, որոնք որոշում են, թե ով է պատասխանատու որակի համար:
Գործընթացները
- Ի՞նչ տվյալներ են ստեղծվում այս շղթաների վերջում:
- Միգուցե օպերացիոն համակարգերը կազմաձևված են այնպես, որ պետք է «պտտվել»՝ իրականում այս կամ այն իրավիճակը արտացոլելու համար:
- Արդյո՞ք օպերացիոն համակարգերն իրենք են կատարում տվյալների ստուգում և հաշտեցում:
Կազմակերպությունում յուրաքանչյուրը պատասխանատու է հաշվետվական համակարգերում տվյալների որակի համար:
Սահմանում և իմաստ
Որակը հաճախորդի ակնկալիքների ապացուցված բավարարումն է:
Բայց տվյալների որակը սահմանում չի պարունակում: Այն միշտ արտացոլում է օգտագործման համատեքստը: Տվյալների պահեստը և BI համակարգը ծառայում են տարբեր նպատակների, քան օպերացիոն համակարգը, որտեղից ստացվում են տվյալները:
Օրինակ, օպերացիոն համակարգում հաճախորդի հատկանիշը կարող է լինել կամընտիր դաշտ: Պահեստում այս հատկանիշը կարող է օգտագործվել որպես չափում, և դրա լրացումը պահանջվում է: Ինչն իր հերթին ներկայացնում է լռելյայն արժեքները լրացնելու անհրաժեշտությունը:
Տվյալների պահպանման պահանջները մշտապես փոփոխվում են, և դրանք սովորաբար ավելի բարձր են, քան օպերացիոն համակարգերի պահանջները: Բայց դա կարող է լինել նաև հակառակը, երբ կարիք չկա օպերացիոն համակարգից մանրամասն տեղեկություններ պահելու պահեստում։
Տվյալների որակը չափելի դարձնելու համար պետք է նկարագրվեն դրա ստանդարտները: Մարդիկ, ովքեր օգտագործում են տեղեկատվություն և թվեր իրենց աշխատանքի համար, պետք է ներգրավվեն նկարագրության գործընթացում: Այս ներգրավվածության արդյունքը կարող է լինել մի կանոն, որին հետևելով սեղանին մի հայացքով կարելի է ասել՝ կա՞ սխալ, թե՞ ոչ։ Այս կանոնը պետք է ձևակերպվի որպես սկրիպտ/կոդ՝ հետագա ստուգման համար:
Տվյալների որակի բարելավում
Տվյալները պահեստ բեռնելու գործընթացում անհնար է մաքրել և ուղղել բոլոր հիպոթետիկ սխալները: Տվյալների լավ որակ կարելի է ձեռք բերել միայն բոլոր մասնակիցների սերտ համագործակցության միջոցով: Մարդիկ, ովքեր տվյալներ են մուտքագրում օպերացիոն համակարգեր, պետք է իմանան, թե ինչ գործողությունները հանգեցնում են սխալների:
Տվյալների որակը գործընթաց է: Ցավոք, շատ կազմակերպություններ չունեն շարունակական բարելավման ռազմավարություն: Շատերը սահմանափակվում են միայն տվյալների պահպանմամբ և չեն օգտագործում վերլուծական համակարգերի ողջ ներուժը: Սովորաբար տվյալների պահեստներ մշակելիս բյուջեի 70-80%-ը ծախսվում է տվյալների ինտեգրման վրա: Մոնիտորինգի և բարելավման գործընթացը մնում է կիսատ, եթե ընդհանրապես:
Գործիքներ
Ծրագրային գործիքների օգտագործումը կարող է օգնել տվյալների որակի բարելավման և մոնիտորինգի ավտոմատացման գործընթացին: Օրինակ, նրանք կարող են լիովին ավտոմատացնել պահեստավորման կառուցվածքների տեխնիկական ստուգումը. դաշտի ձևաչափ, լռելյայն արժեքների առկայություն, համապատասխանություն աղյուսակի դաշտերի անվանումներին:
Բովանդակությունը ստուգելը կարող է ավելի դժվար լինել։ Քանի որ պահպանման պահանջները փոխվում են, տվյալների մեկնաբանությունը նույնպես կարող է փոխվել: Գործիքը ինքնին կարող է դառնալ հսկայական նախագիծ, որը պահանջում է աջակցություն:
Խորհուրդ
Հարաբերական տվյալների բազաները, որոնցում սովորաբար նախագծված են խանութները, ունեն դիտումներ ստեղծելու ուշագրավ կարողություն: Դրանք կարող են օգտագործվել տվյալների արագ ստուգման համար, եթե գիտեք բովանդակության առանձնահատկությունները: Տվյալների մեջ սխալ կամ խնդիր գտնելու յուրաքանչյուր դեպք կարող է գրանցվել տվյալների բազայի հարցման տեսքով։
Այս կերպ կձևավորվի բովանդակության վերաբերյալ գիտելիքների բազա։ Իհարկե, նման հարցումները պետք է արագ լինեն։ Դիտումները սովորաբար պահանջում են ավելի քիչ մարդկային ժամանակ, քան սեղանի վրա հիմնված գործիքները: Տեսարանը միշտ պատրաստ է թեստի արդյունքը ցուցադրելու համար:
Կարևոր հաշվետվությունների դեպքում դիտումը կարող է պարունակել հասցեատիրոջ հետ սյունակ: Խելամիտ է օգտագործել նույն BI գործիքները պահեստում տվյալների որակի վիճակի մասին զեկուցելու համար:
Օրինակ
Հարցումը գրվել է Oracle տվյալների բազայի համար: Այս օրինակում թեստերը վերադարձնում են թվային արժեք, որը կարող է մեկնաբանվել ըստ ցանկության: T_MIN և T_MAX արժեքները կարող են օգտագործվել ահազանգի մակարդակը կարգավորելու համար: REPORT դաշտը ժամանակին օգտագործվել է որպես հաղորդագրություն առևտրային ETL արտադրանքի մեջ, որը չգիտեր, թե ինչպես ճիշտ ուղարկել էլ.
Մեծ աղյուսակի դեպքում կարող եք ավելացնել, օրինակ, AND ROWNUM <= 10, այսինքն. եթե կա 10 սխալ, ապա դա բավական է տագնապ առաջացնելու համար։
CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
THEN 'OK' ELSE 'ERROR' END AS RESULT,
DESCRIPTION,
TABLE_NAME,
OUTPUT,
T_MIN,
T_MAX,
rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
SELECT
'DIM_PRODUCT' AS TABLE_NAME,
'Count of blanks' AS DESCRIPTION,
COUNT(*) AS OUTPUT,
0 AS T_MIN,
10 AS T_MAX
FROM DIM_PRODUCT
WHERE DIM_PRODUCT_ID != -1 -- not default value
AND ATTRIBUTE IS NULL ); -- count blanks
Հրատարակությունն օգտագործում է գրքի նյութերը
Ռոնալդ Բախմանը, դոկտ. Գվիդո Կեմպեր
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird
Source: www.habr.com