جودة البيانات في المستودع

تعد جودة البيانات الموجودة في المستودع شرطًا أساسيًا مهمًا للحصول على معلومات قيمة. تؤدي الجودة الرديئة إلى تفاعل متسلسل سلبي على المدى الطويل.
أولاً، يتم فقدان الثقة في المعلومات المقدمة. بدأ الناس في استخدام تطبيقات ذكاء الأعمال بشكل أقل، ولا تزال إمكانات التطبيقات غير مُطالب بها.
ونتيجة لذلك، فإن المزيد من الاستثمار في المشروع التحليلي أصبح موضع تساؤل.

المسؤولية عن جودة البيانات

يعد الجانب المتعلق بتحسين جودة البيانات ذا أهمية كبيرة في مشاريع ذكاء الأعمال. ومع ذلك، فهو ليس امتيازًا للمتخصصين التقنيين فقط.
تتأثر جودة البيانات أيضًا بجوانب مثل

ثقافة الشركة

  • هل العمال أنفسهم مهتمون بإنتاج نوعية جيدة؟
  • إذا لم يكن الأمر كذلك، لماذا لا؟ قد يكون هناك تضارب في المصالح.
  • ربما هناك قواعد مؤسسية تحدد من المسؤول عن الجودة؟

العمليات

  • ما هي البيانات التي يتم إنشاؤها في نهاية هذه السلاسل؟
  • ربما تم تكوين أنظمة التشغيل بطريقة تحتاج إلى "التحريف" لتعكس هذا الموقف أو ذاك في الواقع.
  • هل تقوم أنظمة التشغيل بالتحقق من البيانات ومطابقتها بنفسها؟

كل شخص في المنظمة مسؤول عن جودة البيانات في أنظمة إعداد التقارير.

التعريف والمعنى

الجودة هي الرضا المؤكد لتوقعات العملاء.

لكن جودة البيانات لا تحتوي على تعريف. إنه يعكس دائمًا سياق الاستخدام. يخدم مستودع البيانات ونظام ذكاء الأعمال أغراضًا مختلفة عن نظام التشغيل الذي تأتي منه البيانات.

على سبيل المثال، في نظام التشغيل، قد تكون سمة العميل حقلاً اختياريًا. في المستودع، يمكن استخدام هذه السمة كبُعد وتعبئتها مطلوبة. وهذا بدوره يقدم الحاجة إلى ملء القيم الافتراضية.

تتغير متطلبات تخزين البيانات باستمرار وعادةً ما تكون أعلى من تلك الخاصة بأنظمة التشغيل. ولكن قد يكون الأمر على العكس من ذلك أيضًا، عندما لا تكون هناك حاجة لتخزين معلومات مفصلة من نظام التشغيل في وحدة التخزين.

ولجعل جودة البيانات قابلة للقياس، يجب وصف معاييرها. يجب أن يشارك الأشخاص الذين يستخدمون المعلومات والأرقام في عملهم في عملية الوصف. قد تكون نتيجة هذه المشاركة قاعدة، يمكن من خلالها معرفة نظرة سريعة على الجدول ما إذا كان هناك خطأ أم لا. يجب تنسيق هذه القاعدة كبرنامج نصي/رمز للتحقق اللاحق.

تحسين جودة البيانات

من المستحيل تنظيف وتصحيح جميع الأخطاء الافتراضية أثناء عملية تحميل البيانات إلى المستودع. لا يمكن تحقيق جودة بيانات جيدة إلا من خلال التعاون الوثيق بين جميع المشاركين. يحتاج الأشخاص الذين يقومون بإدخال البيانات في أنظمة التشغيل إلى معرفة الإجراءات التي تؤدي إلى حدوث أخطاء.

جودة البيانات هي عملية. لسوء الحظ، العديد من المنظمات ليس لديها استراتيجية للتحسين المستمر. ويقتصر الكثير منهم على تخزين البيانات فقط ولا يستخدمون الإمكانات الكاملة للأنظمة التحليلية. عادةً، عند تطوير مستودعات البيانات، يتم إنفاق 70-80% من الميزانية على تنفيذ تكامل البيانات. ولا تزال عملية الرصد والتحسين غير مكتملة، هذا إن كانت قد انتهت على الإطلاق.

أدوات

يمكن أن يساعد استخدام الأدوات البرمجية في عملية أتمتة تحسين جودة البيانات ومراقبتها. على سبيل المثال، يمكنهم أتمتة التحقق الفني من هياكل التخزين بشكل كامل: تنسيق الحقل، ووجود القيم الافتراضية، والامتثال لأسماء حقول الجدول.

قد يكون من الصعب التحقق من المحتوى. مع تغير متطلبات التخزين، قد يتغير تفسير البيانات أيضًا. يمكن أن تصبح الأداة نفسها مشروعًا ضخمًا يتطلب الدعم.

مجلس

تتمتع قواعد البيانات العلائقية، التي يتم تصميم المتاجر فيها عادةً، بقدرة رائعة على إنشاء طرق عرض. ويمكن استخدامها للتحقق بسرعة من البيانات إذا كنت تعرف تفاصيل المحتوى. يمكن تسجيل كل حالة العثور على خطأ أو مشكلة في البيانات في شكل استعلام قاعدة البيانات.

وبهذه الطريقة، سيتم تشكيل قاعدة معرفية حول المحتوى. وبطبيعة الحال، يجب أن تكون مثل هذه الطلبات سريعة. تتطلب طرق العرض عادةً وقتًا أقل للمحافظة عليها من الأدوات المستندة إلى الجدول. العرض جاهز دائمًا لعرض نتيجة الاختبار.
في حالة التقارير المهمة، قد يحتوي العرض على عمود مع المستلم. من المنطقي استخدام نفس أدوات ذكاء الأعمال للإبلاغ عن حالة جودة البيانات في المستودع.

مثال

تمت كتابة الاستعلام لقاعدة بيانات أوراكل. في هذا المثال، تقوم الاختبارات بإرجاع قيمة رقمية يمكن تفسيرها حسب الرغبة. يمكن استخدام قيم T_MIN وT_MAX لضبط مستوى التنبيه. تم استخدام حقل التقرير مرة واحدة كرسالة في أحد منتجات ETL التجارية التي لم تكن تعرف كيفية إرسال رسائل البريد الإلكتروني بشكل صحيح، لذا فإن rpad هو "عكاز".

في حالة وجود جدول كبير، يمكنك إضافة، على سبيل المثال، AND ROWNUM <= 10، أي. إذا كان هناك 10 أخطاء، فهذا يكفي لإثارة القلق.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

يستخدم المنشور مواد من الكتاب
رونالد باخمان، د. جويدو كيمبر
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


المصدر: www.habr.com

إضافة تعليق