کیفیت داده ها در انبار

کیفیت داده ها در انبار یک پیش نیاز مهم برای به دست آوردن اطلاعات ارزشمند است. کیفیت پایین منجر به یک واکنش زنجیره ای منفی در دراز مدت می شود.
اول، اعتماد به اطلاعات ارائه شده از بین می رود. مردم کمتر از برنامه‌های هوش تجاری استفاده می‌کنند؛ پتانسیل برنامه‌ها بی ادعا باقی می‌ماند.
در نتیجه، سرمایه گذاری بیشتر در پروژه تحلیلی زیر سوال می رود.

مسئولیت کیفیت داده ها

جنبه مربوط به بهبود کیفیت داده ها در پروژه های BI بسیار مهم است. با این حال، این امتیاز تنها متخصصان فنی نیست.
کیفیت داده ها نیز تحت تأثیر جنبه هایی مانند

فرهنگ شرکتی

  • آیا خود کارگران علاقه مند به تولید با کیفیت خوب هستند؟
  • اگر نه، چرا که نه؟ ممکن است تضاد منافع وجود داشته باشد.
  • شاید قوانین شرکتی وجود دارد که تعیین می کند چه کسی مسئول کیفیت است؟

فرایندها

  • چه داده هایی در انتهای این زنجیره ها ایجاد می شود؟
  • شاید سیستم عامل ها به گونه ای پیکربندی شده اند که برای انعکاس این یا آن وضعیت در واقعیت نیاز به "پیچاندن" دارید.
  • آیا سیستم عامل ها خودشان تأیید و تطبیق داده ها را انجام می دهند؟

همه افراد در سازمان مسئول کیفیت داده ها در سیستم های گزارش دهی هستند.

تعریف و معنا

کیفیت رضایت اثبات شده انتظارات مشتری است.

اما کیفیت داده ها تعریفی ندارد. همیشه زمینه استفاده را منعکس می کند. انبار داده و سیستم BI اهداف متفاوتی را نسبت به سیستم عاملی که داده ها از آن می آیند انجام می دهند.

به عنوان مثال، در یک سیستم عامل، ویژگی مشتری ممکن است یک فیلد اختیاری باشد. در مخزن می توان از این ویژگی به عنوان یک بعد استفاده کرد و پر کردن آن الزامی است. که به نوبه خود نیاز به پر کردن مقادیر پیش فرض را نشان می دهد.

الزامات ذخیره سازی داده ها دائماً در حال تغییر است و معمولاً بیشتر از موارد مربوط به سیستم عامل ها است. اما زمانی که نیازی به ذخیره اطلاعات دقیق از سیستم عامل در حافظه نیست، می تواند برعکس باشد.

برای اینکه کیفیت داده ها قابل اندازه گیری باشد، باید استانداردهای آن شرح داده شود. افرادی که از اطلاعات و ارقام برای کار خود استفاده می کنند باید در فرآیند توصیف مشارکت داشته باشند. نتیجه این درگیری ممکن است یک قاعده باشد که با رعایت آن می توان با یک نگاه به جدول متوجه شد که آیا خطایی وجود دارد یا خیر. این قانون باید به عنوان یک اسکریپت/کد برای تأیید بعدی قالب بندی شود.

بهبود کیفیت داده ها

پاکسازی و تصحیح تمام خطاهای فرضی در طول فرآیند بارگیری داده ها در انبار غیرممکن است. کیفیت خوب داده تنها از طریق همکاری نزدیک بین همه شرکت کنندگان قابل دستیابی است. افرادی که داده ها را وارد سیستم عامل می کنند باید بیاموزند که چه اقداماتی منجر به خطا می شود.

کیفیت داده یک فرآیند است. متاسفانه بسیاری از سازمان ها استراتژی برای بهبود مستمر ندارند. بسیاری خود را فقط به ذخیره سازی داده ها محدود می کنند و از پتانسیل کامل سیستم های تحلیلی استفاده نمی کنند. به طور معمول، هنگام توسعه انبارهای داده، 70-80٪ از بودجه صرف اجرای یکپارچه سازی داده ها می شود. روند نظارت و بهبود ناقص باقی می ماند، اگر اصلاً وجود داشته باشد.

ابزارهای

استفاده از ابزارهای نرم افزاری می تواند به فرآیند خودکارسازی بهبود کیفیت داده ها و نظارت بر آن کمک کند. به عنوان مثال، آنها می توانند تأیید فنی ساختارهای ذخیره سازی را کاملاً خودکار کنند: قالب فیلد، وجود مقادیر پیش فرض، مطابقت با نام فیلدهای جدول.

ممکن است بررسی محتوا دشوارتر باشد. با تغییر نیازهای ذخیره سازی، تفسیر داده ها نیز ممکن است تغییر کند. خود این ابزار می تواند به یک پروژه بزرگ تبدیل شود که نیاز به پشتیبانی دارد.

نکته

پایگاه داده های رابطه ای، که معمولاً فروشگاه ها در آنها طراحی می شوند، توانایی قابل توجهی در ایجاد نما دارند. در صورت اطلاع از مشخصات محتوا، می توان از آنها برای بررسی سریع داده ها استفاده کرد. هر مورد از یافتن خطا یا مشکل در داده ها را می توان در قالب یک کوئری پایگاه داده ثبت کرد.

به این ترتیب یک پایگاه دانش در مورد محتوا تشکیل خواهد شد. البته چنین درخواست هایی باید سریع باشد. نماها معمولاً نسبت به ابزارهای مبتنی بر جدول به زمان کمتری برای نگهداری نیاز دارند. نمایش همیشه برای نمایش نتیجه آزمایش آماده است.
در مورد گزارش های مهم، نما ممکن است حاوی ستونی با گیرنده باشد. منطقی است که از همان ابزارهای BI برای گزارش وضعیت کیفیت داده در انبار استفاده کنید.

مثال

پرس و جو برای پایگاه داده اوراکل نوشته شده است. در این مثال، تست ها یک مقدار عددی را برمی گردانند که می تواند به دلخواه تفسیر شود. از مقادیر T_MIN و T_MAX می توان برای تنظیم سطح هشدار استفاده کرد. فیلد REPORT زمانی به عنوان پیام در یک محصول تجاری ETL استفاده می‌شد که نمی‌دانست چگونه ایمیل‌ها را به درستی ارسال کند، بنابراین rpad یک «عصا» است.

در مورد یک جدول بزرگ، می توانید مثلاً AND ROWNUM <= 10 را اضافه کنید. اگر 10 خطا وجود دارد، این برای ایجاد هشدار کافی است.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

این نشریه از مطالب کتاب استفاده می کند
رونالد باخمن، دکتر. گیدو کمپر
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


منبع: www.habr.com

اضافه کردن نظر