گودام میں ڈیٹا کا معیار

گودام میں ڈیٹا کا معیار قیمتی معلومات کے حصول کے لیے ایک اہم شرط ہے۔ خراب معیار طویل مدت میں منفی سلسلہ ردعمل کا باعث بنتا ہے۔
سب سے پہلے، فراہم کردہ معلومات پر اعتماد ختم ہو جاتا ہے۔ لوگ بزنس انٹیلی جنس ایپلی کیشنز کو کم استعمال کرنا شروع کر رہے ہیں؛ ایپلی کیشنز کی صلاحیت لاوارث ہے۔
نتیجے کے طور پر، تجزیاتی منصوبے میں مزید سرمایہ کاری سوالیہ نشان ہے۔

ڈیٹا کے معیار کی ذمہ داری

ڈیٹا کے معیار کو بہتر بنانے سے متعلق پہلو BI منصوبوں میں بہت اہم ہے۔ تاہم، یہ صرف تکنیکی ماہرین کا استحقاق نہیں ہے۔
ڈیٹا کا معیار بھی اس طرح کے پہلوؤں سے متاثر ہوتا ہے۔

کارپوریٹ کلچر

  • کیا مزدور خود اچھے معیار کی پیداوار میں دلچسپی رکھتے ہیں؟
  • اگر نہیں تو کیوں نہیں؟ مفادات کا ٹکراؤ ہو سکتا ہے۔
  • ہوسکتا ہے کہ کارپوریٹ قواعد موجود ہوں جو اس بات کا تعین کرتے ہیں کہ معیار کا ذمہ دار کون ہے؟

پروسیسنگ

  • ان زنجیروں کے آخر میں کون سا ڈیٹا بنایا جاتا ہے؟
  • شاید آپریٹنگ سسٹمز کو اس طرح ترتیب دیا گیا ہے کہ آپ کو اس یا اس صورتحال کو حقیقت میں ظاہر کرنے کے لیے "موڑ" کرنے کی ضرورت ہے۔
  • کیا آپریٹنگ سسٹم ڈیٹا کی تصدیق اور مصالحت خود کرتے ہیں؟

تنظیم میں ہر کوئی رپورٹنگ سسٹم میں ڈیٹا کے معیار کے لیے ذمہ دار ہے۔

تعریف اور معنی

معیار کسٹمر کی توقعات کا ثابت شدہ اطمینان ہے۔

لیکن ڈیٹا کے معیار میں کوئی تعریف نہیں ہوتی۔ یہ ہمیشہ استعمال کے سیاق و سباق کی عکاسی کرتا ہے۔ ڈیٹا گودام اور BI سسٹم آپریٹنگ سسٹم سے مختلف مقاصد کو پورا کرتے ہیں جہاں سے ڈیٹا آتا ہے۔

مثال کے طور پر، آپریٹنگ سسٹم پر، کسٹمر کا وصف ایک اختیاری فیلڈ ہو سکتا ہے۔ مخزن میں، اس وصف کو ایک طول و عرض کے طور پر استعمال کیا جا سکتا ہے اور اسے بھرنا ضروری ہے۔ جو، بدلے میں، پہلے سے طے شدہ اقدار کو پُر کرنے کی ضرورت کو متعارف کراتا ہے۔

ڈیٹا سٹوریج کی ضروریات مسلسل تبدیل ہوتی رہتی ہیں اور وہ عام طور پر آپریٹنگ سسٹمز کے مقابلے زیادہ ہوتی ہیں۔ لیکن یہ اس کے برعکس بھی ہو سکتا ہے، جب آپریٹنگ سسٹم سے تفصیلی معلومات کو سٹوریج میں ذخیرہ کرنے کی ضرورت نہ ہو۔

ڈیٹا کے معیار کو قابل پیمائش بنانے کے لیے، اس کے معیارات کو بیان کرنا ضروری ہے۔ وہ لوگ جو اپنے کام کے لیے معلومات اور اعداد و شمار کا استعمال کرتے ہیں ان کو تفصیل کے عمل میں شامل ہونا چاہیے۔ اس شمولیت کا نتیجہ ایک قاعدہ ہو سکتا ہے، جس پر عمل کرتے ہوئے کوئی بھی میز پر ایک نظر میں بتا سکتا ہے کہ آیا کوئی خرابی ہے یا نہیں۔ اس اصول کو بعد میں تصدیق کے لیے اسکرپٹ/کوڈ کے طور پر فارمیٹ کیا جانا چاہیے۔

ڈیٹا کے معیار کو بہتر بنانا

گودام میں ڈیٹا لوڈ کرنے کے عمل کے دوران تمام فرضی غلطیوں کو صاف کرنا اور درست کرنا ناممکن ہے۔ اچھے ڈیٹا کوالٹی کو تمام شرکاء کے درمیان قریبی تعاون سے ہی حاصل کیا جا سکتا ہے۔ وہ لوگ جو آپریٹنگ سسٹم میں ڈیٹا داخل کرتے ہیں انہیں یہ جاننے کی ضرورت ہوتی ہے کہ کون سے اعمال غلطیاں پیدا کرتے ہیں۔

ڈیٹا کا معیار ایک عمل ہے۔ بدقسمتی سے، بہت سی تنظیموں کے پاس مسلسل بہتری کے لیے کوئی حکمت عملی نہیں ہے۔ بہت سے لوگ اپنے آپ کو صرف ڈیٹا ذخیرہ کرنے تک محدود رکھتے ہیں اور تجزیاتی نظام کی پوری صلاحیت کا استعمال نہیں کرتے ہیں۔ عام طور پر، ڈیٹا گودام تیار کرتے وقت، بجٹ کا 70-80% ڈیٹا انٹیگریشن کو لاگو کرنے پر خرچ ہوتا ہے۔ نگرانی اور بہتری کا عمل نامکمل رہتا ہے، اگر بالکل بھی۔

فورم کے اوزار

سافٹ ویئر ٹولز کا استعمال ڈیٹا کوالٹی میں بہتری اور نگرانی کو خودکار بنانے کے عمل میں مدد کر سکتا ہے۔ مثال کے طور پر، وہ اسٹوریج ڈھانچے کی تکنیکی تصدیق کو مکمل طور پر خودکار کر سکتے ہیں: فیلڈ فارمیٹ، پہلے سے طے شدہ اقدار کی موجودگی، ٹیبل فیلڈ کے ناموں کی تعمیل۔

مواد کو چیک کرنا زیادہ مشکل ہو سکتا ہے۔ جیسے جیسے اسٹوریج کی ضروریات تبدیل ہوتی ہیں، ڈیٹا کی تشریح بھی بدل سکتی ہے۔ ٹول خود ایک بہت بڑا پروجیکٹ بن سکتا ہے جس کے لیے مدد کی ضرورت ہوتی ہے۔

ٹپ

متعلقہ ڈیٹا بیس، جن میں اسٹورز کو عام طور پر ڈیزائن کیا جاتا ہے، ان میں آراء تخلیق کرنے کی قابل ذکر صلاحیت ہوتی ہے۔ اگر آپ مواد کی تفصیلات جانتے ہیں تو ان کا استعمال ڈیٹا کو تیزی سے چیک کرنے کے لیے کیا جا سکتا ہے۔ ڈیٹا میں غلطی یا مسئلہ تلاش کرنے کے ہر معاملے کو ڈیٹا بیس استفسار کی صورت میں ریکارڈ کیا جا سکتا ہے۔

اس طرح، مواد کے بارے میں علم کی بنیاد بنائی جائے گی۔ یقیناً ایسی درخواستیں تیز ہونی چاہئیں۔ ٹیبل پر مبنی ٹولز کے مقابلے ویوز کو برقرار رکھنے کے لیے عام طور پر کم انسانی وقت درکار ہوتا ہے۔ ویو ہمیشہ ٹیسٹ کا نتیجہ ظاہر کرنے کے لیے تیار رہتا ہے۔
اہم رپورٹس کی صورت میں، منظر وصول کنندہ کے ساتھ ایک کالم پر مشتمل ہو سکتا ہے۔ گودام میں ڈیٹا کے معیار کی حالت پر رپورٹ کرنے کے لیے وہی BI ٹولز استعمال کرنا سمجھ میں آتا ہے۔

مثال کے طور پر

سوال اوریکل ڈیٹا بیس کے لیے لکھا گیا تھا۔ اس مثال میں، ٹیسٹ ایک عددی قدر واپس کرتے ہیں جس کی حسب خواہش تشریح کی جا سکتی ہے۔ T_MIN اور T_MAX قدریں الارم کی سطح کو ایڈجسٹ کرنے کے لیے استعمال کی جا سکتی ہیں۔ REPORT فیلڈ کو ایک بار تجارتی ETL پروڈکٹ میں ایک پیغام کے طور پر استعمال کیا جاتا تھا جو نہیں جانتا تھا کہ ای میلز کو صحیح طریقے سے کیسے بھیجنا ہے، لہذا rpad ایک "کرچ" ہے۔

ایک بڑی میز کی صورت میں، آپ شامل کر سکتے ہیں، مثال کے طور پر، AND ROWNUM <= 10، یعنی اگر 10 غلطیاں ہیں، تو یہ خطرے کی گھنٹی بجانے کے لیے کافی ہے۔

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

اشاعت میں کتاب کے مواد کا استعمال کیا گیا ہے۔
رونالڈ بچمن، ڈاکٹر۔ گائیڈو کیمپر
Raus Aus der BI-Falle
بزنس انٹیلی جنس zum Erfolg wird Wie


ماخذ: www.habr.com

نیا تبصرہ شامل کریں