راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی

1. ابتدائی ڈیٹا

ڈیٹا کی صفائی ان چیلنجوں میں سے ایک ہے جو ڈیٹا کے تجزیہ کے کاموں کو درپیش ہیں۔ یہ مواد کیڈسٹرل ویلیو کی تشکیل میں ڈیٹا بیس کے تجزیہ کے ایک عملی مسئلے کو حل کرنے کے نتیجے میں پیدا ہونے والی پیشرفت اور حل کی عکاسی کرتا ہے۔ ذرائع یہاں "Khanty-Mansiysk Autonomous Okrug - Ugra کے علاقے میں تمام قسم کے رئیل اسٹیٹ (زمین کے پلاٹوں کے علاوہ) کے ریاستی کیڈسٹرل ویلیو ایشن کے نتائج پر رپورٹ نمبر 01/OKS-2019".

فائل "تقابلی ماڈل total.ods" میں "ضمیمہ B. KS 5 کے تعین کے نتائج۔ کیڈسٹرل ویلیو 5.1 تقابلی نقطہ نظر کے تعین کے طریقہ کار پر معلومات" پر غور کیا گیا۔

جدول 1. فائل میں ڈیٹاسیٹ کے شماریاتی اشارے "تقابلی ماڈل total.ods"
کھیتوں کی کل تعداد، پی سیز۔ - 44
ریکارڈز کی کل تعداد، پی سیز۔ - 365 490
حروف کی کل تعداد، پی سیز۔ - 101 714 693
ریکارڈ میں حروف کی اوسط تعداد، پی سیز۔ - 278,297
ریکارڈ میں حروف کا معیاری انحراف، pcs۔ - 15,510
ایک اندراج میں حروف کی کم از کم تعداد، pcs. - 198
ایک اندراج میں حروف کی زیادہ سے زیادہ تعداد، pcs۔ - 363

2. تعارفی حصہ۔ بنیادی معیارات

مخصوص ڈیٹابیس کا تجزیہ کرتے ہوئے، ایک ٹاسک تشکیل دیا گیا تھا تاکہ طہارت کی ڈگری کے تقاضوں کی وضاحت کی جا سکے، کیونکہ جیسا کہ سب کے لیے واضح ہے، مخصوص ڈیٹا بیس صارفین کے لیے قانونی اور معاشی نتائج پیدا کرتا ہے۔ کام کے دوران، یہ پتہ چلا کہ بڑے ڈیٹا کی صفائی کی ڈگری کے لئے کوئی مخصوص ضروریات نہیں ہیں. اس معاملے میں قانونی اصولوں کا تجزیہ کرتے ہوئے، میں اس نتیجے پر پہنچا کہ یہ سب امکانات سے بنتے ہیں۔ یعنی، ایک خاص کام سامنے آیا ہے، اس کام کے لیے معلوماتی ذرائع مرتب کیے جاتے ہیں، پھر ایک ڈیٹاسیٹ بنایا جاتا ہے اور، بنائے گئے ڈیٹاسیٹ کی بنیاد پر، مسئلے کو حل کرنے کے لیے ٹولز تیار کیے جاتے ہیں۔ نتیجے کے حل متبادلات میں سے انتخاب کرنے میں حوالہ جاتی ہیں۔ میں نے اسے شکل 1 میں پیش کیا ہے۔

راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی

چونکہ، کسی بھی معیار کا تعین کرنے کے معاملے میں، ثابت شدہ ٹیکنالوجیز پر انحصار کرنا افضل ہے، اس لیے میں نے ان تقاضوں کا انتخاب کیا جو "MHRA GxP ڈیٹا انٹیگریٹی کی تعریفیں اور صنعت کے لیے رہنمائی"کیونکہ میں نے اس دستاویز کو اس مسئلے کے لیے سب سے جامع سمجھا۔ خاص طور پر، اس دستاویز میں سیکشن کہتا ہے "یہ بات ذہن نشین رہے کہ ڈیٹا کی سالمیت کے تقاضے دستی (کاغذ) اور الیکٹرانک ڈیٹا پر یکساں طور پر لاگو ہوتے ہیں۔" (ترجمہ: "...ڈیٹا کی سالمیت کے تقاضے دستی (کاغذ) اور الیکٹرانک ڈیٹا پر یکساں طور پر لاگو ہوتے ہیں")۔ یہ فارمولیشن خاص طور پر کوڈ آف سول پروسیجر، آرٹ کے آرٹیکل 71 کی دفعات میں "تحریری ثبوت" کے تصور سے وابستہ ہے۔ 70 CAS، Art. 75 APC، "تحریری طور پر" آرٹ۔ 84 کوڈ آف سول پروسیجر۔

شکل 2 فقہ میں معلومات کی اقسام کے نقطہ نظر کی تشکیل کا خاکہ پیش کرتا ہے۔

راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی
چاول۔ 2. ماخذ یہاں.

تصویر 3 اوپر والے "رہنمائی" کے کاموں کے لیے، شکل 1 کا طریقہ کار دکھاتا ہے۔ موازنہ کرکے، یہ دیکھنا آسان ہے کہ معلومات کے نظام کے لیے جدید معیارات میں معلومات کی سالمیت کے تقاضوں کو پورا کرتے وقت استعمال کیے جانے والے نقطہ نظر معلومات کے قانونی تصور کے مقابلے میں کافی حد تک محدود ہیں۔

راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی
انجیر 3

مخصوص دستاویز (گائیڈنس) میں، تکنیکی حصے سے تعلق، ڈیٹا کو پروسیسنگ اور اسٹور کرنے کی صلاحیتیں، باب 18.2 کے ایک اقتباس سے اچھی طرح سے تصدیق شدہ ہے۔ متعلقہ ڈیٹا بیس: "یہ فائل کا ڈھانچہ فطری طور پر زیادہ محفوظ ہے، کیونکہ ڈیٹا کو ایک بڑی فائل فارمیٹ میں رکھا جاتا ہے جو ڈیٹا اور میٹا ڈیٹا کے درمیان تعلق کو محفوظ رکھتا ہے۔"

درحقیقت، اس نقطہ نظر میں - موجودہ تکنیکی صلاحیتوں سے، کچھ بھی غیر معمولی نہیں ہے اور، بذات خود، یہ ایک فطری عمل ہے، کیونکہ تصورات کی توسیع سب سے زیادہ مطالعہ شدہ سرگرمی - ڈیٹا بیس ڈیزائن سے ہوتی ہے۔ لیکن، دوسری طرف، قانونی اصول ظاہر ہوتے ہیں جو موجودہ نظاموں کی تکنیکی صلاحیتوں پر رعایت فراہم نہیں کرتے، مثال کے طور پر: GDPR - جنرل ڈیٹا پروٹیکشن ریگولیشن.

راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی
چاول۔ 4. تکنیکی صلاحیتوں کا فنل (ماخذ).

ان پہلوؤں میں، یہ واضح ہو جاتا ہے کہ اصل ڈیٹاسیٹ (تصویر 1) کو، سب سے پہلے، محفوظ کرنا پڑے گا، اور دوم، اس سے اضافی معلومات نکالنے کی بنیاد بننا پڑے گا۔ ٹھیک ہے، مثال کے طور پر: ٹریفک کے قوانین کو ریکارڈ کرنے والے کیمرے ہر جگہ موجود ہیں، معلوماتی پروسیسنگ سسٹم خلاف ورزی کرنے والوں کو ختم کر دیتے ہیں، لیکن دیگر معلومات دوسرے صارفین کو بھی پیش کی جا سکتی ہیں، مثال کے طور پر، ایک شاپنگ سینٹر میں صارفین کے بہاؤ کی ساخت کی مارکیٹنگ کی نگرانی کے طور پر۔ اور یہ BigDat استعمال کرتے وقت اضافی اضافی قدر کا ذریعہ ہے۔ یہ بہت ممکن ہے کہ ابھی جمع کیے جانے والے ڈیٹاسیٹس کی، مستقبل میں کہیں، اس وقت 1700 کے نایاب ایڈیشن کی قیمت کے مطابق ایک طریقہ کار کے مطابق قدر ہو گی۔ سب کے بعد، حقیقت میں، عارضی ڈیٹاسیٹس منفرد ہیں اور مستقبل میں دہرائے جانے کا امکان نہیں ہے۔

3. تعارفی حصہ۔ تشخیص کے معیار

پروسیسنگ کے عمل کے دوران، غلطیوں کی درج ذیل درجہ بندی تیار کی گئی تھی۔

1. ایرر کلاس (GOST R 8.736-2011 پر مبنی): a) منظم غلطیاں؛ ب) بے ترتیب غلطیاں؛ c) ایک غلطی۔

2. ضرب کے لحاظ سے: a) مونو ڈسٹورشن؛ ب) کثیر مسخ۔

3. نتائج کی تنقید کے مطابق: a) تنقیدی؛ ب) تنقیدی نہیں۔

4. وقوع کے ذریعہ:

A) تکنیکی - وہ خرابیاں جو آلات کے آپریشن کے دوران ہوتی ہیں۔ آئی او ٹی سسٹمز کے لیے کافی حد تک متعلقہ غلطی، مواصلات کے معیار، آلات (ہارڈ ویئر) پر نمایاں حد تک اثر و رسوخ رکھنے والے نظام۔

ب) آپریٹر کی غلطیاں - ڈیٹا بیس کے ڈیزائن کے لیے تکنیکی تصریحات میں ان پٹ کے دوران آپریٹر کی ٹائپوز سے لے کر وسیع رینج میں غلطیاں۔

C) صارف کی غلطیاں - یہاں "لے آؤٹ کو تبدیل کرنا بھول گئے" سے لے کر پاؤں کے لیے غلط میٹر تک پوری رینج میں صارف کی غلطیاں ہیں۔

5. ایک الگ کلاس میں الگ:

a) "جداکار کا کام"، یعنی جگہ اور ":" (ہمارے معاملے میں) جب اسے نقل کیا گیا تھا۔
ب) ایک ساتھ لکھے گئے الفاظ؛
c) سروس حروف کے بعد کوئی جگہ نہیں۔
d) متوازی طور پر متعدد علامتیں: ()، ""، "..."۔

تصویر 5 میں پیش کردہ ڈیٹابیس کی غلطیوں کو ترتیب دینے کے ساتھ ساتھ، غلطیوں کی تلاش اور اس مثال کے لیے ڈیٹا کلیننگ الگورتھم تیار کرنے کے لیے کافی موثر کوآرڈینیٹ سسٹم تشکیل دیا گیا ہے۔

راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی
چاول۔ 5. ڈیٹا بیس کی ساختی اکائیوں سے متعلق عام غلطیاں (ماخذ: اوریشکوف V.I., Paklin N.B. "ڈیٹا کنسولیڈیشن کے کلیدی تصورات").

درستگی، ڈومین کی سالمیت، ڈیٹا کی قسم، مستقل مزاجی، فالتو پن، مکمل پن، نقل، کاروباری قواعد کے مطابق ہونا، ساختی وضاحت، ڈیٹا کی بے ضابطگی، وضاحت، بروقت، ڈیٹا کی سالمیت کے قواعد کی پابندی۔ (صفحہ 334. آئی ٹی پروفیشنلز کے لیے ڈیٹا گودام کے بنیادی اصول/ پالراج پونیہ۔ 2nd ایڈیشن)

بریکٹ میں انگریزی الفاظ اور روسی مشینی ترجمہ پیش کیا۔

درستگی. ڈیٹا عنصر کے لیے سسٹم میں ذخیرہ شدہ قدر ڈیٹا عنصر کی اس موجودگی کے لیے صحیح قدر ہے۔ اگر آپ کے پاس گاہک کا نام اور ایک پتہ کسی ریکارڈ میں محفوظ ہے، تو پتہ اس نام والے صارف کے لیے درست پتہ ہے۔ اگر آپ آرڈر نمبر 1000 کے ریکارڈ میں 12345678 یونٹس کے طور پر آرڈر کی گئی مقدار کو پاتے ہیں، تو وہ مقدار اس آرڈر کے لیے درست مقدار ہے۔
[درستگی. ڈیٹا ایلیمنٹ کے لیے سسٹم میں ذخیرہ شدہ ویلیو ڈیٹا ایلیمنٹ کی اس موجودگی کے لیے صحیح قدر ہے۔ اگر آپ کے پاس گاہک کا نام اور پتہ کسی ریکارڈ میں محفوظ ہے، تو پتہ اس نام والے صارف کے لیے درست پتہ ہے۔ اگر آپ آرڈر نمبر 1000 کے ریکارڈ میں 12345678 یونٹس کے طور پر آرڈر کی گئی مقدار کو پاتے ہیں، تو وہ مقدار اس آرڈر کی صحیح مقدار ہے۔]

ڈومین کی سالمیت۔ کسی وصف کی ڈیٹا ویلیو قابل اجازت، متعین اقدار کی حد میں آتی ہے۔ عام مثال صنفی اعداد و شمار کے عنصر کے لیے "مرد" اور "خواتین" ہونے کی قابل اجازت اقدار ہے۔
[ڈومین کی سالمیت۔ انتساب ڈیٹا کی قدر درست، متعین اقدار کی حد میں آتی ہے۔ ایک عام مثال صنفی اعداد و شمار کے عنصر کے لیے درست اقدار "مرد" اور "خواتین" ہیں۔]

ڈیٹا کی قسم. ڈیٹا انتساب کی قدر دراصل اس وصف کے لیے بیان کردہ ڈیٹا کی قسم کے طور پر محفوظ کی جاتی ہے۔ جب اسٹور کے نام کی فیلڈ کی ڈیٹا کی قسم کو "متن" کے طور پر بیان کیا جاتا ہے، تو اس فیلڈ کی تمام مثالوں میں اسٹور کا نام متنی شکل میں دکھایا جاتا ہے نہ کہ عددی کوڈز۔
[ڈیٹا کی قسم. ڈیٹا انتساب کی قدر دراصل اس وصف کے لیے بیان کردہ ڈیٹا کی قسم کے طور پر محفوظ کی جاتی ہے۔ اگر اسٹور کے نام کے فیلڈ ڈیٹا کی قسم کو "ٹیکسٹ" کے طور پر بیان کیا گیا ہے، تو اس فیلڈ کی تمام مثالوں میں اسٹور کا نام عددی کوڈز کے بجائے ٹیکسٹ فارمیٹ میں دکھایا گیا ہے۔]

مستقل مزاجی. ڈیٹا فیلڈ کی شکل اور مواد متعدد سورس سسٹمز میں یکساں ہے۔ اگر ایک سسٹم میں پروڈکٹ ABC کا پروڈکٹ کوڈ 1234 ہے، تو اس پروڈکٹ کا کوڈ ہر سورس سسٹم میں 1234 ہے۔
[مستقل مزاجی. ڈیٹا فیلڈ کی شکل اور مواد مختلف سورس سسٹمز میں ایک جیسے ہیں۔ اگر ایک سسٹم پر پروڈکٹ ABC کا پروڈکٹ کوڈ 1234 ہے، تو اس پروڈکٹ کا کوڈ ہر سورس سسٹم پر 1234 ہے۔]

فالتو پن۔ ایک ہی ڈیٹا کو سسٹم میں ایک سے زیادہ جگہوں پر محفوظ نہیں کیا جانا چاہیے۔ اگر، کارکردگی کی وجوہات کی بناء پر، ڈیٹا عنصر کو جان بوجھ کر کسی سسٹم میں ایک سے زیادہ جگہوں پر ذخیرہ کیا جاتا ہے، تو بے کار ہونے کی واضح طور پر شناخت اور تصدیق ہونی چاہیے۔
[فالتو پن۔ ایک ہی ڈیٹا کو سسٹم میں ایک سے زیادہ جگہوں پر محفوظ نہیں کیا جانا چاہیے۔ اگر، کارکردگی کی وجوہات کی بناء پر، ایک ڈیٹا عنصر کو جان بوجھ کر ایک سسٹم میں متعدد مقامات پر ذخیرہ کیا جاتا ہے، تو بے کار پن کی واضح طور پر وضاحت اور تصدیق ہونی چاہیے۔]

مکملیت۔ سسٹم میں دیے گئے وصف کے لیے کوئی قدر غائب نہیں ہے۔ مثال کے طور پر، کسٹمر فائل میں، ہر گاہک کے لیے "ریاست" فیلڈ کے لیے ایک درست قدر ہونی چاہیے۔ آرڈر کی تفصیلات کے لیے فائل میں، آرڈر کے لیے ہر تفصیلی ریکارڈ کو مکمل طور پر بھرنا چاہیے۔
[مکملیت۔ اس وصف کے لیے نظام میں کوئی قدر غائب نہیں ہے۔ مثال کے طور پر، کلائنٹ فائل میں ہر کلائنٹ کے لیے "سٹیٹس" فیلڈ کے لیے ایک درست قدر ہونی چاہیے۔ آرڈر کی تفصیل فائل میں، ہر آرڈر کی تفصیل کا ریکارڈ مکمل طور پر مکمل ہونا چاہیے۔]

نقل۔ سسٹم میں ریکارڈ کی نقل مکمل طور پر حل ہو جاتی ہے۔ اگر پروڈکٹ فائل میں ڈپلیکیٹ ریکارڈز کے لیے جانا جاتا ہے، تو ہر پروڈکٹ کے لیے تمام ڈپلیکیٹ ریکارڈز کی شناخت کی جاتی ہے اور ایک کراس ریفرنس بنایا جاتا ہے۔
[نقل۔ سسٹم میں ریکارڈ کی نقل کو مکمل طور پر ختم کر دیا گیا ہے۔ اگر کسی پروڈکٹ کی فائل میں ڈپلیکیٹ اندراجات ہونے کے لیے جانا جاتا ہے، تو ہر پروڈکٹ کے لیے تمام ڈپلیکیٹ اندراجات کی شناخت کی جاتی ہے اور ایک کراس ریفرنس بنایا جاتا ہے۔]

کاروباری قوانین کی تعمیل۔ ہر ڈیٹا آئٹم کی اقدار مقررہ کاروباری قواعد کی پابندی کرتی ہیں۔ نیلامی کے نظام میں، ہتھوڑا یا فروخت کی قیمت ریزرو قیمت سے کم نہیں ہو سکتی۔ بینک قرض کے نظام میں، قرض کا بیلنس ہمیشہ مثبت یا صفر ہونا چاہیے۔
[کاروباری قواعد کی تعمیل۔ ہر ڈیٹا عنصر کی قدریں قائم کردہ کاروباری قواعد کی تعمیل کرتی ہیں۔ نیلامی کے نظام میں، ہتھوڑا یا فروخت کی قیمت ریزرو قیمت سے کم نہیں ہو سکتی۔ بینکنگ کریڈٹ سسٹم میں، قرض کا بیلنس ہمیشہ مثبت یا صفر ہونا چاہیے۔]

ساختی تعریف۔ جہاں کہیں بھی ڈیٹا آئٹم کو قدرتی طور پر انفرادی اجزاء میں تشکیل دیا جا سکتا ہے، آئٹم میں یہ اچھی طرح سے متعین ڈھانچہ ہونا چاہیے۔ مثال کے طور پر، ایک فرد کا نام قدرتی طور پر پہلے نام، درمیانی ابتدائی اور آخری نام میں تقسیم ہوتا ہے۔ افراد کے ناموں کی قدروں کو پہلے نام، درمیانی ابتدائی اور آخری نام کے طور پر ذخیرہ کیا جانا چاہیے۔ ڈیٹا کے معیار کی یہ خصوصیت معیارات کے نفاذ کو آسان بناتی ہے اور گمشدہ اقدار کو کم کرتی ہے۔
[ساختی یقین. جہاں ڈیٹا عنصر کو قدرتی طور پر انفرادی اجزاء میں تشکیل دیا جا سکتا ہے، عنصر میں یہ اچھی طرح سے متعین ڈھانچہ ہونا ضروری ہے۔ مثال کے طور پر، ایک شخص کا نام قدرتی طور پر پہلے نام، درمیانی ابتدائی اور آخری نام میں تقسیم ہوتا ہے۔ انفرادی ناموں کی قدروں کو پہلے نام، درمیانی ابتدائی اور آخری نام کے طور پر ذخیرہ کیا جانا چاہیے۔ ڈیٹا کے معیار کی یہ خصوصیت معیارات کے اطلاق کو آسان بناتی ہے اور گمشدہ اقدار کو کم کرتی ہے۔]

ڈیٹا بے ضابطگی۔ فیلڈ کو صرف اسی مقصد کے لیے استعمال کیا جانا چاہیے جس کے لیے اس کی تعریف کی گئی ہے۔ اگر فیلڈ ایڈریس-3 طویل پتوں کے لیے ایڈریس کی کسی ممکنہ تیسری لائن کے لیے بیان کی گئی ہے، تو اس فیلڈ کو صرف ایڈریس کی تیسری لائن کو ریکارڈ کرنے کے لیے استعمال کیا جانا چاہیے۔ اسے گاہک کے لیے فون یا فیکس نمبر داخل کرنے کے لیے استعمال نہیں کیا جانا چاہیے۔
[ڈیٹا بے ضابطگی۔ فیلڈ کو صرف اس مقصد کے لیے استعمال کیا جانا چاہیے جس کے لیے اس کی تعریف کی گئی ہے۔ اگر ایڈریس-3 فیلڈ کو طویل پتوں کے لیے کسی ممکنہ تیسری ایڈریس لائن کے لیے بیان کیا گیا ہے، تو یہ فیلڈ صرف تیسری ایڈریس لائن کو ریکارڈ کرنے کے لیے استعمال ہوگی۔ اسے کسی گاہک کے لیے ٹیلی فون یا فیکس نمبر درج کرنے کے لیے استعمال نہیں کیا جانا چاہیے۔]

وضاحت ڈیٹا ایلیمنٹ میں کوالٹی ڈیٹا کی دیگر تمام خصوصیات ہو سکتی ہیں لیکن اگر صارفین اس کے معنی کو واضح طور پر نہیں سمجھتے ہیں، تو ڈیٹا عنصر کی صارفین کے لیے کوئی اہمیت نہیں ہے۔ مناسب نام دینے کے کنونشنز ڈیٹا کے عناصر کو صارفین کو اچھی طرح سے سمجھنے میں مدد کرتے ہیں۔
[وضاحت. ڈیٹا کے عنصر میں اچھے ڈیٹا کی دیگر تمام خصوصیات ہو سکتی ہیں، لیکن اگر صارفین اس کے معنی کو واضح طور پر نہیں سمجھتے ہیں، تو ڈیٹا عنصر صارفین کے لیے کوئی اہمیت نہیں رکھتا۔ درست نام دینے کے کنونشنز ڈیٹا کے عناصر کو صارفین کو اچھی طرح سے سمجھنے میں مدد کرتے ہیں۔]

بروقت۔ صارفین ڈیٹا کی بروقتیت کا تعین کرتے ہیں۔ اگر صارفین توقع کرتے ہیں کہ کسٹمر کے طول و عرض کا ڈیٹا ایک دن سے زیادہ پرانا نہیں ہوگا، تو سورس سسٹمز میں کسٹمر ڈیٹا میں تبدیلیوں کو ڈیٹا گودام پر روزانہ لاگو کیا جانا چاہیے۔
[ایک بروقت انداز میں. صارفین ڈیٹا کی بروقتیت کا تعین کرتے ہیں۔ اگر صارفین توقع کرتے ہیں کہ کسٹمر کے طول و عرض کا ڈیٹا ایک دن سے زیادہ پرانا نہیں ہے، تو سورس سسٹمز میں کسٹمر ڈیٹا میں تبدیلیاں روزانہ کی بنیاد پر ڈیٹا گودام پر لاگو کی جانی چاہئیں۔]

افادیت۔ ڈیٹا گودام میں ہر ڈیٹا عنصر کو صارفین کے جمع کرنے کی کچھ ضروریات کو پورا کرنا ضروری ہے۔ ڈیٹا کا عنصر درست اور اعلیٰ معیار کا ہو سکتا ہے، لیکن اگر صارفین کے لیے اس کی کوئی اہمیت نہیں ہے، تو اس ڈیٹا عنصر کا ڈیٹا گودام میں ہونا بالکل غیر ضروری ہے۔
[افادیت. ڈیٹا اسٹور میں ہر ڈیٹا آئٹم کو صارف کے جمع کرنے کی کچھ ضروریات کو پورا کرنا ضروری ہے۔ ایک ڈیٹا عنصر درست اور اعلیٰ معیار کا ہو سکتا ہے، لیکن اگر یہ صارفین کو قدر فراہم نہیں کرتا ہے، تو اس ڈیٹا کے عنصر کا ڈیٹا گودام میں ہونا ضروری نہیں ہے۔]

ڈیٹا انٹیگریٹی رولز کی پابندی۔ ماخذ نظاموں کے متعلقہ ڈیٹا بیس میں ذخیرہ شدہ ڈیٹا کو ہستی کی سالمیت اور حوالہ جاتی سالمیت کے قواعد پر عمل کرنا چاہیے۔ کوئی بھی ٹیبل جو null کو بنیادی کلید کے طور پر اجازت دیتا ہے اس میں ہستی کی سالمیت نہیں ہے۔ حوالہ جاتی سالمیت والدین اور بچے کے تعلقات کو درست طریقے سے قائم کرنے پر مجبور کرتی ہے۔ کسٹمر ٹو آرڈر تعلقات میں، حوالہ جاتی سالمیت ڈیٹا بیس میں ہر آرڈر کے لیے ایک گاہک کے وجود کو یقینی بناتی ہے۔
ڈیٹا کی سالمیت کے قواعد کی تعمیل۔ ماخذ نظاموں کے متعلقہ ڈیٹا بیس میں ذخیرہ شدہ ڈیٹا کو ہستی کی سالمیت اور حوالہ جاتی سالمیت کے قوانین کی تعمیل کرنی چاہیے۔ کوئی بھی ٹیبل جو null کو بنیادی کلید کے طور پر اجازت دیتا ہے اس میں ہستی کی سالمیت نہیں ہے۔ حوالہ جاتی سالمیت والدین اور بچوں کے درمیان تعلقات کو درست طریقے سے قائم کرنے پر مجبور کرتی ہے۔ کسٹمر آرڈر تعلقات میں، حوالہ جاتی سالمیت اس بات کو یقینی بناتی ہے کہ ڈیٹا بیس میں ہر آرڈر کے لیے ایک صارف موجود ہے۔]

4. ڈیٹا کی صفائی کا معیار

ڈیٹا کی صفائی کا معیار بگ ڈیٹا میں ایک مشکل مسئلہ ہے۔ اس سوال کا جواب دینا کہ کام کو مکمل کرنے کے لیے کس حد تک ڈیٹا کی صفائی ضروری ہے ہر ڈیٹا تجزیہ کار کے لیے بنیادی چیز ہے۔ زیادہ تر موجودہ مسائل میں، ہر تجزیہ کار خود اس کا تعین کرتا ہے اور اس بات کا امکان نہیں ہے کہ باہر سے کوئی اس کے حل میں اس پہلو کا جائزہ لے سکے۔ لیکن اس معاملے میں ہاتھ میں کام کے لئے، یہ مسئلہ انتہائی اہم تھا، کیونکہ قانونی اعداد و شمار کی وشوسنییتا ایک کی طرف ہونا چاہئے.

آپریشنل وشوسنییتا کا تعین کرنے کے لیے سافٹ ویئر ٹیسٹنگ ٹیکنالوجیز پر غور کرنا۔ آج ان ماڈلز سے زیادہ ہیں۔ 200. بہت سے ماڈل کلیم سروسنگ ماڈل استعمال کرتے ہیں:

راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی
انجیر 6

مندرجہ ذیل کے طور پر سوچنا: "اگر پائی گئی خرابی اس ماڈل میں ناکامی کے واقعے سے ملتی جلتی ایک واقعہ ہے، تو پیرامیٹر t کا اینالاگ کیسے تلاش کیا جائے؟" اور میں نے مندرجہ ذیل ماڈل کو مرتب کیا: آئیے تصور کریں کہ ٹیسٹر کو ایک ریکارڈ چیک کرنے میں 1 منٹ لگتا ہے (سوال میں ڈیٹا بیس کے لیے)، پھر تمام خامیوں کو تلاش کرنے کے لیے اسے 365 منٹ درکار ہوں گے، جو کہ تقریباً 494 سال اور 3 ہے۔ کام کرنے کے مہینوں. جیسا کہ ہم سمجھتے ہیں، یہ کام کی ایک بہت بڑی مقدار ہے اور ڈیٹا بیس کو چیک کرنے کے اخراجات اس ڈیٹا بیس کے مرتب کرنے والے کے لیے ممنوع ہوں گے۔ اس عکاسی میں، لاگت کا معاشی تصور ظاہر ہوتا ہے اور تجزیہ کے بعد میں اس نتیجے پر پہنچا کہ یہ کافی موثر ٹول ہے۔ معاشیات کے قانون کی بنیاد پر: "پیداوار کا حجم (یونٹوں میں) جس پر کسی فرم کا زیادہ سے زیادہ منافع حاصل ہوتا ہے اس مقام پر ہوتا ہے جہاں پیداوار کی نئی اکائی کی پیداوار کی معمولی لاگت کا موازنہ اس قیمت سے کیا جاتا ہے جو یہ فرم حاصل کر سکتی ہے۔ ایک نئے یونٹ کے لیے۔" اس فرض کی بنیاد پر کہ بعد میں آنے والی ہر غلطی کو تلاش کرنے کے لیے ریکارڈز کی زیادہ سے زیادہ جانچ پڑتال کی ضرورت ہوتی ہے، یہ لاگت کا عنصر ہے۔ یعنی، ٹیسٹنگ ماڈلز میں اپنایا گیا پوسٹولٹ مندرجہ ذیل پیٹرن میں جسمانی معنی اختیار کرتا ہے: اگر i-th غلطی کو تلاش کرنے کے لیے n ریکارڈز کو چیک کرنا ضروری تھا، تو اگلی (i+3) غلطی کو تلاش کرنے کے لیے یہ ضروری ہو گا۔ ایم ریکارڈز کو چیک کرنے کے لیے اور اسی وقت این

  1. جب کوئی نئی غلطی پائے جانے سے پہلے چیک کیے گئے ریکارڈز کی تعداد مستحکم ہو جاتی ہے۔
  2. جب اگلی خرابی تلاش کرنے سے پہلے چیک کیے گئے ریکارڈز کی تعداد بڑھ جائے گی۔

اہم قدر کا تعین کرنے کے لیے، میں نے اقتصادی فزیبلٹی کے تصور کی طرف رجوع کیا، جسے اس صورت میں، سماجی اخراجات کے تصور کو استعمال کرتے ہوئے، اس طرح وضع کیا جا سکتا ہے: "غلطی کو درست کرنے کے اخراجات اقتصادی ایجنٹ کو برداشت کرنا چاہیے جو کر سکتا ہے۔ یہ سب سے کم قیمت پر۔" ہمارے پاس ایک ایجنٹ ہے - ایک ٹیسٹر جو ایک ریکارڈ چیک کرنے میں 1 منٹ صرف کرتا ہے۔ مانیٹری کے لحاظ سے، اگر آپ 6000 روبل فی دن کماتے ہیں، تو یہ 12,2 روبل ہوگا۔ (تقریباً آج)۔ اقتصادی قانون میں توازن کے دوسرے پہلو کا تعین کرنا باقی ہے۔ میں نے اس طرح استدلال کیا۔ موجودہ خرابی کے لیے متعلقہ شخص کو اسے درست کرنے کی کوشش کرنے کی ضرورت ہوگی، یعنی جائیداد کے مالک کو۔ فرض کریں کہ اس کے لیے 1 دن کی کارروائی درکار ہے (درخواست جمع کروائیں، ایک درست دستاویز وصول کریں)۔ پھر، سماجی نقطہ نظر سے، اس کے اخراجات روزانہ کی اوسط تنخواہ کے برابر ہوں گے۔ کھنٹی مانسی خود مختار اوکرگ میں اوسط جمع شدہ تنخواہ "جنوری-ستمبر 2019 کے لیے خانٹی مانسیسک خود مختار اوکرگ - یوگرا کی سماجی و اقتصادی ترقی کے نتائج" 73285 رگڑنا۔ یا 3053,542 روبل فی دن۔ اس کے مطابق، ہم اس کے برابر ایک اہم قدر حاصل کرتے ہیں:
3053,542: 12,2 = 250,4 ریکارڈز کی اکائیاں۔

اس کا مطلب ہے، سماجی نقطہ نظر سے، اگر ایک ٹیسٹر نے 251 ریکارڈ چیک کیے اور ایک غلطی پائی، تو یہ اس غلطی کو خود ٹھیک کرنے والے کے برابر ہے۔ اس کے مطابق، اگر ٹیسٹر نے اگلی غلطی تلاش کرنے کے لیے 252 ریکارڈز کی جانچ پڑتال کے برابر وقت صرف کیا، تو اس صورت میں بہتر ہے کہ اصلاح کی لاگت کو صارف پر منتقل کر دیا جائے۔

یہاں ایک آسان طریقہ پیش کیا گیا ہے، چونکہ سماجی نقطہ نظر سے ہر ماہر کی طرف سے پیدا ہونے والی تمام اضافی قیمتوں کو مدنظر رکھنا ضروری ہے، یعنی ٹیکس اور سماجی ادائیگیوں کو مدنظر رکھتے ہوئے اخراجات، لیکن ماڈل واضح ہے۔ اس تعلق کا نتیجہ ماہرین کے لیے درج ذیل ضرورت ہے: IT انڈسٹری کے ماہر کی تنخواہ قومی اوسط سے زیادہ ہونی چاہیے۔ اگر اس کی تنخواہ ممکنہ ڈیٹا بیس استعمال کرنے والوں کی اوسط تنخواہ سے کم ہے، تو اسے خود پورے ڈیٹا بیس کو ہاتھ سے چیک کرنا چاہیے۔

بیان کردہ معیار کا استعمال کرتے وقت، ڈیٹا بیس کے معیار کی پہلی ضرورت بنتی ہے:
I(tr)۔ اہم غلطیوں کا حصہ 1/250,4 = 0,39938% سے زیادہ نہیں ہونا چاہیے۔ سے تھوڑا کم تطہیر صنعت میں سونا. اور جسمانی لحاظ سے غلطیوں کے ساتھ 1459 سے زیادہ ریکارڈ نہیں ہیں۔

معاشی پسپائی۔

درحقیقت، ریکارڈ میں اس طرح کی متعدد غلطیاں کرنے سے، معاشرہ مندرجہ ذیل رقم میں معاشی نقصانات سے اتفاق کرتا ہے:

1459*3053,542 = 4 روبل۔

اس رقم کا تعین اس حقیقت سے ہوتا ہے کہ معاشرے کے پاس ان اخراجات کو کم کرنے کے اوزار نہیں ہیں۔ یہ مندرجہ ذیل ہے کہ اگر کسی کے پاس ایسی ٹکنالوجی ہے جو اسے غلطیوں والے ریکارڈ کی تعداد کو کم کرنے کی اجازت دیتی ہے، مثال کے طور پر، 259، تو یہ معاشرے کو بچانے کی اجازت دے گا:
1200*3053,542 = 3 روبل۔

لیکن ایک ہی وقت میں، وہ اپنے ہنر اور کام کے بارے میں پوچھ سکتا ہے، ٹھیک ہے، چلو کہتے ہیں - 1 ملین روبل.
یعنی، سماجی اخراجات اس طرح کم ہوتے ہیں:

3 – 664 = 250 روبل۔

جوہر میں، یہ اثر BigDat ٹیکنالوجیز کے استعمال سے اضافی قدر ہے۔

لیکن یہاں اس بات کو مدنظر رکھنا چاہیے کہ یہ ایک سماجی اثر ہے، اور ڈیٹا بیس کے مالک میونسپل حکام ہیں، اس ڈیٹا بیس میں درج جائیداد کے استعمال سے ان کی آمدنی، 0,3% کی شرح سے، ہے: 2,778 بلین روبل/ سال اور یہ اخراجات (4 rubles) اسے زیادہ پریشان نہیں کرتے، کیونکہ وہ جائیداد کے مالکان کو منتقل کردیئے جاتے ہیں۔ اور، اس پہلو میں، بگ ڈیٹا میں مزید ریفائننگ ٹیکنالوجیز کے ڈویلپر کو اس ڈیٹا بیس کے مالک کو قائل کرنے کی صلاحیت دکھانی ہوگی، اور ایسی چیزوں کے لیے کافی ٹیلنٹ کی ضرورت ہوتی ہے۔

اس مثال میں، خرابی کی تشخیص کے الگورتھم کا انتخاب قابل اعتماد جانچ کے دوران سافٹ ویئر کی تصدیق کے شومن ماڈل [2] کی بنیاد پر کیا گیا تھا۔ انٹرنیٹ پر اس کے پھیلاؤ اور ضروری شماریاتی اشارے حاصل کرنے کی صلاحیت کی وجہ سے۔ طریقہ کار موناخوف یو ایم سے لیا گیا ہے۔ "انفارمیشن سسٹمز کا فنکشنل استحکام"، تصویر میں بگاڑنے والے کے نیچے دیکھیں۔ 7-9۔

چاول۔ 7 - 9 شومن ماڈل کا طریقہ کارراک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی

راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی

راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی

اس مواد کا دوسرا حصہ ڈیٹا کی صفائی کی ایک مثال پیش کرتا ہے، جس میں شومن ماڈل کے استعمال کے نتائج حاصل کیے جاتے ہیں۔
مجھے حاصل کردہ نتائج پیش کرنے دو:
غلطیوں کی تخمینی تعداد N = 3167 n۔
پیرامیٹر سی، لیمبڈا اور قابل اعتماد فنکشن:

راک، کاغذ، کینچی کے کھیل جیسے ڈیٹا کو صاف کریں۔ کیا یہ کھیل ختم ہونے کے ساتھ یا اس کے بغیر ہے؟ حصہ 1۔ نظریاتی
انجیر 17

بنیادی طور پر، لیمبڈا اس شدت کا ایک حقیقی اشارہ ہے جس کے ساتھ ہر مرحلے پر غلطیوں کا پتہ چلا ہے۔ اگر آپ دوسرے حصے کو دیکھیں تو اس اشارے کا تخمینہ 42,4 غلطیاں فی گھنٹہ تھا، جو شومن اشارے سے کافی موازنہ ہے۔ اوپر، یہ طے کیا گیا تھا کہ جس شرح پر ایک ڈویلپر کو غلطیاں ملتی ہیں وہ 1 ریکارڈ فی منٹ چیک کرتے وقت، فی 250,4 ریکارڈز میں 1 غلطی سے کم نہیں ہونی چاہیے۔ لہذا شومن ماڈل کے لیے لیمبڈا کی اہم قدر:

60 / 250,4 = 0,239617۔

یعنی، غلطی کا پتہ لگانے کے طریقہ کار کو انجام دینے کی ضرورت اس وقت تک کی جانی چاہیے جب تک کہ لیمبڈا، موجودہ 38,964 سے کم ہو کر 0,239617 تک نہ پہنچ جائے۔

یا جب تک کہ اشارے N (خرابیوں کی ممکنہ تعداد) مائنس n (غلطیوں کی درست تعداد) ہماری منظور شدہ حد سے کم ہو جائے - 1459 pcs۔

ادب

  1. موناخوف، یو. ایم. انفارمیشن سسٹم کا فنکشنل استحکام۔ 3 گھنٹے میں۔ حصہ 1۔ سافٹ ویئر کی وشوسنییتا: درسی کتاب۔ الاؤنس / یو ایم موناخوف؛ ولادیم حالت univ - ولادیمیر: ازوو ولادیم۔ حالت یونیورسٹی، 2011۔ 60 صفحہ۔ – ISBN 978-5-9984-0189-3۔
  2. مارٹن ایل شومن، "سافٹ ویئر کی وشوسنییتا کی پیشن گوئی کے لیے امکانی ماڈل۔"
  3. آئی ٹی پروفیشنلز کے لیے ڈیٹا گودام کے بنیادی اصول / پالراج پونیا۔—2nd ایڈیشن۔

دوسرا حصہ. نظریاتی

ماخذ: www.habr.com

نیا تبصرہ شامل کریں