ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري

1. ابتدايي معلومات

د ډیټا پاکول یو له ننګونو څخه دی چې د ډیټا تحلیلي کارونو سره مخ دي. دا مواد هغه پرمختګونه او حلونه منعکس کوي چې د کاډسټرال ارزښت په جوړولو کې د ډیټابیس تحلیل کولو عملي ستونزې حل کولو په پایله کې رامینځته شوي. سرچینې دلته "د راپور شمیره 01/OKS-2019 د خانتي مانسیسک خودمختاره اوکروګ - اوګرا په سیمه کې د ټولو ډولونو املاکو (پرته د ځمکې د پلاټونو) د دولتي کاډسټرال ارزښتونو پایلو په اړه".

د "متقابلې ماډل مجموعه.

جدول 1. په فایل کې د ډیټا سیټ احصایوي شاخصونه "د پرتله کولو ماډل total.ods"
د ساحو مجموعه، pcs. – ۴۴
د ریکارډونو ټولټال شمیر، پی سی. - 365 490
د کرکټرونو ټول شمیر، پی سیز. - 101 714 693
په ریکارډ کې د حروفونو اوسط شمیر، پی سی. - 278,297
په ریکارډ کې د کرکټرونو معیاري انحراف، pcs. - 15,510
په ننوتلو کې لږترلږه د حروفونو شمیر، پی سی. – ۱۹۸
په ننوتلو کې د حروف اعظمي شمیره، پی سیز. – ۳۶۳

2. تعارفي برخه. بنسټیز معیارونه

د ټاکل شوي ډیټابیس تحلیل کولو پرمهال ، د پاکولو درجې لپاره اړتیاوې مشخص کولو لپاره یوه دنده رامینځته شوې ، ځکه چې هرچا ته روښانه ده ، ټاکل شوی ډیټابیس د کاروونکو لپاره قانوني او اقتصادي پایلې رامینځته کوي. د کار په جریان کې، دا معلومه شوه چې د لویو معلوماتو د پاکولو درجې لپاره کوم ځانګړي اړتیاوې شتون نلري. په دې مسله کې د قانوني نورمونو تحلیل، زه دې پایلې ته ورسیدم چې دا ټول د امکاناتو څخه جوړ شوي دي. دا دی، یو ټاکلی دنده ښکاره شوې، د معلوماتو سرچینې د کار لپاره تالیف شوي، بیا ډیټاسیټ رامینځته کیږي او د رامینځته شوي ډیټاسیټ پراساس د ستونزې حل کولو وسیلې دي. پایله لرونکي حلونه د بدیلونو څخه غوره کولو کې د حوالې ټکي دي. ما دا په 1 شکل کې وړاندې کړ.

ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري

څرنګه چې، د کوم معیارونو ټاکلو په اړه، دا غوره ده چې په ثابت ټیکنالوژیو تکیه وکړو، ما هغه اړتیاوې غوره کړې چې په کې ټاکل شوي. "MHRA GxP ډیټا بشپړتیا تعریفونه او د صنعت لپاره لارښود"ځکه چې ما دا سند د دې مسلې لپاره خورا جامع ګڼلی. په ځانګړې توګه، پدې سند کې برخه وايي "دا باید په یاد ولرئ چې د معلوماتو بشپړتیا اړتیاوې په لارښود (کاغذ) او بریښنایی معلوماتو کې مساوي پلي کیږي." (ژباړه: "... د ډیټا بشپړتیا اړتیاوې په لارښود (کاغذ) او بریښنایی معلوماتو کې مساوي پلي کیږي"). دا فورمول په ځانګړې توګه د "ليکلي شواهدو" مفهوم سره تړاو لري، د مدني طرزالعمل د قانون د 71 مادې، آرټ. 70 CAS، Art. 75 APC، "په لیکلو کې" هنر. 84 د مدني طرزالعمل قانون.

شکل 2 په فقه کې د معلوماتو ډولونو ته د تګلارې جوړولو یو ډیاګرام وړاندې کوي.

ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري
وريجې. 2. سرچینه دلته.

شکل 3 د پورته "لارښود" دندو لپاره د 1 شکل میکانیزم ښیې. د پرتله کولو په واسطه، دا اسانه ده چې وګورئ چې د معلوماتو سیسټمونو لپاره په عصري معیارونو کې د معلوماتو بشپړتیا اړتیاوې پوره کولو په وخت کې کارول شوي طریقې د معلوماتو د قانوني مفکورې په پرتله د پام وړ محدود دي.

ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري
انځور 3

په ټاکل شوي سند (لارښود) کې، د تخنیکي برخې سره اړیکه، د معلوماتو پروسس او ذخیره کولو وړتیاوې، د 18.2 څپرکي څخه د اقتباس لخوا په ښه توګه تایید شوي. اړونده ډیټابیس: "د فایل جوړښت په طبیعي توګه ډیر خوندي دی، ځکه چې ډاټا په لوی فایل فارمیټ کې ساتل کیږي چې د ډیټا او میټاډاټا ترمنځ اړیکه ساتي."

په حقیقت کې، په دې طریقه کې - د موجوده تخنیکي وړتیاوو څخه، هیڅ شی غیر معمولي نه دی او پخپله، دا یو طبیعي پروسه ده، ځکه چې د مفکورو پراختیا د ډیری مطالعې فعالیت څخه راځي - ډیټابیس ډیزاین. مګر، له بلې خوا، قانوني نورمونه داسې ښکاري چې د موجوده سیسټمونو تخنیکي وړتیاوو کې تخفیف نه وړاندې کوي، د بیلګې په توګه: GDPR - د معلوماتو د ساتنې عمومي مقررات.

ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري
وريجې. 4. د تخنیکي وړتیاوو فنل (سرچینه).

په دې اړخونو کې، دا روښانه کیږي چې اصلي ډاټا سیټ (1 شکل) باید لومړی، خوندي شي، او دویم، د دې څخه د اضافي معلوماتو استخراج لپاره اساس وي. ښه، د بیلګې په توګه: د ټرافيکي قواعدو ثبتولو کیمرې هر اړخیز دي، د معلوماتو پروسس کولو سیسټمونه سرغړونکي له منځه یوسي، مګر نور معلومات نورو پیرودونکو ته هم وړاندیز کیدی شي، د بیلګې په توګه، د پیرود مرکز ته د پیرودونکو د جریان جوړښت بازار موندنې څارنه. او دا د BigDat کارولو پر مهال د اضافي اضافه ارزښت سرچینه ده. دا خورا ممکنه ده چې هغه ډیټاسیټونه چې اوس راټول شوي، په راتلونکي کې به د یو میکانیزم له مخې ارزښت ولري چې په اوسني وخت کې د 1700 نادر نسخو ارزښت ته ورته وي. په هرصورت، په حقیقت کې، لنډمهاله ډیټاسیټونه ځانګړي دي او احتمال نلري چې په راتلونکي کې تکرار شي.

3. تعارفي برخه. د ارزونې معیارونه

د پروسس کولو پروسې په جریان کې، د غلطیو لاندې طبقه بندي رامینځته شوې.

1. د تېروتنې ټولګي (د GOST R 8.736-2011 پر بنسټ): الف) سیستماتیک تېروتنې؛ ب) تصادفي تېروتنې؛ c) یوه تېروتنه.

2. د ضربت له مخې: الف) د مونو تحریف؛ b) څو اړخیز تحریف.

3. د پایلو د انتقاد له مخې: الف) انتقادي؛ ب) مهم نه دی.

4. د پیښې د سرچینې له مخې:

الف) تخنیکي - هغه تېروتنې چې د تجهیزاتو د عملیاتو په جریان کې پیښیږي. د IoT سیسټمونو لپاره په کافي اندازه اړونده تېروتنه، هغه سیسټمونه چې د اړیکو کیفیت، تجهیزاتو (هارډویر) باندې د پام وړ نفوذ لري.

ب) د آپریټر تېروتنې - د ډیټابیس ډیزاین لپاره تخنیکي مشخصاتو کې غلطیو ته د ننوتلو پرمهال د آپریټر ټایپوس څخه په پراخه کچه کې غلطۍ.

ج) د کارونکي تېروتنې - دلته په ټوله لړۍ کې د کارونکي تېروتنې دي چې "د ترتیب بدلول هېر شوي" څخه د پښو لپاره غلط مترو پورې.

5. په جلا ټولګي کې جلا شوي:

a) "د جلا کونکي دنده"، دا دی، ځای او ":" (زموږ په قضیه کې) کله چې دا نقل شوی وي؛
b) کلمې یوځای لیکل شوي؛
c) د خدمت حروف وروسته ځای نشته
d) په symmetrically څو سمبولونه: ()، ""، "...".

په 5 شکل کې وړاندې شوي د ډیټابیس غلطیو سیسټم کولو سره یوځای اخیستل شوي، د دې مثال لپاره د غلطیو لټون کولو او د معلوماتو پاکولو الګوریتم رامینځته کولو لپاره د کافي اغیزمن همغږۍ سیسټم رامینځته شوی.

ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري
وريجې. 5. د ډیټابیس د ساختماني واحدونو سره په مطابقت کې عادي تېروتنې (سرچینه: اوریشکوف V.I.، Paklin N.B. "د معلوماتو د یوځای کولو کلیدي مفکورې").

دقت، د ډومین بشپړتیا، د معلوماتو ډول، دوام، بې ځایه، بشپړتیا، نقل، د سوداګرۍ قواعدو سره مطابقت، ساختماني تعریف، د معلوماتو بې نظمۍ، وضاحت، په وخت سره، د معلوماتو بشپړتیا قواعدو تعقیب. (پاڼه 334. د معلوماتي ټکنالوجۍ متخصصینو لپاره د معلوماتو ذخیره کولو اساسات / پاولراج پونیا.—دوهمه نسخه.)

د انګلیسي کلمې او د روسیې ماشین ژباړه په قوسونو کې وړاندې کړه.

دقت. د ډیټا عنصر لپاره په سیسټم کې زیرمه شوي ارزښت د ډیټا عنصر د دې پیښې لپاره سم ارزښت دی. که تاسو د پیرودونکي نوم او پته په ریکارډ کې ذخیره کړئ، نو پته د دې نوم سره د پیرودونکي لپاره سم پته ده. که تاسو د امر نمبر 1000 لپاره ریکارډ کې د 12345678 واحدونو په توګه امر شوی مقدار ومومئ، نو دا مقدار د دې امر لپاره دقیق مقدار دی.
[دقت. د ډیټا عنصر لپاره په سیسټم کې زیرمه شوي ارزښت د ډیټا عنصر د دې پیښې لپاره سم ارزښت دی. که تاسو د پیرودونکي نوم او پته په ریکارډ کې ذخیره کړئ، نو پته د هغه نوم سره د پیرودونکي لپاره سم پته ده. که تاسو د امر نمبر 1000 لپاره ریکارډ کې د 12345678 واحدونو په توګه امر شوی مقدار ومومئ، نو دا مقدار د دې امر لپاره دقیق مقدار دی.]

د ډومین بشپړتیا. د یو خاصیت ډیټا ارزښت د منلو وړ، تعریف شوي ارزښتونو په لړ کې راځي. عام مثال د جنډر معلوماتو عنصر لپاره د منلو وړ ارزښتونه "نارینه" او "ښځینه" دي.
[د ډومین بشپړتیا. د خاصیت ډیټا ارزښت د اعتبار وړ، تعریف شوي ارزښتونو په لړ کې راځي. یو عمومي مثال د جنډر ډیټا عنصر لپاره معتبر ارزښتونه "نارینه" او "ښځینه" دي.]

د معلوماتو ډول. د ډیټا خاصیت لپاره ارزښت په حقیقت کې د ډیټا ډول په توګه ساتل کیږي چې د دې خاصیت لپاره تعریف شوي. کله چې د پلورنځي نوم ساحې د ډیټا ډول د "متن" په توګه تعریف شي ، د دې ساحې ټولې بیلګې د پلورنځي نوم لري چې په متني شکل کې ښودل شوي نه شمیري کوډونه.
[د معلوماتو ډول. د ډیټا خاصیت ارزښت په حقیقت کې د ډیټا ډول په توګه ساتل کیږي چې د دې خاصیت لپاره تعریف شوي. که چیرې د پلورنځي نوم ساحې ډیټا ډول د "متن" په توګه تعریف شي ، د دې ساحې ټولې مثالونه د شمیرې کوډونو پرځای د متن په بڼه ښودل شوي د پلورنځي نوم لري.]

تسلسل. د ډیټا ساحې بڼه او مینځپانګه د ډیری سرچینو سیسټمونو کې یو شان ده. که په یوه سیسټم کې د محصول ABC لپاره د محصول کوډ 1234 وي، نو د دې محصول کوډ په هر سیسټم کې 1234 دی.
[متقابلیت. د معلوماتو د ساحې بڼه او محتوا په مختلفو سرچینو سیسټمونو کې یو شان دي. که په یوه سیسټم کې د محصول ABC لپاره د محصول کوډ 1234 وي، نو د دې محصول کوډ د هرې سرچینې سیسټم کې 1234 دی.]

بې ځایه. ورته معلومات باید په سیسټم کې له یو څخه ډیر ځای کې زیرمه نشي. که، د موثریت دلایلو لپاره، د معلوماتو عنصر په عمدي توګه په سیسټم کې له یو څخه ډیرو ځایونو کې زیرمه شوی، نو بې ځایه کیدل باید په روښانه توګه وپیژندل شي او تصدیق شي.
[بې ځایه. ورته معلومات باید په سیسټم کې له یو څخه ډیر ځای کې زیرمه نشي. که د موثریت دلایلو لپاره ، د معلوماتو عنصر په عمدي ډول په سیسټم کې په ډیری ځایونو کې زیرمه شوی وي ، نو بې ځایه کیدل باید په روښانه ډول تعریف او تصدیق شي.]

بشپړتیا. په سیسټم کې د ورکړل شوي ځانګړتیا لپاره هیڅ ورک شوي ارزښتونه شتون نلري. د مثال په توګه، د پیرودونکي فایل کې، باید د هر پیرودونکي لپاره د "ریاست" ساحې لپاره یو باوري ارزښت وي. د امر توضیحاتو لپاره فایل کې ، د امر لپاره هر توضیحي ریکارډ باید په بشپړ ډول ډک شي.
[ بشپړتیا. د دې خاصیت لپاره په سیسټم کې هیڅ ورک شوي ارزښتونه شتون نلري. د مثال په توګه، د مراجعینو فایل باید د هر پیرودونکي لپاره د "حیثیت" ساحې لپاره د اعتبار وړ ارزښت ولري. د امر توضیحاتو فایل کې ، د هر امر توضیحات ریکارډ باید په بشپړ ډول بشپړ شي.]

نقل کول. په سیسټم کې د ریکارډونو نقل په بشپړ ډول حل شوی. که چیرې د محصول فایل پیژندل کیږي چې نقل ریکارډونه لري، نو د هر محصول لپاره ټول نقل شوي ریکارډونه پیژندل شوي او یو کراس حواله رامینځته کیږي.
[ نقل. په سیسټم کې د ریکارډونو نقل په بشپړ ډول له مینځه وړل شوی. که چیرې د محصول فایل پیژندل کیږي چې نقل شوي ننوتنې ولري ، نو د هر محصول لپاره ټولې نقل شوي ننوتنې پیژندل کیږي او یو کراس حواله رامینځته کیږي.]

د سوداګرۍ قواعدو سره مطابقت. د هر ډیټا توکي ارزښتونه د ټاکل شوي سوداګرۍ مقرراتو سره سمون لري. د لیلام په سیسټم کې، د هامر یا د پلور قیمت نشي کولی د زیرمې قیمت څخه کم وي. د بانک پور سیسټم کې، د پور بیلانس باید تل مثبت یا صفر وي.
[د سوداګرۍ قواعدو سره موافقت. د هر ډیټا عنصر ارزښتونه د تاسیس شوي سوداګرۍ مقرراتو سره مطابقت لري. د لیلام په سیسټم کې، د هامر یا د پلور قیمت نشي کولی د زیرمې قیمت څخه کم وي. د بانکي کریډیټ سیسټم کې، د پور بیلانس باید تل مثبت یا صفر وي.]

ساختماني تعریف. هرچیرې چې د معلوماتو توکي په طبیعي ډول په انفرادي برخو کې تنظیم کیدی شي ، توکي باید دا ښه تعریف شوی جوړښت ولري. د مثال په توګه، د یو فرد نوم په طبیعي توګه په لومړي نوم، منځني ابتدايي، او وروستي نوم ویشل کیږي. د اشخاصو د نومونو ارزښتونه باید د لومړي نوم، منځني ابتدايي او وروستي نوم په توګه وساتل شي. د معلوماتو کیفیت دا ځانګړتیا د معیارونو پلي کول اسانه کوي او ورک شوي ارزښتونه کموي.
[ ساختماني یقیني. چیرې چې د ډیټا عنصر په طبیعي ډول په انفرادي برخو کې جوړښت کیدی شي ، عنصر باید دا ښه تعریف شوی جوړښت ولري. د مثال په توګه، د یو شخص نوم په طبیعي توګه په لومړي نوم، منځني ابتدايي، او وروستي نوم ویشل شوی. د انفرادي نومونو ارزښتونه باید د لومړي نوم، منځني ابتدايي، او وروستي نوم په توګه وساتل شي. د دې معلوماتو کیفیت ځانګړتیا د معیارونو پلي کول ساده کوي او ورک شوي ارزښتونه کموي.]

د معلوماتو ګډوډي. یوه ساحه باید یوازې د هغه هدف لپاره وکارول شي چې دا تعریف شوی. که چیرې د ساحې پته-3 د اوږدې پتې لپاره د پتې هرې ممکنه دریمې کرښې لپاره تعریف شي، نو دا ساحه باید یوازې د پتې دریمې کرښې ثبتولو لپاره وکارول شي. دا باید د پیرودونکي لپاره د تلیفون یا فکس شمیرې داخلولو لپاره ونه کارول شي.
[د معلوماتو ګډوډي. ساحه باید یوازې د هغه هدف لپاره وکارول شي چې د هغه لپاره تعریف شوی. که چیرې د پته-3 ساحه د اوږدې پتې لپاره د هرې ممکنه دریمې پتې کرښې لپاره تعریف شوې وي، نو دا ساحه باید یوازې د دریم پته لیک ثبتولو لپاره وکارول شي. دا باید د پیرودونکي لپاره د تلیفون یا فکس شمیره دننه کولو لپاره ونه کارول شي.]

روښانه کول. د ډیټا عنصر ممکن د کیفیت ډیټا نورې ټولې ځانګړتیاوې ولري مګر که کاروونکي د هغې معنی په روښانه توګه نه پوهیږي، نو د معلوماتو عنصر کاروونکو ته هیڅ ارزښت نلري. د مناسب نومونې کنوانسیونونه مرسته کوي چې د معلوماتو عناصر د کاروونکو لخوا ښه پوه شي.
[وضاحت. د ډیټا عنصر ممکن د ښه ډیټا نورې ټولې ځانګړتیاوې ولري، مګر که چیرې کاروونکي په واضح ډول د هغې په معنی پوه نشي، نو د ډیټا عنصر کاروونکو ته هیڅ ارزښت نلري. د سم نومونې کنوانسیونونه د معلوماتو عناصرو کې د کاروونکو لخوا ښه پوهیدو کې مرسته کوي.]

په وخت. کاروونکي د معلوماتو مهال ویش ټاکي. که کاروونکي تمه لري د پیرودونکي ابعاد ډیټا به له یوې ورځې څخه زاړه نه وي ، د سرچینې سیسټمونو کې د پیرودونکي ډیټا کې بدلونونه باید هره ورځ د ډیټا ګودام کې پلي شي.
[په خپل وخت سره. کاروونکي د معلوماتو وخت ټاکي. که کاروونکي تمه لري د پیرودونکي ابعاد ډیټا به له یوې ورځې څخه زاړه نه وي ، د سرچینې سیسټمونو کې د پیرودونکي ډیټا کې بدلونونه باید هره ورځ د ډیټا ګودام کې پلي شي.]

ګټورتوب. د معلوماتو ګودام کې د معلوماتو هر عنصر باید د کاروونکو راټولولو ځینې اړتیاوې پوره کړي. د ډیټا عنصر ممکن دقیق او لوړ کیفیت وي ، مګر که دا د کاروونکو لپاره هیڅ ارزښت نلري ، نو دا د ډیټا عنصر لپاره په بشپړ ډول غیر ضروري دی چې د ډیټا ګودام کې وي.
[استعمال. د ډیټا ذخیره کې هر ډیټا توکي باید د کارونکي راټولولو ځینې اړتیاوې پوره کړي. د ډیټا عنصر ممکن دقیق او لوړ کیفیت وي ، مګر که دا کاروونکو ته ارزښت نه ورکوي ، نو د دې ډیټا عنصر لپاره اړین ندي چې د ډیټا ګودام کې وي.]

د معلوماتو بشپړتیا قواعدو ته غاړه ایښودل. د سرچینې سیسټمونو اړوند ډیټابیسونو کې زیرمه شوي معلومات باید د ادارې بشپړتیا او د حوالې بشپړتیا قواعدو ته غاړه کیږدي. هر هغه جدول چې د ابتدايي کیلي په توګه null ته اجازه ورکوي د وجود بشپړتیا نلري. د حوالې بشپړتیا د مور او پلار او ماشوم اړیکې په سمه توګه رامینځته کوي. د پیرودونکي تر امر پورې اړیکې کې ، د حوالې بشپړتیا په ډیټابیس کې د هر امر لپاره د پیرودونکي شتون تضمینوي.
[د معلوماتو بشپړتیا قواعدو سره موافقت. د سرچینې سیسټمونو اړوند ډیټابیسونو کې زیرمه شوي معلومات باید د ادارې بشپړتیا او راجع بشپړتیا قواعدو سره مطابقت ولري. هر هغه جدول چې null ته د لومړني کیلي په توګه اجازه ورکوي د وجود بشپړتیا نلري. د حوالې بشپړتیا د والدینو او ماشومانو ترمنځ اړیکه په سمه توګه رامینځته کولو ته اړوي. د پیرودونکي-آرډر اړیکو کې، د حوالې بشپړتیا دا یقیني کوي چې یو پیرودونکي په ډیټابیس کې د هر امر لپاره شتون لري.]

4. د معلوماتو پاکولو کیفیت

د ډیټا پاکولو کیفیت په لوی ډیټا کې خورا ستونزمن مسله ده. د دې پوښتنې ځواب کول چې د دندې بشپړولو لپاره د ډیټا پاکولو کومې درجې ته اړتیا ده د هر ډیټا شنونکي لپاره بنسټیز دی. په ډیرو اوسنیو ستونزو کې، هر شنونکی دا پخپله ټاکي او دا امکان نلري چې د بهر څخه څوک د هغه په ​​​​حل کې د دې اړخ ارزونه وکړي. مګر په دې قضیه کې د کار لپاره، دا مسله خورا مهمه وه، ځکه چې د قانوني معلوماتو اعتبار باید یو ته ورته وي.

د عملیاتي اعتبار معلومولو لپاره د سافټویر ازموینې ټیکنالوژیو ته پام کول. نن ورځ د دې ماډلونو څخه ډیر شتون لري 200. ډیری ماډلونه د ادعا خدمت کولو ماډل کاروي:

ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري
عکس ایکس اینمکس

په لاندې ډول فکر کول: "که وموندل شوې تېروتنه په دې ماډل کې د ناکامۍ پیښې ته ورته پیښه وي، نو څنګه د پیرامیټ t انالوګ ومومئ؟" او ما لاندې ماډل ترتیب کړ: راځئ چې تصور وکړو چې د یو ریکارډ چک کولو لپاره ټیسټر وخت 1 دقیقې دی (د پوښتنې ډیټابیس لپاره) ، بیا د ټولو غلطیو موندلو لپاره هغه به 365 دقیقو ته اړتیا ولري ، کوم چې نږدې 494 کاله او 3 دی. میاشتې کاري وخت. لکه څنګه چې موږ پوهیږو، دا د کار خورا لوی مقدار دی او د ډیټابیس چک کولو لګښتونه به د دې ډیټابیس تالیف کونکي لپاره ممنوع وي. په دې انعکاس کې، د لګښتونو اقتصادي مفهوم څرګندیږي او د تحلیل وروسته زه دې پایلې ته ورسیدم چې دا خورا مؤثره وسیله ده. د اقتصاد د قانون پر بنسټ: "د تولید حجم (په واحدونو کې) په کوم کې چې د شرکت اعظمي ګټه ترلاسه کیږي په هغه ځای کې موقعیت لري چیرې چې د تولید د نوي واحد تولید لږ لګښت د هغه نرخ سره پرتله کیږي چې دا شرکت یې ترلاسه کولی شي. د نوي واحد لپاره. د دې پوسټ پراساس چې د هرې بلې تیروتنې موندل د ریکارډونو ډیر او ډیر چک کولو ته اړتیا لري ، دا د لګښت فاکتور دی. دا چې د ازموینې ماډلونو کې منل شوي پوسټولټ په لاندې شکل کې فزیکي معنی لري: که د i-th تېروتنې موندلو لپاره د n ریکارډونو چک کول اړین وو، نو د راتلونکي (i+3) تېروتنې موندلو لپاره به اړین وي. د m ریکارډونو چک کول او په ورته وخت کې n

  1. کله چې د نوي غلطۍ موندلو دمخه د چک شوي ریکارډونو شمیر ثبات ومومي؛
  2. کله چې د راتلونکي غلطۍ موندلو دمخه د چک شوي ریکارډونو شمیر به ډیر شي.

د مهم ارزښت د ټاکلو لپاره، ما د اقتصادي امکاناتو مفکورې ته مخه کړه، کوم چې پدې حالت کې، د ټولنیز لګښتونو مفهوم په کارولو سره په لاندې ډول ترتیب کیدی شي: "د غلطۍ د سمولو لګښتونه باید د اقتصادي اجنټ لخوا اخیستل کیږي چې کولی شي. په ټیټه بیه.» موږ یو اجنټ لرو - یو ټیسټر چې د یو ریکارډ چیک کولو لپاره 1 دقیقې مصرفوي. د پیسو په شرایطو کې، که تاسو په ورځ کې 6000 روبل وګټئ، دا به 12,2 روبل وي. (نږدې نن ورځ). دا په اقتصادي قانون کې د انډول دوهم اړخ ټاکلو ته پاتې دی. ما داسې استدلال وکړ. یوه موجوده تېروتنه به اړونده شخص ته اړتیا ولري چې د سمولو لپاره هڅې مصرف کړي، دا د ملکیت مالک دی. راځئ چې ووایو دا د 1 ورځې عمل ته اړتیا لري (یو غوښتنلیک وسپارئ، سم شوی سند ترلاسه کړئ). بیا، د ټولنیز نقطه نظر څخه، د هغه لګښتونه به د ورځې اوسط معاش سره مساوي وي. په خنټي مانسي خودمختاره اوکروګ کې اوسط ترلاسه شوی معاش "د جنوري - سپتمبر 2019 لپاره د خنټي مانسیسک خودمختاره اوکروګ - اوګرا د ټولنیز-اقتصادي پرمختګ پایلې" 73285 روبله. یا 3053,542 روبل / ورځ. په دې اساس، موږ یو مهم ارزښت ترلاسه کوو چې:
3053,542: 12,2 = 250,4 د ریکارډونو واحدونه.

دا پدې مانا ده چې د ټولنیز لید څخه، که یو ټیسټر 251 ریکارډونه چیک کړي او یوه تېروتنه یې وموندله، دا د کارونکي سره مساوي ده چې دا غلطی پخپله حل کړي. په دې اساس، که چیرې ټیسټر د بلې غلطۍ موندلو لپاره د 252 ریکارډونو چک کولو سره مساوي وخت تیر کړي، نو پدې حالت کې دا غوره ده چې د سمون لګښت کارونکي ته واړوي.

دلته یو ساده طریقه وړاندې کیږي، ځکه چې د ټولنیز نظر څخه دا اړینه ده چې د هر متخصص لخوا تولید شوي ټول اضافي ارزښت په پام کې ونیول شي، دا د مالیاتو او ټولنیزو تادیاتو په شمول لګښتونه، مګر ماډل روښانه دی. د دې اړیکو پایله د متخصصینو لپاره لاندې اړتیا ده: د معلوماتي ټکنالوجۍ صنعت متخصص باید د ملي اوسط څخه ډیر معاش ولري. که د هغه معاش د احتمالي ډیټابیس کاروونکو اوسط معاش څخه کم وي ، نو هغه پخپله باید ټول ډیټابیس په لاس کې وګوري.

کله چې بیان شوي معیارونه وکاروئ ، د ډیټابیس کیفیت لپاره لومړۍ اړتیا رامینځته کیږي:
I(tr). د جدي غلطیو برخه باید د 1/250,4 = 0,39938٪ څخه زیاته نه وي. په پرتله لږ څه تصفیه کول په صنعت کې سره زر. او په فزیکي شرایطو کې د غلطیو سره له 1459 څخه ډیر ریکارډونه شتون نلري.

اقتصادي شاتګ.

په حقیقت کې، په ریکارډونو کې د داسې یو شمیر غلطیو په کولو سره، ټولنه د اقتصادي زیانونو په اندازه موافقه کوي:

1459*3053,542 = 4 روبل.

دا اندازه د دې حقیقت له مخې ټاکل کیږي چې ټولنه د دې لګښتونو کمولو لپاره وسایل نلري. دا تعقیبوي چې که څوک داسې ټیکنالوژي ولري چې دوی ته اجازه ورکوي د غلطیو سره د ریکارډونو شمیر کم کړي، د بیلګې په توګه، 259، نو دا به ټولنې ته اجازه ورکړي چې خوندي کړي:
1200*3053,542 = 3 روبل.

مګر په ورته وخت کې، هغه کولی شي د خپل استعداد او کار غوښتنه وکړي، ښه، راځئ چې ووایو - 1 ملیون روبله.
دا دی، ټولنیز لګښتونه کم شوي دي:

3 – 664 = 250 روبل.

په اصل کې، دا اغیزه د BigDat ټیکنالوژیو کارولو څخه اضافه ارزښت دی.

مګر دلته باید دا په پام کې ونیول شي چې دا یو ټولنیز تاثیر دی، او د ډیټابیس مالک د ښاروالۍ چارواکي دي، په دې ډیټابیس کې د ثبت شوي ملکیتونو څخه د دوی عاید، د 0,3٪ په کچه، 2,778 ملیارد روبله/. کال او دا لګښتونه (4 روبل) هغه ډیر نه ځوروي، ځکه چې دوی د ملکیت مالکینو ته لیږدول کیږي. او، پدې اړخ کې، په Bigdata کې د لا زیاتو تصفیه کولو ټیکنالوژیو پراختیا کونکي باید د دې ډیټابیس مالک قانع کولو وړتیا وښيي، او دا ډول شیان د پام وړ وړتیا ته اړتیا لري.

په دې مثال کې، د غلطۍ ارزونې الګوریتم د اعتبار ازموینې په جریان کې د سافټویر تصدیق د Schumann ماډل [2] پر بنسټ غوره شوی. په انټرنیټ کې د هغې پراخوالي او د اړین احصایوي شاخصونو ترلاسه کولو وړتیا له امله. میتودولوژي د موناخوف یو ایم څخه اخیستل شوې. "د معلوماتو سیسټمونو فعال ثبات"، په انځور کې د سپیلر لاندې وګورئ. 7-9.

وريجې. 7 - 9 د شومن ماډل میتودولوژيډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري

ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري

ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري

د دې موادو دویمه برخه د معلوماتو پاکولو بیلګه وړاندې کوي، په کوم کې چې د شومن ماډل کارولو پایلې ترلاسه کیږي.
اجازه راکړئ ترلاسه شوي پایلې وړاندې کړم:
د غلطیو اټکل شوی شمیر N = 3167 n.
پیرامیټر C، لامبدا او د اعتبار فعالیت:

ډاټا پاک کړئ لکه د راک، کاغذ، کینچی لوبې. ایا دا لوبه د پای سره یا پرته ده؟ برخه 1. نظري
انځور 17

په لازمي ډول ، لامبدا د شدت یو ریښتینی شاخص دی چې په هر مرحله کې یې غلطۍ موندل کیږي. که تاسو دویمه برخه وګورئ، د دې شاخص اټکل په هر ساعت کې 42,4 غلطۍ وه، کوم چې د شومن شاخص سره د پرتله کولو وړ دی. پورته، دا ټاکل شوې وه چې هغه نرخ چې یو پرمخ وړونکي غلطی ومومي باید په هر 1 ریکارډونو کې د 250,4 غلطی څخه کم نه وي، کله چې په یوه دقیقه کې 1 ریکارډ چک کوي. له همدې امله د شومن ماډل لپاره د لامبډا مهم ارزښت:

60 / 250,4 = 0,239617.

دا دی، د غلطۍ موندلو پروسیجرونو ترسره کولو اړتیا باید تر هغه وخته پورې ترسره شي چې لامبډا، د موجوده 38,964 څخه، 0,239617 ته راټیټ شي.

یا تر هغه چې شاخص N (د خطا احتمالي شمیر) منفي n (د غلطو درست شمیر) زموږ د منل شوي حد څخه ښکته راټیټ شي - 1459 pcs.

ادبیات

  1. موناکوف، یو. ایم. د معلوماتو سیسټمونو فعال ثبات. په 3 ساعتونو کې. برخه 1. د سافټویر اعتبار: درسي کتاب. تخفیف / یو ایم موناخوف؛ ولادیم. ریاست univ – ولادیمیر: ازوو ولادیم. ریاست پوهنتون، ۲۰۱۱ – ۶۰ مخ. – ISBN 2011-60-978-5-9984.
  2. مارټین ایل شومن، "د سافټویر اعتبار وړاندوینې لپاره احتمالي ماډلونه."
  3. د معلوماتي ټیکنالوژۍ متخصصینو لپاره د معلوماتو ذخیره کولو اساسات / پاولراج پونیا.—دوهمه نسخه.

دوهمه برخه. نظري

سرچینه: www.habr.com

Add a comment