1. මූලික දත්ත
දත්ත පිරිසිදු කිරීම දත්ත විශ්ලේෂණ කාර්යයන් මුහුණ දෙන අභියෝගවලින් එකකි. මෙම ද්රව්යය cadastral අගය ගොඩනැගීමේදී දත්ත සමුදාය විශ්ලේෂණය කිරීමේ ප්රායෝගික ගැටළුවක් විසඳීමේ ප්රතිඵලයක් ලෙස මතු වූ වර්ධනයන් සහ විසඳුම් පිළිබිඹු කරයි. මූලාශ්ර මෙතනින්
"උපග්රන්ථය B. KS තීරණය කිරීමේ ප්රතිඵල 5. cadastral අගය තීරණය කිරීමේ ක්රමය පිළිබඳ තොරතුරු 5.1 සංසන්දනාත්මක ප්රවේශය" හි "සංසන්දනාත්මක ආකෘතිය total.ods" ගොනුව සලකා බලන ලදී.
වගුව 1. "සංසන්දනාත්මක ආකෘතිය total.ods" ගොනුවේ දත්ත කට්ටලයේ සංඛ්යාන දර්ශක
මුළු ක්ෂේත්ර ගණන, pcs. - 44
මුළු වාර්තා ගණන, pcs. - 365 490
මුළු අක්ෂර ගණන, pcs. - 101 714 693
වාර්තාවක සාමාන්ය අක්ෂර සංඛ්යාව, pcs. - 278,297
වාර්තාවක අක්ෂරවල සම්මත අපගමනය, pcs. - 15,510
ප්රවේශයක අවම අක්ෂර සංඛ්යාව, pcs. - 198
ප්රවේශයක උපරිම අක්ෂර සංඛ්යාව, pcs. - 363
2. හඳුන්වාදීමේ කොටස. මූලික ප්රමිතීන්
නිශ්චිත දත්ත සමුදාය විශ්ලේෂණය කරන අතරතුර, පිරිසිදු කිරීමේ මට්ටම සඳහා අවශ්යතා නියම කිරීම සඳහා කාර්යයක් පිහිටුවන ලදී, මන්ද, සෑම කෙනෙකුටම පැහැදිලි වන පරිදි, නිශ්චිත දත්ත සමුදාය පරිශීලකයින් සඳහා නෛතික හා ආර්ථික ප්රතිවිපාක නිර්මාණය කරයි. කාර්යය අතරතුර, විශාල දත්ත පිරිසිදු කිරීමේ උපාධිය සඳහා නිශ්චිත අවශ්යතා නොමැති බව පෙනී ගියේය. මෙම කාරණය සම්බන්ධයෙන් නීතිමය සම්මතයන් විශ්ලේෂණය කිරීමෙන්, ඒවා සියල්ලම ශක්යතාවන්ගෙන් සෑදී ඇති බව මම නිගමනය කළෙමි. එනම්, යම් කාර්යයක් දර්ශනය වී ඇති අතර, කාර්යය සඳහා තොරතුරු මූලාශ්ර සම්පාදනය කර ඇත, පසුව දත්ත කට්ටලයක් සාදනු ලබන අතර, නිර්මාණය කරන ලද දත්ත කට්ටලය මත පදනම්ව, ගැටළුව විසඳීම සඳහා මෙවලම්. ප්රතිඵලය වන විසඳුම් විකල්ප වලින් තෝරාගැනීමේදී යොමු ලක්ෂ්ය වේ. මම මෙය රූප සටහන 1 හි ඉදිරිපත් කළෙමි.
ඕනෑම ප්රමිතීන් තීරණය කිරීමේ කාරණාවලදී, ඔප්පු කරන ලද තාක්ෂණයන් මත විශ්වාසය තැබීම වඩාත් සුදුසු බැවින්, මම දක්වා ඇති අවශ්යතා තෝරා ගත්තෙමි.
රූප සටහන 2 නීති විද්යාවේ තොරතුරු වර්ග සඳහා ප්රවේශයන් ගොඩනැගීමේ රූප සටහනක් ඉදිරිපත් කරයි.
සහල්. 2. මූලාශ්රය
ඉහත "මාර්ගෝපදේශයේ" කර්තව්යයන් සඳහා රූප සටහන 3 රූපය 1 හි යාන්ත්රණය පෙන්වයි. තොරතුරු පද්ධති සඳහා නවීන ප්රමිතීන්හි තොරතුරු අඛණ්ඩතාව සඳහා අවශ්යතා සපුරාලීමේදී භාවිතා කරන ප්රවේශයන් තොරතුරු පිළිබඳ නීතිමය සංකල්පය හා සැසඳීමේදී සැලකිය යුතු ලෙස සීමා වී ඇති බව සංසන්දනය කිරීමෙන් පහසු වේ.
රූපය 3
නිශ්චිත ලේඛනයේ (මඟපෙන්වීම), තාක්ෂණික කොටස වෙත සම්බන්ධ කිරීම, දත්ත සැකසීම සහ ගබඩා කිරීම සඳහා ඇති හැකියාවන්, 18.2 පරිච්ඡේදයේ උපුටා දැක්වීමකින් හොඳින් තහවුරු වේ. සම්බන්ධතා දත්ත සමුදාය: "දත්ත සහ පාර-දත්ත අතර සම්බන්ධතාව ආරක්ෂා කරන විශාල ගොනු ආකෘතියක දත්ත රඳවා තබා ඇති බැවින් මෙම ගොනු ව්යුහය සහජයෙන්ම වඩාත් ආරක්ෂිත වේ."
ඇත්ත වශයෙන්ම, මෙම ප්රවේශය තුළ - පවතින තාක්ෂණික හැකියාවන්ගෙන්, අසාමාන්ය කිසිවක් නොමැති අතර, එයම, මෙය ස්වභාවික ක්රියාවලියකි, මන්ද සංකල්පවල ප්රසාරණය වඩාත් අධ්යයනය කරන ලද ක්රියාකාරිත්වය - දත්ත සමුදා නිර්මාණය. එහෙත්, අනෙක් අතට, පවතින පද්ධතිවල තාක්ෂණික හැකියාවන් සඳහා වට්ටම් ලබා නොදෙන නීතිමය සම්මතයන් පෙනේ, උදාහරණයක් ලෙස:
සහල්. 4. තාක්ෂණික හැකියාවන් පුනීල (
මෙම පැතිවලින්, මුල් දත්ත කට්ටලය (රූපය 1) මුලින්ම සුරැකිය යුතු අතර, දෙවනුව, එයින් අමතර තොරතුරු උකහා ගැනීම සඳහා පදනම විය යුතු බව පැහැදිලි වේ. හොඳයි, උදාහරණයක් ලෙස: මාර්ග නීති පටිගත කරන කැමරා සෑම තැනකම පවතී, තොරතුරු සැකසුම් පද්ධති උල්ලංඝනය කරන්නන් ඉවත් කරයි, නමුත් වෙනත් තොරතුරු වෙනත් පාරිභෝගිකයින්ට ද ලබා දිය හැකිය, උදාහරණයක් ලෙස, සාප්පු මධ්යස්ථානයකට ගනුදෙනුකරුවන්ගේ ප්රවාහයේ ව්යුහය අලෙවිකරණ අධීක්ෂණය ලෙස. තවද මෙය BigDat භාවිතා කරන විට අමතර එකතු කළ අගයක ප්රභවයකි. දැන් එකතු කරන දත්ත කට්ටල, අනාගතයේ කොතැනක හෝ, වර්තමාන 1700 හි දුර්ලභ සංස්කරණවල වටිනාකමට සමාන යාන්ත්රණයකට අනුව වටිනාකමක් තිබිය හැකිය. ඇත්ත වශයෙන්ම, තාවකාලික දත්ත කට්ටල අද්විතීය වන අතර අනාගතයේදී නැවත නැවත සිදු නොවනු ඇත.
3. හඳුන්වාදීමේ කොටස. ඇගයීම් නිර්ණායක
සැකසුම් ක්රියාවලියේදී, පහත දැක්වෙන දෝෂ වර්ගීකරණය වර්ධනය විය.
1. දෝෂ පන්තිය (GOST R 8.736-2011 මත පදනම්ව): a) ක්රමානුකූල දෝෂ; ආ) අහඹු දෝෂ; ඇ) වරදක්.
2. ගුණයකින්: a) මොනෝ විකෘති කිරීම; b) බහු විකෘති කිරීම.
3. ප්රතිවිපාකවල විවේචනාත්මකභාවය අනුව: a) විවේචනාත්මක; ආ) විවේචනාත්මක නොවේ.
4. සිදුවීමේ මූලාශ්රය අනුව:
A) තාක්ෂණික - උපකරණ ක්රියාත්මක කිරීමේදී ඇතිවන දෝෂ. IoT පද්ධති සඳහා තරමක් අදාළ දෝෂයක්, සන්නිවේදනයේ ගුණාත්මකභාවය කෙරෙහි සැලකිය යුතු බලපෑමක් ඇති පද්ධති, උපකරණ (දෘඪාංග).
B) ක්රියාකරු දෝෂ - දත්ත සමුදාය සැලසුම් කිරීම සඳහා වන තාක්ෂණික පිරිවිතරවල දෝෂ දක්වා ආදානය අතරතුර ක්රියාකරු අක්ෂර වින්යාසයේ සිට පුළුල් පරාසයක දෝෂ.
C) පරිශීලක දෝෂ - “පිරිසැලසුම මාරු කිරීමට අමතක වූ” සිට පාද සඳහා මීටර වැරදි කිරීම දක්වා සම්පූර්ණ පරාසය තුළ පරිශීලක දෝෂ මෙහි ඇත.
5. වෙනම පන්තියකට වෙන් කර ඇත:
අ) "බෙදුම්කරුගේ කාර්යය", එනම් අවකාශය සහ ":" (අපගේ නඩුවේදී) එය අනුපිටපත් කළ විට;
ආ) එකට ලියා ඇති වචන;
ඇ) සේවා අක්ෂර වලින් පසු ඉඩක් නැත
ඈ) සමමිතික බහු සංකේත: (), "", "...".
රූප සටහන 5 හි ඉදිරිපත් කර ඇති දත්ත සමුදා දෝෂ ක්රමවත් කිරීමත් සමඟ එකට ගත් විට, දෝෂ සෙවීම සහ මෙම උදාහරණය සඳහා දත්ත පිරිසිදු කිරීමේ ඇල්ගොරිතමයක් සංවර්ධනය කිරීම සඳහා තරමක් effective ලදායී ඛණ්ඩාංක පද්ධතියක් සාදනු ලැබේ.
සහල්. 5. දත්ත සමුදායේ ව්යුහාත්මක ඒකක වලට අනුරූප වන සාමාන්ය දෝෂ (මූලාශ්රය:
නිරවද්යතාවය, වසම් අඛණ්ඩතාව, දත්ත වර්ගය, අනුකූලතාව, අතිරික්තය, සම්පූර්ණත්වය, අනුපිටපත් කිරීම, ව්යාපාර නීතිවලට අනුකූල වීම, ව්යුහාත්මක නිශ්චිතභාවය, දත්ත විෂමතාව, පැහැදිලිකම, කාලෝචිත, දත්ත අඛණ්ඩතා රීති පිළිපැදීම. (පිටුව 334. තොරතුරු තාක්ෂණ වෘත්තිකයන් සඳහා දත්ත ගබඩා කිරීමේ මූලධර්ම / Paulraj Ponniah.-2nd ed.)
ඉංග්රීසි වචන සහ රුසියානු යන්ත්ර පරිවර්තනය වරහන් තුළ ඉදිරිපත් කර ඇත.
නිරවද්යතාව. දත්ත මූලද්රව්යයක් සඳහා පද්ධතියේ ගබඩා කර ඇති අගය දත්ත මූලද්රව්යයේ එම සිදුවීම සඳහා නිවැරදි අගය වේ. ඔබ සතුව පාරිභෝගික නාමයක් සහ ලිපිනයක් ලේඛනයක ගබඩා කර ඇත්නම්, එම නම සහිත පාරිභෝගිකයා සඳහා ලිපිනය නිවැරදි ලිපිනය වේ. ඇණවුම් අංක 1000 සඳහා වන වාර්තාවේ ඒකක 12345678ක් ලෙස ඇණවුම් කළ ප්රමාණය ඔබ සොයා ගන්නේ නම්, එම ප්රමාණය එම ඇණවුම සඳහා නිවැරදි ප්රමාණය වේ.
[නිරවද්යතාව. දත්ත මූලද්රව්යයක් සඳහා පද්ධතියේ ගබඩා කර ඇති අගය දත්ත මූලද්රව්යයේ එම සිදුවීම සඳහා නිවැරදි අගය වේ. ඔබට පාරිභෝගික නාමයක් සහ ලිපිනයක් ලේඛනයක ගබඩා කර ඇත්නම්, එම නම ඇති පාරිභෝගිකයා සඳහා ලිපිනය නිවැරදි ලිපිනය වේ. ඇණවුම් අංක 1000 සඳහා වන වාර්තාවේ ඒකක 12345678ක් ලෙස ඇණවුම් කළ ප්රමාණය ඔබ සොයා ගන්නේ නම්, එම ප්රමාණය එම ඇණවුමේ නියම ප්රමාණය වේ.]
වසම් අඛණ්ඩතාව. උපලක්ෂණයක දත්ත අගය අවසර ලත්, අර්ථ දක්වා ඇති අගයන් පරාසයට වැටේ. පොදු උදාහරණය වන්නේ ස්ත්රී පුරුෂ භාවය දත්ත මූලද්රව්ය සඳහා "පිරිමි" සහ "ගැහැණු" යන අවසර ලත් අගයන් වේ.
[වසම් අඛණ්ඩතාව. ගුණාංග දත්ත අගය වලංගු, අර්ථ දක්වා ඇති අගයන් පරාසය තුළට වැටේ. සාමාන්ය උදාහරණයක් වන්නේ ස්ත්රී පුරුෂ භාවය දත්ත මූලද්රව්යයක් සඳහා වලංගු අගයන් වන "පිරිමි" සහ "ගැහැණු" ය.]
දත්ත වර්ගය. දත්ත උපලක්ෂණයක් සඳහා වන අගය ඇත්ත වශයෙන්ම ගබඩා වන්නේ එම ගුණාංගය සඳහා අර්ථ දක්වා ඇති දත්ත වර්ගය ලෙසය. ගබඩා නාම ක්ෂේත්රයේ දත්ත වර්ගය “පෙළ” ලෙස අර්ථ දක්වා ඇති විට, එම ක්ෂේත්රයේ සියලුම අවස්ථා වල අඩංගු වන්නේ පාඨමය ආකෘතියෙන් පෙන්වන ගබඩා නාමය මිස සංඛ්යාත්මක කේත නොවේ.
[දත්ත වර්ගය. දත්ත ගුණාංගයක අගය ඇත්ත වශයෙන්ම ගබඩා කර ඇත්තේ එම ගුණාංගය සඳහා අර්ථ දක්වා ඇති දත්ත වර්ගය ලෙස ය. ගබඩා නාම ක්ෂේත්ර දත්ත වර්ගය "පෙළ" ලෙස අර්ථ දක්වා තිබේ නම්, මෙම ක්ෂේත්රයේ සියලුම අවස්ථාවන්හි සංඛ්යාත්මක කේත වලට වඩා පෙළ ආකෘතියෙන් සංදර්ශණය වන ගබඩා නාමය අඩංගු වේ.]
අනුකූලතාව. බහු මූලාශ්ර පද්ධති හරහා දත්ත ක්ෂේත්රයක ආකෘතිය සහ අන්තර්ගතය සමාන වේ. එක් පද්ධතියක නිෂ්පාදන ABC සඳහා නිෂ්පාදන කේතය 1234 නම්, සෑම මූලාශ්ර පද්ධතියකම මෙම නිෂ්පාදනය සඳහා කේතය 1234 වේ.
[අනුකූලත්වය. විවිධ මූලාශ්ර පද්ධතිවල දත්ත ක්ෂේත්රයේ ආකෘතිය සහ අන්තර්ගතය සමාන වේ. එක් පද්ධතියක නිෂ්පාදන ABC සඳහා නිෂ්පාදන කේතය 1234 නම්, එම නිෂ්පාදනය සඳහා කේතය එක් එක් මූලාශ්ර පද්ධතියේ 1234 වේ.]
අතිරික්තය. එකම දත්ත පද්ධතියක එක තැනකට වඩා ගබඩා නොකළ යුතුය. කාර්යක්ෂමතාවයේ හේතූන් මත, දත්ත මූලද්රව්යයක් හිතාමතාම පද්ධතියක එක් ස්ථානයකට වඩා ගබඩා කර තිබේ නම්, අතිරික්තය පැහැදිලිව හඳුනාගෙන සත්යාපනය කළ යුතුය.
[අතිරික්තය. එකම දත්ත පද්ධතියේ එක තැනකට වඩා ගබඩා නොකළ යුතුය. කාර්යක්ෂමතාවයේ හේතූන් මත, දත්ත මූලද්රව්යයක් හිතාමතාම පද්ධතියක ස්ථාන කිහිපයක ගබඩා කර ඇත්නම්, අතිරික්තය පැහැදිලිව නිර්වචනය කර සත්යාපනය කළ යුතුය.]
සම්පූර්ණත්වය. පද්ධතිය තුළ දී ඇති ගුණාංගයක් සඳහා අස්ථානගත වූ අගයන් නොමැත. උදාහරණයක් ලෙස, පාරිභෝගික ගොනුවක, සෑම පාරිභෝගිකයෙකු සඳහාම "රාජ්ය" ක්ෂේත්රය සඳහා වලංගු අගයක් තිබිය යුතුය. ඇණවුම් විස්තර සඳහා ගොනුවේ, ඇණවුමක් සඳහා සෑම විස්තර වාර්තාවක්ම සම්පූර්ණයෙන්ම පිරවිය යුතුය.
[සම්පූර්ණත්වය. මෙම ගුණාංගය සඳහා පද්ධතියේ නැතිවූ අගයන් නොමැත. උදාහරණයක් ලෙස, එක් එක් සේවාදායකයා සඳහා "තත්ත්වය" ක්ෂේත්රය සඳහා සේවාදායක ගොනුව වලංගු අගයක් තිබිය යුතුය. ඇණවුම් විස්තර ගොනුවේ, එක් එක් ඇණවුම් විස්තර වාර්තාව සම්පූර්ණයෙන්ම සම්පූර්ණ කළ යුතුය.]
අනුපිටපත් කිරීම. පද්ධතියක වාර්තා අනුපිටපත් කිරීම සම්පූර්ණයෙන්ම විසඳා ඇත. නිෂ්පාදන ගොනුවේ අනුපිටපත් වාර්තා ඇති බව දන්නේ නම්, එක් එක් නිෂ්පාදනය සඳහා සියලුම අනුපිටපත් වාර්තා හඳුනාගෙන හරස් යොමුවක් සාදනු ලැබේ.
[අනුපිටපත් කරන්න. පද්ධතියේ වාර්තා අනුපිටපත් කිරීම සම්පූර්ණයෙන්ම ඉවත් කර ඇත. නිෂ්පාදන ගොනුවක අනුපිටපත් ඇතුළත් කිරීම් ඇති බව දන්නේ නම්, එක් එක් නිෂ්පාදනය සඳහා සියලුම අනුපිටපත් ඇතුළත් කිරීම් හඳුනාගෙන හරස් යොමුවක් සාදනු ලැබේ.]
ව්යාපාර නීති වලට අනුකූල වීම. එක් එක් දත්ත අයිතමයේ අගයන් නියමිත ව්යාපාරික නීතිවලට අනුකූල වේ. වෙන්දේසි ක්රමයක් තුළ මිටිය හෝ විකුණුම් මිල සංචිත මිලට වඩා අඩු විය නොහැක. බැංකු ණය පද්ධතියක, ණය ශේෂය සෑම විටම ධනාත්මක හෝ ශුන්ය විය යුතුය.
[ව්යාපාර නීතිවලට අනුකූල වීම. එක් එක් දත්ත මූලද්රව්යයේ අගයන් ස්ථාපිත ව්යාපාරික නීතිවලට අනුකූල වේ. වෙන්දේසි ක්රමයක් තුළ මිටිය හෝ විකුණුම් මිල සංචිත මිලට වඩා අඩු විය නොහැක. බැංකු ණය පද්ධතියක, ණය ශේෂය සැමවිටම ධන හෝ ශුන්ය විය යුතුය.]
ව්යුහාත්මක නිශ්චිතභාවය. දත්ත අයිතමයක් ස්වභාවිකව තනි සංරචක වලට ව්යුහගත කළ හැකි ඕනෑම තැනක, අයිතමයේ මෙම මනාව අර්ථ දක්වා ඇති ව්යුහය අඩංගු විය යුතුය. නිදසුනක් වශයෙන්, පුද්ගලයෙකුගේ නම ස්වභාවිකවම මුල් නම, මැද මුල සහ අවසාන නම ලෙස බෙදී යයි. පුද්ගලයන්ගේ නම් සඳහා අගයන් මුල් නම, මැද මුල සහ අවසාන නම ලෙස ගබඩා කළ යුතුය. දත්ත ගුණාත්මක භාවයේ මෙම ලක්ෂණය ප්රමිති බලාත්මක කිරීම සරල කරන අතර නැතිවූ අගයන් අඩු කරයි.
[ව්යුහාත්මක සහතිකය. දත්ත මූලද්රව්යයක් ස්වභාවිකව තනි සංරචක වලට ව්යුහගත කළ හැකි විට, මූලද්රව්යයේ මෙම මනාව අර්ථ දක්වා ඇති ව්යුහය අඩංගු විය යුතුය. නිදසුනක් වශයෙන්, පුද්ගලයෙකුගේ නම ස්වභාවිකවම මුල් නම, මැද මුල සහ අවසාන නම ලෙස බෙදා ඇත. තනි නම් සඳහා අගයන් මුල් නම, මැද මුල සහ අවසාන නම ලෙස ගබඩා කළ යුතුය. මෙම දත්ත ගුණාත්මක ලක්ෂණය ප්රමිති යෙදීම සරල කරන අතර නැතිවූ අගයන් අඩු කරයි.]
දත්ත විෂමතාව. ක්ෂේත්රයක් භාවිතා කළ යුත්තේ එය අර්ථ දක්වා ඇති අරමුණ සඳහා පමණි. දිගු ලිපින සඳහා විය හැකි ඕනෑම තෙවන ලිපින පේළියක් සඳහා ලිපිනය-3 ක්ෂේත්රය අර්ථ දක්වා තිබේ නම්, මෙම ක්ෂේත්රය භාවිතා කළ යුත්තේ තුන්වන ලිපින පේළිය පටිගත කිරීම සඳහා පමණි. පාරිභෝගිකයා සඳහා දුරකථනයක් හෝ ෆැක්ස් අංකයක් ඇතුළත් කිරීම සඳහා එය භාවිතා නොකළ යුතුය.
[දත්ත විෂමතාව. ක්ෂේත්රයක් භාවිතා කළ යුත්තේ එය අර්ථ දක්වා ඇති අරමුණ සඳහා පමණි. දිගු ලිපින සඳහා හැකි ඕනෑම තෙවන ලිපින රේඛාවක් සඳහා Address-3 ක්ෂේත්රය අර්ථ දක්වා තිබේ නම්, මෙම ක්ෂේත්රය තෙවන ලිපින රේඛාව වාර්තා කිරීමට පමණක් භාවිතා කළ යුතුය. පාරිභෝගිකයෙකු සඳහා දුරකථන හෝ ෆැක්ස් අංකයක් ඇතුළත් කිරීමට එය භාවිතා නොකළ යුතුය.]
පැහැදිලිකම. දත්ත මූලද්රව්යයක ගුණාත්මක දත්තවල අනෙකුත් සියලුම ලක්ෂණ තිබිය හැකි නමුත් පරිශීලකයන් එහි අර්ථය පැහැදිලිව තේරුම් නොගන්නේ නම්, එම දත්ත මූලද්රව්ය පරිශීලකයින්ට වටිනාකමක් නැත. දත්ත මූලද්රව්ය පරිශීලකයින් විසින් හොඳින් අවබෝධ කර ගැනීමට නිසි නම් කිරීමේ සම්මුතීන් උපකාරී වේ.
[පැහැදිලි බව. දත්ත මූලද්රව්යයක හොඳ දත්තවල අනෙකුත් සියලුම ලක්ෂණ තිබිය හැක, නමුත් පරිශීලකයින් එහි තේරුම පැහැදිලිව තේරුම් නොගන්නේ නම්, දත්ත මූලද්රව්ය පරිශීලකයින්ට කිසිදු වටිනාකමක් නැත. නිවැරදි නම් කිරීමේ සම්මුතීන් පරිශීලකයන් විසින් දත්ත මූලද්රව්ය හොඳින් අවබෝධ කර ගැනීමට උපකාරී වේ.]
කාලෝචිතයි. පරිශීලකයන් දත්තවල කාලානුරූපතාව තීරණය කරයි. පරිශීලකයන් පාරිභෝගික මාන දත්ත එක් දිනකට වඩා පැරණි නොවිය යුතු යැයි අපේක්ෂා කරන්නේ නම්, මූලාශ්ර පද්ධතිවල පාරිභෝගික දත්තවල වෙනස්කම් දිනපතා දත්ත ගබඩාවට යෙදිය යුතුය.
[කාලෝචිත ආකාරයකින්. පරිශීලකයන් දත්තවල කාලානුරූපතාව තීරණය කරයි. පාරිභෝගික මාන දත්ත දිනකට වඩා පැරණි නොවන බව පරිශීලකයින් අපේක්ෂා කරන්නේ නම්, මූලාශ්ර පද්ධතිවල පාරිභෝගික දත්තවල වෙනස්කම් දිනපතා දත්ත ගබඩාවට යෙදිය යුතුය.]
ප්රයෝජනවත් බව. දත්ත ගබඩාවේ ඇති සෑම දත්ත මූලද්රව්යයක්ම පරිශීලකයන්ගේ එකතුවේ යම් අවශ්යතා සපුරාලිය යුතුය. දත්ත මූලද්රව්යයක් නිරවද්ය සහ උසස් තත්ත්වයේ විය හැක, නමුත් එය පරිශීලකයින්ට වටිනාකමක් නොමැති නම්, එම දත්ත මූලද්රව්ය දත්ත ගබඩාවේ තිබීම සම්පූර්ණයෙන්ම අනවශ්ය වේ.
[උපයෝගිතා. දත්ත ගබඩාවේ ඇති සෑම දත්ත අයිතමයක්ම පරිශීලක එකතුවේ සමහර අවශ්යතා සපුරාලිය යුතුය. දත්ත මූලද්රව්යයක් නිරවද්ය සහ උසස් තත්ත්වයේ විය හැකි නමුත් එය පරිශීලකයින්ට වටිනාකමක් ලබා නොදෙන්නේ නම්, එම දත්ත මූලද්රව්ය දත්ත ගබඩාවේ තිබීම අවශ්ය නොවේ.]
දත්ත අඛණ්ඩතා රීති පිළිපැදීම. මූලාශ්ර පද්ධතිවල සම්බන්ධතා දත්ත සමුදායේ ගබඩා කර ඇති දත්ත ආයතන අඛණ්ඩතාව සහ යොමු අඛණ්ඩතා රීතිවලට අනුකූල විය යුතුය. ප්රාථමික යතුර ලෙස ශුන්ය වීමට අවසර දෙන ඕනෑම වගුවකට ආයතන අඛණ්ඩතාව නොමැත. යොමු අඛණ්ඩතාව මාපිය-ළමා සබඳතා නිවැරදිව ස්ථාපිත කිරීමට බල කරයි. පාරිභෝගිකයාගෙන් ඇණවුමක සම්බන්ධතාවයකදී, දත්ත සමුදායේ සෑම ඇණවුමක් සඳහාම පරිශීලන අඛණ්ඩතාව පාරිභෝගිකයෙකුගේ පැවැත්ම සහතික කරයි.
[දත්ත අඛණ්ඩතා නීතිවලට අනුකූල වීම. මූලාශ්ර පද්ධතිවල සම්බන්ධතා දත්ත සමුදායන්හි ගබඩා කර ඇති දත්ත ආයතන අඛණ්ඩතාව සහ යොමු අඛණ්ඩතාව පිළිබඳ නීතිවලට අනුකූල විය යුතුය. ප්රාථමික යතුරක් ලෙස null ඉඩ දෙන ඕනෑම වගුවකට entity integrity නැත. යොමු අඛණ්ඩතාව දෙමාපියන් සහ දරුවන් අතර සම්බන්ධතාවය නිවැරදිව ස්ථාපිත කිරීමට බල කරයි. පාරිභෝගික-ඇණවුම් සම්බන්ධතාවයකදී, දත්ත සමුදායේ සෑම ඇණවුමක් සඳහාම පාරිභෝගිකයෙකු සිටින බව යොමු කිරීමේ අඛණ්ඩතාව සහතික කරයි.]
4. දත්ත පිරිසිදු කිරීමේ ගුණාත්මකභාවය
Bigdata හි දත්ත පිරිසිදු කිරීමේ ගුණාත්මක භාවය තරමක් ගැටළු සහගත ගැටළුවකි. කාර්යය සම්පූර්ණ කිරීමට අවශ්ය දත්ත පිරිසිදු කිරීමේ ප්රමාණයේ ප්රශ්නයට පිළිතුරු සැපයීම සෑම දත්ත විශ්ලේෂකයෙකුටම මූලික වේ. බොහෝ වර්තමාන ගැටළු වලදී, සෑම විශ්ලේෂකයෙකුම මෙය තමා විසින්ම තීරණය කරන අතර ඔහුගේ විසඳුමේදී මෙම අංගය ඇගයීමට පිටතින් සිටින කිසිවෙකුට නොහැකි වනු ඇත. නමුත් මෙම නඩුවේ කාර්යය සඳහා, නීතිමය දත්තවල විශ්වසනීයත්වය එකකට නැඹුරු විය යුතු බැවින්, මෙම ගැටළුව අතිශයින්ම වැදගත් විය.
මෙහෙයුම් විශ්වසනීයත්වය තීරණය කිරීම සඳහා මෘදුකාංග පරීක්ෂණ තාක්ෂණයන් සලකා බැලීම. අද මෙම ආකෘති වලට වඩා වැඩි ගණනක් තිබේ
. 6
පහත පරිදි සිතීම: “සොයාගත් දෝෂය මෙම ආකෘතියේ අසාර්ථක සිදුවීමට සමාන සිදුවීමක් නම්, t පරාමිතියේ ප්රතිසමයක් සොයා ගන්නේ කෙසේද?” මම පහත ආකෘතිය සම්පාදනය කළෙමි: එක් වාර්තාවක් පරීක්ෂා කිරීමට පරීක්ෂකයෙකුට ගතවන කාලය මිනිත්තු 1 ක් (ප්රශ්නගත දත්ත ගබඩාව සඳහා) යැයි සිතමු, එවිට සියලු දෝෂ සොයා ගැනීමට ඔහුට විනාඩි 365 ක් අවශ්ය වනු ඇත, එය ආසන්න වශයෙන් වසර 494 යි 3 කි. වැඩ කරන කාලය මාස. අපට වැටහෙන පරිදි, මෙය ඉතා විශාල වැඩ ප්රමාණයක් වන අතර මෙම දත්ත සමුදාය සම්පාදනය කරන්නාට දත්ත සමුදාය පරීක්ෂා කිරීමේ පිරිවැය තහනම් වනු ඇත. මෙම පරාවර්තනයේ දී, පිරිවැය පිළිබඳ ආර්ථික සංකල්පය දිස්වන අතර විශ්ලේෂණයෙන් පසුව මම මෙය තරමක් ඵලදායී මෙවලමක් බව නිගමනය කළෙමි. ආර්ථික විද්යාවේ නීතිය මත පදනම්ව: “සමාගමක උපරිම ලාභය ලබා ගන්නා නිෂ්පාදන පරිමාව (ඒකකවල) පිහිටා ඇත්තේ නව නිමැවුම් ඒකකයක් නිෂ්පාදනය කිරීමේ ආන්තික පිරිවැය මෙම සමාගමට ලැබිය හැකි මිල සමඟ සංසන්දනය කරන ස්ථානයේ ය. නව ඒකකයක් සඳහා." සෑම පසුකාලීන දෝෂයක්ම සොයා ගැනීම සඳහා වැඩි වැඩියෙන් වාර්තා පරීක්ෂා කිරීම අවශ්ය වේ යන උපකල්පනය මත පදනම්ව, මෙය පිරිවැය සාධකයකි. එනම්, පරීක්ෂණ ආකෘතිවල භාවිතා කරන උපකල්පනය පහත රටාවෙහි භෞතික අර්ථයක් ගනී: i-th දෝෂය සොයා ගැනීමට n වාර්තා පරීක්ෂා කිරීම අවශ්ය වූයේ නම්, ඊළඟ (i+3) දෝෂය සොයා ගැනීමට එය අවශ්ය වේ. m වාර්තා පරීක්ෂා කිරීමට සහ ඒ සමඟම n
- නව දෝෂයක් සොයා ගැනීමට පෙර පරීක්ෂා කළ වාර්තා ගණන ස්ථාවර වන විට;
- ඊළඟ දෝෂය සොයා ගැනීමට පෙර පරීක්ෂා කළ වාර්තා ගණන වැඩි වනු ඇත.
තීරනාත්මක අගය තීරණය කිරීම සඳහා, මම ආර්ථික ශක්යතා සංකල්පය වෙත යොමු වූ අතර, මෙම අවස්ථාවේ දී, සමාජ පිරිවැය සංකල්පය භාවිතා කරමින්, පහත පරිදි සකස් කළ හැකිය: "දෝෂය නිවැරදි කිරීමේ පිරිවැය දැරිය හැකි ආර්ථික නියෝජිතයා විසින් දැරිය යුතුය. එය අඩුම මිලට. ” අපට එක් නියෝජිතයෙක් සිටී - එක් වාර්තාවක් පරීක්ෂා කිරීමට මිනිත්තු 1ක් වැය කරන පරීක්ෂකයෙක්. මුදල් අනුව, ඔබ දිනකට රුබල් 6000 ක් උපයන්නේ නම්, මෙය රුබල් 12,2 කි. (ආසන්න වශයෙන් අද). ආර්ථික නීතියේ සමතුලිතතාවයේ දෙවන පැත්ත තීරණය කිරීමට එය ඉතිරිව ඇත. මම මෙසේ තර්ක කළෙමි. පවතින දෝෂයක් නිසා එය නිවැරදි කිරීමට අදාළ පුද්ගලයාට, එනම් දේපල හිමිකරුට උත්සාහයක් දැරීමට සිදුවේ. මෙය දින 1 ක ක්රියාවක් අවශ්ය යැයි කියමු (අයදුම්පතක් ඉදිරිපත් කරන්න, නිවැරදි කරන ලද ලේඛනයක් ලබා ගන්න). එවිට, සමාජීය දෘෂ්ටි කෝණයකින්, ඔහුගේ පිරිවැය දිනකට සාමාන්ය වැටුපට සමාන වනු ඇත. Khanty-Mansi Autonomous Okrug හි සාමාන්ය උපචිත වැටුප
3053,542: 12,2 = වාර්තා ඒකක 250,4.
මෙයින් අදහස් කරන්නේ, සමාජීය දෘෂ්ටි කෝණයකින්, පරීක්ෂකයෙකු වාර්තා 251 ක් පරීක්ෂා කර එක් දෝෂයක් සොයා ගත්තේ නම්, එය පරිශීලකයා විසින්ම මෙම දෝෂය නිවැරදි කිරීමට සමාන වේ. ඒ අනුව, පරීක්ෂකයා ඊළඟ දෝෂය සොයා ගැනීම සඳහා වාර්තා 252 ක් පරීක්ෂා කිරීමට සමාන කාලයක් ගත කළේ නම්, මෙම අවස්ථාවේ දී නිවැරදි කිරීමේ පිරිවැය පරිශීලකයාට මාරු කිරීම වඩා හොඳය.
සරල කළ ප්රවේශයක් මෙහි ඉදිරිපත් කර ඇත, මන්ද සමාජ දෘෂ්ටි කෝණයකින් එක් එක් විශේෂ ist යෙකු විසින් ජනනය කරන ලද සියලුම අමතර වටිනාකම් සැලකිල්ලට ගත යුතුය, එනම් බදු සහ සමාජ ගෙවීම් ඇතුළු පිරිවැය, නමුත් ආකෘතිය පැහැදිලිය. මෙම සම්බන්ධතාවයේ ප්රතිවිපාකයක් වන්නේ විශේෂඥයින් සඳහා පහත සඳහන් අවශ්යතාවයි: තොරතුරු තාක්ෂණ කර්මාන්තයේ විශේෂඥයෙකුට ජාතික සාමාන්යයට වඩා වැඩි වැටුපක් තිබිය යුතුය. ඔහුගේ වැටුප විභව දත්ත සමුදා භාවිතා කරන්නන්ගේ සාමාන්ය වැටුපට වඩා අඩු නම්, ඔහු විසින්ම සම්පූර්ණ දත්ත සමුදාය අතින් පරීක්ෂා කළ යුතුය.
විස්තර කරන ලද නිර්ණායකය භාවිතා කරන විට, දත්ත සමුදායේ ගුණාත්මකභාවය සඳහා පළමු අවශ්යතාව සෑදී ඇත:
I(tr). විවේචනාත්මක දෝෂ වල කොටස 1/250,4 = 0,39938% නොඉක්මවිය යුතුය. වඩා ටිකක් අඩුයි
ආර්ථික පසුබැසීම.
ඇත්ත වශයෙන්ම, වාර්තාවල එවැනි වැරදි ගණනාවක් සිදු කිරීමෙන්, සමාජය ආර්ථික පාඩු වලට එකඟ වන්නේ:
1459 * 3053,542 = 4 rubles.
මෙම වියදම් අඩු කිරීමට සමාජය සතුව මෙවලම් නොමැති බව මෙම මුදල තීරණය වේ. යමෙකුට දෝෂ සහිත වාර්තා ගණන අඩු කිරීමට ඉඩ සලසන තාක්ෂණයක් තිබේ නම්, උදාහරණයක් ලෙස, 259, එවිට මෙය සමාජයට සුරැකීමට ඉඩ සලසයි:
1200 * 3053,542 = 3 rubles.
නමුත් ඒ සමඟම, ඔහුට ඔහුගේ දක්ෂතා සහ වැඩ ඉල්ලා සිටිය හැකිය, හොඳයි, අපි කියමු - රූබල් මිලියනයක්.
එනම්, සමාජ පිරිවැය අඩු කරනු ලබන්නේ:
3 - 664 = 250 rubles.
සාරාංශයක් ලෙස, මෙම බලපෑම BigDat තාක්ෂණයන් භාවිතයෙන් එකතු කළ අගයයි.
නමුත් මෙහිදී මෙය සමාජීය බලපෑමක් බව සැලකිල්ලට ගත යුතු අතර, දත්ත ගබඩාවේ හිමිකරු නාගරික බලධාරීන් වන අතර, මෙම දත්ත ගබඩාවේ සටහන් කර ඇති දේපල භාවිතයෙන් ඔවුන්ගේ ආදායම 0,3% ක අනුපාතයකින්: රූබල් බිලියන 2,778 / අවුරුදු. තවද මෙම වියදම් (රූබල් 4) දේපල හිමිකරුවන්ට මාරු කරන බැවින් ඔහුට එතරම් කරදරයක් නොවේ. තවද, මෙම අංගය තුළ, Bigdata හි වඩාත් පිරිපහදු කිරීමේ තාක්ෂණයන් සංවර්ධකයාට මෙම දත්ත ගබඩාවේ හිමිකරුට ඒත්තු ගැන්වීමේ හැකියාව පෙන්වීමට සිදුවනු ඇති අතර, එවැනි දේවලට සැලකිය යුතු දක්ෂතා අවශ්ය වේ.
මෙම උදාහරණයේ දී, විශ්වසනීයත්වය පරීක්ෂා කිරීමේදී මෘදුකාංග සත්යාපනයේ Schumann ආකෘතිය [2] මත පදනම්ව දෝෂ තක්සේරු කිරීමේ ඇල්ගොරිතම තෝරා ගන්නා ලදී. අන්තර්ජාලයේ එහි පැතිරීම සහ අවශ්ය සංඛ්යාන දර්ශක ලබා ගැනීමේ හැකියාව හේතුවෙන්. ක්රමවේදය Monakhov Yu.M වෙතින් ලබාගෙන ඇත. “තොරතුරු පද්ධතිවල ක්රියාකාරී ස්ථාවරත්වය”, රූපයේ ස්පොයිලර් යටතේ බලන්න. 7-9.
සහල්. 7 - 9 Schumann ආකෘතියේ ක්රමවේදය
මෙම ද්රව්යයේ දෙවන කොටස දත්ත පිරිසිදු කිරීමේ උදාහරණයක් ඉදිරිපත් කරයි, Schumann ආකෘතිය භාවිතා කිරීමේ ප්රතිඵල ලබා ගනී.
ලබාගත් ප්රතිඵල ඉදිරිපත් කිරීමට මට ඉඩ දෙන්න:
ඇස්තමේන්තුගත දෝෂ ගණන N = 3167 n.
පරාමිතිය C, lambda සහ විශ්වාසනීය කාර්යය:
රූපය 17
අත්යවශ්යයෙන්ම, lambda යනු එක් එක් අදියරේදී දෝෂ අනාවරණය වන තීව්රතාවයේ සැබෑ දර්ශකයකි. ඔබ දෙවන කොටස දෙස බැලුවහොත්, මෙම දර්ශකය සඳහා ඇස්තමේන්තුව පැයකට දෝෂ 42,4 ක් වූ අතර එය Schumann දර්ශකයට බෙහෙවින් සැසඳිය හැකිය. ඉහත, මිනිත්තුවකට 1 වාර්තාවක් පරීක්ෂා කිරීමේදී, සංවර්ධකයෙකු දෝෂ සොයා ගන්නා වේගය වාර්තා 250,4කට 1 දෝෂයකට වඩා අඩු නොවිය යුතු බව තීරණය විය. එබැවින් Schumann ආකෘතිය සඳහා lambda හි තීරණාත්මක අගය:
60 / 250,4 = 0,239617.
එනම්, පවතින 38,964 සිට 0,239617 දක්වා අඩු වන තුරු ලැම්ඩා දෝෂ හඳුනාගැනීමේ ක්රියා පටිපාටි සිදු කිරීමේ අවශ්යතාවය සිදු කළ යුතුය.
නැතහොත් දර්ශකය N (දෝෂවල විභව සංඛ්යාව) අඩු n (නිවැරදි කරන ලද දෝෂ ගණන) අපගේ පිළිගත් සීමාවට වඩා අඩු වන තුරු - 1459 pcs.
සාහිත්යය
- Monakhov, Yu.M. තොරතුරු පද්ධතිවල ක්රියාකාරී ස්ථාවරත්වය. පැය 3 කින්. 1 කොටස. මෘදුකාංග විශ්වසනීයත්වය: පෙළ පොත. දීමනාව / යූ එම් මොනාකොව්; ව්ලැඩිම්. රජයේ විශ්ව විද්යාලය - ව්ලැඩිමීර්: ඉස්වෝ ව්ලැඩිම්. රජයේ විශ්ව විද්යාලය, 2011. - 60 පි. – ISBN 978-5-9984-0189-3.
- මාර්ටින් එල්. ෂූමන්, "මෘදුකාංග විශ්වසනීයත්වය අනාවැකි සඳහා සම්භාවිතා ආකෘති."
- තොරතුරු තාක්ෂණ වෘත්තිකයන් සඳහා දත්ත ගබඩා කිරීමේ මූලික කරුණු / Paulraj Ponniah.—2nd ed.
මූලාශ්රය: www.habr.com