Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy

1. Dastlabki ma'lumotlar

Ma'lumotlarni tozalash ma'lumotlarni tahlil qilish vazifalari oldida turgan muammolardan biridir. Ushbu material kadastr qiymatini shakllantirishda ma'lumotlar bazasini tahlil qilishning amaliy muammosini hal qilish natijasida yuzaga kelgan ishlanmalar va echimlarni aks ettirdi. Manbalar bu yerda "Xanti-Mansiysk avtonom okrugi - Ugra hududidagi barcha turdagi ko'chmas mulkni (er uchastkalaridan tashqari) davlat kadastrini baholash natijalari to'g'risida 01/OKS-2019-sonli HISOBOT".

"Qiyosiy model total.ods" fayli "Ilova B. KSni aniqlash natijalari 5. Kadastr qiymatini aniqlash usuli to'g'risida ma'lumot 5.1 Qiyosiy yondashuv" ko'rib chiqildi.

1-jadval. “Total.ods qiyosiy model” faylidagi ma’lumotlar to‘plamining statistik ko‘rsatkichlari.
Maydonlarning umumiy soni, dona. - 44
Yozuvlarning umumiy soni, dona. - 365 490
Belgilarning umumiy soni, dona. — 101 714 693
Yozuvdagi belgilarning o'rtacha soni, dona. - 278,297 XNUMX
Yozuvdagi belgilarning standart og'ishi, dona. - 15,510 XNUMX
Yozuvdagi belgilarning minimal soni, dona. - 198
Yozuvdagi belgilarning maksimal soni, dona. - 363

2. Kirish qismi. Asosiy standartlar

Ko'rsatilgan ma'lumotlar bazasini tahlil qilishda tozalash darajasiga qo'yiladigan talablarni belgilash vazifasi shakllantirildi, chunki hamma uchun tushunarli bo'lganidek, ushbu ma'lumotlar bazasi foydalanuvchilar uchun huquqiy va iqtisodiy oqibatlarni keltirib chiqaradi. Ish davomida ma'lum bo'lishicha, katta ma'lumotlarni tozalash darajasiga aniq talablar qo'yilmagan. Bu boradagi huquqiy normalarni tahlil qilib, ularning barchasi imkoniyatlardan shakllangan degan xulosaga keldim. Ya'ni, ma'lum bir vazifa paydo bo'ldi, topshiriq uchun ma'lumot manbalari tuziladi, so'ngra ma'lumotlar to'plami shakllanadi va yaratilgan ma'lumotlar to'plami asosida muammoni hal qilish uchun vositalar yaratiladi. Olingan echimlar muqobil variantlardan tanlashda mos yozuvlar nuqtasidir. Men buni 1-rasmda taqdim etdim.

Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy

Har qanday standartlarni aniqlashda tasdiqlangan texnologiyalarga tayanish afzalroq bo'lganligi sababli, men ushbu maqolada keltirilgan talablarni tanladim. "MHRA GxP ma'lumotlar yaxlitligi ta'riflari va sanoat uchun ko'rsatmalar", chunki men ushbu hujjatni ushbu masala uchun eng keng qamrovli deb hisobladim. Xususan, ushbu hujjatning bo'limida "Ma'lumotlarning yaxlitligi talablari qo'lda (qog'oz) va elektron ma'lumotlarga teng darajada qo'llanilishini ta'kidlash kerak". (tarjimasi: "...ma'lumotlarning yaxlitligi talablari qo'lda (qog'oz) va elektron ma'lumotlarga teng qo'llaniladi"). Ushbu formula Fuqarolik protsessual kodeksining 71-moddasi qoidalarida "yozma dalillar" tushunchasi bilan juda bog'liq. 70 CAS, 75-modda APC, "yozma ravishda" Art. 84 Fuqarolik protsessual kodeksi.

2-rasmda huquqshunoslikda axborot turlariga yondashuvlarni shakllantirish diagrammasi keltirilgan.

Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy
Guruch. 2. Manba shu yerda.

3-rasmda yuqoridagi "Yo'l-yo'riq" ning vazifalari uchun 1-rasmdagi mexanizm ko'rsatilgan. Taqqoslash orqali, axborot tizimlarining zamonaviy standartlarida axborotning yaxlitligi talablarini qondirishda foydalaniladigan yondashuvlar axborotning huquqiy tushunchasi bilan solishtirganda sezilarli darajada cheklanganligini ko'rish oson.

Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy
3-rasm

Ko'rsatilgan hujjatda (yo'riqnoma) texnik qismga ulanish, ma'lumotlarni qayta ishlash va saqlash imkoniyatlari 18.2-bobdagi iqtibos bilan yaxshi tasdiqlangan. Aloqaviy ma'lumotlar bazasi: "Ushbu fayl tuzilishi o'z-o'zidan xavfsizroqdir, chunki ma'lumotlar katta fayl formatida saqlanadi, bu ma'lumotlar va metama'lumotlar o'rtasidagi munosabatni saqlaydi."

Aslida, bu yondashuvda - mavjud texnik imkoniyatlardan g'ayritabiiy narsa yo'q va o'z-o'zidan bu tabiiy jarayon, chunki tushunchalarning kengayishi eng ko'p o'rganilgan faoliyat - ma'lumotlar bazasini loyihalashdan kelib chiqadi. Ammo, boshqa tomondan, mavjud tizimlarning texnik imkoniyatlariga chegirmalarni nazarda tutmaydigan huquqiy normalar paydo bo'ladi, masalan: GDPR - Umumiy ma'lumotlarni himoya qilish qoidalari.

Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy
Guruch. 4. Texnik imkoniyatlar hunisi (manba).

Ushbu jihatlardan ma'lum bo'ladiki, dastlabki ma'lumotlar to'plami (1-rasm) birinchi navbatda saqlanishi kerak, ikkinchidan, undan qo'shimcha ma'lumot olish uchun asos bo'lishi kerak. Misol tariqasida: yo'l harakati qoidalarini qayd qiluvchi kameralar hamma joyda mavjud, axborotni qayta ishlash tizimlari qoidabuzarlarni yo'q qiladi, ammo boshqa ma'lumotlarni boshqa iste'molchilarga ham taklif qilish mumkin, masalan, savdo markaziga mijozlar oqimining tuzilishini marketing monitoringi sifatida. Va bu BigDat-dan foydalanganda qo'shimcha qo'shimcha qiymat manbai. Hozir to'plangan ma'lumotlar to'plami kelajakda 1700 nodir nashrlari qiymatiga o'xshash mexanizm bo'yicha qiymatga ega bo'lishi mumkin. Axir, aslida, vaqtinchalik ma'lumotlar to'plamlari noyobdir va kelajakda takrorlanishi dargumon.

3. Kirish qismi. Baholash mezonlari

Qayta ishlash jarayonida xatolarning quyidagi tasnifi ishlab chiqildi.

1. Xato sinfi (GOST R 8.736-2011 asosida): a) tizimli xatolar; b) tasodifiy xatolar; c) qo'pol xato.

2. Ko'pligi bo'yicha: a) mono buzilish; b) ko'p buzilish.

3. Oqibatlarning tanqidiyligiga ko'ra: a) tanqidiy; b) tanqidiy emas.

4. Voqea manbai bo‘yicha:

A) Texnik - uskunaning ishlashi paytida yuzaga keladigan xatolar. IoT tizimlari, aloqa sifatiga sezilarli darajada ta'sir qiladigan tizimlar, uskunalar (apparat) uchun juda mos keladigan xato.

B) Operator xatolari - kiritish vaqtida operator xatolaridan tortib ma'lumotlar bazasini loyihalashda texnik tavsiflardagi xatolargacha bo'lgan keng diapazondagi xatolar.

C) Foydalanuvchi xatolari - bu erda "tartibni o'zgartirishni unutib qo'yish" dan oyoq uchun hisoblagichlarni xato qilishgacha bo'lgan barcha diapazondagi foydalanuvchi xatolari.

5. Alohida sinfga ajratilgan:

a) "ajratuvchining vazifasi", ya'ni bo'sh joy va ":" (bizning holimizda) u takrorlanganda;
b) birgalikda yozilgan so'zlar;
c) xizmat belgilaridan keyin bo'sh joy yo'q
d) simmetrik ko'p belgilar: (), "", "...".

5-rasmda keltirilgan ma'lumotlar bazasi xatolarini tizimlashtirish bilan birgalikda xatolarni qidirish va ushbu misol uchun ma'lumotlarni tozalash algoritmini ishlab chiqish uchun juda samarali koordinatalar tizimi shakllantiriladi.

Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy
Guruch. 5. Ma'lumotlar bazasining tarkibiy bo'linmalariga mos keladigan tipik xatolar (Manba: Oreshkov V.I., Paklin N.B. "Ma'lumotlarni birlashtirishning asosiy tushunchalari").

Aniqlik, domenning yaxlitligi, ma’lumotlar turi, izchillik, ortiqchalik, to‘liqlik, takrorlash, biznes qoidalariga muvofiqlik, tuzilmaviy aniqlik, ma’lumotlar anomaliyasi, ravshanlik, o‘z vaqtida, ma’lumotlar yaxlitligi qoidalariga rioya qilish. (334-sahifa. IT mutaxassislari uchun ma'lumotlarni saqlash asoslari / Paulraj Ponniah.—2-nashr.)

Qavs ichida inglizcha so'zlar va ruscha mashina tarjimasi taqdim etilgan.

Aniqlik. Ma'lumotlar elementi uchun tizimda saqlangan qiymat ma'lumotlar elementining paydo bo'lishi uchun to'g'ri qiymatdir. Agar sizda mijozning ismi va manzili yozuvda saqlangan bo'lsa, u holda manzil bu nomdagi mijoz uchun to'g'ri manzildir. Agar siz 1000-sonli buyurtma uchun yozuvda buyurtma qilingan miqdorni 12345678 birlik sifatida topsangiz, u holda bu miqdor ushbu buyurtma uchun aniq miqdordir.
[Aniqlik. Ma'lumotlar elementi uchun tizimda saqlangan qiymat ma'lumotlar elementining paydo bo'lishi uchun to'g'ri qiymatdir. Agar sizda mijozning ismi va manzili yozuvda saqlangan bo'lsa, u holda bu ismli mijoz uchun manzil to'g'ri manzildir. Agar siz 1000-sonli buyurtma uchun yozuvda buyurtma qilingan miqdorni 12345678 birlik sifatida topsangiz, u holda bu miqdor ushbu buyurtma uchun aniq miqdordir.]

Domen yaxlitligi. Atributning ma'lumotlar qiymati ruxsat etilgan, belgilangan qiymatlar oralig'iga to'g'ri keladi. Umumiy misol - bu jins ma'lumotlari elementi uchun ruxsat etilgan qiymatlar "erkak" va "ayol".
[Domenning yaxlitligi. Atribut ma'lumotlarining qiymati joriy, belgilangan qiymatlar oralig'iga to'g'ri keladi. Umumiy misol - gender ma'lumotlari elementi uchun "erkak" va "ayol" qiymatlari.]

Ma'lumotlar turi. Ma'lumotlar atributi qiymati aslida ushbu atribut uchun belgilangan ma'lumotlar turi sifatida saqlanadi. Do'kon nomi maydonining ma'lumotlar turi "matn" sifatida belgilangan bo'lsa, ushbu maydonning barcha nusxalari raqamli kodlarni emas, balki matn formatida ko'rsatilgan do'kon nomini o'z ichiga oladi.
[Ma'lumotlar turi. Ma'lumotlar atributining qiymati aslida ushbu atribut uchun belgilangan ma'lumotlar turi sifatida saqlanadi. Agar doʻkon nomi maydonining maʼlumotlar turi “matn” sifatida belgilangan boʻlsa, ushbu maydonning barcha misollarida raqamli kodlar emas, balki matn formatida koʻrsatilgan doʻkon nomi mavjud.]

Muvofiqlik. Ma'lumotlar maydonining shakli va mazmuni bir nechta manba tizimlarida bir xil. Agar bitta tizimdagi ABC mahsuloti uchun mahsulot kodi 1234 bo'lsa, har bir manba tizimida ushbu mahsulot uchun kod 1234 ga teng.
[Muvofiqlik. Ma'lumotlar maydonining shakli va mazmuni turli manba tizimlarida bir xil. Agar bitta tizimdagi ABC mahsuloti uchun mahsulot kodi 1234 bo'lsa, u holda har bir manba tizimida ushbu mahsulot uchun kod 1234 ga teng.]

Ortiqchalik. Xuddi shu ma'lumotlar tizimda bir nechta joyda saqlanmasligi kerak. Agar samaradorlik uchun ma'lumotlar elementi qasddan tizimda bir nechta joyda saqlangan bo'lsa, ortiqcha aniq belgilanishi va tekshirilishi kerak.
[Qo'shimcha. Xuddi shu ma'lumotlar tizimda bir nechta joyda saqlanmasligi kerak. Agar samaradorlik uchun ma'lumotlar elementi ataylab tizimning bir nechta joylarida saqlansa, ortiqchalik aniq belgilanishi va tekshirilishi kerak.]

To'liqlik. Tizimda berilgan atribut uchun etishmayotgan qiymatlar yo'q. Misol uchun, mijoz faylida har bir mijoz uchun "holat" maydoni uchun haqiqiy qiymat bo'lishi kerak. Buyurtma tafsilotlari faylida buyurtma uchun har bir tafsilot yozuvi to'liq to'ldirilishi kerak.
[To'liqlik. Ushbu atribut uchun tizimda etishmayotgan qiymatlar yo'q. Misol uchun, mijoz fayli har bir mijoz uchun "status" maydoni uchun haqiqiy qiymatga ega bo'lishi kerak. Buyurtma tafsilotlari faylida har bir buyurtma tafsilotlari yozuvi to'liq to'ldirilishi kerak.]

Takrorlash. Tizimdagi yozuvlarning takrorlanishi butunlay hal qilinadi. Agar mahsulot faylida takroriy yozuvlar mavjudligi ma'lum bo'lsa, u holda har bir mahsulot uchun barcha takroriy yozuvlar aniqlanadi va o'zaro mos yozuvlar yaratiladi.
[Dublikat. Tizimdagi yozuvlarning takrorlanishiga butunlay barham berildi. Agar mahsulot faylida takroriy yozuvlar borligi ma'lum bo'lsa, har bir mahsulot uchun barcha takroriy yozuvlar aniqlanadi va o'zaro havola yaratiladi.]

Biznes qoidalariga muvofiqligi. Har bir ma'lumot elementining qiymatlari belgilangan biznes qoidalariga mos keladi. Kim oshdi savdosi tizimida bolg'a yoki sotish narxi zahira narxidan past bo'lishi mumkin emas. Bank krediti tizimida kredit qoldig'i har doim ijobiy yoki nolga teng bo'lishi kerak.
[Tadbirkorlik qoidalariga rioya qilish. Har bir ma'lumot elementining qiymatlari belgilangan biznes qoidalariga mos keladi. Kim oshdi savdosi tizimida bolg'a yoki sotish narxi zahira narxidan past bo'lishi mumkin emas. Bank kredit tizimida kredit qoldig'i har doim ijobiy yoki nolga teng bo'lishi kerak.]

Strukturaviy aniqlik. Ma'lumotlar elementi tabiiy ravishda alohida komponentlarga tuzilishi mumkin bo'lgan joyda, ushbu element aniq belgilangan tuzilmani o'z ichiga olishi kerak. Masalan, shaxsning ismi tabiiy ravishda ism, otasining boshi va familiyasiga bo'linadi. Jismoniy shaxslarning ismlari uchun qiymatlar ism, otasining ismi va familiyasi sifatida saqlanishi kerak. Ma'lumotlar sifatining bu xususiyati standartlarga rioya qilishni soddalashtiradi va etishmayotgan qiymatlarni kamaytiradi.
[Tuzilish aniqligi. Ma'lumotlar elementi tabiiy ravishda alohida komponentlarga tuzilishi mumkin bo'lsa, element ushbu aniq belgilangan tuzilmani o'z ichiga olishi kerak. Masalan, odamning ismi tabiiy ravishda ism, otasining boshi va familiyasiga bo'linadi. Shaxsiy ismlar uchun qiymatlar ism, otasining ismi va familiyasi sifatida saqlanishi kerak. Ushbu ma'lumotlar sifati xarakteristikasi standartlarni qo'llashni soddalashtiradi va etishmayotgan qiymatlarni kamaytiradi.]

Ma'lumotlar anomaliyasi. Maydon faqat u belgilangan maqsad uchun ishlatilishi kerak. Agar Manzil-3 maydoni uzoq manzillar uchun mumkin bo'lgan har qanday uchinchi manzil qatori uchun aniqlangan bo'lsa, u holda bu maydon faqat manzilning uchinchi qatorini yozish uchun ishlatilishi kerak. Bu mijoz uchun telefon yoki faks raqamini kiritish uchun ishlatilmasligi kerak.
[Ma'lumotlar anomaliyasi. Maydon faqat u belgilangan maqsad uchun ishlatilishi kerak. Agar Manzil-3 maydoni uzoq manzillar uchun har qanday mumkin bo'lgan uchinchi manzil qatori uchun aniqlangan bo'lsa, bu maydon faqat uchinchi manzil qatorini yozish uchun ishlatiladi. Bu mijoz uchun telefon yoki faks raqamini kiritish uchun ishlatilmasligi kerak.]

Aniqlik. Ma'lumotlar elementi sifatli ma'lumotlarning boshqa barcha xususiyatlariga ega bo'lishi mumkin, ammo foydalanuvchilar uning ma'nosini aniq tushunmasalar, ma'lumotlar elementi foydalanuvchilar uchun hech qanday ahamiyatga ega emas. To'g'ri nomlash qoidalari ma'lumotlar elementlarini foydalanuvchilar tomonidan yaxshi tushunilishiga yordam beradi.
[Aniqlik. Ma'lumotlar elementi yaxshi ma'lumotlarning boshqa barcha xususiyatlariga ega bo'lishi mumkin, ammo foydalanuvchilar uning ma'nosini aniq tushunmasalar, u holda ma'lumotlar elementi foydalanuvchilar uchun hech qanday ahamiyatga ega emas. To'g'ri nomlash qoidalari ma'lumotlar elementlarini foydalanuvchilar tomonidan yaxshi tushunilishiga yordam beradi.]

O'z vaqtida. Foydalanuvchilar ma'lumotlarning dolzarbligini aniqlaydilar. Agar foydalanuvchilar mijoz o'lchovlari ma'lumotlarini bir kundan ortiq bo'lmasligini kutsalar, manba tizimlaridagi mijozlar ma'lumotlariga kiritilgan o'zgarishlar har kuni ma'lumotlar omboriga qo'llanilishi kerak.
[O'z vaqtida. Foydalanuvchilar ma'lumotlarning dolzarbligini aniqlaydilar. Agar foydalanuvchilar mijozlar o'lchamlari ma'lumotlarini bir kundan ortiq bo'lmasligini kutsalar, manba tizimlaridagi mijozlar ma'lumotlariga o'zgartirishlar har kuni ma'lumotlar omboriga qo'llanilishi kerak.]

Foydalilik. Ma'lumotlar omboridagi har bir ma'lumotlar elementi foydalanuvchilar to'plamining ba'zi talablariga javob berishi kerak. Ma'lumotlar elementi aniq va yuqori sifatli bo'lishi mumkin, lekin agar u foydalanuvchilar uchun hech qanday ahamiyatga ega bo'lmasa, u holda ushbu ma'lumotlar elementi ma'lumotlar omborida bo'lishi mutlaqo kerak emas.
[Qulaylik. Ma'lumotlar do'konidagi har bir ma'lumot elementi foydalanuvchi to'plamining ba'zi talablariga javob berishi kerak. Ma'lumotlar elementi aniq va yuqori sifatli bo'lishi mumkin, lekin agar u foydalanuvchilarga qiymat bermasa, u holda bu ma'lumotlar elementi ma'lumotlar omborida bo'lishi shart emas.]

Ma'lumotlar yaxlitligi qoidalariga rioya qilish. Manba tizimlarining relyatsion ma'lumotlar bazalarida saqlanadigan ma'lumotlar ob'ekt yaxlitligi va havola yaxlitligi qoidalariga rioya qilishi kerak. Birlamchi kalit sifatida null ga ruxsat beruvchi har qanday jadval ob'ekt yaxlitligiga ega emas. Yo'naltiruvchi yaxlitlik ota-ona va bola munosabatlarini to'g'ri o'rnatishga majbur qiladi. Buyurtmachi o'rtasidagi munosabatlarda ma'lumotlarning yaxlitligi ma'lumotlar bazasidagi har bir buyurtma uchun mijozning mavjudligini ta'minlaydi.
[Ma'lumotlar yaxlitligi qoidalariga rioya qilish. Manba tizimlarining relyatsion ma'lumotlar bazalarida saqlanadigan ma'lumotlar ob'ekt yaxlitligi va havola yaxlitligi qoidalariga mos kelishi kerak. Birlamchi kalit sifatida null ga ruxsat beruvchi har qanday jadval ob'ekt yaxlitligiga ega emas. Yo'naltiruvchi yaxlitlik ota-onalar va bolalar o'rtasidagi munosabatlarni to'g'ri o'rnatishga majbur qiladi. Mijoz-buyurtma munosabatlarida ma'lumotlarning yaxlitligi ma'lumotlar bazasidagi har bir buyurtma uchun mijoz mavjudligini ta'minlaydi.]

4. Ma'lumotlarni tozalash sifati

Bigdata-da ma'lumotlarni tozalash sifati juda muammoli masala. Vazifani bajarish uchun ma'lumotlarni qanday tozalash kerakligi haqidagi savolga javob berish har bir ma'lumot tahlilchisi uchun asosiy hisoblanadi. Ko'pgina dolzarb muammolarda har bir tahlilchi buni o'zi belgilaydi va uning yechimida bu jihatni tashqaridan hech kim baholay olmaydi. Ammo bu masalada vazifa uchun bu masala juda muhim edi, chunki huquqiy ma'lumotlarning ishonchliligi bitta bo'lishi kerak.

Operatsion ishonchliligini aniqlash uchun dasturiy ta'minotni sinovdan o'tkazish texnologiyalarini ko'rib chiqish. Bugungi kunda bunday modellar ko'proq 200. Ko'pgina modellar da'volarga xizmat ko'rsatish modelidan foydalanadi:

Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy
Shakl. 6

Quyidagicha o'ylab ko'ring: "Agar topilgan xato ushbu modeldagi nosozlik hodisasiga o'xshash hodisa bo'lsa, unda t parametrining analogini qanday topish mumkin?" Va men quyidagi modelni tuzdim: Tasavvur qilaylik, testerga bitta yozuvni tekshirish uchun 1 daqiqa kerak bo'ladi (ko'rib chiqilayotgan ma'lumotlar bazasi uchun), keyin barcha xatolarni topish uchun unga 365 494 daqiqa kerak bo'ladi, bu taxminan 3 yil va 3 yil. oylik ish vaqti. Biz tushunganimizdek, bu juda katta hajmdagi ish va ma'lumotlar bazasini tekshirish xarajatlari ushbu ma'lumotlar bazasini kompilyatori uchun taqiqlangan bo'ladi. Ushbu mulohazada xarajatlarning iqtisodiy kontseptsiyasi paydo bo'ladi va tahlildan so'ng men bu juda samarali vosita degan xulosaga keldim. Iqtisodiyot qonuniga asoslanib: “Firmaning maksimal foydasiga erishiladigan ishlab chiqarish hajmi (birliklarda) yangi mahsulot birligini ishlab chiqarish uchun marjinal xarajatlarni ushbu firma olishi mumkin bo'lgan narx bilan solishtiradigan nuqtada joylashgan. yangi birlik uchun." Har bir keyingi xatoni topish yozuvlarni ko'proq va ko'proq tekshirishni talab qiladigan postulatga asoslanib, bu xarajat omilidir. Ya'ni, test modellarida qabul qilingan postulat quyidagi shaklda fizik ma'noga ega bo'ladi: agar i-xatoni topish uchun n ta yozuvni tekshirish kerak bo'lsa, keyingi (i+1) xatoni topish uchun kerak bo'ladi. m yozuvlarni tekshirish va bir vaqtning o'zida n

  1. Yangi xato topilgunga qadar tekshirilgan yozuvlar soni barqarorlashganda;
  2. Keyingi xatoni topishdan oldin tekshirilgan yozuvlar soni ortadi.

Kritik qiymatni aniqlash uchun men iqtisodiy maqsadga muvofiqlik kontseptsiyasiga murojaat qildim, bu holda ijtimoiy xarajatlar kontseptsiyasidan foydalanib, quyidagi tarzda ifodalanishi mumkin: “Xatoni tuzatish xarajatlarini qila oladigan iqtisodiy agent to'lashi kerak. eng past narxda." Bizda bitta agent bor - bitta yozuvni tekshirish uchun 1 daqiqa vaqt sarflaydigan tester. Pul ko'rinishida, agar siz kuniga 6000 rubl ishlasangiz, bu 12,2 rublni tashkil qiladi. (taxminan bugun). Iqtisodiy huquqda muvozanatning ikkinchi tomonini aniqlash qoladi. Men shunday mulohaza yuritdim. Mavjud xatolik tegishli shaxsdan, ya'ni mulk egasidan uni tuzatish uchun kuch sarflashini talab qiladi. Aytaylik, bu 1 kunlik harakatni talab qiladi (ariza topshiring, tuzatilgan hujjatni oling). Keyin, ijtimoiy nuqtai nazardan, uning xarajatlari kuniga o'rtacha ish haqiga teng bo'ladi. Xanti-Mansi avtonom okrugida o'rtacha hisoblangan ish haqi "Xanti-Mansiysk avtonom okrugi - Ugraning 2019 yil yanvar-sentyabr oylaridagi ijtimoiy-iqtisodiy rivojlanishi natijalari" 73285 rub. yoki kuniga 3053,542 rubl. Shunga ko'ra, biz quyidagiga teng kritik qiymatni olamiz:
3053,542: 12,2 = 250,4 yozuvlar birligi.

Bu shuni anglatadiki, ijtimoiy nuqtai nazardan, agar tester 251 ta yozuvni tekshirsa va bitta xato topsa, bu foydalanuvchi ushbu xatoni o'zi tuzatganiga teng. Shunga ko'ra, agar tester keyingi xatoni topish uchun 252 ta yozuvni tekshirishga teng vaqt sarflagan bo'lsa, unda bu holda tuzatish narxini foydalanuvchiga o'tkazish yaxshiroqdir.

Bu erda soddalashtirilgan yondashuv taqdim etilgan, chunki ijtimoiy nuqtai nazardan har bir mutaxassis tomonidan ishlab chiqarilgan barcha qo'shimcha qiymatlarni, ya'ni soliqlar va ijtimoiy to'lovlarni o'z ichiga olgan xarajatlarni hisobga olish kerak, ammo model aniq. Ushbu munosabatlarning natijasi mutaxassislarga qo'yiladigan quyidagi talabdir: IT-sanoat mutaxassisi mamlakatdagi o'rtacha maoshdan yuqori maoshga ega bo'lishi kerak. Agar uning maoshi potentsial ma'lumotlar bazasi foydalanuvchilarining o'rtacha maoshidan kam bo'lsa, u o'zi butun ma'lumotlar bazasini qo'lda tekshirishi kerak.

Ta'riflangan mezondan foydalanganda ma'lumotlar bazasi sifatiga bo'lgan birinchi talab shakllanadi:
I(tr). Kritik xatolar ulushi 1/250,4 = 0,39938% dan oshmasligi kerak. dan bir oz kamroq tozalash sanoatda oltin. Va jismoniy nuqtai nazardan, xatolar bilan 1459 dan ortiq yozuvlar mavjud emas.

Iqtisodiy chekinish.

Aslida, yozuvlarda bunday qator xatolarga yo'l qo'ygan holda, jamiyat quyidagi miqdorda iqtisodiy yo'qotishlarga rozi bo'ladi:

1459*3053,542 = 4 455 118 rubl.

Bu miqdor jamiyatda ushbu xarajatlarni kamaytirish vositalariga ega emasligi bilan belgilanadi. Bundan kelib chiqadiki, agar kimdir xatoliklari bo'lgan yozuvlar sonini, masalan, 259 ga kamaytirishga imkon beradigan texnologiyaga ega bo'lsa, bu jamiyatga tejash imkonini beradi:
1200*3053,542 = 3 664 250 rubl.

Ammo shu bilan birga, u o'z iste'dodi va ishini so'rashi mumkin, aytaylik - 1 million rubl.
Ya'ni, ijtimoiy xarajatlar quyidagilar bilan kamayadi:

3 664 250 - 1 000 000 = 2 664 250 rubl.

Aslini olganda, bu ta'sir BigDat texnologiyalaridan foydalanishdan olingan qo'shimcha qiymatdir.

Ammo bu erda shuni hisobga olish kerakki, bu ijtimoiy ta'sir va ma'lumotlar bazasi egasi shahar hokimiyati bo'lib, ularning ushbu ma'lumotlar bazasida qayd etilgan mulkdan foydalanishdan olingan daromadlari 0,3% ni tashkil qiladi: 2,778 milliard rubl / yil. Va bu xarajatlar (4 455 118 rubl) uni ko'p bezovta qilmaydi, chunki ular mulk egalariga o'tkaziladi. Va bu jihatda, Bigdata-da yanada aniqroq texnologiyalarni ishlab chiquvchi ushbu ma'lumotlar bazasi egasini ishontirish qobiliyatini ko'rsatishi kerak va bunday narsalar katta iste'dodni talab qiladi.

Ushbu misolda xatolarni baholash algoritmi ishonchlilik sinovi paytida dasturiy ta'minotni tekshirishning Schumann modeli [2] asosida tanlangan. Internetda keng tarqalganligi va kerakli statistik ko'rsatkichlarni olish imkoniyati tufayli. Metodika Monaxov Yu.M.dan olingan. "Axborot tizimlarining funktsional barqarorligi", rasmdagi spoyler ostida qarang. 7-9.

Guruch. 7 – 9 Shuman modelining metodologiyasiRok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy

Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy

Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy

Ushbu materialning ikkinchi qismida ma'lumotlarni tozalash misoli keltirilgan, unda Schumann modelidan foydalanish natijalari olinadi.
Olingan natijalarni taqdim etaman:
Xatolarning taxminiy soni N = 3167 n.
Parametr C, lambda va ishonchlilik funksiyasi:

Rok, qog'oz, qaychi o'yini kabi ma'lumotlarni tozalang. Bu oxiri bor yoki tugamaydigan o'yinmi? 1-qism. Nazariy
17-rasm

Aslida, lambda har bir bosqichda xatolar aniqlangan intensivligining haqiqiy ko'rsatkichidir. Agar siz ikkinchi qismga qarasangiz, ushbu ko'rsatkich bo'yicha hisob-kitob soatiga 42,4 xatoni tashkil etdi, bu Schumann ko'rsatkichi bilan juda taqqoslanadi. Yuqorida, ishlab chiquvchining xatolarni topish tezligi daqiqada 1 ta yozuvni tekshirishda 250,4 yozuviga 1 xatodan kam bo'lmasligi kerakligi aniqlandi. Shumann modeli uchun lambdaning kritik qiymati shundan kelib chiqadi:

60 / 250,4 = 0,239617.

Ya'ni, xatolarni aniqlash tartib-qoidalarini bajarish zarurati lambda mavjud 38,964 dan 0,239617 gacha kamayguncha amalga oshirilishi kerak.

Yoki N ko'rsatkichi (potentsial xatolar soni) minus n (tuzatilgan xatolar soni) bizning qabul qilingan chegaramizdan pastga tushmaguncha - 1459 dona.

adabiyot

  1. Monaxov, Yu. M. Axborot tizimlarining funktsional barqarorligi. 3 soat ichida 1-qism.Dasturiy ta’minot ishonchliligi: darslik. nafaqa / Yu. M. Monaxov; Vladimir. davlat univ. - Vladimir: Izvo Vladimir. davlat Universitet, 2011. – 60 b. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Dasturiy ta'minot ishonchliligini bashorat qilish uchun ehtimollik modellari".
  3. IT mutaxassislari uchun ma'lumotlarni saqlash asoslari / Paulraj Ponniah.-2-nashr.

Ikkinchi qism. Nazariy

Manba: www.habr.com

a Izoh qo'shish