Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

1. Paunang datos

Ang paglilinis ng datos ay isa sa mga hamong kinakaharap ng mga gawain sa pagsusuri ng datos. Inilalahad ng artikulong ito ang mga natuklasan at solusyon na lumitaw mula sa paglutas ng isang praktikal na problema ng pagsusuri ng database para sa pagkalkula ng kadastral na halaga. Ang mga source file ay makukuha rito. "ULAT Blg. 01/OKS-2019 sa mga resulta ng pagtatasa ng kadastral ng estado ng lahat ng uri ng real estate (maliban sa mga lote ng lupa) sa Khanty-Mansi Autonomous Okrug - Yugra".

Ang file na “Comparative model result.ods” ay sinuri sa “Appendix B. Results of determination KS 5. Information on the method for determination cadastral value 5.1 Comparative approach”.

Talahanayan 1. Mga istatistikal na tagapagpahiwatig ng dataset sa file na "Comparative model result.ods"
Kabuuang bilang ng mga patlang, mga piraso — 44
Kabuuang bilang ng mga talaan, mga piraso — 365,490
Kabuuang bilang ng mga karakter: 101,714,693
Karaniwang bilang ng mga karakter bawat post: 278,297
Standard deviation ng mga karakter sa isang record, mga piraso — 15,510
Minimum na bilang ng mga karakter bawat entry: 198
Pinakamataas na bilang ng mga karakter bawat entry: 363

2. Panimulang bahagi. Mga pangunahing pamantayan

Habang sinusuri ang database na ito, lumitaw ang gawain ng pagtukoy sa mga kinakailangan para sa antas ng paglilinis, dahil, gaya ng malinaw sa lahat, ang database na ito ay lumilikha ng mga legal at ekonomikong kahihinatnan para sa mga gumagamit. Sa proseso, naging malinaw na walang mga tiyak na kinakailangan para sa antas ng paglilinis ng malaking data ang naitatag. Sa pagsusuri ng mga legal na regulasyon sa isyung ito, napagpasyahan ko na lahat ng ito ay batay sa mga kakayahan. Iyon ay, isang partikular na gawain ang lumitaw, mga mapagkukunan ng impormasyon ang tinipon para sa gawaing ito, isang dataset ang nilikha, at, batay sa nilikhang dataset, mga tool para sa paglutas ng gawain ang binuo. Ang mga nagresultang solusyon ay nagsisilbing mga sanggunian para sa pagpili sa mga alternatibo. Ito ay ipinapakita sa Figure 1.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

Dahil, sa mga usapin ng pagtukoy ng anumang pamantayan, mas mainam na umasa sa mga napatunayang teknolohiya, pinili ko bilang batayan para sa pamantayan sa pagsusuri ang mga kinakailangan na nakasaad sa "Mga Kahulugan at Patnubay sa Integridad ng Datos ng MHRA GxP para sa Industriya", dahil itinuring kong ang dokumentong ito ang pinakakomprehensibo sa isyung ito. Partikular na nakasaad sa seksyon ng dokumentong ito, "Dapat tandaan na ang mga kinakailangan sa integridad ng datos ay pantay na naaangkop sa manu-manong (papel) at elektronikong datos." Ang mga salitang ito ay partikular na nauugnay sa konsepto ng "nakasulat na ebidensya" sa Artikulo 71 ng Kodigo ng Pamamaraang Sibil, Artikulo 70 ng Kodigo ng Pamamaraang Administratibo, Artikulo 75 ng Kodigo ng Pamamaraang Arbitrasyon, at "nakasulat na anyo" sa Artikulo 84 ng Kodigo ng Pamamaraang Sibil.

Ang Pigura 2 ay nagpapakita ng isang dayagram ng pagbuo ng mga pamamaraan sa mga uri ng impormasyon sa hurisprudensiya.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
Larawan 2. Pinagmulan dito.

Ipinapakita ng Figure 3 ang mekanismo sa Figure 1 para sa nabanggit na mga gawain na "Gabay". Sa pamamagitan ng paghahambing ng mga ito, madaling makita na ang mga pamamaraang ginagamit upang matugunan ang mga kinakailangan sa integridad ng impormasyon sa mga modernong regulasyon ng sistema ng impormasyon ay lubhang limitado kumpara sa legal na konsepto ng impormasyon.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
Fig.3

Sa dokumento (Gabay), ang kawing sa teknikal na bahagi, ang mga kakayahan para sa pagproseso at pag-iimbak ng datos, ay mahusay na pinatutunayan ng isang sipi mula sa Kabanata 18.2. Relational database: "Ang istrukturang ito ng file ay likas na mas ligtas, dahil ang datos ay nakaimbak sa isang malaking format ng file na nagpapanatili ng ugnayan sa pagitan ng datos at metadata."

Sa esensya, walang kakaiba sa pamamaraang ito—depende sa mga umiiral na teknikal na kakayahan—at ito ay isang natural na proseso, dahil ang paglawak ng mga konsepto ay nagmumula sa pinakapinag-aralang aktibidad: ang disenyo ng database. Gayunpaman, sa kabilang banda, umuusbong ang mga legal na pamantayan na hindi nagpapahintulot ng anumang pagpapahintulot para sa mga teknikal na kakayahan ng mga umiiral na sistema, halimbawa: GDPR - Pangkalahatang Regulasyon sa Proteksyon ng Datos.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
Larawan 4. Imbudo ng mga teknikal na kakayahan (Pinagmulan).

Sa mga aspetong ito, nagiging malinaw na ang unang dataset (Larawan 1) ay kailangang pangalagaan muna, at pangalawa ay magsilbing batayan para sa pagkuha ng karagdagang impormasyon mula rito. Halimbawa, ang mga traffic camera ay laganap, at sinasala ng mga sistema ng pagproseso ng impormasyon ang mga lumalabag. Gayunpaman, ang natitirang impormasyon ay maaari ring ialok sa ibang mga mamimili, halimbawa, para sa pagsubaybay sa marketing ng mga pattern ng daloy ng customer sa isang shopping mall. Ito ay isang mapagkukunan ng karagdagang dagdag na halaga kapag gumagamit ng Big Data. Posible na ang mga dataset na kinokolekta ngayon ay, sa hinaharap, magkakaroon ng halaga na katulad ng sa mga bihirang edisyon mula noong 1700s ngayon. Tutal, ang mga pansamantalang dataset ay mahalagang kakaiba at malamang na hindi na mauulit sa hinaharap.

3. Panimulang bahagi. Pamantayan sa pagsusuri

Sa proseso ng pagproseso, ang sumusunod na pag-uuri ng mga error ay binuo.

1. Klase ng error (batay sa GOST R 8.736-2011): a) sistematikong mga error; b) mga random na error; c) kabuuang error.

2. Sa pamamagitan ng multiplicity: a) monodistortion; b) multidistortion.

3. Sa pamamagitan ng pagiging kritikal ng mga kahihinatnan: a) kritikal; b) hindi kritikal.

4. Ayon sa pinagmulan:

A) Teknikal – mga error na nangyayari habang ginagamit ang kagamitan. Ito ay isang karaniwang error para sa mga sistema ng IoT, ang mga sistemang ito ay lubos na naapektuhan ng kalidad ng koneksyon at hardware.

B) Mga error ng operator – mga error na mula sa mga typo ng operator habang nag-input hanggang sa mga error sa mga teknikal na detalye para sa disenyo ng database.

B) Mga pagkakamali ng gumagamit – dito, ang mga pagkakamali ng gumagamit ay mula sa “pagkalimutang baguhin ang layout” hanggang sa pagkakamaling ang mga metro ay talampakan.

5. Nahahati sa isang hiwalay na klase:

a) "ang gawaing panghiwalay", ibig sabihin, ang espasyo at ":" (sa ating kaso) noong ito ay nadoble;
b) mga salitang isinulat nang magkakasama;
c) ang kawalan ng espasyo pagkatapos ng mga karakter ng serbisyo
d) simetrikal na maraming simbolo: (), "", "...".

Kung pagsasama-samahin, kasama ang sistematisasyon ng mga error sa database na ipinakita sa Figure 5, isang medyo epektibong sistema ng coordinate ang nabuo para sa paghahanap ng mga error at pagbuo ng isang algorithm sa paglilinis ng data para sa halimbawang ito.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
Larawan 5. Karaniwang mga error na naaayon sa mga yunit ng istruktura ng database (Pinagmulan: Oreshkov V.I., Paklin N.B. "Mga Pangunahing Konsepto ng Pagsasama-sama ng Data").

Katumpakan, Integridad ng Domain, Uri ng Datos, Pagkakapare-pareho, Kalabisan, Pagkakumpleto, Pagdoble, Pagsunod sa mga Panuntunan sa Negosyo, Katiyakan sa Istruktura, Anomalya ng Datos, Kalinawan, Napapanahon, Pagsunod sa mga Panuntunan sa Integridad ng Datos. (Pahina 334. Mga Pangunahing Kaalaman sa Pag-iimbak ng Datos para sa mga Propesyonal sa IT / Paulraj Ponniah.—Ika-2 edisyon.)

Nagpakita ng mga salitang Ingles at pagsasalin ng makina sa Ruso na nasa loob ng mga panaklong.

Katumpakan. Ang halagang nakaimbak sa sistema para sa isang elemento ng datos ay ang tamang halaga para sa paglitaw ng elemento ng datos. Kung mayroon kang pangalan ng kostumer at isang address na nakaimbak sa isang rekord, ang address ay ang tamang address para sa kostumer na may ganoong pangalan. Kung makikita mo ang dami na inorder bilang 1000 units sa rekord para sa numero ng order na 12345678, ang dami na iyon ang tumpak na dami para sa order na iyon.
[Katumpakan. Ang halagang nakaimbak sa sistema para sa isang item ng datos ay ang tamang halaga para sa paglitaw ng item ng datos. Kung mayroon kang pangalan at address ng customer na nakaimbak sa isang talaan, ang address ay ang tamang address para sa customer na may ganoong pangalan. Kung makakita ka ng dami na inorder bilang 1000 units sa isang talaan para sa order number na 12345678, ang dami na ito ang eksaktong dami para sa order na iyon.]

Integridad ng Domain. Ang halaga ng datos ng isang katangian ay nasa hanay ng mga pinapayagan at tinukoy na halaga. Ang karaniwang halimbawa ay ang mga pinapayagang halaga na "lalaki" at "babae" para sa elemento ng datos ng kasarian.
[Integridad ng Domain. Ang halaga ng datos ng katangian ay nasa loob ng isang hanay ng mga katanggap-tanggap at tinukoy na mga halaga. Ang isang karaniwang halimbawa ay ang mga katanggap-tanggap na halagang "lalaki" at "babae" para sa isang elemento ng datos ng kasarian.]

Uri ng Datos. Ang halaga para sa isang katangian ng datos ay aktwal na iniimbak bilang ang uri ng datos na tinukoy para sa katangiang iyon. Kapag ang uri ng datos ng patlang ng pangalan ng tindahan ay tinukoy bilang "teksto," lahat ng mga pagkakataon ng patlang na iyon ay naglalaman ng pangalan ng tindahan na ipinapakita sa format na teksto at hindi mga numerikal na code.
[Uri ng Datos. Ang halaga ng isang katangian ng datos ay aktwal na iniimbak bilang ang uri ng datos na tinukoy para sa katangiang iyon. Kung ang uri ng datos ng patlang ng pangalan ng tindahan ay tinukoy bilang "teksto," lahat ng mga pagkakataon ng patlang na iyon ay naglalaman ng pangalan ng tindahan na ipinapakita bilang teksto sa halip na bilang mga numeric code.]

Pagkakapare-pareho. Ang anyo at nilalaman ng isang data field ay pareho sa maraming source system. Kung ang product code para sa product ABC sa isang sistema ay 1234, ang code para sa produktong ito ay 1234 sa bawat source system.
[Pagkakapare-pareho. Ang anyo at nilalaman ng isang data field ay pareho sa iba't ibang source system. Kung ang product code para sa product ABC sa isang sistema ay 1234, ang code para sa produktong iyon ay 1234 sa bawat source system.]

Kalabisan. Ang parehong datos ay hindi dapat iimbak sa higit sa isang lugar sa isang sistema. Kung, para sa mga kadahilanan ng kahusayan, ang isang elemento ng datos ay sadyang iniimbak sa higit sa isang lugar sa isang sistema, ang kalabisan ay dapat na malinaw na matukoy at mapatunayan.
[Redundancy. Ang parehong datos ay hindi dapat iimbak sa higit sa isang lokasyon sa sistema. Kung, para sa mga kadahilanang pang-episyente, ang isang aytem ng datos ay sadyang iniimbak sa maraming lokasyon sa sistema, ang redundancy ay dapat na malinaw na tinukoy at beripikahin.]

Pagkakumpleto. Walang nawawalang mga halaga para sa isang partikular na katangian sa sistema. Halimbawa, sa isang file ng customer, dapat mayroong wastong halaga para sa patlang na "estado" para sa bawat customer. Sa file para sa mga detalye ng order, dapat na ganap na mapunan ang bawat talaan ng detalye para sa isang order.
[Pagkumpleto. Walang nawawalang halaga ang sistema para sa katangiang ito. Halimbawa, sa isang file ng customer, dapat mayroong wastong halaga para sa field na "status" para sa bawat customer. Sa isang file ng detalye ng order, dapat na kumpletong punan ang bawat talaan ng detalye ng order.]

Pagdoble. Ang pagdoble ng mga talaan sa isang sistema ay ganap na nareresolba. Kung ang product file ay alam na may mga duplicate na talaan, lahat ng duplicate na talaan para sa bawat produkto ay tutukuyin at gagawa ng cross-reference.
[Mga Duplikado. Ang mga duplikadong talaan sa sistema ay ganap na inaalis. Kung ang isang file ng produkto ay kilalang naglalaman ng mga duplikadong talaan, lahat ng mga duplikadong talaan para sa bawat produkto ay tinutukoy at isinasama sa mga cross-reference.]

Pagsunod sa mga Panuntunan sa Negosyo. Ang mga halaga ng bawat aytem ng datos ay sumusunod sa mga itinakdang tuntunin sa negosyo. Sa isang sistema ng subasta, ang presyo ng martilyo o pagbebenta ay hindi maaaring mas mababa sa presyong reserba. Sa isang sistema ng pautang sa bangko, ang balanse ng pautang ay dapat palaging positibo o zero.
[Pagsunod sa mga tuntunin ng negosyo. Ang mga halaga ng bawat elemento ng datos ay sumusunod sa mga itinatag na tuntunin ng negosyo. Sa isang sistema ng subasta, ang presyo ng martilyo o pagbebenta ay hindi maaaring mas mababa sa presyo ng reserba. Sa isang sistema ng kredito sa pagbabangko, ang balanse ng kredito ay dapat palaging positibo o zero.]

Katiyakan ng Istruktura. Kung saan ang isang aytem ng datos ay natural na maaaring buuin sa mga indibidwal na bahagi, ang aytem ay dapat maglaman ng mahusay na tinukoy na istrukturang ito. Halimbawa, ang pangalan ng isang indibidwal ay natural na nahahati sa unang pangalan, gitnang inisyal, at apelyido. Ang mga halaga para sa mga pangalan ng mga indibidwal ay dapat na nakaimbak bilang unang pangalan, gitnang inisyal, at apelyido. Ang katangiang ito ng kalidad ng datos ay nagpapadali sa pagpapatupad ng mga pamantayan at binabawasan ang mga nawawalang halaga.
[Kahulugan ng Istruktura. Kung saan ang isang elemento ng datos ay maaaring natural na maibalangkas sa magkakaibang bahagi, ang elemento ay dapat maglaman ng malinaw na tinukoy na istrukturang ito. Halimbawa, ang pangalan ng isang tao ay natural na nahahati sa unang pangalan, gitnang inisyal, at apelyido. Ang mga halaga para sa mga pangalan ng mga indibidwal ay dapat iimbak bilang mga unang pangalan, gitnang inisyal, at apelyido. Pinapasimple ng katangiang ito ng kalidad ng datos ang paglalapat ng mga pamantayan at binabawasan ang mga nawawalang halaga.]

Anomalya ng Datos. Ang isang field ay dapat gamitin lamang para sa layunin kung bakit ito tinukoy. Kung ang field na Address-3 ay tinukoy para sa anumang posibleng ikatlong linya ng address para sa mahahabang address, ang field na ito ay dapat gamitin lamang para sa pagtatala ng ikatlong linya ng address. Hindi ito dapat gamitin para sa paglalagay ng numero ng telepono o fax para sa customer.
[Anomalya ng Datos: Ang patlang na ito ay dapat gamitin lamang para sa layunin kung bakit ito tinukoy. Kung ang patlang na Address-3 ay tinukoy para sa anumang posibleng ikatlong linya ng address para sa mahahabang address, ang patlang na ito ay dapat gamitin lamang upang itala ang ikatlong linya ng address. Hindi ito dapat gamitin upang maglagay ng numero ng telepono o fax para sa customer.]

Kalinawan. Ang isang elemento ng datos ay maaaring magtaglay ng lahat ng iba pang katangian ng de-kalidad na datos ngunit kung hindi malinaw na nauunawaan ng mga gumagamit ang kahulugan nito, ang elemento ng datos ay walang halaga sa mga gumagamit. Ang wastong mga kombensiyon sa pagpapangalan ay nakakatulong upang lubos na maunawaan ng mga gumagamit ang mga elemento ng datos.
[Kalinawan. Ang isang elemento ng datos ay maaaring taglay ang lahat ng iba pang katangian ng mahusay na datos, ngunit kung hindi malinaw na nauunawaan ng mga gumagamit ang kahulugan nito, ang elemento ng datos ay walang halaga sa kanila. Ang wastong mga kombensiyon sa pagpapangalan ay nakakatulong upang madaling maunawaan ng mga gumagamit ang mga elemento ng datos.]

Napapanahon. Ang mga gumagamit ang nagtatakda ng pagiging napapanahon ng datos. Kung inaasahan ng mga gumagamit na ang datos ng dimensyon ng customer ay hindi lalampas sa isang araw, ang mga pagbabago sa datos ng customer sa mga source system ay dapat ilapat sa data warehouse araw-araw.
[Napapanahon. Tinutukoy ng mga gumagamit ang pagiging napapanahon ng datos. Kung inaasahan ng mga gumagamit na ang datos ng pagsukat ng customer ay hindi hihigit sa isang araw na ang tanda, ang mga pagbabago sa datos ng customer sa mga source system ay dapat ilapat sa data warehouse araw-araw.]

Kapakinabangan. Ang bawat elemento ng datos sa bodega ng datos ay dapat matugunan ang ilang mga kinakailangan ng koleksyon ng mga gumagamit. Ang isang elemento ng datos ay maaaring tumpak at may mataas na kalidad, ngunit kung ito ay walang halaga sa mga gumagamit, kung gayon ay ganap na hindi kinakailangan na ang elemento ng datos na iyon ay nasa bodega ng datos.
[Kapakinabangan. Ang bawat data item sa isang data warehouse ay dapat matugunan ang ilang mga kinakailangan sa pagkolekta ng gumagamit. Ang isang data item ay maaaring tumpak at may mataas na kalidad, ngunit kung wala itong ibinibigay na halaga sa mga gumagamit, walang dahilan para ang data item na iyon ay mapunta sa data warehouse.]

Pagsunod sa mga Panuntunan sa Integridad ng Datos. Ang datos na nakaimbak sa mga relational database ng mga source system ay dapat sumunod sa mga tuntunin ng entity integrity at referential integrity. Anumang talahanayan na nagpapahintulot sa null bilang pangunahing susi ay walang entity integrity. Pinipilit ng referential integrity ang wastong pagtatatag ng mga relasyong magulang-anak. Sa isang customer-to-order na relasyon, tinitiyak ng referential integrity ang pagkakaroon ng isang customer para sa bawat order sa database.
Pagpapanatili ng integridad ng datos. Ang datos na nakaimbak sa mga relational database ng mga source system ay dapat sumunod sa mga patakaran ng entity at referential integrity. Anumang talahanayan na nagpapahintulot ng null primary key ay kulang sa entity integrity. Tinitiyak ng referential integrity na ang mga relasyon ng magulang-anak ay wastong naitatag. Sa mga relasyon ng customer-order, tinitiyak ng referential integrity ang pagkakaroon ng isang customer para sa bawat order sa database.

4. Kalidad ng paglilinis ng datos

Ang kalidad ng paglilinis ng datos ay isang medyo mapanghamong isyu sa malaking datos. Ang pagtukoy sa antas ng paglilinis ng datos na kinakailangan para sa isang partikular na gawain ay isang mahalagang tanong para sa bawat data analyst. Sa karamihan ng mga kasalukuyang gawain, tinutukoy ito ng bawat analyst para sa kanilang sarili, at malamang na hindi masusuri ng isang tagalabas ang aspetong ito ng kanilang solusyon. Gayunpaman, para sa gawaing kinakaharap, ang tanong na ito ay mahalaga, dahil ang pagiging maaasahan ng legal na datos ay dapat na malapit sa isa.

Isinasaalang-alang ang mga teknolohiya sa pagsubok ng software para sa pagtukoy ng pagiging maaasahan sa pagpapatakbo. Mayroong mahigit 100 sa mga modelong ito ngayon. 200Marami sa mga modelo ang gumagamit ng modelong nakabatay sa kahilingan:

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
Fig. 6

Nangatuwiran ako nang ganito: "Kung ang isang natukoy na error ay isang pangyayaring kahalintulad ng isang pagkabigo sa modelong ito, paano ako makakahanap ng analog ng t parameter?" Binuo ko ang sumusunod na modelo: Isipin natin na ang oras na kailangan ng isang tester para masuri ang isang record ay 1 minuto (para sa database na pinag-uusapan). Pagkatapos, para mahanap ang lahat ng error, kakailanganin nila ng 365,494 minuto, na humigit-kumulang 3 taon at 3 buwan ng trabaho. Gaya ng pagkakaintindi natin, ito ay isang napakalaking dami ng trabaho, at ang mga gastos sa pagsuri sa database ay magiging napakalaki para sa lumikha ng database na ito. Sa pagninilay na ito, lumilitaw ang konsepto ng gastos sa ekonomiya, at pagkatapos ng pagsusuri, napagpasyahan ko na ito ay isang medyo epektibong tool. Batay sa batas ng ekonomiks: "Ang dami ng produksyon (sa mga yunit) kung saan nakakamit ng isang kumpanya ang pinakamataas na kita ay matatagpuan sa punto kung saan ang marginal cost ng paggawa ng isang bagong yunit ng output ay katumbas ng presyong matatanggap ng kumpanya para sa bawat bagong yunit." Batay sa postulate na ang paghahanap ng bawat kasunod na error ay nangangailangan ng mas maraming rekord na masuri, ito ang cost factor. Ibig sabihin, ang postulate na pinagtibay sa mga modelo ng pagsubok ay nagkakaroon ng pisikal na kahulugan sa sumusunod na pattern: kung upang mahanap ang ika-i na error ay kinakailangan na suriin ang n na talaan, kung gayon upang mahanap ang susunod na (i+1) na error ay kinakailangan nang suriin ang m na talaan at kasabay nito ay n

  1. Kapag ang bilang ng mga talaang sinuri bago matagpuan ang isang bagong error ay nagiging matatag;
  2. Kapag ang bilang ng mga talaang sinuri bago matagpuan ang susunod na error ay tataas.

Upang matukoy ang kritikal na halaga, bumaling ako sa konsepto ng kakayahang pang-ekonomiya, na sa kasong ito, gamit ang konsepto ng mga gastos sa lipunan, ay maaaring mabuo tulad ng sumusunod: "Ang mga gastos sa pagwawasto ng isang pagkakamali ay dapat pasanin ng ahente ng ekonomiya na makakagawa nito sa pinakamababang gastos." Mayroon tayong isang ahente - isang tagasubok na gumugugol ng 1 minuto sa pagsuri ng isang talaan. Sa mga tuntunin sa pananalapi, na may kita na 6000 rubles bawat araw, ito ay aabot sa 12,2 rubles (humigit-kumulang ngayon). Nananatiling matukoy ang pangalawang panig ng ekwilibriyo sa batas pang-ekonomiya. Nangatuwiran ako tulad ng sumusunod. Ang isang umiiral na pagkakamali ay mangangailangan ng apektado nito, iyon ay, ang may-ari ng ari-arian, na magsikap na itama ito. Ipagpalagay natin na nangangailangan ito ng 1 araw ng aksyon (pagsusumite ng aplikasyon, pagtanggap ng naitama na dokumento). Pagkatapos, mula sa isang panlipunang pananaw, ang kanyang mga gastos ay magiging katumbas ng average na pang-araw-araw na sahod. Ang average na naipon na sahod sa Khanty-Mansi Autonomous Okrug ni "Mga resulta ng sosyo-ekonomikong pag-unlad ng Khanty-Mansi Autonomous Okrug – Yugra para sa Enero–Setyembre 2019" 73285 rubles o 3053,542 rubles kada araw. Alinsunod dito, makakakuha tayo ng kritikal na halaga na katumbas ng:
3053,542: 12,2 = 250,4 na yunit ng mga talaan.

Nangangahulugan ito, mula sa pananaw ng lipunan, kung ang isang tagasubok ay sumuri ng 251 na talaan at nakakita ng isang error, katumbas ito ng pag-aayos mismo ng gumagamit ng error na iyon. Alinsunod dito, kung ang tagasubok ay gumugol ng parehong dami ng oras sa pagsusuri ng 252 na talaan upang mahanap ang susunod na error, ang gastos sa pag-aayos nito ay dapat ipasa sa gumagamit.

Pinasimple ang pamamaraang ito, dahil mula sa pananaw ng lipunan, kinakailangang isaalang-alang ang lahat ng karagdagang gastos na nalilikha ng bawat espesyalista, i.e., mga gastusin kabilang ang mga buwis at kontribusyon sa social security. Gayunpaman, malinaw ang modelo. Ang ugnayang ito ay humahantong sa sumusunod na kinakailangan para sa mga espesyalista: ang isang espesyalista sa IT ay dapat magkaroon ng suweldo na mas mataas kaysa sa pambansang average. Kung ang kanilang suweldo ay mas mababa kaysa sa karaniwang suweldo ng mga potensyal na gumagamit ng database, dapat nilang personal na i-audit ang buong database.

Kapag ginagamit ang inilarawang pamantayan, ang unang kinakailangan para sa kalidad ng database ay nabuo:
I(tr). Ang proporsyon ng mga kritikal na error ay hindi dapat lumagpas sa 1/250,4 = 0,39938%. Bahagyang mas mababa kaysa sa paglilinis ng pagpipino ginto sa industriya. At sa pisikal na aspeto, wala pang 1459 na entry na may mga error.

Pag-urong pang-ekonomiya.

Sa esensya, sa pamamagitan ng pagpapahintulot sa napakaraming pagkakamali sa mga talaan, sumasang-ayon ang lipunan sa mga pagkalugi sa ekonomiya na nagkakahalaga ng:

1459*3053,542 = 3,664,250 rubles.

Ang halagang ito ay natutukoy ng katotohanang ang lipunan ay kulang sa mga kagamitan upang mabawasan ang mga gastos na ito. Samakatuwid, kung ang isang tao ay bumuo ng isang teknolohiya na nagbabawas sa bilang ng mga talaan na may mga error sa, halimbawa, 259, pinapayagan nito ang lipunan na makatipid ng:
1200*3053,542 = 3,664,250 rubles.

Ngunit kasabay nito, maaari siyang humingi, sabihin na nating, ng 1 milyong rubles para sa kanyang talento at trabaho.
Ibig sabihin, ang mga gastos sa lipunan ay nababawasan ng:

3,664,250 – 1,000,000 = 2,664,250 rubles.

Sa esensya, ang epektong ito ay isang karagdagang halaga mula sa paggamit ng mga teknolohiya ng BigData.

Ngunit mahalagang isaalang-alang na ito ay isang epektong panlipunan, at ang may-ari ng database ay ang pamahalaang munisipal. Ang kanilang kita mula sa paggamit ng ari-arian na nakatala sa database na ito, sa 0,3% na rate ng interes, ay umaabot sa 2,778 bilyong rubles bawat taon. Ang mga gastos na ito (4,455,118 rubles) ay hindi partikular na nababahala sa kanila, dahil ang mga ito ay ipinapasa sa mga may-ari ng ari-arian. Samakatuwid, ang developer ng mas pinong mga teknolohiya sa BigData ay kailangang ipakita ang kanilang kakayahang kumbinsihin ang may-ari ng database, at ang mga ganitong bagay ay nangangailangan ng malaking talento.

Sa halimbawang ito, ang algorithm ng pagtatasa ng error ay pinili batay sa modelong Schumann [2] para sa pagsubok ng pagiging maaasahan ng software. Ginawa ito dahil sa malawakang paggamit nito sa network at sa kakayahang makuha ang mga kinakailangang istatistikal na tagapagpahiwatig. Ang metodolohiya ay kinuha mula sa "Functional Stability of Information Systems" ni Yu. M. Monakhov (tingnan ang spoiler sa Mga Larawan 7-9).

Larawan 7 – 9 Metodolohiya ng modelong SchumannNililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

Ang ikalawang bahagi ng materyal na ito ay nagpapakita ng isang halimbawa ng paglilinis ng datos kung saan nakuha ang mga resulta ng paggamit ng modelong Schumann.
Hayaan ninyong ipakita ko ang mga resultang nakuha:
Tinatayang bilang ng mga error N = 3167 shN.
Parameter C, lambda at tungkulin ng pagiging maaasahan:

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
Fig.17

Sa esensya, ang lambda ay isang aktwal na tagapagpahiwatig ng bilis ng pagtuklas ng mga error sa bawat yugto. Sa ikalawang bahagi, ang tinantyang lambda ay 42,4 na error kada oras, na halos maihahambing sa tagapagpahiwatig ng Schumann. Natukoy sa itaas na ang bilis ng pagtuklas ng error ng developer ay hindi dapat mas mababa sa 1 error kada 250,4 na tala, kung saan isang tala kada minuto ang sinusuri. Samakatuwid, ang kritikal na halaga ng lambda para sa modelo ng Schumann ay:

60 / 250,4 = 0,239617.

Iyon ay, ang pangangailangan na magsagawa ng mga pamamaraan ng pagtuklas ng error ay dapat isagawa hanggang sa ang lambda, mula sa umiiral na 38,964, ay bumaba sa 0,239617.

O hanggang sa ang tagapagpahiwatig na N (potensyal na bilang ng mga error) binawasan ng n (naitama na bilang ng mga error) ay bumaba sa ibaba ng threshold na ating ginamit – 1459 na mga piraso.

Panitikan

  1. Monakhov, Yu. M. Functional na katatagan ng mga sistema ng impormasyon. Sa 3 bahagi. Bahagi 1. Pagiging maaasahan ng software: aklat-aralin / Yu. M. Monakhov; Unibersidad ng estado ng Vladimir. – Vladimir: Izdvo Vladimir state university, 2011. – 60 p. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, “Mga modelong probabilistiko para sa paghula ng pagiging maaasahan ng software.”
  3. Mga Pangunahing Kaalaman sa Pag-iimbak ng Datos para sa mga Propesyonal sa IT / Paulraj Ponniah.—Ika-2 edisyon.

Ikalawang Bahagi. Teoretikal

Pinagmulan: www.habr.com

Bumili ng maaasahang pagho-host para sa mga site na may proteksyon ng DDoS, mga server ng VPS VDS 🔥 Bumili ng maaasahang website hosting na may proteksyon ng DDoS, VPS VDS servers | ProHoster