Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

1. Paunang datos

Ang paglilinis ng data ay isa sa mga hamon na kinakaharap ng mga gawain sa pagsusuri ng data. Ang materyal na ito ay sumasalamin sa mga pag-unlad at solusyon na lumitaw bilang isang resulta ng paglutas ng isang praktikal na problema ng pag-aaral ng database sa pagbuo ng kadastral na halaga. Mga mapagkukunan dito "REPORT No. 01/OKS-2019 sa mga resulta ng state cadastral valuation ng lahat ng uri ng real estate (maliban sa mga land plot) sa teritoryo ng Khanty-Mansiysk Autonomous Okrug - Ugra".

Ang file na "Comparative model total.ods" sa "Appendix B. Mga resulta ng pagtukoy ng KS 5. Ang impormasyon sa paraan ng pagtukoy ng kadastral na halaga 5.1 Comparative approach" ay isinasaalang-alang.

Talahanayan 1. Mga statistic na indicator ng dataset sa file na β€œComparative model total.ods”
Kabuuang bilang ng mga field, pcs. β€” 44
Kabuuang bilang ng mga tala, mga pcs. β€” 365 490
Kabuuang bilang ng mga character, mga pcs. β€” 101 714 693
Average na bilang ng mga character sa isang record, mga pcs. β€” 278,297
Standard deviation ng mga character sa isang record, pcs. β€” 15,510
Minimum na bilang ng mga character sa isang entry, mga pcs. β€” 198
Maximum na bilang ng mga character sa isang entry, mga pcs. β€” 363

2. Panimulang bahagi. Mga pangunahing pamantayan

Habang sinusuri ang tinukoy na database, isang gawain ang nabuo upang tukuyin ang mga kinakailangan para sa antas ng paglilinis, dahil, tulad ng malinaw sa lahat, ang tinukoy na database ay lumilikha ng mga legal at pang-ekonomiyang kahihinatnan para sa mga gumagamit. Sa panahon ng trabaho, lumabas na walang mga tiyak na kinakailangan para sa antas ng paglilinis ng malaking data. Pag-aaral ng mga legal na kaugalian sa bagay na ito, ako ay dumating sa konklusyon na silang lahat ay nabuo mula sa mga posibilidad. Iyon ay, lumitaw ang isang tiyak na gawain, ang mga mapagkukunan ng impormasyon ay pinagsama-sama para sa gawain, pagkatapos ay nabuo ang isang dataset at, batay sa nilikha na dataset, mga tool para sa paglutas ng problema. Ang mga resultang solusyon ay mga reference point sa pagpili mula sa mga alternatibo. Iniharap ko ito sa Figure 1.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

Dahil, sa usapin ng pagtukoy ng anumang mga pamantayan, mas mainam na umasa sa mga napatunayang teknolohiya, pinili ko ang mga kinakailangan na itinakda sa "Mga Depinisyon at Patnubay sa Integridad ng Data ng MHRA GxP para sa Industriya", dahil itinuturing kong pinakakomprehensibo ang dokumentong ito para sa isyung ito. Sa partikular, sa dokumentong ito ang seksyon ay nagsasabing "Dapat tandaan na ang mga kinakailangan sa integridad ng data ay nalalapat nang pantay-pantay sa manual (papel) at elektronikong data." (pagsasalin: β€œ...ang mga kinakailangan sa integridad ng data ay nalalapat nang pantay sa manwal (papel) at elektronikong data”). Ang pagbabalangkas na ito ay partikular na nauugnay sa konsepto ng "nakasulat na ebidensya", sa mga probisyon ng Artikulo 71 ng Kodigo ng Pamamaraang Sibil, Art. 70 CAS, Art. 75 APC, "sa pagsulat" Art. 84 Kodigo ng Pamamaraang Sibil.

Ang Figure 2 ay nagpapakita ng isang diagram ng pagbuo ng mga diskarte sa mga uri ng impormasyon sa jurisprudence.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
kanin. 2. Pinagmulan dito.

Ipinapakita ng Figure 3 ang mekanismo ng Figure 1, para sa mga gawain sa itaas na "Guidance". Madali, sa pamamagitan ng paggawa ng paghahambing, upang makita na ang mga diskarte na ginagamit kapag nakakatugon sa mga kinakailangan para sa integridad ng impormasyon sa mga modernong pamantayan para sa mga sistema ng impormasyon ay makabuluhang limitado sa paghahambing sa legal na konsepto ng impormasyon.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
Fig.3

Sa tinukoy na dokumento (Guidance), ang koneksyon sa teknikal na bahagi, mga kakayahan para sa pagproseso at pag-iimbak ng data, ay mahusay na nakumpirma ng isang quote mula sa Kabanata 18.2. Relational database: "Ang istraktura ng file na ito ay likas na mas secure, dahil ang data ay hawak sa isang malaking format ng file na nagpapanatili ng relasyon sa pagitan ng data at metadata."

Sa katunayan, sa diskarteng ito - mula sa umiiral na mga teknikal na kakayahan, walang abnormal at, sa sarili nito, ito ay isang natural na proseso, dahil ang pagpapalawak ng mga konsepto ay nagmumula sa pinaka pinag-aralan na aktibidad - disenyo ng database. Ngunit, sa kabilang banda, lumilitaw ang mga legal na kaugalian na hindi nagbibigay ng mga diskwento sa mga teknikal na kakayahan ng mga umiiral na sistema, halimbawa: GDPR - Pangkalahatang Regulasyon sa Proteksyon ng Data.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
kanin. 4. Funnel ng mga teknikal na kakayahan (Pinagmulan).

Sa mga aspetong ito, nagiging malinaw na ang orihinal na dataset (Fig. 1) ay kailangang, una sa lahat, ma-save, at pangalawa, maging batayan para sa pagkuha ng karagdagang impormasyon mula dito. Buweno, bilang isang halimbawa: ang mga camera na nagre-record ng mga patakaran sa trapiko ay nasa lahat ng dako, ang mga sistema ng pagpoproseso ng impormasyon ay nag-aalis ng mga lumalabag, ngunit ang iba pang impormasyon ay maaari ding ialok sa ibang mga mamimili, halimbawa, bilang pagsubaybay sa marketing ng istraktura ng daloy ng mga customer sa isang shopping center. At ito ay isang mapagkukunan ng karagdagang karagdagang halaga kapag gumagamit ng BigDat. Posible na ang mga dataset na kinokolekta ngayon, sa isang lugar sa hinaharap, ay magkakaroon ng halaga ayon sa isang mekanismo na katulad ng halaga ng mga bihirang edisyon ng 1700 sa kasalukuyang panahon. Pagkatapos ng lahat, sa katunayan, ang mga pansamantalang dataset ay natatangi at malamang na hindi mauulit sa hinaharap.

3. Panimulang bahagi. Pamantayan sa pagsusuri

Sa panahon ng proseso ng pagproseso, ang sumusunod na pag-uuri ng mga error ay binuo.

1. Error class (batay sa GOST R 8.736-2011): a) sistematikong mga error; b) mga random na pagkakamali; c) isang pagkakamali.

2. Sa pamamagitan ng multiplicity: a) mono distortion; b) maraming pagbaluktot.

3. Ayon sa pagiging kritikal ng mga kahihinatnan: a) kritikal; b) hindi kritikal.

4. Ayon sa pinagmulan ng paglitaw:

A) Teknikal - mga error na nangyayari sa panahon ng pagpapatakbo ng kagamitan. Isang medyo may-katuturang error para sa mga sistema ng IoT, mga system na may malaking antas ng impluwensya sa kalidad ng komunikasyon, kagamitan (hardware).

B) Mga error sa operator - mga error sa isang malawak na hanay mula sa mga typo ng operator sa panahon ng input hanggang sa mga error sa mga teknikal na detalye para sa disenyo ng database.

C) Mga error ng user - narito ang mga error ng user sa buong hanay mula sa "nakalimutang ilipat ang layout" hanggang sa mapagkakamalang metro ang paa.

5. Pinaghiwalay sa isang hiwalay na klase:

a) ang "gawain ng separator," iyon ay, ang espasyo at ":" (sa aming kaso) kapag ito ay nadoble;
b) mga salitang nakasulat nang magkasama;
c) walang puwang pagkatapos ng mga character ng serbisyo
d) simetriko maramihang mga simbolo: (), "", "...".

Pinagsama, kasama ang systematization ng mga error sa database na ipinakita sa Figure 5, isang medyo epektibong sistema ng coordinate ay nabuo para sa paghahanap ng mga error at pagbuo ng isang algorithm ng paglilinis ng data para sa halimbawang ito.

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
kanin. 5. Mga karaniwang error na nauugnay sa mga istrukturang yunit ng database (Pinagmulan: Oreshkov V.I., Paklin N.B. "Mga pangunahing konsepto ng pagsasama-sama ng data").

Katumpakan, Integridad ng Domain, Uri ng Data, Consistency, Redundancy, Completeness, Duplication, Pagsunod sa Mga Panuntunan ng Negosyo, Structural Definiteness, Anomaly ng Data, Clarity, Napapanahon, Pagsunod sa Mga Panuntunan sa Integrity ng Data. (Pahina 334. Data warehousing fundamentals para sa mga propesyonal sa IT / Paulraj Ponniah.β€”2nd ed.)

Itinanghal ang mga salitang Ingles at pagsasalin ng makina ng Russian sa mga bracket.

Katumpakan. Ang halagang nakaimbak sa system para sa isang elemento ng data ay ang tamang halaga para sa paglitaw ng elemento ng data. Kung mayroon kang pangalan ng customer at address na nakaimbak sa isang talaan, ang address ay ang tamang address para sa customer na may ganoong pangalan. Kung nakita mo ang dami na inorder bilang 1000 units sa record para sa order number 12345678, kung gayon ang dami na iyon ay ang tumpak na dami para sa order na iyon.
[Katumpakan. Ang halaga na nakaimbak sa system para sa isang elemento ng data ay ang tamang halaga para sa paglitaw ng elemento ng data. Kung mayroon kang pangalan ng customer at address na nakaimbak sa isang talaan, ang address ay ang tamang address para sa customer na may ganoong pangalan. Kung nakita mo ang dami na inorder bilang 1000 units sa record para sa order number 12345678, kung gayon ang dami na iyon ay ang eksaktong dami para sa order na iyon.]

Integridad ng Domain. Ang halaga ng data ng isang katangian ay nasa hanay ng mga pinapayagan at tinukoy na mga halaga. Ang karaniwang halimbawa ay ang mga pinahihintulutang halaga ay "lalaki" at "babae" para sa elemento ng data ng kasarian.
[Integridad ng Domain. Ang halaga ng data ng katangian ay nasa saklaw ng mga wastong, tinukoy na mga halaga. Ang isang pangkalahatang halimbawa ay ang mga wastong halaga na "lalaki" at "babae" para sa isang elemento ng data ng kasarian.]

Uri ng datos. Ang halaga para sa isang katangian ng data ay aktwal na iniimbak bilang uri ng data na tinukoy para sa katangiang iyon. Kapag ang uri ng data ng field ng pangalan ng tindahan ay tinukoy bilang "teksto," ang lahat ng mga pagkakataon ng field na iyon ay naglalaman ng pangalan ng tindahan na ipinapakita sa textual na format at hindi mga numeric na code.
[Uri ng datos. Ang halaga ng isang katangian ng data ay aktwal na nakaimbak bilang uri ng data na tinukoy para sa katangiang iyon. Kung ang uri ng data ng field ng pangalan ng tindahan ay tinukoy bilang "teksto", lahat ng mga pagkakataon ng field na ito ay naglalaman ng pangalan ng tindahan na ipinapakita sa format ng teksto sa halip na mga numerong code.]

Hindi pagbabago. Ang anyo at nilalaman ng isang field ng data ay pareho sa maraming source system. Kung ang code ng produkto para sa produktong ABC sa isang system ay 1234, kung gayon ang code para sa produktong ito ay 1234 sa bawat source system.
[Hindi pagbabago. Ang anyo at nilalaman ng field ng data ay pareho sa iba't ibang source system. Kung ang code ng produkto para sa produkto ABC sa isang system ay 1234, ang code para sa produktong iyon ay 1234 sa bawat source system.]

Redundancy. Ang parehong data ay hindi dapat na nakaimbak sa higit sa isang lugar sa isang system. Kung, para sa mga kadahilanan ng kahusayan, ang isang elemento ng data ay sadyang nakaimbak sa higit sa isang lugar sa isang system, dapat na malinaw na matukoy at ma-verify ang redundancy.
[Kalabisan. Ang parehong data ay hindi dapat na nakaimbak sa higit sa isang lugar sa system. Kung, para sa mga kadahilanan ng kahusayan, ang isang elemento ng data ay sadyang nakaimbak sa maraming lokasyon sa isang system, dapat na malinaw na tinukoy at na-verify ang redundancy.]

pagkakumpleto. Walang nawawalang mga halaga para sa isang naibigay na katangian sa system. Halimbawa, sa isang file ng customer, dapat mayroong wastong halaga para sa field na "estado" para sa bawat customer. Sa file para sa mga detalye ng order, dapat na ganap na mapunan ang bawat tala ng detalye para sa isang order.
[Pagkakumpleto. Walang nawawalang mga halaga sa system para sa katangiang ito. Halimbawa, ang file ng kliyente ay dapat may wastong halaga para sa field na "status" para sa bawat kliyente. Sa file ng detalye ng order, dapat ganap na makumpleto ang bawat talaan ng detalye ng order.]

Pagdoble. Ang pagdoble ng mga tala sa isang sistema ay ganap na nalutas. Kung ang file ng produkto ay kilala na may mga duplicate na tala, ang lahat ng mga duplicate na tala para sa bawat produkto ay makikilala at isang cross-reference na ginawa.
[Kopyahin. Ang pagdoble ng mga tala sa system ay ganap na tinanggal. Kung ang file ng produkto ay kilala na naglalaman ng mga duplicate na entry, ang lahat ng duplicate na entry para sa bawat produkto ay makikilala at isang cross-reference ang gagawin.]

Pagsunod sa Mga Panuntunan sa Negosyo. Ang mga halaga ng bawat item ng data ay sumusunod sa mga iniresetang panuntunan sa negosyo. Sa isang sistema ng auction, ang martilyo o presyo ng pagbebenta ay hindi maaaring mas mababa kaysa sa reserbang presyo. Sa isang sistema ng pautang sa bangko, ang balanse ng pautang ay dapat palaging positibo o zero.
[Pagsunod sa mga tuntunin ng negosyo. Ang mga halaga ng bawat elemento ng data ay sumusunod sa itinatag na mga panuntunan sa negosyo. Sa isang sistema ng auction, ang martilyo o presyo ng pagbebenta ay hindi maaaring mas mababa kaysa sa reserbang presyo. Sa isang banking credit system, ang balanse ng pautang ay dapat palaging positibo o zero.]

Structural Definiteness. Saanman ang isang item ng data ay maaaring natural na maiayos sa mga indibidwal na bahagi, ang item ay dapat maglaman ng mahusay na tinukoy na istraktura. Halimbawa, natural na nahahati ang pangalan ng isang indibidwal sa unang pangalan, gitnang inisyal, at apelyido. Ang mga halaga para sa mga pangalan ng mga indibidwal ay dapat na naka-imbak bilang unang pangalan, gitnang inisyal, at apelyido. Ang katangiang ito ng kalidad ng data ay nagpapasimple sa pagpapatupad ng mga pamantayan at binabawasan ang mga nawawalang halaga.
[Katiyakan sa Estruktura. Kung saan ang isang elemento ng data ay maaaring natural na maiayos sa mga indibidwal na bahagi, ang elemento ay dapat maglaman ng mahusay na tinukoy na istraktura. Halimbawa, ang pangalan ng isang tao ay natural na nahahati sa unang pangalan, gitnang inisyal, at apelyido. Ang mga halaga para sa mga indibidwal na pangalan ay dapat na naka-imbak bilang unang pangalan, gitnang inisyal, at apelyido. Pinapasimple ng katangian ng kalidad ng data na ito ang paggamit ng mga pamantayan at binabawasan ang mga nawawalang halaga.]

Anomalya ng Data. Dapat gamitin lamang ang isang field para sa layunin kung saan ito tinukoy. Kung ang field na Address-3 ay tinukoy para sa anumang posibleng ikatlong linya ng address para sa mahahabang address, ang field na ito ay dapat gamitin lamang para sa pagtatala ng ikatlong linya ng address. Hindi ito dapat gamitin para sa pagpasok ng numero ng telepono o fax para sa customer.
[Anomalya ng Data. Dapat lang gamitin ang isang field para sa layunin kung saan ito tinukoy. Kung ang Address-3 field ay tinukoy para sa anumang posibleng ikatlong linya ng address para sa mahahabang address, ang field na ito ay gagamitin lamang upang itala ang ikatlong linya ng address. Hindi ito dapat gamitin para maglagay ng numero ng telepono o fax para sa isang customer.]

Kalinawan. Ang isang elemento ng data ay maaaring nagtataglay ng lahat ng iba pang mga katangian ng kalidad ng data ngunit kung ang mga gumagamit ay hindi naiintindihan ang kahulugan nito nang malinaw, ang elemento ng data ay walang halaga sa mga gumagamit. Nakakatulong ang wastong mga kombensiyon sa pagbibigay ng pangalan upang maunawaan nang mabuti ng mga user ang mga elemento ng data.
[Kalinawan. Ang isang elemento ng data ay maaaring magkaroon ng lahat ng iba pang mga katangian ng mahusay na data, ngunit kung ang mga gumagamit ay hindi malinaw na nauunawaan ang kahulugan nito, kung gayon ang elemento ng data ay walang halaga sa mga gumagamit. Ang mga tamang kombensiyon sa pagbibigay ng pangalan ay nakakatulong na gawing lubos na nauunawaan ng mga user ang mga elemento ng data.]

Napapanahon. Tinutukoy ng mga user ang pagiging maagap ng data. Kung inaasahan ng mga user na hindi lalampas sa isang araw ang data ng dimensyon ng customer, ang mga pagbabago sa data ng customer sa mga source system ay dapat ilapat sa data warehouse araw-araw.
[Sa isang napapanahong paraan. Tinutukoy ng mga user ang pagiging maagap ng data. Kung inaasahan ng mga user na hindi hihigit sa isang araw ang data ng dimensyon ng customer, ang mga pagbabago sa data ng customer sa mga source system ay dapat ilapat sa data warehouse araw-araw.]

Kapakinabangan. Ang bawat elemento ng data sa data warehouse ay dapat matugunan ang ilang mga kinakailangan ng koleksyon ng mga user. Ang isang elemento ng data ay maaaring tumpak at may mataas na kalidad, ngunit kung ito ay walang halaga sa mga gumagamit, kung gayon ay ganap na hindi kailangan para sa elemento ng data na iyon na nasa data warehouse.
[Kagamitan. Ang bawat item ng data sa data store ay dapat matugunan ang ilang mga kinakailangan ng koleksyon ng user. Maaaring tumpak at may mataas na kalidad ang isang elemento ng data, ngunit kung hindi ito nagbibigay ng halaga sa mga user, hindi kinakailangan na ang elemento ng data na iyon ay nasa data warehouse.]

Pagsunod sa Mga Panuntunan sa Integridad ng Data. Ang data na nakaimbak sa mga relational database ng mga source system ay dapat sumunod sa integridad ng entidad at mga tuntunin sa integridad ng referential. Ang anumang talahanayan na nagpapahintulot sa null bilang pangunahing susi ay walang integridad ng entity. Pinipilit ng integridad ng sanggunian ang pagtatatag ng mga relasyon ng magulang-anak nang tama. Sa isang customer-to-order na relasyon, tinitiyak ng referential integrity ang pagkakaroon ng customer para sa bawat order sa database.
[Pagsunod sa mga panuntunan sa integridad ng data. Ang data na nakaimbak sa mga relational na database ng mga source system ay dapat sumunod sa mga tuntunin ng integridad ng entity at referential integrity. Anumang talahanayan na nagpapahintulot sa null bilang pangunahing susi ay walang integridad ng entity. Pinipilit ng integridad ng sanggunian ang relasyon sa pagitan ng mga magulang at mga anak na maitatag nang tama. Sa isang relasyon ng customer-order, tinitiyak ng integridad ng referential na mayroong customer para sa bawat order sa database.]

4. Kalidad ng paglilinis ng data

Ang kalidad ng paglilinis ng data ay medyo may problemang isyu sa bigdata. Ang pagsagot sa tanong kung anong antas ng paglilinis ng data ang kinakailangan upang makumpleto ang gawain ay mahalaga para sa bawat data analyst. Sa karamihan ng mga kasalukuyang problema, tinutukoy ito ng bawat analyst mismo at malamang na hindi masusuri ng sinuman mula sa labas ang aspetong ito sa kanyang solusyon. Ngunit para sa gawain sa kamay sa kasong ito, ang isyung ito ay napakahalaga, dahil ang pagiging maaasahan ng legal na data ay dapat na may posibilidad na isa.

Isinasaalang-alang ang mga teknolohiya sa pagsubok ng software upang matukoy ang pagiging maaasahan ng pagpapatakbo. Ngayon ay may higit pa sa mga modelong ito 200. Marami sa mga modelo ang gumagamit ng modelo ng pagseserbisyo ng claim:

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
Fig. 6

Pag-iisip tulad ng sumusunod: "Kung ang error na natagpuan ay isang kaganapan na katulad ng kaganapan ng pagkabigo sa modelong ito, kung gayon paano makahanap ng isang analogue ng parameter t?" At pinagsama-sama ko ang sumusunod na modelo: Isipin natin na ang oras na kinakailangan ng isang tester upang suriin ang isang rekord ay 1 minuto (para sa database na pinag-uusapan), pagkatapos ay upang mahanap ang lahat ng mga error na kakailanganin niya ng 365 minuto, na humigit-kumulang 494 taon at 3 buwan ng oras ng pagtatrabaho. Tulad ng naiintindihan namin, ito ay isang napakalaking halaga ng trabaho at ang mga gastos sa pagsuri sa database ay magiging mahigpit para sa compiler ng database na ito. Sa pagmumuni-muni na ito, lumilitaw ang pang-ekonomiyang konsepto ng mga gastos at pagkatapos ng pagsusuri ay dumating ako sa konklusyon na ito ay isang medyo epektibong tool. Batay sa batas ng ekonomiya: "Ang dami ng produksyon (sa mga yunit) kung saan ang pinakamataas na tubo ng isang kumpanya ay matatagpuan sa punto kung saan ang marginal na gastos sa paggawa ng isang bagong yunit ng output ay inihambing sa presyo na matatanggap ng kumpanyang ito. para sa bagong unit." Batay sa postulate na ang paghahanap ng bawat kasunod na error ay nangangailangan ng higit at higit pang pagsusuri ng mga talaan, ito ay isang cost factor. Iyon ay, ang postulate na pinagtibay sa mga modelo ng pagsubok ay tumatagal ng isang pisikal na kahulugan sa sumusunod na pattern: kung upang mahanap ang i-th error ay kinakailangan upang suriin ang n mga tala, pagkatapos ay upang mahanap ang susunod na (i+3) error ito ay kinakailangan upang suriin ang m mga tala at sa parehong oras n

  1. Kapag ang bilang ng mga talaang nasuri bago ang isang bagong error ay natagpuan ay nagpapatatag;
  2. Kapag ang bilang ng mga talaan na nasuri bago mahanap ang susunod na error ay tataas.

Upang matukoy ang kritikal na halaga, bumaling ako sa konsepto ng pagiging posible sa ekonomiya, na sa kasong ito, gamit ang konsepto ng mga gastos sa lipunan, ay maaaring mabuo tulad ng sumusunod: "Ang mga gastos sa pagwawasto ng pagkakamali ay dapat na pasanin ng ahente ng ekonomiya na maaaring gawin ito sa pinakamababang halaga." Mayroon kaming isang ahente - isang tester na gumugugol ng 1 minuto sa pagsuri sa isang record. Sa mga tuntunin sa pananalapi, kung kumikita ka ng 6000 rubles / araw, ito ay magiging 12,2 rubles. (humigit-kumulang ngayon). Ito ay nananatiling upang matukoy ang pangalawang bahagi ng ekwilibriyo sa batas pang-ekonomiya. Nagdahilan ako ng ganito. Ang isang umiiral na error ay mangangailangan sa taong kinauukulan na gumawa ng pagsisikap upang itama ito, iyon ay, ang may-ari ng ari-arian. Sabihin nating nangangailangan ito ng 1 araw ng pagkilos (magsumite ng aplikasyon, tumanggap ng naitama na dokumento). Pagkatapos, mula sa isang panlipunang pananaw, ang kanyang mga gastos ay magiging katumbas ng karaniwang suweldo bawat araw. Average na naipon na suweldo sa Khanty-Mansi Autonomous Okrug "Mga resulta ng socio-economic development ng Khanty-Mansiysk Autonomous Okrug - Ugra para sa Enero-Setyembre 2019" 73285 kuskusin. o 3053,542 rubles/araw. Alinsunod dito, nakakakuha kami ng kritikal na halaga na katumbas ng:
3053,542: 12,2 = 250,4 na unit ng mga talaan.

Nangangahulugan ito, mula sa isang panlipunang pananaw, kung ang isang tester ay nagsuri ng 251 na mga tala at nakakita ng isang error, ito ay katumbas ng gumagamit mismo na nag-aayos ng error na ito. Alinsunod dito, kung ang tester ay gumugol ng oras na katumbas ng pagsuri sa 252 na mga tala upang mahanap ang susunod na error, kung gayon sa kasong ito ay mas mahusay na ilipat ang halaga ng pagwawasto sa gumagamit.

Ang isang pinasimple na diskarte ay ipinakita dito, dahil mula sa isang panlipunang pananaw ay kinakailangang isaalang-alang ang lahat ng karagdagang halaga na nabuo ng bawat espesyalista, iyon ay, mga gastos kabilang ang mga buwis at mga pagbabayad sa lipunan, ngunit ang modelo ay malinaw. Ang kahihinatnan ng relasyong ito ay ang sumusunod na kinakailangan para sa mga espesyalista: ang isang espesyalista mula sa industriya ng IT ay dapat na may suweldo na mas malaki kaysa sa pambansang average. Kung ang kanyang suweldo ay mas mababa kaysa sa karaniwang suweldo ng mga potensyal na gumagamit ng database, siya mismo ay dapat suriin ang buong database ng kamay-sa-kamay.

Kapag ginagamit ang inilarawan na pamantayan, ang unang kinakailangan para sa kalidad ng database ay nabuo:
ako(tr). Ang bahagi ng mga kritikal na error ay hindi dapat lumampas sa 1/250,4 = 0,39938%. Medyo mas mababa sa pagdadalisay ginto sa industriya. At sa pisikal na termino ay hindi hihigit sa 1459 na talaan na may mga pagkakamali.

Pag-urong sa ekonomiya.

Sa katunayan, sa pamamagitan ng paggawa ng maraming pagkakamali sa mga talaan, sumasang-ayon ang lipunan sa mga pagkalugi sa ekonomiya sa halagang:

1459*3053,542 = 4 rubles.

Ang halagang ito ay tinutukoy ng katotohanan na ang lipunan ay walang mga tool upang mabawasan ang mga gastos na ito. Ito ay sumusunod na kung ang isang tao ay may teknolohiya na nagpapahintulot sa kanila na bawasan ang bilang ng mga talaan na may mga error sa, halimbawa, 259, kung gayon ito ay magpapahintulot sa lipunan na makatipid:
1200*3053,542 = 3 rubles.

Ngunit sa parehong oras, maaari niyang hilingin ang kanyang talento at trabaho, mabuti, sabihin nating - 1 milyong rubles.
Iyon ay, ang mga gastos sa lipunan ay binabawasan ng:

3 – 664 = 250 rubles.

Sa esensya, ang epektong ito ay ang karagdagang halaga mula sa paggamit ng mga teknolohiya ng BigDat.

Ngunit narito dapat itong isaalang-alang na ito ay isang epekto sa lipunan, at ang may-ari ng database ay mga awtoridad ng munisipyo, ang kanilang kita mula sa paggamit ng ari-arian na naitala sa database na ito, sa rate na 0,3%, ay: 2,778 bilyong rubles/ taon. At ang mga gastos na ito (4 rubles) ay hindi gaanong nakakaabala sa kanya, dahil inilipat sila sa mga may-ari ng ari-arian. At, sa aspetong ito, ang nag-develop ng higit pang mga teknolohiya sa pagpino sa Bigdata ay kailangang magpakita ng kakayahang kumbinsihin ang may-ari ng database na ito, at ang mga ganitong bagay ay nangangailangan ng malaking talento.

Sa halimbawang ito, pinili ang algorithm ng pagtatasa ng error batay sa modelong Schumann [2] ng pag-verify ng software sa panahon ng pagsubok sa pagiging maaasahan. Dahil sa pagkalat nito sa Internet at ang kakayahang makuha ang mga kinakailangang istatistikal na tagapagpahiwatig. Ang pamamaraan ay kinuha mula sa Monakhov Yu.M. "Functional na katatagan ng mga sistema ng impormasyon", tingnan sa ilalim ng spoiler sa Fig. 7-9.

kanin. 7 – 9 Pamamaraan ng modelong SchumannNililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal

Ang ikalawang bahagi ng materyal na ito ay nagpapakita ng isang halimbawa ng paglilinis ng data, kung saan nakuha ang mga resulta ng paggamit ng modelong Schumann.
Hayaan akong ipakita ang mga resultang nakuha:
Tinantyang bilang ng mga error N = 3167 n.
Parameter C, lambda at reliability function:

Nililinis ang data tulad ng Bato, Papel, Gunting. Ito ba ay isang laro na mayroon o walang pagtatapos? Bahagi 1. Teoretikal
Fig.17

Sa pangkalahatan, ang lambda ay isang aktwal na tagapagpahiwatig ng intensity kung saan ang mga error ay natukoy sa bawat yugto. Kung titingnan mo ang pangalawang bahagi, ang pagtatantya para sa tagapagpahiwatig na ito ay 42,4 na mga error bawat oras, na medyo maihahambing sa tagapagpahiwatig ng Schumann. Sa itaas, natukoy na ang rate kung saan nakahanap ng mga error ang isang developer ay hindi dapat mas mababa sa 1 error sa bawat 250,4 na tala, kapag tumitingin sa 1 record kada minuto. Samakatuwid ang kritikal na halaga ng lambda para sa modelong Schumann:

60 / 250,4 = 0,239617.

Iyon ay, ang pangangailangan na magsagawa ng mga pamamaraan ng pagtuklas ng error ay dapat isagawa hanggang sa ang lambda, mula sa umiiral na 38,964, ay bumaba sa 0,239617.

O hanggang sa bumaba ang indicator N (potensyal na bilang ng mga error) minus n (naiwastong bilang ng mga error) sa ibaba ng aming tinatanggap na threshold - 1459 na mga PC.

Panitikan

  1. Monakhov, Yu. M. Functional na katatagan ng mga sistema ng impormasyon. Sa loob ng 3 oras. Bahagi 1. Pagiging maaasahan ng software: aklat-aralin. allowance / Yu. M. Monakhov; Vladimir. estado univ. – Vladimir: Izvo Vladimir. estado Unibersidad, 2011. – 60 p. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Mga probabilistikong modelo para sa paghula ng pagiging maaasahan ng software."
  3. Mga batayan ng data warehousing para sa mga propesyonal sa IT / Paulraj Ponniah.β€”2nd ed.

Ikalawang bahagi. Teoretikal

Pinagmulan: www.habr.com

Magdagdag ng komento