Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa

1. Hasierako datuak

Datuen garbiketa datuen analisi-lanek duten erronketako bat da. Material honek katastro-balioaren eraketan datu-basea aztertzeko arazo praktiko bat ebaztearen ondorioz sortutako garapenak eta irtenbideak islatzen zituen. Iturriak hemen "01/OKS-2019 TXOSTENA Khanty-Mansiysk - Ugra lurraldeko ondasun higiezinen mota guztietako (lursailak izan ezik) katastro-balorazioen emaitzei buruzkoa".

"B. Eranskina. KS zehazteko emaitzak 5. Balio katastrala zehazteko metodoari buruzko informazioa 5.1 Ikuspegi konparatiboa" izeneko fitxategia kontuan hartu zen.

1. taula. Datu-multzoaren adierazle estatistikoak "Konparazio eredua total.ods" fitxategian
Eremu kopurua guztira, pz. β€”44
Erregistro kopurua guztira, pz. - 365 490
Karaktere kopurua guztira, pcs. β€” 101 714 693
Erregistro bateko batez besteko karaktere kopurua, pcs. β€” 278,297
Erregistro bateko karaktereen desbideratze estandarra, pcs. β€” 15,510
Sarrera bateko gutxieneko karaktere kopurua, pcs. β€” 198
Sarrera bateko gehienezko karaktere kopurua, pcs. - 363

2. Sarrerako zatia. Oinarrizko estandarrak

Zehaztutako datu-basea aztertzean, arazketa-mailaren baldintzak zehazteko zeregina osatu zen, izan ere, denek argi dutenez, zehaztutako datu-baseak ondorio juridiko eta ekonomikoak sortzen ditu erabiltzaileentzat. Lanean zehar, datu handien garbiketa mailarako baldintza zehatzik ez zegoela ikusi zen. Gai honetako arau juridikoak aztertuta, guztiak aukeretatik eratuta daudela ondorioztatu nuen. Hau da, ataza jakin bat agertu da, atazarako informazio iturriak biltzen dira, ondoren datu-multzo bat eratzen da eta, sortutako datu-multzoan oinarrituta, arazoa konpontzeko tresnak. Sortzen diren soluzioak erreferenteak dira alternatiben artean aukeratzerakoan. Hau 1. irudian aurkeztu nuen.

Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa

Edozein estandar zehazteari dagokionez, frogatutako teknologietan fidatzea hobe denez, atalean ezarritako baldintzak aukeratu ditut. "MHRA GxP Datuen Osotasunaren Definizioak eta Industriarako Orientabideak", dokumentu hau gai honetarako osatuena kontsideratu nuelako. Bereziki, dokumentu honetan atalak dio: "Kontuan izan behar da datuen osotasun-eskakizunak eskuzko (paperezko) eta datu elektronikoei berdin aplikatzen zaizkiela". (itzulpena: β€œ...datuen osotasunaren eskakizunak eskuzko (paperezko) eta elektronikoko datuei berdin aplikatzen zaizkie”). Formulazio hori "froga idatzia" kontzeptuarekin nahiko zehatz lotzen da, Prozedura Zibilaren Kodeko 71. artikuluan, art. 70 CAS, APC 75. art., Β«idatzizΒ» Art. 84 Prozedura Zibilaren Kodea.

2. irudiak jurisprudentzian informazio moten planteamenduen eraketaren diagrama aurkezten du.

Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa
Arroza. 2. Iturria Hemen.

3. irudiak 1. irudiko mekanismoa erakusten du, goiko "Gidaibidea"ko zereginetarako. Erraza da, konparaketa bat eginez, informazio-sistemetarako estandar modernoetan informazioaren osotasunaren eskakizunak betetzeko erabiltzen diren planteamenduak nabarmen mugatzen direla informazio-kontzeptu juridikoarekin alderatuta.

Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa
3. irudia

Zehaztutako dokumentuan (Gida), zati teknikoarekiko konexioa, datuak prozesatzeko eta gordetzeko gaitasunak, 18.2 kapituluko aipamen batek ongi berresten du. Erlazio datu-basea: "Fitxategi-egitura hau berez seguruagoa da, datuak fitxategi formatu handi batean gordetzen baitira eta horrek datuen eta metadatuen arteko erlazioa gordetzen du".

Izan ere, ikuspegi honetan -dauden gaitasun teknikoetatik- ez dago ezer anormalik eta, berez, prozesu naturala da, kontzeptuen hedapena gehien aztertutako jardueratik -datu-baseen diseinutik- baitator. Baina, bestalde, lehendik dauden sistemen gaitasun teknikoetan beherapenik ematen ez duten arau juridikoak agertzen dira, adibidez: GDPR - Datuak Babesteko Erregelamendu Orokorra.

Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa
Arroza. 4. Gaitasun teknikoen inbutua (Iturria).

Alderdi horietan, argi geratzen da jatorrizko datu-multzoa (1. irudia) lehenik eta behin gorde beharko dela, eta, bigarrenik, bertatik informazio osagarria ateratzeko oinarria izan. Bada, adibide gisa: trafiko-arauak grabatzen dituzten kamerak nonahi daude, informazioa prozesatzeko sistemak urratzaileak kentzen ditu, baina beste kontsumitzaile batzuei ere eskain diezaieke beste informazio batzuk, adibidez, merkataritza-zentro batera bezeroen fluxuaren egituraren marketin-jarraipena bezala. Eta hau balio erantsi gehigarriaren iturria da BigDat erabiltzean. Litekeena da orain biltzen ari diren datu multzoek, nonbait, etorkizunean, egungo 1700eko edizio arraroen balioaren antzeko mekanismo baten araberako balioa izatea. Azken finean, izan ere, aldi baterako datu multzoak bakarrak dira eta etorkizunean nekez errepikatuko dira.

3. Sarrerako zatia. Ebaluazio-irizpideak

Prozesatzeko prozesuan, akatsen sailkapen hau garatu da.

1. Errore-klasea (GOST R 8.736-2011 oinarrituta): a) akats sistematikoak; b) ausazko akatsak; c) hutsegite bat.

2. Aniztasunaren arabera: a) distortsio mono; b) distortsio anitzekoa.

3. Ondorioen kritikotasunaren arabera: a) kritikoa; b) ez da kritikoa.

4. Gertaera iturriaren arabera:

A) Teknikoa: ekipamenduaren funtzionamenduan gertatzen diren akatsak. Akats nahiko garrantzitsua IoT sistemetarako, komunikazioaren kalitatean eragin handia duten sistemetarako, ekipoetarako (hardwarea).

B) Eragileen akatsak - akatsak askotariko akatsak, sarreran zehar operadorearen akatsetatik hasita datu-basearen diseinurako zehaztapen teknikoen akatsetaraino.

C) Erabiltzaileen akatsak - hona hemen erabiltzailearen akatsak sorta osoan, "diseinua aldatzea ahaztu zitzaidanetik" metroak oinekin nahastea.

5. Aparteko klase batean banatuta:

a) β€œbereiztzailearen zeregina”, hau da, espazioa eta β€œ:” (gure kasuan) bikoiztu zenean;
b) elkarrekin idatzitako hitzak;
c) ez dago zuriunerik zerbitzu karaktereen ondoren
d) simetrikoki hainbat sinbolo: (), "", "...".

Batera hartuta, 5. irudian aurkezten den datu-baseen erroreen sistematizazioarekin, koordenatu-sistema nahiko eraginkorra eratzen da akatsak bilatzeko eta adibide honetarako datuak garbitzeko algoritmo bat garatzeko.

Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa
Arroza. 5. Datu-basearen egitura-unitateei dagozkien errore tipikoak (Iturria: Oreshkov V.I., Paklin N.B. "Datuak finkatzeko funtsezko kontzeptuak").

Zehaztasuna, domeinuaren osotasuna, datu mota, koherentzia, erredundantzia, osotasuna, bikoizketa, negozio-arauekiko adostasuna, egitura-definizioa, datu-anomalia, argitasuna, puntuala, datuen osotasun-arauekiko atxikimendua. (334. orrialdea. Informatikako profesionalentzako datuen biltegiaren oinarriak / Paulraj Ponniah.β€”2. arg.)

Ingelesezko hitza eta errusierazko itzulpen automatikoa parentesi artean aurkeztu dira.

Zehaztasuna. Datu-elementu baterako sisteman gordetako balioa datu-elementuaren agerraldi horretarako balio egokia da. Erregistro batean bezeroaren izena eta helbide bat gordeta badituzu, helbidea izen hori duen bezeroaren helbide zuzena da. 1000 eskaera-zenbakiaren erregistroan 12345678 unitate gisa eskatutako kantitatea aurkitzen baduzu, kantitate hori eskaera horren kantitate zehatza da.
[Zehaztasuna. Datu-elementu baterako sisteman gordetako balioa datu-elementuaren agerraldi horren balio zuzena da. Erregistro batean bezeroaren izena eta helbidea gordeta badituzu, helbidea izen hori duen bezeroaren helbide zuzena da. 1000 eskaera-zenbakiaren erregistroan 12345678 unitate gisa eskatutako kantitatea aurkitzen baduzu, kantitate hori eskaera horren kopuru zehatza da.]

Domeinuaren Osotasuna. Atributu baten datu-balioa onartutako eta definitutako balioen barrutian sartzen da. Adibide arrunta genero datu-elementurako "gizonezkoa" eta "emakumezkoa" diren balio onargarriak dira.
[Domeinuaren osotasuna. Atributuaren datuen balioa baliozko eta definitutako balioen barrutian sartzen da. Adibide orokor bat genero datu-elementu baterako "gizonezkoa" eta "emakumezkoa" baliozko balioak dira.]

Datu mota. Datu-atributu baten balioa benetan atributu horretarako definitutako datu-mota gisa gordetzen da. Denda-izena eremuko datu-mota "testua" gisa definitzen denean, eremu horretako instantzia guztiek testu-formatuan agertzen den denda-izena dute eta ez zenbakizko kodeak.
[Datu mota. Datu-atributu baten balioa benetan atributu horretarako definitutako datu-mota gisa gordetzen da. Denda-izena eremuko datu-mota "testua" gisa definitzen bada, eremu honetako instantzia guztiek testu-formatuan bistaratzen den denda-izena dute zenbakizko kodeak baino gehiago.]

Koherentzia. Datu-eremu baten forma eta edukia berdinak dira hainbat iturri-sistematan. Sistema batean ABC produktuaren produktuaren kodea 1234 bada, produktu honen kodea 1234 da iturburu-sistema guztietan.
[Koherentzia. Datu-eremuaren forma eta edukia berdinak dira iturburu-sistema desberdinetan. Sistema batean ABC produktuaren produktuaren kodea 1234 bada, produktu horren kodea 1234 da iturburu-sistema bakoitzean.]

Erredundantzia. Datu berdinak ezin dira sistema bateko leku batean baino gehiagotan gorde. Eraginkortasun arrazoiengatik, datu-elementu bat nahita sistema bateko leku batean baino gehiagotan gordetzen bada, orduan erredundantzia argi identifikatu eta egiaztatu beharko da.
[Erredundantzia. Datu berdinak ez dira sistemako leku batean baino gehiagotan gorde behar. Eraginkortasun arrazoiengatik, datu-elementu bat nahita sistema bateko hainbat tokitan gordetzen bada, orduan erredundantzia argi definitu eta egiaztatu beharko da.]

Osotasuna. Ez dago sisteman atributu jakin baterako baliorik falta. Adibidez, bezeroaren fitxategi batean, bezero bakoitzarentzat "egoera" eremurako baliozko balio bat egon behar da. Eskaeraren xehetasunen fitxategian, eskaera baten xehetasun-erregistro guztiak guztiz bete behar dira.
[Osotasuna. Sisteman ez dago atributu honen baliorik falta. Adibidez, bezeroaren fitxategiak balio baliodun bat izan behar du bezero bakoitzaren "egoera" eremurako. Eskaeraren xehetasunen fitxategian, eskaeraren xehetasunen erregistro bakoitza guztiz bete behar da.]

Bikoizketa. Sistema batean erregistroen bikoizketa erabat konpondu da. Produktu-fitxategiak erregistro bikoiztuak dituela ezagutzen bada, produktu bakoitzaren erregistro bikoiztu guztiak identifikatu eta erreferentzia gurutzatua sortzen da.
[Bikoiztu. Sistemako erregistroen bikoizketa guztiz ezabatu da. Produktu-fitxategi batek sarrera bikoiztuak dituela ezagutzen bada, produktu bakoitzeko sarrera bikoiztu guztiak identifikatuko dira eta erreferentzia gurutzatua sortzen da.]

Negozio-arauak betetzea. Datu-elementu bakoitzaren balioak agindutako negozio-arauetara atxikitzen dira. Enkante sisteman, mailuaren edo salmentaren prezioa ezin da izan erreserbako prezioa baino txikiagoa. Banku-mailegu-sistema batean, maileguaren saldoak beti izan behar du positiboa edo zero.
[Enpresa-arauak betetzea. Datu-elementu bakoitzaren balioek ezarritako negozio-arauekin bat datoz. Enkante sisteman, mailuaren edo salmentaren prezioa ezin da izan erreserbako prezioa baino txikiagoa. Banku-kreditu-sistema batean, maileguaren saldoak beti izan behar du positiboa edo zero.]

Egiturazko Definizioa. Datu-elementu bat osagai indibidualetan egituratu daitekeen lekuan, elementuak ondo definitutako egitura hori eduki behar du. Adibidez, pertsona baten izena berez banatzen da izen-abizenak, hasierako hasiera eta abizena. Pertsonen izenen balioak izen-abizen gisa gorde behar dira. Datuen kalitatearen ezaugarri honek estandarrak betearaztea errazten du eta falta diren balioak murrizten ditu.
[Egiturazko Ziurtasuna. Datu-elementu bat osagai indibidualetan modu naturalean egitura daitekeenean, elementuak ondo definitutako egitura hori eduki behar du. Adibidez, pertsona baten izena berez banatzen da izen-abizenak, hasierako hasiera eta abizena. Banakako izenen balioak izen-abizen gisa gorde behar dira. Datuen kalitatearen ezaugarri honek estandarren aplikazioa errazten du eta falta diren balioak murrizten ditu.]

Datuen anomalia. Eremu bat definitu den xederako soilik erabili behar da. Helbidea-3 eremua helbide luzeetarako hirugarren helbide posible baterako definitzen bada, eremu hau hirugarren helbide-lerroa grabatzeko soilik erabili behar da. Ez da erabili behar bezeroaren telefono edo fax zenbakia sartzeko.
[Datuen anomalia. Eremu bat definitu den xederako soilik erabili behar da. Helbide-3 eremua helbide luzeetarako hirugarren helbide-lerro posible baterako definitzen bada, eremu hau hirugarren helbide-lerroa erregistratzeko soilik erabiliko da. Ez da erabili behar bezero baten telefono edo fax zenbakia sartzeko.]

Argitasuna. Datu-elementu batek kalitatezko datuen beste ezaugarri guztiak izan ditzake, baina erabiltzaileek bere esanahia argi ulertzen ez badute, datu-elementuak ez du balio erabiltzaileentzat. Izen-konbentzio egokiek datu-elementuak erabiltzaileek ondo uler daitezen laguntzen dute.
[Argitasuna. Datu-elementu batek datu onen beste ezaugarri guztiak izan ditzake, baina erabiltzaileek bere esanahia argi ulertzen ez badute, datu-elementuak ez du balio erabiltzaileentzat. Izen-konbentzio zuzenek datu-elementuak erabiltzaileek ondo ulertzen laguntzen dute.]

Garaiz. Erabiltzaileek datuen gaurkotasuna zehazten dute. Erabiltzaileek bezeroen dimentsioko datuak egun bat baino zaharragoak ez izatea espero badute, iturburu-sistemetako bezeroen datuen aldaketak egunero aplikatu behar dira datu biltegian.
[Benetan. Erabiltzaileek datuen puntualtasuna zehazten dute. Erabiltzaileek bezeroen dimentsioko datuak egun bat baino gehiago ez izatea espero badute, iturburu-sistemetako bezeroen datuen aldaketak egunero aplikatu behar dira datu biltegian.]

Erabilgarritasuna. Datu-biltegiko datu-elementu bakoitzak erabiltzaileen bildumaren baldintza batzuk bete behar ditu. Datu-elementu bat zehatza eta kalitate handikoa izan daiteke, baina erabiltzaileentzat baliorik ez badu, ez da guztiz beharrezkoa datu-elementu hori datu biltegian egotea.
[Erabilgarritasuna. Datu-biltegiko datu-elementu bakoitzak erabiltzaileen bildumako baldintza batzuk bete behar ditu. Datu-elementu bat zehatza eta kalitate handikoa izan daiteke, baina erabiltzaileei baliorik ematen ez badie, ez da beharrezkoa datu-elementu hori datu-biltegian egotea.]

Datuen Osotasun Arauak betetzea. Iturburu-sistemen erlazio-datu-baseetan biltegiratutako datuek entitateen osotasun eta erreferentziazko osotasun arauak bete behar dituzte. Lehen gako gisa nulua onartzen duen edozein taulak ez du entitatearen osotasuna. Erreferentziazko osotasunak guraso-seme-alaben arteko harremanak zuzen ezartzera behartzen du. Bezeroaren arteko harremanean, erreferentziazko osotasunak bermatzen du datu-baseko eskaera bakoitzeko bezero baten existentzia.
[Datuen osotasun arauak betetzea. Iturburu-sistemen datu-base erlazionaletan biltegiratutako datuek entitateen osotasunaren eta erreferentziazko osotasunaren arauak bete behar dituzte. Lehen gako gisa nulua onartzen duen edozein taulak ez du entitatearen osotasunik. Osotasun erreferentzialak gurasoen eta seme-alaben arteko harremana zuzen ezartzera behartzen du. Bezero-eskaeraren harremanean, erreferentziazko osotasunak bermatzen du datu-baseko eskaera bakoitzeko bezero bat existitzen dela.]

4. Datuen garbiketaren kalitatea

Datuen garbiketaren kalitatea arazo nahiko problematikoa da bigdatan. Zeregina burutzeko datuen garbiketa-maila beharrezkoa den galderari erantzutea oinarrizkoa da datu-analista guztientzat. Egungo arazo gehienetan, analista bakoitzak berak zehazten du hori eta nekez da kanpoko inor gai izatea alderdi hori bere konponbidean ebaluatzeko. Baina kasu honetan esku artean dugun zereginerako, gai hau oso garrantzitsua zen, datu juridikoen fidagarritasunak bat egin behar zuelako.

Funtzionamenduaren fidagarritasuna zehazteko software probak egiteko teknologiak kontuan hartuta. Gaur egun eredu horiek baino gehiago daude 200. Eredu askok erreklamazio-zerbitzuaren eredua erabiltzen dute:

Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa
Fig. 6

Honela pentsatuz: "Aurkitutako errorea eredu honetako hutsegitearen antzeko gertaera bat bada, nola aurkitu t parametroaren analogo bat?" Eta eredu hau osatu nuen: Imajina dezagun probatzaile batek erregistro bat egiaztatzeko behar duen denbora minutu 1 dela (dagokion datu-baserako), gero errore guztiak aurkitzeko 365 minutu beharko ditu, hau da, gutxi gorabehera 494 urte eta 3. hilabeteko lanaldia. Ulertzen dugunez, oso lan handia da eta datu-basea egiaztatzeko kostuak debekuak izango dira datu-base honen konpilatzailearentzat. Hausnarketa honetan, kostuen kontzeptu ekonomikoa agertzen da eta aztertu ondoren tresna nahiko eraginkorra dela ondorioztatu dut. Ekonomiaren legean oinarrituta: β€œEnpresa baten etekin maximoa lortzen den ekoizpen-bolumena (unitatetan) ekoizpen-unitate berri bat ekoizteko kostu marjinala enpresa honek jaso dezakeen prezioarekin alderatzen den puntuan kokatzen da. unitate berri baterakoΒ». Ondorengo akats bakoitza aurkitzeak erregistroak gero eta gehiago egiaztatzea behar duela dioen postulatuan oinarrituta, kostu-faktore bat da. Hau da, proba ereduetan hartutako postulatuak esanahi fisikoa hartzen du honako eredu honetan: i-garren errorea aurkitzeko n erregistro egiaztatu behar bazen, hurrengo (i+3) errorea aurkitzeko beharrezkoa izango da. m erregistro eta aldi berean n egiaztatzeko

  1. Errore berri bat aurkitu aurretik egiaztatutako erregistro kopurua egonkortzen denean;
  2. Hurrengo errorea aurkitu aurretik egiaztatutako erregistro kopurua handituko denean.

Balio kritikoa zehazteko, bideragarritasun ekonomikoaren kontzeptura jo nuen, kasu honetan, kostu sozialen kontzeptua erabiliz, honela formulatu daitekeena: β€œErrorea zuzentzearen kostuak egin dezakeen eragile ekonomikoak bere gain hartu behar ditu. kostu txikieneanΒ». Agente bat dugu: minutu bat erregistro bat egiaztatzen ematen duen probatzaile bat. Diru terminoetan, egunean 1 errublo irabazten badituzu, 6000 errublo izango dira. (gaur gutxi gorabehera). Zuzenbide ekonomikoaren orekaren bigarren aldea zehaztea geratzen da. Horrela arrazoitu nuen. Dagoen akats batek dagokionari ahalegina egin beharko dio hura zuzentzeko, hau da, jabetzaren jabeak. Demagun honek 12,2 eguneko ekintza behar duela (eskaera bat bidali, dokumentu zuzendua jaso). Orduan, gizartearen ikuspuntutik, bere kostuak eguneko batez besteko soldataren parekoak izango dira. Khanty-Mansi Okrug Autonomoan sortutako batez besteko soldata "Kanty-Mansiysk - Ugra eskualde autonomoaren garapen sozioekonomikoaren emaitzak 2019ko urtarriletik irailerako" 73285 igurtzi. edo 3053,542 errublo/eguneko. Horren arabera, balio kritiko bat lortuko dugu:
3053,542: 12,2 = 250,4 erregistro-unitate.

Horrek esan nahi du, gizartearen ikuspuntutik, probatzaile batek 251 erregistro egiaztatu eta errore bat aurkitu badu, erabiltzaileak errore hori berak konpontzearen baliokidea da. Horren arabera, probatzaileak hurrengo akatsa aurkitzeko 252 erregistro egiaztatzeko denbora berdina eman badu, kasu honetan hobe da zuzenketaren kostua erabiltzaileari aldatzea.

Ikuspegi sinplifikatu bat aurkezten da hemen, gizartearen ikuspuntutik espezialista bakoitzak sortzen duen balio gehigarri guztia kontuan hartu behar baita, hau da, zergak eta ordainketa sozialak barne, baina eredua argia da. Harreman horren ondorioa da espezialistentzako baldintza hau: informatika-industriako espezialista batek estatuko batez bestekoa baino soldata handiagoa izan behar du. Bere soldata datu-baseen erabiltzaile potentzialen batez besteko soldata baino txikiagoa bada, orduan berak egiaztatu beharko du datu-base osoa eskuz esku.

Deskribatutako irizpidea erabiltzean, datu-basearen kalitatearen lehen eskakizuna osatzen da:
I (tr). Errore kritikoen kuota ez da 1/250,4 = % 0,39938 baino handiagoa izan behar. baino apur bat gutxiago fintzea industrian urrea. Eta termino fisikoetan ez dago akatsak dituzten 1459 erregistro baino gehiago.

Erretiro ekonomikoa.

Izan ere, erregistroetan halako akatsak eginez, gizarteak galera ekonomikoak onartzen ditu:

1459*3053,542 = 4 errublo.

Zenbateko hori gizarteak kostu horiek murrizteko tresnarik ez izateak zehazten du. Honen ondorioz, norbaitek akatsak dituzten erregistro kopurua 259ra murrizteko aukera ematen dion teknologia badu, adibidez, gizarteak aurreztu ahal izango du:
1200*3053,542 = 3 errublo.

Baina, aldi berean, bere talentua eta lana eska ditzake, tira, demagun - 1 milioi errublo.
Hau da, kostu sozialak honela murrizten dira:

3 - 664 = 250 errublo.

Funtsean, eragin hori BigDat teknologien erabileraren balio erantsia da.

Baina hemen kontuan hartu behar da hori gizarte-efektu bat dela, eta datu-basearen jabea udal agintariak direla, datu-base honetan erregistratutako ondasunen erabileratik jasotako diru-sarrerak, % 0,3ko tasan, hauek dira: 2,778 milioi errublo/ urtean. Eta kostu horiek (4 errublo) ez diote asko molestatzen, jabetza jabeei transferitzen zaizkielako. Eta, alde horretatik, Bigdata-ko fintze-teknologien garatzaileak datu-base honen jabea konbentzitzeko gaitasuna erakutsi beharko du, eta horrelakoek talentu handia eskatzen dute.

Adibide honetan, akatsak ebaluatzeko algoritmoa Schumann-en [2] ereduan oinarrituta aukeratu da fidagarritasun-probetan zehar software egiaztatzeko. Interneten duen prebalentziagatik eta beharrezko adierazle estatistikoak lortzeko gaitasunagatik. Metodologia Monakhov Yu.M. "Informazio sistemen egonkortasun funtzionala", ikus irudiko spoiler azpian. 7-9.

Arroza. 7 – 9 Schumann ereduaren metodologiaGarbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa

Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa

Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa

Material honen bigarren zatian datuen garbiketaren adibide bat aurkezten da, non Schumann eredua erabiltzearen emaitzak lortzen diren.
Lortutako emaitzak aurkez ditzadan:
Kalkulatutako erroreen kopurua N = 3167 n.
C parametroa, lambda eta fidagarritasun funtzioa:

Garbitu datuak Rock, Paper, Scissors joko bat bezala. Hau amaierarik gabeko edo amaierarik gabeko jolasa al da? 1. zatia. Teorikoa
17. irudia

Funtsean, lambda fase bakoitzean akatsak detektatzen diren intentsitatearen benetako adierazlea da. Bigarren zatiari erreparatuz gero, adierazle honen estimazioa orduko 42,4 akats izan zen, hau da, Schumann adierazlearekin nahiko parekoa. Goian, zehaztu zen garatzaile batek akatsak aurkitzen dituen abiadura ez dela errore 1 baino txikiagoa izan behar 250,4 erregistro bakoitzeko, minutuko erregistro 1 egiaztatzean. Horregatik, lambdaren balio kritikoa Schumann eredurako:

60/250,4 = 0,239617.

Hau da, akatsak hautemateko prozedurak egiteko beharra lambda, dagoen 38,964tik, 0,239617ra jaitsi arte egin behar da.

Edo N adierazlea (akatsen kopurua potentziala) ken n (akatsen kopurua zuzendua) gure onartutako atalasearen azpitik jaitsi arte - 1459 pcs.

Literatura

  1. Monakhov, Yu. M. Informazio sistemen egonkortasun funtzionala. 3 ordutan 1. zatia. Softwarearen fidagarritasuna: testuliburua. hobaria / Yu. M. Monakhov; Vladim. Estatu univ. – Vladimir: Izvo Vladim. Estatu Unibertsitatea, 2011. – 60 or. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Softwarearen fidagarritasunaren iragarpenerako eredu probabilistak".
  3. Informatikako profesionalentzako datuak biltegiratzeko oinarriak / Paulraj Ponniah.β€”2. ed.

Bigarren zatia. Teorikoa

Iturria: www.habr.com

Gehitu iruzkin berria