Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske

1. Inisjele gegevens

Gegevensreiniging is ien fan 'e útdagings foar taken foar gegevensanalyse. Dit materiaal wjerspegele de ûntjouwings en oplossings dy't ûntstienen as gefolch fan it oplossen fan in praktysk probleem fan analysearjen fan de databank yn de foarming fan kadastrale wearde. Boarnen hjir "RAPPORT No. 01/OKS-2019 oer de resultaten fan 'e steat kadastrale wurdearring fan alle soarten fan ûnreplik guod (útsein foar lân kavels) op it grûngebiet fan de Khanty-Mansiysk Autonome Okrug - Ugra".

De triem "Comparative model total.ods" yn "Talage B. Resultaten fan it fêststellen fan KS 5. Ynformaasje oer de metoade foar it bepalen fan kadastrale wearde 5.1 Fergelykjende oanpak" waard beskôge.

Tabel 1. Statistyske yndikatoaren fan 'e dataset yn' e triem "Comparative model total.ods"
Totaal oantal fjilden, st. — 44
Totaal oantal records, pcs. - 365 490
Totaal oantal karakters, pcs. — 101 714 693
Gemiddelde oantal karakters yn in record, pcs. - 278,297
Standertdeviaasje fan karakters yn in rekord, pcs. - 15,510
Minimum oantal tekens yn in yngong, pcs. — 198
Maksimum oantal karakters yn in yngong, pcs. — 363

2. Ynliedend diel. Basis noarmen

By it analysearjen fan de spesifisearre databank waard in taak foarme om de easken te spesifisearjen foar de mjitte fan suvering, om't, lykas elkenien dúdlik is, de oantsjutte databank juridyske en ekonomyske gefolgen foar brûkers skept. By it wurk die bliken dat der gjin spesifike easken wiene foar de graad fan skjinmeitsjen fan big data. By it analysearjen fan de juridyske noarmen yn dizze saak, kaam ik ta de konklúzje dat se allegear binne foarme út mooglikheden. Dat is, in bepaalde taak is ferskynd, ynformaasjeboarnen wurde gearstald foar de taak, dan wurdt in dataset foarme en, basearre op de oanmakke dataset, ark foar it oplossen fan it probleem. De resultearjende oplossingen binne referinsjepunten by it kiezen út alternativen. Ik presintearre dit yn figuer 1.

Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske

Om't it by it bepalen fan alle noarmen de foarkar is om te fertrouwe op bewezen technologyen, keas ik de easken ynsteld yn "MHRA GxP Data Yntegriteit Definysjes en begelieding foar yndustry", om't ik dit dokumint beskôge as it meast wiidweidich foar dit probleem. Benammen yn dit dokumint seit de seksje "It moat opmurken wurde dat easken foar gegevensintegriteit likegoed jilde foar hânmjittich (papier) en elektroanyske gegevens." (oersetting: "...easken foar gegevensintegriteit jilde likegoed foar hânboeken (papieren) as elektroanyske gegevens"). Dizze formulearring is frij spesifyk ferbûn mei it begryp "skriftlik bewiis", yn 'e bepalingen fan kêst 71 fan it Wetboek fan Boargerlike Proseduere, Art. 70 CAS, art 75 APC, "skriftlik" art. 84 Wetboek fan Boargerlike Proseduere.

Figuer 2 presintearret in diagram fan 'e foarming fan oanpak foar soarten ynformaasje yn jurisprudinsje.

Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske
Rys. 2. Boarne hjir.

Figure 3 toant it meganisme fan Figure 1, foar de taken fan de boppesteande "Guidance". It is maklik, troch in ferliking te meitsjen, om te sjen dat de oanpak dy't brûkt wurdt by it foldwaan oan 'e easken foar ynformaasjeyntegriteit yn moderne noarmen foar ynformaasjesystemen signifikant beheind binne yn ferliking mei it juridyske konsept fan ynformaasje.

Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske
Figuer 3

Yn it oantsjutte dokumint (Guiding) wurdt de ferbining mei it technyske diel, mooglikheden foar it ferwurkjen en opslaan fan gegevens, goed befêstige troch in sitaat út haadstik 18.2. Relasjonele databank: "Dizze triemstruktuer is ynherent feiliger, om't de gegevens yn in grut bestânsformaat bewarre wurde dy't de relaasje tusken gegevens en metadata behâldt."

Yn feite, yn dizze oanpak - fan besteande technyske mooglikheden, is d'r neat abnormaal en, op himsels, dit is in natuerlik proses, om't de útwreiding fan begripen komt fan 'e meast studearre aktiviteit - databankûntwerp. Mar oan 'e oare kant ferskine juridyske noarmen dy't gjin koartingen jouwe op' e technyske mooglikheden fan besteande systemen, bygelyks: GDPR - Algemiene regeling foar gegevensbeskerming.

Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske
Rys. 4. Trechter fan technyske mooglikheden (Boarne).

Yn dy aspekten wurdt dúdlik dat de orizjinele dataset (fig. 1) foarearst bewarre wurde moat, en yn it twadde plak de basis wêze sil om der ekstra ynformaasje út te heljen. No, as foarbyld: kamera's dy't ferkearsregels opnimme binne ubiquitous, ynformaasjeferwurkingssystemen ferwiderje oertreders, mar oare ynformaasje kin ek oanbean wurde oan oare konsuminten, bygelyks as marketingmonitoring fan 'e struktuer fan' e stream fan klanten nei in winkelsintrum. En dit is in boarne fan ekstra tafoege wearde by it brûken fan BigDat. It is goed mooglik dat de datasets dy't no, earne yn 'e takomst sammele wurde, wearde hawwe neffens in meganisme dat fergelykber is mei de wearde fan seldsume edysjes fan 1700 op dit stuit. Ommers, yn feite, tydlike datasets binne unyk en binne net wierskynlik te wurde werhelle yn 'e takomst.

3. Ynliedend diel. Evaluaasje kritearia

Tidens it ferwurkingsproses waard de folgjende klassifikaasje fan flaters ûntwikkele.

1. Flaterklasse (basearre op GOST R 8.736-2011): a) systematyske flaters; b) willekeurige flaters; c) in flater.

2. Troch mearfâldichheid: a) mono ferfoarming; b) multi-ferfoarming.

3. Neffens de kritykens fan de gefolgen: a) kritysk; b) net kritysk.

4. By boarne fan foarkommen:

A) Technysk - flaters dy't foarkomme tidens de wurking fan 'e apparatuer. In frij relevante flater foar IoT-systemen, systemen mei in signifikante graad fan ynfloed op 'e kwaliteit fan kommunikaasje, apparatuer (hardware).

B) Operator flaters - flaters yn in breed skala fan operator typos by ynfier oan flaters yn de technyske spesifikaasjes foar database design.

C) Meidoggerflaters - hjir binne brûkersflaters yn it heule berik fan "fergetten om de yndieling te wikseljen" oant fersin fan meters foar fuotten.

5. Opdield yn in aparte klasse:

a) de "taak fan 'e skieding", dat is, de romte en ":" (yn ús gefal) as it duplikearre waard;
b) wurden tegearre skreaun;
c) gjin romte nei tsjinst karakters
d) symmetrysk meardere symboalen: (), "", "...".

Tegearre, mei de systematisaasje fan databankflaters presintearre yn figuer 5, wurdt in frij effektyf koördinatesysteem foarme foar it sykjen nei flaters en it ûntwikkeljen fan in gegevensreinigingsalgoritme foar dit foarbyld.

Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske
Rys. 5. Typyske flaters dy't oerienkomme mei de strukturele ienheden fan 'e databank (Boarne: Oreshkov VI, Paklin N.B. "Kaaibegripen fan gegevenskonsolidaasje").

Akkuraatens, domeinyntegriteit, gegevenstype, konsistinsje, oerstalligens, folsleinens, duplikaasje, konformiteit oan bedriuwsregels, strukturele definityfens, gegevensanomaly, dúdlikens, op 'e tiid, neilibjen fan regels foar gegevensintegriteit. (Side 334. Fundamentals foar datawarehousing foar IT-professionals / Paulraj Ponniah.-2e ed.)

Presintearre Ingelske wurdearring en Russyske masine oersetting yn heakjes.

Krektens. De wearde opslein yn it systeem foar in gegevens elemint is de goede wearde foar dat foarkommen fan it gegevens elemint. As jo ​​in klantnamme en in adres hawwe opslein yn in record, dan is it adres it goede adres foar de klant mei dy namme. As jo ​​​​de kwantiteit besteld as 1000 ienheden fine yn it rekord foar bestellingnûmer 12345678, dan is dy kwantiteit de krekte kwantiteit foar dy bestelling.
[Krektens. De wearde opslein yn it systeem foar in gegevens elemint is de krekte wearde foar dat foarkommen fan it gegevens elemint. As jo ​​in klantnamme en adres hawwe opslein yn in record, dan is it adres it juste adres foar de klant mei dy namme. As jo ​​de kwantiteit fine dy't besteld is as 1000 ienheden yn it rekord foar bestelnûmer 12345678, dan is dy kwantiteit de krekte kwantiteit foar dy bestelling.]

Domein yntegriteit. De gegevenswearde fan in attribút falt yn it berik fan tastiene, definieare wearden. It gewoane foarbyld is dat de tastiene wearden "manlik" en "froulik" binne foar it elemint fan geslachtgegevens.
[Domain Integrity. De wearde fan de attribútgegevens falt binnen it berik fan jildige, definieare wearden. In algemien foarbyld is de jildige wearden "manlik" en "froulik" foar in geslacht gegevens elemint.]

Soart data. Wearde foar in gegevens attribút wurdt eins opslein as de gegevens type definiearre foar dat attribút. As it gegevenstype fan it fjild foar winkelnamme wurdt definiearre as "tekst", befetsje alle eksimplaren fan dat fjild de winkelnamme werjûn yn tekstformaat en net numerike koades.
[Soart data. De wearde fan in data attribút wurdt eins opslein as it datatype definiearre foar dat attribút. As it gegevenstype fan it winkelnammefjild definiearre is as "tekst", befetsje alle eksimplaren fan dit fjild de winkelnamme werjûn yn tekstformaat ynstee fan numerike koades.]

Konsistinsje. De foarm en ynhâld fan in gegevensfjild is itselde oer meardere boarnesystemen. As de produktkoade foar produkt ABC yn ien systeem 1234 is, dan is de koade foar dit produkt 1234 yn elk boarnesysteem.
[Konsistinsje. De foarm en ynhâld fan it gegevensfjild binne itselde yn ferskate boarnesystemen. As de produktkoade foar produkt ABC op ien systeem 1234 is, dan is de koade foar dat produkt 1234 op elk boarnesysteem.]

Redundânsje. Deselde gegevens meie net op mear as ien plak yn in systeem opslein wurde. As, om redenen fan effisjinsje, in gegevenselemint mei opsetsin op mear dan ien plak yn in systeem opslein wurdt, dan moat de oerstalligens dúdlik identifisearre en ferifiearre wurde.
[Oerstallich. Deselde gegevens moatte net op mear as ien plak yn it systeem opslein wurde. As, om redenen fan effisjinsje, in gegevenselemint mei opsetsin op meardere lokaasjes yn in systeem opslein wurdt, dan moat oerstalligens dúdlik definieare en ferifiearre wurde.]

Folsleinens. D'r binne gjin ûntbrekkende wearden foar in opjûne attribút yn it systeem. Bygelyks, yn in klantbestân moat d'r in jildige wearde wêze foar it fjild "steat" foar elke klant. Yn it bestân foar bestellingsdetails moat elk detailrecord foar in bestelling folslein wurde ynfold.
[Folsleinens. D'r ûntbrekke gjin wearden yn it systeem foar dit attribút. Bygelyks, it kliïnttriem moat in jildige wearde hawwe foar it "status" fjild foar elke kliïnt. Yn it bestellingsdetailbestân moat elke bestellingsdetailrecord folslein ynfold wurde.]

Duplikaasje. Duplikaasje fan records yn in systeem is folslein oplost. As it bekend is dat it produktbestân dûbele records hat, dan wurde alle dûbele records foar elk produkt identifisearre en in krúsferwizing makke.
[Duplikaat. Duplikaasje fan records yn it systeem is folslein elimineare. As bekend is dat in produktbestân dûbele yngongen befettet, dan wurde alle dûbele yngongen foar elk produkt identifisearre en wurdt in krúsferwizing oanmakke.]

Konformiteit mei saaklike regels. De wearden fan elk gegevensitem foldogge oan foarskreaune saaklike regels. Yn in feilingsysteem kin de hammer as ferkeappriis net minder wêze as de reservepriis. Yn in banklieningssysteem moat it liensaldo altyd posityf of nul wêze.
[Neilibjen fan saaklike regels. De wearden fan elk gegevenselemint foldogge oan fêststelde saaklike regels. Yn in feilingsysteem kin de hammer as ferkeappriis net minder wêze as de reservepriis. Yn in bankkredytsysteem moat it liensaldo altyd posityf of nul wêze.]

Strukturele definityfheid. Oeral wêr't in gegevensitem fansels strukturearre wurde kin yn yndividuele komponinten, moat it item dizze goed definieare struktuer befetsje. Bygelyks, de namme fan in yndividu ferdielt natuerlik yn foarnamme, middelste initial en efternamme. Wearden foar nammen fan yndividuen moatte wurde opslein as foarnamme, middelste initial en efternamme. Dit karakteristyk fan gegevenskwaliteit ferienfâldiget it hanthavenjen fan noarmen en ferminderet ûntbrekkende wearden.
[Strukturele wissichheid. Wêr't in gegevenselemint natuerlik strukturearre wurde kin yn yndividuele komponinten, moat it elemint dizze goed definieare struktuer befetsje. Bygelyks, de namme fan in persoan is natuerlik ferdield yn foarnamme, middelste initial en efternamme. Wearden foar yndividuele nammen moatte wurde opslein as foarnamme, middelste initial en efternamme. Dizze gegevenskwaliteitskarakteristyk ferienfâldiget de tapassing fan noarmen en ferminderet ûntbrekkende wearden.]

Data Anomaly. In fjild moat allinnich brûkt wurde foar it doel dêr't it foar definiearre is. As it fjild Adres-3 definiearre is foar elke mooglike tredde adresrigel foar lange adressen, dan moat dit fjild allinich brûkt wurde foar it opnimmen fan de tredde adresrigel. It moat net brûkt wurde foar it ynfieren fan in telefoan- of faksnûmer foar de klant.
[Data Anomaly. In fjild moat allinnich brûkt wurde foar it doel dêr't it foar definiearre is. As it fjild Adres-3 definiearre is foar elke mooglike tredde adresrigel foar lange adressen, dan sil dit fjild allinich brûkt wurde om de tredde adresrigel op te nimmen. It moat net brûkt wurde om in telefoan- of faksnûmer foar in klant yn te fieren.]

Dúdlikens. In gegevenselemint kin alle oare skaaimerken fan kwaliteitsgegevens hawwe, mar as de brûkers de betsjutting net dúdlik begripe, dan is it gegevenselemint fan gjin wearde foar de brûkers. Goede nammejouwingskonvenanten helpe om de gegevenseleminten goed begrepen te meitsjen troch de brûkers.
[Dúdlikens. In gegevenselemint kin alle oare skaaimerken fan goede gegevens hawwe, mar as brûkers de betsjutting net dúdlik begripe, dan is it gegevenselemint fan gjin wearde foar brûkers. Korrekte nammejouwingskonvenanten helpe gegevens-eleminten goed begrepen te meitsjen troch brûkers.]

Tiidich. De brûkers bepale de aktualiteit fan 'e gegevens. As de brûkers ferwachtsje dat gegevens fan klantdimensje net âlder binne as ien dei, moatte de wizigingen oan klantgegevens yn 'e boarnesystemen deistich tapast wurde op it gegevenspakhús.
[Op tiid. Brûkers bepale de aktualiteit fan gegevens. As brûkers ferwachtsje dat gegevens fan klantdimensje net mear dan ien dei âld binne, moatte wizigingen oan klantgegevens yn 'e boarnesystemen op deistige basis tapast wurde op it gegevenspakhús.]

Usefulness. Elk gegevenselemint yn it gegevenspakhús moat oan guon easken foldwaan fan 'e samling fan brûkers. In gegevenselemint kin krekt en fan hege kwaliteit wêze, mar as it fan gjin wearde is foar de brûkers, dan is it folslein net nedich dat dat gegevenselemint yn it gegevenspakhús stiet.
[Utiliteit. Elk gegevensitem yn 'e gegevenswinkel moat oan guon easken fan' e brûkerskolleksje foldwaan. In gegevenselemint kin krekt en fan hege kwaliteit wêze, mar as it gjin wearde jout oan brûkers, dan is it net nedich dat dat gegevenselemint yn it gegevenspakhús is.]

Neilibjen fan regels foar gegevensintegriteit. De gegevens opslein yn 'e relasjonele databases fan' e boarnesystemen moatte har hâlde oan regels foar entiteitintegriteit en referinsjele yntegriteit. Elke tabel dy't nul tastiet as de primêre kaai hat gjin entiteitsintegriteit. Referinsjele yntegriteit twingt de oprjochting fan 'e âlder-bern relaasjes korrekt. Yn in klant-to-order relaasje soarget referinsjele yntegriteit foar it bestean fan in klant foar elke bestelling yn 'e database.
[Neilibjen fan regels foar gegevensintegriteit. Gegevens opslein yn relaasjedatabases fan boarnesystemen moatte foldwaan oan de regels fan entiteitintegriteit en referinsjele yntegriteit. Elke tabel dy't nul as primêre kaai mooglik makket, hat gjin entiteitsintegriteit. Referinsjele yntegriteit twingt de relaasje tusken âlden en bern om goed te fêstigjen. Yn in klant-oarder relaasje soarget referinsjele yntegriteit dat in klant bestiet foar elke bestelling yn 'e database.]

4. Kwaliteit fan gegevens skjinmeitsjen

De kwaliteit fan gegevensreiniging is in nochal problematysk probleem yn bigdata. It beantwurdzjen fan 'e fraach fan hokker graad fan gegevensreiniging nedich is om de taak te foltôgjen is fûneminteel foar elke gegevensanalist. Yn de measte aktuele problemen bepaalt elke analist dit sels en it is net wierskynlik dat immen fan bûten dit aspekt yn syn oplossing kin evaluearje. Mar foar de taak by de hân yn dit gefal, dit probleem wie ekstreem wichtich, sûnt de betrouberens fan juridyske gegevens moatte oanstriid om ien.

It beskôgjen fan softwaretesttechnologyen om operasjonele betrouberens te bepalen. Tsjintwurdich binne d'r mear as dizze modellen 200. In protte fan 'e modellen brûke in claimservicemodel:

Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske
Fig. 6

Tinkend as folget: "As de fûn flater in barren is dat ferlykber is mei it mislearre barren yn dit model, hoe kinne jo dan in analoog fan 'e parameter t fine?" En ik kompilearre it folgjende model: Litte wy ús foarstelle dat de tiid dy't in tester duorret om ien rekord te kontrolearjen 1 minút is (foar de databank yn kwestje), dan sil hy 365 minuten nedich wêze om alle flaters te finen, dat is sawat 494 jier en 3 moannen fan wurktiid. As wy begripe, is dit in heul grutte hoemannichte wurk en de kosten foar it kontrolearjen fan de databank sille foar de gearstaller fan dizze databank ferbean wêze. Yn dizze refleksje komt it ekonomyske konsept fan kosten foar en nei analyze kaam ik ta de konklúzje dat dit in frij effektyf ark is. Op grûn fan 'e wet fan' e ekonomy: "It folume fan produksje (yn ienheden) wêrby't de maksimale winst fan in bedriuw wurdt berikt, leit op it punt wêr't de marzjinale kosten fan it produsearjen fan in nije ienheid fan útfier wurde fergelike mei de priis dy't dit bedriuw kin ûntfange. foar in nije ienheid." Op grûn fan it postulaat dat it finen fan elke folgjende flater mear en mear kontrôle fan records fereasket, is dit in kostenfaktor. Dat is, it postulaat oannommen yn testen fan modellen krijt in fysike betsjutting yn it folgjende patroan: as om de i-de flater te finen wie it nedich om n records te kontrolearjen, dan sil it nedich wêze om de folgjende (i+3) flater te finen om m records te kontrolearjen en tagelyk n

  1. As it oantal records kontrolearre foardat in nije flater wurdt fûn stabilisearret;
  2. As it oantal records kontrolearre foardat it finen fan de folgjende flater sil tanimme.

Om de krityske wearde te bepalen, haw ik my oergien nei it konsept fan ekonomyske helberens, dat yn dit gefal, mei it begryp sosjale kosten, sa formulearre wurde kin: "De kosten fan it korrizjearjen fan 'e flater moatte wurde droegen troch de ekonomyske agint dy't kin dwaan it tsjin de leechste kosten." Wy hawwe ien agint - in tester dy't 1 minút besteget oan it kontrolearjen fan ien rekord. Yn monetêre termen, as jo 6000 roebel per dei fertsjinje, sil dit 12,2 roebel wêze. (sawat hjoed). It bliuwt om de twadde kant fan it lykwicht yn ekonomysk rjocht te bepalen. Ik redenearre sa. In besteande flater sil fereaskje dat de oanbelangjende persoan muoite besteegje om it te korrigearjen, dat is de eigner. Litte wy sizze dat dit 1 dei fan aksje fereasket (in oanfraach yntsjinje, in korrizjearre dokumint ûntfange). Dan, út in sosjaal eachpunt, syn kosten sille wêze gelyk oan it gemiddelde salaris per dei. Gemiddelde opboude salaris yn Khanty-Mansi Autonome Okrug "Resultaten fan 'e sosjaal-ekonomyske ûntwikkeling fan' e Khanty-Mansiysk Autonome Okrug - Ugra foar jannewaris-septimber 2019" 73285 3053,542 roebel. of XNUMX roebel / dei. Dêrtroch krije wy in krityske wearde gelyk oan:
3053,542: 12,2 = 250,4 ienheden fan records.

Dit betsjut, út in sosjaal eachpunt, as in tester 251 records kontrolearre en ien flater fûn, is it lykweardich oan dat de brûker dizze flater sels reparearret. Sadwaande, as de tester tiid hat bestege oan it kontrolearjen fan 252 records om de folgjende flater te finen, dan is it yn dit gefal better om de kosten fan korreksje nei de brûker te ferpleatsen.

In ferienfâldige oanpak wurdt presintearre hjir, sûnt fan in sosjaal eachpunt is it nedich om rekken hâlden mei alle ekstra wearde oanmakke troch elke spesjalist, dat is, kosten ynklusyf belestingen en sosjale betellingen, mar it model is dúdlik. In gefolch fan dizze relaasje is de folgjende eask foar spesjalisten: in spesjalist út de IT-sektor moat in salaris hawwe dat grutter is as it lanlik gemiddelde. As syn salaris minder is as it gemiddelde salaris fan potinsjele databankbrûkers, dan moat hy sels de hiele databank hân-oan-hân kontrolearje.

By it brûken fan it beskreaune kritearium wurdt de earste eask foar de kwaliteit fan 'e databank foarme:
ik(tr). It oandiel fan krityske flaters moat net mear wêze as 1/250,4 = 0,39938%. In bytsje minder as ferfine goud yn yndustry. En yn fysike termen binne d'r net mear as 1459 records mei flaters.

Ekonomyske retreat.

Yn feite, troch sa'n oantal flaters yn records te meitsjen, stimt de maatskippij yn mei ekonomyske ferliezen yn it bedrach fan:

1459*3053,542 = 4 roebel.

Dit bedrach wurdt bepaald troch it feit dat de maatskippij net de ark hat om dizze kosten te ferminderjen. It folget dat as immen in technology hat dy't it mooglik makket om it oantal records mei flaters te ferminderjen nei bygelyks 259, dan sil dit de maatskippij kinne bewarje:
1200*3053,542 = 3 roebel.

Mar tagelyk, hy kin freegje om syn talint en wurk, goed, lit ús sizze - 1 miljoen roebel.
Dat is, sosjale kosten wurde ferlege troch:

3 - 664 = 250 roebel.

Yn essinsje is dit effekt de tafoege wearde fan it brûken fan BigDat-technologyen.

Mar hjir moat rekken hâlden wurde dat dit in sosjaal effekt is, en de eigner fan 'e databank is gemeentlike autoriteiten, har ynkomsten út it gebrûk fan eigendom opnommen yn dizze databank, mei in taryf fan 0,3%, is: 2,778 miljard roebel / jier. En dizze kosten (4 roebel) net lestich falle him, om't se wurde oerdroegen oan de eigners. En yn dit aspekt sil de ûntwikkelder fan mear raffinaazjetechnyk yn Bigdata de mooglikheid moatte sjen litte om de eigner fan dizze databank te oertsjûgjen, en sokke dingen fereaskje in soad talint.

Yn dit foarbyld waard it algoritme foar flaterbeoardieling keazen op basis fan it Schumann-model [2] fan softwareferifikaasje by betrouberheidstesten. Troch syn prevalens op it ynternet en de mooglikheid om de nedige statistyske yndikatoaren te krijen. De metodyk is nommen fan Monakhov Yu.M. "Funksjonele stabiliteit fan ynformaasjesystemen", sjoch ûnder de spoiler yn Fig. 7-9.

Rys. 7 – 9 Metodyk fan it Schumann-modelGegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske

Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske

Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske

It twadde diel fan dit materiaal presintearret in foarbyld fan gegevensreiniging, wêryn de resultaten fan it brûken fan it Schumann-model wurde krigen.
Lit my de krigen resultaten presintearje:
Skatte oantal flaters N = 3167 n.
Parameter C, lambda en betrouberensfunksje:

Gegevens skjinmeitsje lykas in spultsje fan Rock, Paper, Scissors. Is dit in spultsje mei of sûnder ein? Diel 1. Teoretyske
Figuer 17

Yn essinsje is lambda in feitlike yndikator fan 'e yntensiteit wêrmei't flaters yn elke poadium ûntdutsen wurde. As jo ​​​​nei it twadde diel sjogge, wie de skatting foar dizze yndikator 42,4 flaters per oere, wat frijwat te fergelykjen is mei de Schumann-yndikator. Hjirboppe waard bepaald dat it taryf wêrop in ûntwikkelder flaters fynt net leger wêze soe as 1 flater per 250,4 records, by it kontrolearjen fan 1 record per minuut. Dêrom is de krityske wearde fan lambda foar it Schumann-model:

60 / 250,4 = 0,239617.

Dat is, de needsaak om flaterdeteksjeprosedueres út te fieren moat wurde útfierd oant lambda, fan 'e besteande 38,964, ôfnimt nei 0,239617.

Of oant de yndikator N (potinsjele oantal flaters) minus n (korrizjearre oantal flaters) sakket ûnder ús akseptearre drompel - 1459 pcs.

Literatuer

  1. Monakhov, Yu. M. Funksjonele stabiliteit fan ynformaasjesystemen. Yn 3 oeren Diel 1. Software betrouberens: learboek. fergoeding / Yu. M. Monakhov; Vladim. steat univ. – Vladimir: Izvo Vladim. steat Universiteit, 2011. – 60 p. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Probabilistyske modellen foar foarsizzing fan softwarebetrouberens."
  3. Data warehousing fundamentals for IT professionals / Paulraj Ponniah.-2nd ed.

Diel twa. Teoretyske

Boarne: www.habr.com

Add a comment