Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol

1. Data cychwynnol

Glanhau data yw un o'r heriau sy'n wynebu tasgau dadansoddi data. Roedd y deunydd hwn yn adlewyrchu'r datblygiadau a'r atebion a gododd o ganlyniad i ddatrys problem ymarferol o ddadansoddi'r gronfa ddata wrth ffurfio gwerth stentaidd. Ffynonellau yma “ADRODDIAD Rhif 01/OKS-2019 ar ganlyniadau prisiad stentaidd y wladwriaeth o bob math o eiddo tiriog (ac eithrio lleiniau tir) yn nhiriogaeth Okrug Ymreolaethol Khanty-Mansiysk - Ugra”.

Ystyriwyd y ffeil “Comparative model total.ods” yn “Atodiad B. Canlyniadau pennu CA 5. Gwybodaeth ar y dull o bennu gwerth stentaidd 5.1 Dull cymharol”.

Tabl 1. Dangosyddion ystadegol y set ddata yn y ffeil “Comparative model total.ods”
Cyfanswm nifer y meysydd, pcs. — 44
Cyfanswm nifer y cofnodion, pcs. — 365 490
Cyfanswm nifer y cymeriadau, pcs. — 101 714 693
Nifer cyfartalog y nodau mewn cofnod, pcs. — 278,297
Gwyriad safonol nodau mewn cofnod, pcs. — 15,510
Isafswm nifer y nodau mewn cofnod, pcs. — 198
Uchafswm nifer y nodau mewn cofnod, pcs. — 363

2. rhan rhagarweiniol. Safonau sylfaenol

Wrth ddadansoddi'r gronfa ddata benodol, ffurfiwyd tasg i nodi'r gofynion ar gyfer y radd o buro, oherwydd, fel sy'n amlwg i bawb, mae'r gronfa ddata benodedig yn creu canlyniadau cyfreithiol ac economaidd i ddefnyddwyr. Yn ystod y gwaith, daeth i'r amlwg nad oedd unrhyw ofynion penodol ar gyfer gradd glanhau data mawr. Wrth ddadansoddi'r normau cyfreithiol yn y mater hwn, deuthum i'r casgliad eu bod i gyd yn cael eu ffurfio o bosibiliadau. Hynny yw, mae tasg benodol wedi ymddangos, mae ffynonellau gwybodaeth yn cael eu llunio ar gyfer y dasg, yna mae set ddata yn cael ei ffurfio ac, yn seiliedig ar y set ddata a grëwyd, offer ar gyfer datrys y broblem. Mae'r atebion canlyniadol yn bwyntiau cyfeirio wrth ddewis o blith dewisiadau eraill. Cyflwynais hyn yn Ffigur 1.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol

Gan ei bod yn well dibynnu ar dechnolegau profedig wrth bennu unrhyw safonau, dewisais y gofynion a nodir yn "Diffiniadau a Chanllawiau Uniondeb Data GxP MHRA ar gyfer Diwydiant", oherwydd ystyriais y ddogfen hon y mwyaf cynhwysfawr ar gyfer y mater hwn. Yn benodol, yn y ddogfen hon mae’r adran yn dweud “Dylid nodi bod gofynion cywirdeb data yr un mor berthnasol i ddata papur (papur) ac electronig.” (cyfieithiad: “...mae gofynion cywirdeb data yr un mor berthnasol i ddata papur (papur) ac electronig”). Mae'r ffurfiad hwn yn gysylltiedig yn eithaf penodol â'r cysyniad o "dystiolaeth ysgrifenedig", yn narpariaethau Erthygl 71 o'r Cod Trefniadaeth Sifil, Celf. 70 CAS, Celf.. 75 APC, “yn ysgrifenedig” Celf. 84 Cod Trefniadaeth Sifil.

Mae Ffigur 2 yn cyflwyno diagram o'r modd y ffurfiwyd dulliau o ymdrin â mathau o wybodaeth mewn cyfreitheg.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol
Reis. 2. Ffynhonnell yma.

Mae Ffigur 3 yn dangos mecanwaith Ffigur 1, ar gyfer tasgau'r “Arweiniad” uchod. Mae’n hawdd, o gymharu, gweld bod y dulliau a ddefnyddir wrth fodloni’r gofynion am gywirdeb gwybodaeth mewn safonau modern ar gyfer systemau gwybodaeth yn gyfyngedig iawn o gymharu â’r cysyniad cyfreithiol o wybodaeth.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol
Ffig. 3

Yn y ddogfen benodedig (Canllaw), mae'r cysylltiad â'r rhan dechnegol, y galluoedd ar gyfer prosesu a storio data, wedi'i gadarnhau'n dda gan ddyfyniad o Bennod 18.2. Cronfa ddata perthynol: "Mae'r strwythur ffeil hwn yn ei hanfod yn fwy diogel, gan fod y data'n cael ei gadw mewn fformat ffeil mawr sy'n cadw'r berthynas rhwng data a metadata."

Mewn gwirionedd, yn y dull hwn - o alluoedd technegol presennol, nid oes unrhyw beth annormal ac, ynddo'i hun, mae hon yn broses naturiol, gan fod ehangu cysyniadau yn dod o'r gweithgaredd a astudiwyd fwyaf - dylunio cronfa ddata. Ond, ar y llaw arall, mae normau cyfreithiol yn ymddangos nad ydynt yn darparu ar gyfer gostyngiadau ar alluoedd technegol systemau presennol, er enghraifft: GDPR - Rheoliad Diogelu Data Cyffredinol.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol
Reis. 4. Twmffat o alluoedd technegol (Ffynhonnell).

Yn yr agweddau hyn, daw'n amlwg y bydd yn rhaid i'r set ddata wreiddiol (Ffig. 1), yn gyntaf oll, gael ei chadw, ac yn ail, fod yn sail i dynnu gwybodaeth ychwanegol ohoni. Wel, er enghraifft: camerâu cofnodi rheolau traffig yn hollbresennol, systemau prosesu gwybodaeth chwyn allan violators, ond gall gwybodaeth arall hefyd yn cael ei gynnig i ddefnyddwyr eraill, er enghraifft, fel marchnata monitro strwythur y llif o gwsmeriaid i ganolfan siopa. Ac mae hyn yn ffynhonnell o werth ychwanegol ychwanegol wrth ddefnyddio BigDat. Mae’n ddigon posibl y bydd gan y setiau data sy’n cael eu casglu nawr, rhywle yn y dyfodol, werth yn ôl mecanwaith tebyg i werth argraffiadau prin o 1700 ar hyn o bryd. Wedi'r cyfan, mewn gwirionedd, mae setiau data dros dro yn unigryw ac yn annhebygol o gael eu hailadrodd yn y dyfodol.

3. rhan rhagarweiniol. Meini prawf gwerthuso

Yn ystod y broses brosesu, datblygwyd y dosbarthiad gwallau canlynol.

1. Dosbarth gwall (yn seiliedig ar GOST R 8.736-2011): a) gwallau systematig; b) gwallau ar hap; c) camgymeriad.

2. Trwy luosogrwydd: a) ystumiad mono; b) aml-ystumio.

3. Yn ôl difrifoldeb y canlyniadau: a) critigol; b) ddim yn feirniadol.

4. Yn ôl ffynhonnell y digwyddiad:

A) Technegol - gwallau sy'n digwydd wrth weithredu'r offer. Gwall eithaf perthnasol ar gyfer systemau IoT, systemau sydd â chryn dipyn o ddylanwad ar ansawdd y cyfathrebu, offer (caledwedd).

B) Gwallau gweithredwr - gwallau mewn ystod eang o deipos gweithredwr yn ystod mewnbwn i wallau yn y manylebau technegol ar gyfer dylunio cronfa ddata.

C) Gwallau defnyddwyr - dyma wallau defnyddwyr yn yr ystod gyfan o “anghofio newid y cynllun” i fesuryddion camgymryd am draed.

5. Wedi'i wahanu'n ddosbarth ar wahân:

a) “tasg y gwahanydd,” hynny yw, y gofod a “:” (yn ein hachos ni) pan gafodd ei ddyblygu;
b) geiriau wedi'u hysgrifennu gyda'i gilydd;
c) dim gofod ar ôl nodau gwasanaeth
d) symbolau cymesurol lluosog: (), "", "...".

Gyda'i gilydd, gyda systemateiddio gwallau cronfa ddata a gyflwynir yn Ffigur 5, ffurfir system gydlynu eithaf effeithiol ar gyfer chwilio am wallau a datblygu algorithm glanhau data ar gyfer yr enghraifft hon.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol
Reis. 5. Gwallau nodweddiadol sy'n cyfateb i unedau strwythurol y gronfa ddata (Ffynhonnell: Oreshkov V.I., Paklin N.B. "Cysyniadau allweddol o gyfuno data").

Cywirdeb, Cywirdeb Parth, Math o Ddata, Cysondeb, Diswyddo, Cyflawnder, Dyblygu, Cydymffurfiad â Rheolau Busnes, Diffinedd Strwythurol, Anomaledd Data, Eglurder, Amserol, Cadw at Reolau Cywirdeb Data. (Tudalen 334. Hanfodion cadw data ar gyfer gweithwyr TG proffesiynol / Paulraj Ponniah.—2il arg.)

Cyflwyno geiriad Saesneg a chyfieithu peirianyddol Rwsieg mewn cromfachau.

Cywirdeb. Y gwerth sy'n cael ei storio yn y system ar gyfer elfen ddata yw'r gwerth cywir ar gyfer y digwyddiad hwnnw o'r elfen ddata. Os oes gennych chi enw cwsmer a chyfeiriad wedi'u storio mewn cofnod, yna'r cyfeiriad yw'r cyfeiriad cywir ar gyfer y cwsmer â'r enw hwnnw. Os gwelwch y swm a archebwyd fel 1000 o unedau yn y cofnod ar gyfer rhif archeb 12345678, yna'r maint hwnnw yw'r swm cywir ar gyfer yr archeb honno.
[Cywirdeb. Y gwerth sy'n cael ei storio yn y system ar gyfer elfen ddata yw'r gwerth cywir ar gyfer y digwyddiad hwnnw o'r elfen ddata. Os oes gennych chi enw a chyfeiriad cwsmer wedi'u storio mewn cofnod, yna'r cyfeiriad yw'r cyfeiriad cywir ar gyfer y cwsmer â'r enw hwnnw. Os gwelwch y swm a archebwyd fel 1000 o unedau yn y cofnod ar gyfer rhif archeb 12345678, yna'r maint hwnnw yw'r union swm ar gyfer yr archeb honno.]

Uniondeb Parth. Mae gwerth data priodoledd yn disgyn i'r ystod o werthoedd diffiniedig, caniataol. Yr enghraifft gyffredin yw’r gwerthoedd a ganiateir sef “gwrywaidd” a “benywaidd” ar gyfer yr elfen data rhyw.
[ Uniondeb Parth. Mae gwerth data priodoledd yn dod o fewn yr ystod o werthoedd dilys, diffiniedig. Enghraifft gyffredinol yw'r gwerthoedd dilys "gwrywaidd" a "benywaidd" ar gyfer elfen data rhyw.]

Math o Ddata. Mae gwerth priodoledd data yn cael ei storio mewn gwirionedd fel y math o ddata a ddiffinnir ar gyfer y nodwedd honno. Pan ddiffinnir math data maes enw'r siop fel “testun,” mae pob achos o'r maes hwnnw yn cynnwys enw'r siop a ddangosir mewn fformat testunol ac nid codau rhifol.
[Math o ddata. Mae gwerth priodoledd data yn cael ei storio mewn gwirionedd fel y math o ddata a ddiffinnir ar gyfer y nodwedd honno. Os yw'r math o ddata maes enw siop yn cael ei ddiffinio fel "testun", mae pob enghraifft o'r maes hwn yn cynnwys enw'r storfa a ddangosir mewn fformat testun yn hytrach na chodau rhifol.]

Cysondeb. Mae ffurf a chynnwys maes data yr un fath ar draws systemau ffynhonnell lluosog. Os mai'r cod cynnyrch ar gyfer cynnyrch ABC mewn un system yw 1234, yna cod y cynnyrch hwn yw 1234 ym mhob system ffynhonnell.
[Cysondeb. Mae ffurf a chynnwys y maes data yr un fath mewn gwahanol systemau ffynhonnell. Os mai'r cod cynnyrch ar gyfer cynnyrch ABC ar un system yw 1234, yna cod y cynnyrch hwnnw yw 1234 ar bob system ffynhonnell.]

Diswyddo. Rhaid peidio â storio'r un data mewn mwy nag un man mewn system. Os yw elfen ddata, am resymau effeithlonrwydd, yn cael ei storio'n fwriadol mewn mwy nag un lle mewn system, yna rhaid nodi a gwirio'r diswyddiad yn glir.
[Diswyddiad. Ni ddylid storio'r un data mewn mwy nag un man yn y system. Os yw elfen ddata, am resymau effeithlonrwydd, yn cael ei storio’n fwriadol mewn lleoliadau lluosog mewn system, yna mae’n rhaid i ddiswyddiad gael ei ddiffinio a’i ddilysu’n glir.]

Cyflawnder. Nid oes unrhyw werthoedd coll ar gyfer priodoledd penodol yn y system. Er enghraifft, mewn ffeil cwsmer, rhaid bod gwerth dilys ar gyfer y maes “cyflwr” ar gyfer pob cwsmer. Yn y ffeil ar gyfer manylion archeb, rhaid llenwi pob cofnod manwl ar gyfer archeb yn llwyr.
[Cyflawnder. Nid oes unrhyw werthoedd coll yn y system ar gyfer y nodwedd hon. Er enghraifft, rhaid i'r ffeil cleient gael gwerth dilys ar gyfer y maes "statws" ar gyfer pob cleient. Yn ffeil manylion yr archeb, rhaid cwblhau pob cofnod o fanylion archeb yn llwyr.]

Dyblygu. Mae dyblygu cofnodion mewn system wedi'i ddatrys yn llwyr. Os yw'n hysbys bod gan ffeil y cynnyrch gofnodion dyblyg, yna mae'r holl gofnodion dyblyg ar gyfer pob cynnyrch yn cael eu nodi a chroesgyfeiriad yn cael ei greu.
[Dyblyg. Mae dyblygu cofnodion yn y system wedi'i ddileu'n llwyr. Os yw'n hysbys bod ffeil cynnyrch yn cynnwys cofnodion dyblyg, yna mae pob cofnod dyblyg ar gyfer pob cynnyrch yn cael ei nodi a chroesgyfeiriad yn cael ei greu.]

Cydymffurfio â Rheolau Busnes. Mae gwerthoedd pob eitem ddata yn cadw at reolau busnes rhagnodedig. Mewn system arwerthiant, ni all y morthwyl neu'r pris gwerthu fod yn llai na'r pris wrth gefn. Mewn system benthyciadau banc, rhaid i falans y benthyciad fod yn gadarnhaol neu'n sero bob amser.
[Cydymffurfio â rheolau busnes. Mae gwerthoedd pob elfen ddata yn cydymffurfio â rheolau busnes sefydledig. Mewn system arwerthiant, ni all y morthwyl neu'r pris gwerthu fod yn llai na'r pris wrth gefn. Mewn system credyd bancio, rhaid i falans y benthyciad fod yn bositif neu'n sero bob amser.]

Diffiniad Strwythurol. Lle bynnag y gall eitem ddata gael ei strwythuro'n naturiol yn gydrannau unigol, rhaid i'r eitem gynnwys y strwythur hwn sydd wedi'i ddiffinio'n dda. Er enghraifft, mae enw unigolyn yn rhannu'n naturiol yn enw cyntaf, blaenlythyren canol, ac enw olaf. Rhaid storio gwerthoedd ar gyfer enwau unigolion fel enw cyntaf, llythrennau blaen canol, ac enw olaf. Mae'r nodwedd hon o ansawdd data yn symleiddio gorfodi safonau ac yn lleihau gwerthoedd coll.
[Sicrwydd Strwythurol. Lle gellir strwythuro elfen ddata yn naturiol yn gydrannau unigol, rhaid i'r elfen gynnwys y strwythur hwn sydd wedi'i ddiffinio'n dda. Er enghraifft, mae enw person wedi'i rannu'n naturiol yn enw cyntaf, llythyren ganol, ac enw olaf. Dylid storio gwerthoedd ar gyfer enwau unigol fel enw cyntaf, llythrennau blaen canol, ac enw olaf. Mae'r nodwedd ansawdd data hon yn symleiddio cymhwyso safonau ac yn lleihau gwerthoedd coll.]

Anomaledd Data. Rhaid defnyddio maes at y diben y'i diffinnir ar ei gyfer yn unig. Os yw maes Cyfeiriad-3 wedi'i ddiffinio ar gyfer unrhyw drydedd linell gyfeiriad bosibl ar gyfer cyfeiriadau hir, yna dim ond ar gyfer cofnodi trydedd linell y cyfeiriad y dylid defnyddio'r maes hwn. Ni ddylid ei ddefnyddio ar gyfer nodi rhif ffôn neu ffacs ar gyfer y cwsmer.
[Anomaledd Data. Rhaid defnyddio maes at y diben y'i diffinnir ar ei gyfer yn unig. Os yw'r maes Cyfeiriad-3 wedi'i ddiffinio ar gyfer unrhyw drydedd linell gyfeiriad bosibl ar gyfer cyfeiriadau hir, yna dim ond i gofnodi'r drydedd linell gyfeiriad y defnyddir y maes hwn. Ni ddylid ei ddefnyddio i nodi rhif ffôn neu ffacs ar gyfer cwsmer.]

Eglurder. Gall elfen ddata feddu ar holl nodweddion eraill data ansawdd ond os nad yw'r defnyddwyr yn deall ei ystyr yn glir, yna nid yw'r elfen ddata o unrhyw werth i'r defnyddwyr. Mae confensiynau enwi priodol yn helpu i sicrhau bod y defnyddwyr yn deall yr elfennau data yn dda.
[Eglurder. Gall fod gan elfen ddata holl nodweddion eraill data da, ond os nad yw defnyddwyr yn deall ei ystyr yn glir, yna nid yw'r elfen ddata o unrhyw werth i ddefnyddwyr. Mae confensiynau enwi cywir yn helpu defnyddwyr i ddeall elfennau data yn dda.]

Amserol. Mae'r defnyddwyr yn pennu amseroldeb y data. Os yw'r defnyddwyr yn disgwyl i ddata dimensiwn cwsmeriaid beidio â bod yn hŷn nag un diwrnod, rhaid cymhwyso'r newidiadau i ddata cwsmeriaid yn y systemau ffynhonnell i'r warws data bob dydd.
[Mewn modd amserol. Mae defnyddwyr yn pennu amseroldeb data. Os yw defnyddwyr yn disgwyl i ddata dimensiwn cwsmeriaid fod yn ddim mwy na diwrnod oed, dylai newidiadau i ddata cwsmeriaid yn y systemau ffynhonnell gael eu cymhwyso i'r warws data yn ddyddiol.]

Defnyddioldeb. Rhaid i bob elfen ddata yn y warws data fodloni rhai gofynion casglu defnyddwyr. Gall elfen ddata fod yn gywir ac o ansawdd uchel, ond os nad yw o unrhyw werth i'r defnyddwyr, yna mae'n gwbl ddiangen i'r elfen ddata honno fod yn y warws data.
[ Cyfleustra. Rhaid i bob eitem ddata yn y storfa ddata fodloni rhai o ofynion casgliad y defnyddiwr. Gall elfen ddata fod yn gywir ac o ansawdd uchel, ond os nad yw’n rhoi gwerth i ddefnyddwyr, yna nid oes angen i’r elfen ddata honno fod yn y warws data.]

Cadw at Reolau Cywirdeb Data. Rhaid i'r data sy'n cael ei storio yng nghronfeydd data perthynol y systemau ffynhonnell gadw at reolau uniondeb endid a chywirdeb cyfeiriadol. Nid oes gan unrhyw dabl sy'n caniatáu nwl fel y brif allwedd gyfanrwydd endid. Mae uniondeb cyfeiriadol yn gorfodi sefydlu perthnasoedd rhiant-plentyn yn gywir. Mewn perthynas cwsmer-i-archeb, mae cywirdeb cyfeiriol yn sicrhau bodolaeth cwsmer ar gyfer pob archeb yn y gronfa ddata.
[Cydymffurfio â rheolau cywirdeb data. Rhaid i ddata sy'n cael ei storio mewn cronfeydd data perthynol o systemau ffynhonnell gydymffurfio â rheolau cyfanrwydd endid a chywirdeb cyfeiriadol. Nid oes gan unrhyw dabl sy'n caniatáu nwl fel allwedd gynradd gyfanrwydd endid. Mae uniondeb cyfeiriadol yn gorfodi'r berthynas rhwng rhieni a phlant i gael ei sefydlu'n gywir. Mewn perthynas archeb cwsmer, mae cywirdeb cyfeiriol yn sicrhau bod cwsmer yn bodoli ar gyfer pob archeb yn y gronfa ddata.]

4. Ansawdd glanhau data

Mae ansawdd glanhau data yn fater braidd yn broblemus mewn data mawr. Mae ateb y cwestiwn i ba raddau y mae angen glanhau data i gwblhau'r dasg yn hanfodol i bob dadansoddwr data. Yn y rhan fwyaf o broblemau cyfredol, mae pob dadansoddwr yn pennu hyn ei hun ac mae'n annhebygol y bydd unrhyw un o'r tu allan yn gallu gwerthuso'r agwedd hon yn ei ddatrysiad. Ond ar gyfer y dasg dan sylw yn yr achos hwn, roedd y mater hwn yn hynod o bwysig, gan y dylai dibynadwyedd data cyfreithiol dueddu i un.

Ystyried technolegau profi meddalwedd i bennu dibynadwyedd gweithredol. Heddiw mae mwy na'r modelau hyn 200. Mae llawer o'r modelau'n defnyddio model gwasanaethu hawliadau:

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol
Ffig. Xnumx

Gan feddwl fel a ganlyn: “Os yw'r gwall a ddarganfuwyd yn ddigwyddiad tebyg i'r digwyddiad methiant yn y model hwn, yna sut i ddod o hyd i analog o'r paramedr t?” A lluniais y model canlynol: Gadewch i ni ddychmygu mai'r amser y mae'n ei gymryd i brofwr wirio un cofnod yw 1 munud (ar gyfer y gronfa ddata dan sylw), yna i ddod o hyd i'r holl wallau bydd angen 365 munud arno, sef tua 494 blynedd a 3 misoedd o amser gwaith. Fel y deallwn, mae hwn yn swm mawr iawn o waith a bydd y gost o wirio'r gronfa ddata yn afresymol i grynhoad y gronfa ddata hon. Yn y myfyrdod hwn, mae'r cysyniad economaidd o gostau yn ymddangos ac ar ôl dadansoddi deuthum i'r casgliad bod hwn yn arf eithaf effeithiol. Yn seiliedig ar gyfraith economeg: “Mae maint y cynhyrchiad (mewn unedau) lle mae elw mwyaf cwmni yn cael ei leoli ar y pwynt lle mae cost ymylol cynhyrchu uned newydd o allbwn yn cael ei gymharu â'r pris y gall y cwmni hwn ei dderbyn. am uned newydd.” Yn seiliedig ar y rhagdybiaeth bod dod o hyd i bob gwall dilynol yn gofyn am fwy a mwy o wirio cofnodion, mae hwn yn ffactor cost. Hynny yw, mae'r rhagdyb a fabwysiadwyd wrth brofi modelau yn cymryd ystyr ffisegol yn y patrwm canlynol: os i ddod o hyd i'r gwall i-th roedd angen gwirio n cofnodion, yna i ddod o hyd i'r gwall nesaf (i+3) bydd angen i wirio m cofnodion ac ar yr un pryd n

  1. Pan fydd nifer y cofnodion a wiriwyd cyn dod o hyd i wall newydd yn sefydlogi;
  2. Pan fydd nifer y cofnodion a wiriwyd cyn canfod y gwall nesaf yn cynyddu.

I bennu'r gwerth critigol, troais at y cysyniad o ddichonoldeb economaidd, y gellir ei lunio yn yr achos hwn, gan ddefnyddio'r cysyniad o gostau cymdeithasol, fel a ganlyn: “Dylai costau cywiro'r gwall gael eu talu gan yr asiant economaidd a all wneud hynny am y gost isaf.” Mae gennym un asiant - profwr sy'n treulio 1 munud yn gwirio un cofnod. Mewn termau ariannol, os ydych chi'n ennill 6000 rubles y dydd, bydd hyn yn 12,2 rubles. (tua heddiw). Mae'n parhau i fod i benderfynu ar ail ochr yr ecwilibriwm mewn cyfraith economaidd. Ymresymais fel hyn. Bydd gwall presennol yn ei gwneud yn ofynnol i'r person dan sylw ymdrechu i'w gywiro, hynny yw, perchennog yr eiddo. Gadewch i ni ddweud bod hyn yn gofyn am 1 diwrnod o weithredu (cyflwyno cais, derbyn dogfen wedi'i chywiro). Yna, o safbwynt cymdeithasol, bydd ei gostau yn gyfartal â chyflog cyfartalog y dydd. Cyflog cronedig cyfartalog yn Khanty-Mansi Autonomous Okrug “Canlyniadau datblygiad economaidd-gymdeithasol Okrug Ymreolaethol Khanty-Mansiysk - Ugra ar gyfer Ionawr-Medi 2019” 73285 rhwbio. neu 3053,542 rubles / dydd. Yn unol â hynny, rydym yn cael gwerth critigol sy'n hafal i:
3053,542: 12,2 = 250,4 uned o gofnodion.

Mae hyn yn golygu, o safbwynt cymdeithasol, pe bai profwr yn gwirio 251 o gofnodion a dod o hyd i un gwall, mae'n cyfateb i'r defnyddiwr drwsio'r gwall hwn ei hun. Yn unol â hynny, pe bai'r profwr yn treulio amser cyfartal i wirio 252 o gofnodion i ddod o hyd i'r gwall nesaf, yna yn yr achos hwn mae'n well symud cost cywiro i'r defnyddiwr.

Cyflwynir ymagwedd symlach yma, oherwydd o safbwynt cymdeithasol mae angen ystyried yr holl werth ychwanegol a gynhyrchir gan bob arbenigwr, hynny yw, costau gan gynnwys trethi a thaliadau cymdeithasol, ond mae'r model yn glir. Un o ganlyniadau'r berthynas hon yw'r gofyniad canlynol ar gyfer arbenigwyr: rhaid i arbenigwr o'r diwydiant TG fod â chyflog uwch na'r cyfartaledd cenedlaethol. Os yw ei gyflog yn llai na chyflog cyfartalog darpar ddefnyddwyr cronfa ddata, yna mae'n rhaid iddo ef ei hun wirio'r gronfa ddata gyfan law yn llaw.

Wrth ddefnyddio'r maen prawf a ddisgrifir, ffurfir y gofyniad cyntaf ar gyfer ansawdd y gronfa ddata:
I(tr). Ni ddylai cyfran y gwallau critigol fod yn fwy na 1/250,4 = 0,39938%. Ychydig yn llai na coethi aur mewn diwydiant. Ac mewn termau corfforol nid oes mwy na 1459 o gofnodion gyda gwallau.

Enciliad economaidd.

Mewn gwirionedd, trwy wneud cymaint o wallau mewn cofnodion, mae cymdeithas yn cytuno i golledion economaidd yn y swm o:

1459*3053,542 = 4 rubles.

Pennir y swm hwn gan y ffaith nad oes gan gymdeithas yr offer i leihau'r costau hyn. Mae’n dilyn, os oes gan rywun dechnoleg sy’n caniatáu iddynt leihau nifer y cofnodion â gwallau i, er enghraifft, 259, yna bydd hyn yn caniatáu i gymdeithas arbed:
1200*3053,542 = 3 rubles.

Ond ar yr un pryd, gall ofyn am ei dalent a'i waith, yn dda, gadewch i ni ddweud - 1 miliwn rubles.
Hynny yw, mae costau cymdeithasol yn cael eu lleihau gan:

3 – 664 = 250 rubles.

Yn ei hanfod, yr effaith hon yw'r gwerth ychwanegol o ddefnyddio technolegau BigDat.

Ond yma dylid cymryd i ystyriaeth mai effaith gymdeithasol yw hon, a pherchennog y gronfa ddata yw awdurdodau trefol, eu hincwm o ddefnyddio eiddo a gofnodwyd yn y gronfa ddata hon, ar gyfradd o 0,3%, yw: 2,778 biliwn rubles / blwyddyn. Ac nid yw'r costau hyn (4 rubles) yn ei boeni llawer, gan eu bod yn cael eu trosglwyddo i berchnogion eiddo. Ac, yn yr agwedd hon, bydd yn rhaid i ddatblygwr technolegau mwy mireinio yn Bigdata ddangos y gallu i argyhoeddi perchennog y gronfa ddata hon, ac mae angen cryn dalent ar bethau o'r fath.

Yn yr enghraifft hon, dewiswyd yr algorithm asesu gwallau yn seiliedig ar fodel Schumann [2] o ddilysu meddalwedd yn ystod profion dibynadwyedd. Oherwydd ei gyffredinrwydd ar y Rhyngrwyd a'r gallu i gael y dangosyddion ystadegol angenrheidiol. Cymerir y fethodoleg o Monakhov Yu.M. “Sefydlwch swyddogaethol systemau gwybodaeth”, gweler o dan y sbwyliwr yn Ffig. 7-9.

Reis. 7 – 9 Methodoleg model SchumannGlanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol

Mae ail ran y deunydd hwn yn cyflwyno enghraifft o lanhau data, lle ceir canlyniadau defnyddio model Schumann.
Gadewch imi gyflwyno'r canlyniadau a gafwyd:
Amcangyfrif o nifer y gwallau N = 3167 n.
Paramedr C, lambda a swyddogaeth dibynadwyedd:

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 1. Damcaniaethol
Ffig. 17

Yn y bôn, mae lambda yn ddangosydd gwirioneddol o ba mor ddwys y canfyddir gwallau ym mhob cam. Os edrychwch ar yr ail ran, yr amcangyfrif ar gyfer y dangosydd hwn oedd 42,4 gwall yr awr, sy'n eithaf tebyg i ddangosydd Schumann. Uchod, penderfynwyd na ddylai'r gyfradd y mae datblygwr yn canfod gwallau fod yn is nag 1 gwall fesul 250,4 cofnod, wrth wirio 1 cofnod y funud. Felly gwerth hollbwysig lambda ar gyfer model Schumann:

60/250,4 = 0,239617 .

Hynny yw, rhaid cynnal yr angen i gynnal gweithdrefnau canfod gwallau nes bod lambda, o'r 38,964 presennol, yn gostwng i 0,239617.

Neu hyd nes y bydd y dangosydd N (nifer posibl y gwallau) llai n (nifer cywir o wallau) yn gostwng o dan ein trothwy derbyniol - 1459 pcs.

Llenyddiaeth

  1. Monakhov, Yu M. Sefydlogrwydd swyddogaethol systemau gwybodaeth. Mewn oriau 3. Rhan 1. Dibynadwyedd meddalwedd: gwerslyfr. lwfans / Yu. M. Monakhov; Vladimir. gwladwriaeth univ. – Vladimir: Izvo Vladimir. gwladwriaeth Prifysgol, 2011. – 60 p. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, “Modelau tebygol ar gyfer rhagfynegi dibynadwyedd meddalwedd.”
  3. Hanfodion warws data ar gyfer gweithwyr TG proffesiynol / Paulraj Ponniah.—2il arg.

Rhan dau. Damcaniaethol

Ffynhonnell: hab.com

Ychwanegu sylw