Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt

1. Upphafsgögn

Gagnahreinsun er ein af áskorunum sem gagnagreiningarverkefni standa frammi fyrir. Þetta efni endurspeglaði þá þróun og lausnir sem urðu vegna lausnar á hagnýtu vandamáli við að greina gagnagrunninn við myndun fasteignamats. Heimildir hér "SKÝRSLA Nr. 01/OKS-2019 um niðurstöður mats á fasteignamati ríkisins á öllum gerðum fasteigna (að undanskildum lóðum) á yfirráðasvæði Khanty-Mansiysk sjálfstjórnarsvæðisins - Ugra".

Farið var yfir skrána „Samanburðarlíkan total.ods“ í „Viðauka B. Niðurstöður ákvörðunar KS 5. Upplýsingar um aðferð við ákvörðun matargerðargildis 5.1 Samanburðaraðferð“.

Tafla 1. Tölfræðilegir vísbendingar um gagnasafnið í skránni „Comparative model total.ods“
Heildarfjöldi reita, stk. — 44
Heildarfjöldi skráa, stk. — 365 490
Heildarfjöldi stafa, stk. — 101 714 693
Meðalfjöldi stafa í skrá, stk. — 278,297
Staðalfrávik stafa í skrá, stk. — 15,510
Lágmarksfjöldi stafa í færslu, stk. — 198
Hámarksfjöldi stafa í færslu, stk. — 363

2. Kynningarhluti. Grunnstaðlar

Við greiningu á tilgreindum gagnagrunni var myndað verkefni til að tilgreina kröfur um hreinsunarstig, þar sem eins og öllum er ljóst hefur tilgreindur gagnagrunnur lagalegar og efnahagslegar afleiðingar fyrir notendur. Við vinnuna kom í ljós að engar sérstakar kröfur voru gerðar um hreinsunarstig stórra gagna. Við greiningu á lagaviðmiðunum í þessu efni komst ég að þeirri niðurstöðu að þau eru öll mynduð út frá möguleikum. Það er að segja að ákveðið verkefni hefur birst, upplýsingaveitur eru teknar saman fyrir verkefnið, síðan myndast gagnasafn og, út frá búið til gagnasafni, verkfæri til að leysa vandamálið. Lausnirnar sem myndast eru viðmiðunarpunktar í vali úr valkostum. Ég kynnti þetta á mynd 1.

Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt

Þar sem það er æskilegra að reiða sig á sannaða tækni þegar kemur að því að ákvarða hvaða staðla sem er, valdi ég þær kröfur sem settar eru fram í "MHRA GxP Data Integrity Skilgreiningar og leiðbeiningar fyrir iðnaðinn", vegna þess að ég taldi þetta skjal það yfirgripsmeista fyrir þetta mál. Sérstaklega segir í þessu skjali í kaflanum „Það skal tekið fram að kröfur um gagnaheilleika eiga jafnt við um handvirk (pappír) og rafræn gögn.“ (þýðing: „...kröfur um heiðarleika gagna gilda jafnt um handvirk (pappír) og rafræn gögn“). Þessi samsetning tengist alveg sérstaklega hugtakinu „skrifleg sönnunargögn“, í ákvæðum 71. greinar laga um meðferð einkamála, gr. 70 CAS, gr.75 APC, „skriflega“ gr. 84 laga um meðferð einkamála.

Mynd 2 sýnir skýringarmynd af myndun nálgana við tegundir upplýsinga í lögfræði.

Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt
Hrísgrjón. 2. Heimild hér.

Mynd 3 sýnir vélbúnaðinn á mynd 1, fyrir verkefni ofangreindra "Leiðbeiningar". Auðvelt er, með samanburði, að sjá að þær aðferðir sem notaðar eru þegar uppfylla kröfur um upplýsingaheilleika í nútímastöðlum fyrir upplýsingakerfi eru verulega takmarkaðar í samanburði við lagahugtakið upplýsingar.

Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt
Mynd 3

Í tilgreindu skjali (Leiðbeiningar) er tengingin við tæknilega hlutann, möguleika til vinnslu og geymslu gagna, vel staðfest með tilvitnun í kafla 18.2. Venslagagnagrunnur: "Þessi skráarskipan er í eðli sínu öruggari, þar sem gögnin eru geymd á stóru skráarsniði sem varðveitir sambandið milli gagna og lýsigagna."

Reyndar, í þessari nálgun - frá núverandi tæknilegri getu, er ekkert óeðlilegt og í sjálfu sér er þetta eðlilegt ferli, þar sem útvíkkun hugtaka kemur frá mest rannsakaðri starfsemi - gagnagrunnshönnun. En á hinn bóginn birtast lagaleg viðmið sem gera ekki ráð fyrir afslætti á tæknilegri getu núverandi kerfa, til dæmis: GDPR - General Data Protection Regulation.

Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt
Hrísgrjón. 4. Trekt fyrir tæknilega getu (Source).

Í þessum þáttum kemur í ljós að upprunalega gagnasafnið (mynd 1) verður í fyrsta lagi að vista og í öðru lagi að vera grundvöllur þess að draga úr því viðbótarupplýsingar. Tja, sem dæmi: myndavélar sem taka upp umferðarreglur eru alls staðar nálægar, upplýsingavinnslukerfi eyða þeim sem brjóta af sér, en aðrar upplýsingar er einnig hægt að bjóða öðrum neytendum, til dæmis sem markaðsvöktun á uppbyggingu flæðis viðskiptavina til verslunarmiðstöðvar. Og þetta er uppspretta viðbótarvirðisauka þegar BigDat er notað. Það er vel mögulegt að gagnasöfnin sem verið er að safna núna, einhvers staðar í framtíðinni, muni hafa gildi samkvæmt kerfi svipað og verðmæti sjaldgæfra útgáfunnar af 1700 um þessar mundir. Þegar öllu er á botninn hvolft eru í raun tímabundin gagnasöfn einstök og ólíklegt er að þau verði endurtekin í framtíðinni.

3. Kynningarhluti. Matsviðmið

Í vinnsluferlinu var eftirfarandi villuflokkun þróuð.

1. Villuflokkur (byggt á GOST R 8.736-2011): a) kerfisbundnar villur; b) tilviljunarkenndar villur; c) mistök.

2. Með margföldun: a) mónó bjögun; b) fjölbjögun.

3. Samkvæmt mikilvægi afleiðinganna: a) gagnrýninn; b) ekki gagnrýnivert.

4. Eftir upptökum atviks:

A) Tæknilegt – villur sem eiga sér stað við notkun búnaðarins. Nokkuð viðeigandi villa fyrir IoT kerfi, kerfi með veruleg áhrif á gæði samskipta, búnað (vélbúnaður).

B) Rekstrarvillur - villur á víðu bili frá innsláttarvillum rekstraraðila við innslátt til villna í tækniforskriftum fyrir hönnun gagnagrunns.

C) Notendavillur - hér eru notendavillur á öllu bilinu frá "gleymdi að skipta um skipulag" til að misskilja metra fyrir fætur.

5. Aðskilið í sérstakan flokk:

a) „verkefni aðskilnaðarins,“ það er bilið og „:“ (í okkar tilviki) þegar það var afritað;
b) orð skrifuð saman;
c) ekkert bil á eftir þjónustustöfum
d) samhverf mörg tákn: (), "", "...".

Samanlagt, með kerfissetningu villna í gagnagrunni sem sýnd er á mynd 5, myndast nokkuð skilvirkt hnitakerfi til að leita að villum og þróa gagnahreinsunaralgrím fyrir þetta dæmi.

Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt
Hrísgrjón. 5. Dæmigerðar villur sem samsvara byggingareiningum gagnagrunnsins (Heimild: Oreshkov V.I., Paklin N.B. "Lykilhugtök við samþjöppun gagna").

Nákvæmni, lénsheilleiki, gagnategund, samkvæmni, offramboð, heilleiki, tvíverknað, samræmi við viðskiptareglur, burðarvirki, gagnafrávik, skýrleiki, tímabært, fylgni við gagnaheilleikareglur. (Síða 334. Grundvallaratriði í gagnavörslu fyrir upplýsingatæknifræðinga / Paulraj Ponniah.—2. útgáfa)

Kynnt enskt orðalag og rússnesk vélþýðing innan sviga.

Nákvæmni. Gildið sem er geymt í kerfinu fyrir gagnaeiningu er rétt gildi fyrir það tilvik gagnaeiningarinnar. Ef þú ert með nafn viðskiptavinar og heimilisfang geymt í skrá, þá er heimilisfangið rétt heimilisfang viðskiptavinarins með því nafni. Ef þú finnur magnið sem er pantað sem 1000 einingar í skránni fyrir pöntunarnúmer 12345678, þá er það magn rétt magn fyrir þá pöntun.
[Nákvæmni. Gildið sem er geymt í kerfinu fyrir gagnaeiningu er rétt gildi fyrir það tilvik gagnaeiningarinnar. Ef þú ert með nafn viðskiptavinar og heimilisfang geymt í skrá, þá er heimilisfangið rétt heimilisfang viðskiptavinarins með því nafni. Ef þú finnur magnið sem er pantað sem 1000 einingar í skránni fyrir pöntunarnúmer 12345678, þá er það magn nákvæmlega magnið fyrir þá pöntun.]

Heiðarleiki léns. Gagnagildi eigindar fellur á bilinu leyfilegra, skilgreindra gilda. Algengt dæmi er að leyfileg gildi séu „karlkyns“ og „kona“ fyrir kyngagnaþáttinn.
[Heiðindi léns. Gildi eigindargagna fellur innan gildissviðs gilda, skilgreindra gilda. Almennt dæmi eru gild gildi „male“ og „female“ fyrir kyngagnaþátt.]

Tegund gagna. Gildi fyrir gagnaeiginleika er í raun geymt sem gagnategundin sem er skilgreind fyrir þá eigind. Þegar gagnategund verslunarheitareitsins er skilgreind sem „texti“ innihalda öll tilvik þess reits verslunarheitið sem sýnt er á textasniði en ekki tölukóða.
[Gagnagerð. Gildi gagnaeiginleika er í raun geymt sem gagnategundin sem er skilgreind fyrir þá eigind. Ef gagnategund verslunarheitisreitsins er skilgreind sem „texti“, innihalda öll tilvik þessa reits verslunarheitið sem birtist á textasniði frekar en tölukóðum.]

Samræmi. Form og innihald gagnasviðs er það sama í mörgum upprunakerfum. Ef vörukóði vöru ABC í einu kerfi er 1234, þá er kóðinn fyrir þessa vöru 1234 í hverju frumkerfi.
[Samkvæmni. Form og innihald gagnasviðsins eru þau sömu í mismunandi heimildakerfum. Ef vörukóði vöru ABC á einu kerfi er 1234, þá er kóði fyrir þá vöru 1234 á hverju frumkerfi.]

Offramboð. Ekki má geyma sömu gögn á fleiri en einum stað í kerfi. Ef, af hagkvæmnisástæðum, er gagnaþáttur geymdur viljandi á fleiri en einum stað í kerfi, þá þarf að auðkenna og sannreyna offramboðið.
[Óþarfi. Ekki skal geyma sömu gögn á fleiri en einum stað í kerfinu. Ef, af hagkvæmnisástæðum, er gagnaþáttur geymdur af ásetningi á mörgum stöðum í kerfi, þá verður offramboð að vera skýrt skilgreint og staðfest.]

Heilleiki. Það vantar engin gildi fyrir tiltekna eiginleika í kerfinu. Til dæmis, í viðskiptamannaskrá, verður að vera gilt gildi fyrir „ríki“ reitinn fyrir hvern viðskiptavin. Í skránni fyrir upplýsingar um pöntun verður að fylla út allar smáatriði fyrir pöntun.
[Heilleika. Það vantar engin gildi í kerfið fyrir þennan eiginleika. Til dæmis verður biðlaraskráin að hafa gilt gildi fyrir „stöðu“ reitinn fyrir hvern viðskiptavin. Í pöntunarupplýsingaskránni verður að fylla út hverja pöntunarupplýsingaskrá að fullu.]

Tvíverkun. Fjölföldun skráa í kerfi er algjörlega leyst. Ef vitað er að vöruskráin hefur tvíteknar færslur, þá eru allar tvíteknar færslur fyrir hverja vöru auðkenndar og krosstilvísun búin til.
[Afrit. Fjölföldun skráa í kerfinu hefur verið eytt algjörlega. Ef vitað er að vöruskrá inniheldur tvíteknar færslur, þá eru allar tvíteknar færslur fyrir hverja vöru auðkenndar og krosstilvísun er búin til.]

Samræmi við viðskiptareglur. Gildi hvers gagnaatriðis fylgja tilskildum viðskiptareglum. Í uppboðskerfi má hamar- eða söluverð ekki vera lægra en varaverð. Í bankalánakerfi þarf staða lána alltaf að vera jákvæð eða núll.
[Fylgni við viðskiptareglur. Gildi hvers gagnaþáttar eru í samræmi við settar viðskiptareglur. Í uppboðskerfi má hamar- eða söluverð ekki vera lægra en varaverð. Í bankalánakerfi þarf staða lána alltaf að vera jákvæð eða núll.]

Uppbyggingarákveðni. Hvar sem náttúrulega er hægt að skipuleggja gagnahluta í einstaka þætti verður hluturinn að innihalda þessa vel skilgreindu uppbyggingu. Til dæmis skiptist nafn einstaklings náttúrulega í fornafn, mið upphafsstaf og eftirnafn. Gildi fyrir nöfn einstaklinga verða að vera geymd sem fornafn, mið upphafsstaf og eftirnafn. Þessi eiginleiki gagnagæða einfaldar framfylgd staðla og dregur úr gildum sem vantar.
[Byggingarvissa. Þar sem hægt er að skipuleggja gagnaeiningu á náttúrulegan hátt í einstaka íhluti verður þátturinn að innihalda þessa vel skilgreindu uppbyggingu. Til dæmis er nafn einstaklings náttúrulega skipt í fornafn, mið upphafsstaf og eftirnafn. Gildi fyrir einstök nöfn ættu að vera geymd sem fornafn, mið upphafsstaf og eftirnafn. Þessi gagnagæðaeiginleiki einfaldar beitingu staðla og dregur úr gildum sem vantar.]

Gagnafrávik. Einungis verður að nota reit í þeim tilgangi sem hann er skilgreindur fyrir. Ef reiturinn Heimilisfang-3 er skilgreindur fyrir mögulega þriðju heimilisfangslínu fyrir löng vistföng, þá verður aðeins að nota þennan reit til að skrá þriðju heimilisfangslínuna. Það má ekki nota til að slá inn síma- eða faxnúmer fyrir viðskiptavininn.
[Gagnafrávik. Einungis má nota reit í þeim tilgangi sem hann er skilgreindur fyrir. Ef Heimilisfang-3 reiturinn er skilgreindur fyrir einhverja mögulega þriðju vistfangslínu fyrir löng vistföng, þá skal þessi reitur aðeins notaður til að skrá þriðju heimilisfangslínuna. Það ætti ekki að nota til að slá inn síma- eða faxnúmer fyrir viðskiptavin.]

Skýrleiki. Gagnaþáttur getur búið yfir öllum öðrum eiginleikum gæðagagna en ef notendur skilja ekki merkingu þess greinilega, þá er gagnaþátturinn ekkert virði fyrir notendur. Réttar nafnavenjur hjálpa til við að gera gagnaþættina vel skiljanlega af notendum.
[Skýrleiki. Gagnaþáttur getur haft öll önnur einkenni góðra gagna, en ef notendur skilja ekki merkingu þeirra greinilega, þá er gagnaþátturinn ekkert virði fyrir notendur. Réttar nafnavenjur hjálpa til við að gagnaþættir skilji notendur vel.]

Tímabært. Notendur ákvarða tímanleika gagnanna. Ef notendur búast við að gögn viðskiptavinavíddar séu ekki eldri en einn dag, verður að beita breytingum á viðskiptamannagögnum í upprunakerfum á gagnageymslunni daglega.
[Í tæka tíð. Notendur ákvarða tímanleika gagna. Ef notendur búast við að gögn viðskiptavinavíddar séu ekki eldri en eins dags gömul, ætti að beita breytingum á viðskiptavinagögnum í upprunakerfum á gagnageymslunni daglega.]

Gagnsemi. Sérhver gagnaþáttur í gagnageymslunni verður að uppfylla ákveðnar kröfur um söfnun notenda. Gagnaþáttur getur verið nákvæmur og af háum gæðum, en ef hann er einskis virði fyrir notendur, þá er algjör óþarfi að sá gagnaþáttur sé í gagnageymslunni.
[Gagnsemi. Hvert gagnaatriði í gagnageymslunni verður að uppfylla ákveðnar kröfur notendasafnsins. Gagnaþáttur getur verið nákvæmur og af háum gæðum, en ef hann veitir notendum ekki gildi, þá er ekki nauðsynlegt að sá gagnaþáttur sé í gagnageymslunni.]

Fylgni við reglur um heiðarleika gagna. Gögnin sem geymd eru í tengslagagnagrunnum upprunakerfanna verða að fylgja reglum um heiðarleika einingar og tilvísunarheilleika. Sérhver tafla sem leyfir núll sem aðallykill hefur ekki heilleika einingar. Tilvísunarheiðarleiki þvingar til þess að samband foreldra og barns sé komið á réttan hátt. Í viðskiptasambandi við pöntun tryggir tilvísunarheilleiki tilvist viðskiptavinar fyrir hverja pöntun í gagnagrunninum.
[Fylgni við reglur um heiðarleika gagna. Gögn sem geymd eru í venslagagnagrunnum upprunakerfa verða að vera í samræmi við reglur um heiðarleika aðila og tilvísunarheilleika. Sérhver tafla sem leyfir núll sem aðallykil hefur ekki heilleika einingar. Tilvísunarheiðarleiki knýr á um að samband foreldra og barna sé rétt komið á. Í sambandi við viðskiptavini og pöntun tryggir tilvísunarheiðarleiki að viðskiptavinur sé til fyrir hverja pöntun í gagnagrunninum.]

4. Gæði gagnahreinsunar

Gæði gagnahreinsunar er frekar vandamál í stórgögnum. Að svara spurningunni um hversu mikil gagnahreinsun er nauðsynleg til að klára verkefnið er grundvallaratriði fyrir hvern gagnafræðing. Í flestum núverandi vandamálum ákveður hver sérfræðingur þetta sjálfur og ólíklegt er að einhver utan frá geti metið þennan þátt í lausn sinni. En fyrir verkefnið í þessu tilviki var þetta atriði afar mikilvægt, þar sem áreiðanleiki lagalegra gagna ætti að vera einn.

Íhuga hugbúnaðarprófunartækni til að ákvarða rekstraráreiðanleika. Í dag eru fleiri en þessar gerðir 200. Mörg líkananna nota kröfuþjónustulíkan:

Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt
Fig. 6

Að hugsa sem hér segir: "Ef villan sem fannst er atburður svipaður bilunartilvikinu í þessu líkani, hvernig á að finna hliðstæðu við færibreytuna t?" Og ég tók saman eftirfarandi líkan: Við skulum ímynda okkur að tíminn sem það tekur prófunaraðila að athuga eina færslu sé 1 mínúta (fyrir viðkomandi gagnagrunn), til að finna allar villurnar þarf hann 365 mínútur, sem eru um það bil 494 ár og 3 mánaða vinnutíma. Eins og við skiljum er þetta mjög mikil vinna og kostnaður við að athuga gagnagrunninn verður óhóflegur fyrir þýðingu þessa gagnagrunns. Í þessari hugleiðingu birtist efnahagshugtakið kostnaður og eftir greiningu komst ég að þeirri niðurstöðu að þetta sé nokkuð áhrifaríkt tæki. Byggt á hagfræðilögmálinu: „Það framleiðslumagn (í einingum) þar sem hámarkshagnaður fyrirtækis er staðsettur á þeim stað þar sem jaðarkostnaður við að framleiða nýja framleiðslueiningu er borinn saman við verðið sem þetta fyrirtæki getur fengið fyrir nýja einingu." Byggt á þeirri forsendu að það að finna hverja síðari villu krefjist sífellt meiri athugunar á skrám er þetta kostnaðarþáttur. Það er, staðsetningin sem notuð er í prófunarlíkönum fær líkamlega merkingu í eftirfarandi mynstri: ef til að finna i-th villuna var nauðsynlegt að athuga n færslur, þá verður það nauðsynlegt til að finna næstu (i+3) villu að athuga m skrár og um leið n

  1. Þegar fjöldi skráa sem skoðaðar eru áður en ný villa finnst stöðugast;
  2. Þegar fjöldi skráa sem skoðaðar eru áður en næstu villu finnast mun aukast.

Til að ákvarða gagnrýna gildið sneri ég mér að hugtakinu efnahagslegur hagkvæmni, sem í þessu tilfelli, með því að nota hugtakið félagslegur kostnaður, má orða þannig: „Kostnaðurinn við að leiðrétta villuna ætti að vera borinn af þeim efnahagsaðili sem getur gert það með lægsta tilkostnaði." Við erum með einn umboðsmann - prófunaraðila sem eyðir 1 mínútu í að skoða eina skrá. Í peningalegu tilliti, ef þú færð 6000 rúblur á dag, mun þetta vera 12,2 rúblur. (um það bil í dag). Það er eftir að ákvarða seinni hlið jafnvægis í efnahagslögmálum. Ég rökræddi svona. Fyrirliggjandi villa mun krefjast þess að viðkomandi leggi sig fram við að leiðrétta hana, það er eigandi fasteigna. Segjum að þetta krefjist 1 dags aðgerða (sendið inn umsókn, fáið leiðrétt skjal). Þá mun kostnaður hans frá félagslegu sjónarmiði jafngilda meðallaunum á dag. Meðallaun áunnin í Khanty-Mansi sjálfstjórnarsvæðinu „Niðurstöður félags-efnahagslegrar þróunar Khanty-Mansiysk sjálfstjórnarsvæðisins - Ugra fyrir janúar-september 2019“ 73285 kr. eða 3053,542 rúblur á dag. Í samræmi við það fáum við gagnrýna gildi sem jafngildir:
3053,542: 12,2 = 250,4 einingar af skrám.

Þetta þýðir, frá félagslegu sjónarhorni, að ef prófunaraðili skoðaði 251 skrár og fann eina villu jafngildir það því að notandinn lagaði þessa villu sjálfur. Í samræmi við það, ef prófarinn eyddi tíma sem jafngildir því að athuga 252 færslur til að finna næstu villu, þá er í þessu tilfelli betra að færa kostnað við leiðréttingu yfir á notandann.

Hér er sett fram einfölduð nálgun þar sem frá félagslegu sjónarhorni er nauðsynlegt að taka tillit til allra aukaverðmæta sem hver sérfræðingur skapar, það er kostnaðar með sköttum og félagslegum greiðslum, en líkanið er skýrt. Afleiðing þessa sambands er eftirfarandi krafa til sérfræðinga: Sérfræðingur úr upplýsingatækniiðnaði verður að hafa hærri laun en landsmeðaltal. Ef laun hans eru lægri en meðallaun hugsanlegra gagnagrunnsnotenda, þá verður hann sjálfur að athuga allan gagnagrunninn hand-til-hönd.

Þegar lýst viðmiðun er notuð myndast fyrsta krafan um gæði gagnagrunnsins:
ég(tr). Hlutfall mikilvægra villna ætti ekki að fara yfir 1/250,4 = 0,39938%. Aðeins minna en hreinsun gull í iðnaði. Og í líkamlegu tilliti eru ekki fleiri en 1459 skrár með villum.

Efnahagslegt undanhald.

Reyndar, með því að gera slíkan fjölda villna í skrám, samþykkir samfélagið efnahagslegt tap að upphæð:

1459*3053,542 = 4 rúblur.

Þessi upphæð ræðst af því að samfélagið hefur ekki tæki til að draga úr þessum kostnaði. Af því leiðir að ef einhver hefur tækni sem gerir þeim kleift að fækka færslum með villum í td 259, þá mun þetta gera samfélaginu kleift að spara:
1200*3053,542 = 3 rúblur.

En á sama tíma getur hann beðið um hæfileika sína og vinnu, við skulum segja - 1 milljón rúblur.
Það er, félagslegur kostnaður minnkar með:

3 – 664 = 250 rúblur.

Í meginatriðum eru þessi áhrif virðisauki af notkun BigDat tækni.

En hér skal tekið tillit til þess að þetta eru félagsleg áhrif og eigandi gagnagrunnsins eru bæjaryfirvöld, tekjur þeirra af notkun eigna sem skráðar eru í þessum gagnagrunni, á genginu 0,3%, eru: 2,778 milljarðar rúblur/ ári. Og þessi kostnaður (4 rúblur) truflar hann ekki mikið, þar sem þeir eru færðir til eigenda fasteigna. Og í þessum þætti mun verktaki meiri hreinsunartækni í Bigdata þurfa að sýna getu til að sannfæra eiganda þessa gagnagrunns og slíkt krefst töluverðra hæfileika.

Í þessu dæmi var villumatsreikniritið valið út frá Schumann líkani [2] hugbúnaðarsannprófunar við áreiðanleikaprófun. Vegna útbreiðslu þess á netinu og getu til að fá nauðsynlegar tölfræðilegar vísbendingar. Aðferðafræðin er fengin frá Monakhov Yu.M. „Virknistöðugleiki upplýsingakerfa“, sjá undir spoilernum á mynd. 7-9.

Hrísgrjón. 7 – 9 Aðferðafræði Schumann líkansinsHreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt

Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt

Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt

Seinni hluti þessa efnis sýnir dæmi um gagnahreinsun, þar sem niðurstöður af notkun Schumann líkansins eru fengnar.
Leyfðu mér að kynna niðurstöðurnar sem fengust:
Áætlaður fjöldi villna N = 3167 n.
Færibreyta C, lambda og áreiðanleikaaðgerð:

Hreinsaðu upp gögn eins og leikur af steini, pappír, skærum. Er þetta leikur með eða án enda? 1. hluti. Fræðilegt
Mynd 17

Í meginatriðum er lambda raunverulegur vísbending um hversu mikið villur eru greindar á hverju stigi. Ef þú horfir á seinni hlutann var áætlunin fyrir þennan vísi 42,4 villur á klukkustund, sem er nokkuð sambærilegt við Schumann vísirinn. Hér að ofan var ákveðið að hraðinn sem þróunaraðili finnur villur á ætti ekki að vera lægri en 1 villa á hverjar 250,4 færslur, þegar athugað er 1 skrá á mínútu. Þess vegna krítískt gildi lambda fyrir Schumann líkanið:

60 / 250,4 = 0,239617.

Þ.e.a.s. þarf að framkvæma villugreiningaraðferðir þar til lambda, úr núverandi 38,964, lækkar í 0,239617.

Eða þar til vísirinn N (mögulegur fjöldi villna) mínus n (leiðréttur fjöldi villna) fer niður fyrir viðurkenndan viðmiðunarmörk okkar - 1459 stk.

Bókmenntir

  1. Monakhov, Yu. M. Virknistöðugleiki upplýsingakerfa. Á 3 klst. Hluti 1. Áreiðanleiki hugbúnaðar: kennslubók. vasapeninga / Yu. M. Monakhov; Vladim. ríki univ. – Vladimir: Izvo Vladim. ríki Háskólinn, 2011. – 60 bls. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "líkindalíkön fyrir spá um áreiðanleika hugbúnaðar."
  3. Grundvallaratriði í gagnavörslu fyrir fagfólk í upplýsingatækni / Paulraj Ponniah.—2. útg.

Partur tvö. Fræðilegt

Heimild: www.habr.com

Bæta við athugasemd