Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria

1. Komencaj datumoj

Datumpurigado estas unu el la defioj alfrontantaj datumajn analiztaskojn. Ĉi tiu materialo reflektis la evoluojn kaj solvojn, kiuj ŝprucis kiel rezulto de solvado de praktika problemo de analizo de la datumbazo en la formado de katastra valoro. Fontoj ĉi tie "RAPORTO N-ro 01/OKS-2019 pri la rezultoj de la ŝtata katastra taksado de ĉiuj specoj de nemoveblaĵoj (krom terpecoj) en la teritorio de la Aŭtonoma Okrug - Ugra de Khanty-Mansiysk".

Oni konsideris la dosieron "Kompara modelo totala.ods" en "Apendico B. Rezultoj de determini KS 5. Informoj pri la metodo de determini katastralan valoron 5.1 Kompara aliro".

Tabelo 1. Statistikaj indikiloj de la datumaro en la dosiero "Kompara modelo total.ods"
Tuta nombro da kampoj, pz. — 44
Tuta nombro da registroj, pz. — 365 490
Suma nombro da signoj, pk. — 101 714 693
Meza nombro da signoj en rekordo, pk. — 278,297 XNUMX
Norma devio de signoj en rekordo, pz. — 15,510 XNUMX
Minimuma nombro da signoj en enskribo, pk. — 198
Maksimuma nombro da signoj en enskribo, pk. — 363

2. Enkonduka parto. Bazaj normoj

Analizante la specifitan datumbazon, estis formita tasko por specifi la postulojn por la grado de purigo, ĉar, kiel estas klare al ĉiuj, la specifita datumbazo kreas laŭleĝajn kaj ekonomiajn sekvojn por uzantoj. Dum la laboro, montriĝis, ke ne ekzistas specifaj postuloj por la grado de purigado de grandaj datumoj. Analizante la jurajn normojn en ĉi tiu afero, mi alvenis al la konkludo, ke ili ĉiuj estas formitaj el eblecoj. Tio estas, certa tasko aperis, informfontoj estas kompilitaj por la tasko, tiam datumaro estas formita kaj, surbaze de la kreita datumaro, iloj por solvi la problemon. La rezultaj solvoj estas referencpunktoj en elekto de alternativoj. Mi prezentis tion en la figuro 1.

Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria

Ĉar, en aferoj de determini iujn normojn, estas preferinde fidi el provitaj teknologioj, mi elektis la postulojn difinitajn en "MHRA GxP Datumaj Integrecaj Difinoj kaj Konsilado por Industrio", ĉar mi konsideris ĉi tiun dokumenton la plej ampleksa por ĉi tiu temo. Aparte, en ĉi tiu dokumento la sekcio diras "Oni notu, ke la postuloj de integreco de datumoj validas egale por manaj (paperaj) kaj elektronikaj datumoj." (traduko: "...datumaj integrecpostuloj validas egale por manaj (paperaj) kaj elektronikaj datumoj"). Ĉi tiu formuliĝo estas sufiĉe specife asociita kun la koncepto de "skriba indico", en la dispozicioj de Artikolo 71 de la Kodo de Civila Proceduro, Art. 70 CAS, Arto 75 APC, "skribite" Art. 84 Kodo de Civila Proceduro.

Figuro 2 prezentas diagramon de la formado de aliroj al specoj de informoj en jurisprudenco.

Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria
Rizo. 2. Fonto tie.

Figuro 3 montras la mekanismon de Figuro 1, por la taskoj de ĉi-supra "Gvidiĝo". Estas facile, farante komparon, vidi ke la aliroj uzitaj dum renkontado de la postuloj por informintegreco en modernaj normoj por informsistemoj estas signife limigitaj en komparo kun la laŭleĝa koncepto de informoj.

Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria
Fig. 3

En la specifita dokumento (Gvido), la konekto al la teknika parto, kapabloj por prilaborado kaj stokado de datumoj, estas bone konfirmita per citaĵo de Ĉapitro 18.2. Rilata datumbazo: "Ĉi tiu dosierstrukturo estas esence pli sekura, ĉar la datumoj estas tenitaj en granda dosierformato kiu konservas la rilaton inter datumoj kaj metadatenoj."

Fakte, en ĉi tiu aliro - de ekzistantaj teknikaj kapabloj, estas nenio eksternorma kaj, en si mem, ĉi tio estas natura procezo, ĉar la ekspansio de konceptoj venas de la plej studita agado - datumbaza dezajno. Sed, aliflanke, aperas juraj normoj, kiuj ne provizas rabatojn pri la teknikaj kapabloj de ekzistantaj sistemoj, ekzemple: GDPR - Ĝenerala Regulo pri Protekto de Datumoj.

Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria
Rizo. 4. Funelo de teknikaj kapabloj (Fonto).

En ĉi tiuj aspektoj, evidentiĝas, ke la origina datumaro (Fig. 1) devos, unue, esti konservita, kaj due, esti la bazo por ĉerpi pliajn informojn el ĝi. Nu, ekzemple: fotiloj, kiuj registras trafikajn regulojn, estas ĉieaj, informtraktadsistemoj forigas malobservantojn, sed aliaj informoj ankaŭ povas esti ofertitaj al aliaj konsumantoj, ekzemple, kiel merkatika monitorado de la strukturo de la fluo de klientoj al butikcentro. Kaj ĉi tio estas fonto de aldona valoro kiam vi uzas BigDat. Estas tute eble ke la datumaroj kolektitaj nun, ie en la estonteco, havos valoron laŭ mekanismo simila al la valoro de maloftaj eldonoj de 1700 en la nuna tempo. Post ĉio, fakte, provizoraj datumaroj estas unikaj kaj verŝajne ne ripetiĝos en la estonteco.

3. Enkonduka parto. Kriterioj pri taksado

Dum la prilaborado, la sekva klasifiko de eraroj estis evoluigita.

1. Erara klaso (bazita sur GOST R 8.736-2011): a) sistemaj eraroj; b) hazardaj eraroj; c) fuŝo.

2. Per multeco: a) monodistordo; b) multi-distordo.

3. Laŭ la kritikeco de la sekvoj: a) kritika; b) ne kritika.

4. Laŭ fonto de apero:

A) Teknikaj - eraroj kiuj okazas dum la funkciado de la ekipaĵo. Sufiĉe grava eraro por IoT-sistemoj, sistemoj kun signifa grado de influo sur la kvalito de komunikado, ekipaĵo (aparataro).

B) Funkciisteraroj - eraroj en larĝa gamo de operaciisttajperaroj dum enigo ĝis eraroj en la teknikaj specifoj por datumbaza dezajno.

C) Eraroj de uzantoj - jen eraroj de uzantoj en la tuta gamo de "forgesis ŝanĝi la aranĝon" al eraro de metroj kun piedoj.

5. Apartigita en apartan klason:

a) la "tasko de la apartigilo", tio estas, la spaco kaj ":" (en nia kazo) kiam ĝi estis duobligita;
b) vortoj kune skribitaj;
c) neniu spaco post servosignoj
d) simetrie multoblaj simboloj: (), "", "...".

Prenite kune, kun la sistemigo de datumbazaj eraroj prezentitaj en Figuro 5, sufiĉe efika koordinatsistemo estas formita por serĉi erarojn kaj evoluigi datumpurigan algoritmon por ĉi tiu ekzemplo.

Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria
Rizo. 5. Tipaj eraroj respondaj al la strukturaj unuoj de la datumbazo (Fonto: Oreŝkov V.I., Paklin N.B. "Esencaj konceptoj de datenfirmiĝo").

Precizeco, Domajna Integreco, Datumtipo, Konsistenco, Redundo, Pleneco, Duobligo, Konformeco al Komercaj Reguloj, Struktura Difiniteco, Datuma Anomalio, Klareco, Ĝustatempa, Aliĝo al Reguloj pri Datuma Integreco. (Paĝo 334. Bazoj pri datuma stokado por IT-profesiuloj / Paulraj Ponniah.—2-a red.)

Prezentis anglan vortumon kaj rusan maŝintradukon inter krampoj.

Precizeco. La valoro stokita en la sistemo por datenelemento estas la ĝusta valoro por tiu okazo de la datenelemento. Se vi havas klientnomon kaj adreson konservitan en rekordo, tiam la adreso estas la ĝusta adreso por la kliento kun tiu nomo. Se vi trovas la kvanton menditan kiel 1000 ekzempleroj en la rekordo por mendo numero 12345678, tiam tiu kvanto estas la preciza kvanto por tiu mendo.
[Precizeco. La valoro stokita en la sistemo por datenelemento estas la ĝusta valoro por tiu okazo de la datenelemento. Se vi havas klientnomon kaj adreson konservitajn en rekordo, tiam la adreso estas la ĝusta adreso por la kliento kun tiu nomo. Se vi trovas la kvanton menditan kiel 1000 ekzemplerojn en la rekordo por mendo numero 12345678, tiam tiu kvanto estas la ĝusta kvanto por tiu mendo.]

Domajna Integreco. La datenvaloro de atributo falas en la intervalo de permeseblaj, difinitaj valoroj. La komuna ekzemplo estas la permeseblaj valoroj "viraj" kaj "inaj" por la seksa datuma elemento.
[Domajna Integreco. La atributa datumvaloro falas ene de la intervalo de validaj, difinitaj valoroj. Ĝenerala ekzemplo estas la validaj valoroj "maskla" kaj "ina" por seksa datumelemento.]

Tipo de datumoj. Valoro por datuma atributo estas fakte konservita kiel la datumtipo difinita por tiu atributo. Kiam la datumtipo de la vendeja nomo kampo estas difinita kiel "teksto", ĉiuj okazoj de tiu kampo enhavas la butiknomon montritan en teksta formato kaj ne nombraj kodoj.
[Tipo de datumoj. La valoro de datuma atributo estas fakte konservita kiel la datumtipo difinita por tiu atributo. Se la datumtipo de la kampo de la nomo de vendejo estas difinita kiel "teksto", ĉiuj okazoj de ĉi tiu kampo enhavas la nomon de la vendejo montrita en tekstoformato prefere ol nombraj kodoj.]

Kohereco. La formo kaj enhavo de datumkampo estas la samaj tra multoblaj fontsistemoj. Se la produktokodo por produkto ABC en unu sistemo estas 1234, tiam la kodo por ĉi tiu produkto estas 1234 en ĉiu fontsistemo.
[Kohereco. La formo kaj enhavo de la datumkampo estas la samaj en malsamaj fontsistemoj. Se la produktokodo por produkto ABC en unu sistemo estas 1234, tiam la kodo por tiu produkto estas 1234 en ĉiu fontsistemo.]

Redundo. La samaj datumoj ne devas esti konservitaj en pli ol unu loko en sistemo. Se, pro kialoj de efikeco, datenelemento estas intencite stokita en pli ol unu loko en sistemo, tiam la redundo devas esti klare identigita kaj kontrolita.
[Redundo. La samaj datumoj ne estu konservitaj en pli ol unu loko en la sistemo. Se, pro kialoj de efikeco, datenelemento estas intencite stokita en multoblaj lokoj en sistemo, tiam redundo devas esti klare difinita kaj kontrolita.]

Pleneco. Ne mankas valoroj por donita atributo en la sistemo. Ekzemple, en klienta dosiero, devas esti valida valoro por la "ŝtato" kampo por ĉiu kliento. En la dosiero por mendodetaloj, ĉiu detala rekordo por mendo devas esti tute plenigita.
[Pleteco. Ne mankas valoroj en la sistemo por ĉi tiu atributo. Ekzemple, la klientdosiero devas havi validan valoron por la kampo "stato" por ĉiu kliento. En la menda detala dosiero, ĉiu menda detala rekordo devas esti komplete kompletigita.]

Duobligo. Duobligo de rekordoj en sistemo estas tute solvita. Se oni scias, ke la produktodosiero havas duplikatajn rekordojn, tiam ĉiuj duplikataj rekordoj por ĉiu produkto estas identigitaj kaj kruca referenco kreita.
[Dobligu. Duobligo de rekordoj en la sistemo estis tute forigita. Se produktdosiero povas enhavi duplikatajn enskribojn, tiam ĉiuj duplikataj enskriboj por ĉiu produkto estas identigitaj kaj krucreferenco estas kreita.]

Konformo al Komercaj Reguloj. La valoroj de ĉiu datumo aliĝas al preskribitaj komercaj reguloj. En aŭkcia sistemo, la martelo aŭ vendoprezo ne povas esti malpli ol la rezerva prezo. En banka pruntsistemo, la pruntekvilibro ĉiam devas esti pozitiva aŭ nula.
[Konformo al komercaj reguloj. La valoroj de ĉiu datuma elemento konformas al establitaj komercaj reguloj. En aŭkcia sistemo, la martelo aŭ vendoprezo ne povas esti malpli ol la rezerva prezo. En banka kreditsistemo, la pruntekvilibro ĉiam devas esti pozitiva aŭ nula.]

Struktura Difiniteco. Kie ajn datumo povas nature esti strukturita en individuajn komponentojn, la objekto devas enhavi tiun bone difinitan strukturon. Ekzemple, la nomo de individuo nature dividiĝas en antaŭnomo, meza inicialo kaj familia nomo. Valoroj por nomoj de individuoj devas esti konservitaj kiel antaŭnomo, meza inicialo kaj familia nomo. Ĉi tiu karakterizaĵo de datumkvalito simpligas devigon de normoj kaj reduktas mankantajn valorojn.
[Struktura Certeco. Kie datenelemento povas esti nature strukturita en individuajn komponentojn, la elemento devas enhavi tiun klare difinitan strukturon. Ekzemple, la nomo de persono estas nature dividita en antaŭnomo, meza inicialo kaj familia nomo. Valoroj por individuaj nomoj estu konservitaj kiel antaŭnomo, meza inicialo kaj familia nomo. Ĉi tiu kvalito de datumoj simpligas la aplikon de normoj kaj reduktas mankantajn valorojn.]

Datuma anomalio. Kampo devas esti uzata nur por la celo por kiu ĝi estas difinita. Se la kampo Adreso-3 estas difinita por ajna ebla tria linio de adreso por longaj adresoj, tiam ĉi tiu kampo devas esti uzata nur por registri la trian linion de adreso. Ĝi ne devas esti uzata por enigi telefonan aŭ faksan numeron por la kliento.
[Anomalio de datumoj. Kampo devas esti uzata nur por la celo por kiu ĝi estas difinita. Se la kampo Adreso-3 estas difinita por iu ajn ebla tria adreslinio por longaj adresoj, tiam ĉi tiu kampo nur estos uzata por registri la trian adreslinion. Ĝi ne estu uzata por enigi telefonan aŭ faksan numeron por kliento.]

Klareco. Datelelemento povas posedi ĉiujn aliajn karakterizaĵojn de kvalitaj datenoj sed se la uzantoj ne komprenas ĝian signifon klare, tiam la datenelemento estas de neniu valoro por la uzantoj. Konvenaj nomkonvencioj helpas igi la datenelementojn bone komprenitaj de la uzantoj.
[Klareco. Datelelemento povas havi ĉiujn aliajn karakterizaĵojn de bonaj datumoj, sed se uzantoj ne klare komprenas ĝian signifon, tiam la datumelemento estas de neniu valoro por uzantoj. Ĝusta nomkonvencioj helpas igi datumelementojn bone komprenitaj de uzantoj.]

Ĝustatempe. La uzantoj determinas la ĝustatempecon de la datumoj. Se la uzantoj atendas klient-dimensiajn datumojn ne esti pli aĝaj ol unu tago, la ŝanĝoj al klientdatenoj en la fontsistemoj devas esti aplikitaj al la datumstokejo ĉiutage.
[En ĝustatempa maniero. Uzantoj determinas la ĝustatempecon de datumoj. Se uzantoj atendas ke klient-dimensio-datumoj aĝas ne pli ol unu tagon, ŝanĝoj al klientdatenoj en la fontsistemoj devus esti aplikataj al la datumstokejo ĉiutage.]

Utileco. Ĉiu datenelemento en la datumstokejo devas kontentigi iujn postulojn de la kolekto de uzantoj. Datenelemento povas esti preciza kaj altkvalita, sed se ĝi estas de neniu valoro por la uzantoj, tiam estas tute nenecese ke tiu datumelemento estu en la datumstokejo.
[Utilaĵo. Ĉiu datumo en la datumbutiko devas kontentigi kelkajn postulojn de la uzantkolekto. Datenelemento povas esti preciza kaj altkvalita, sed se ĝi ne donas valoron al uzantoj, tiam ne necesas ke tiu datumelemento estu en la datumstokejo.]

Respekto al Reguloj pri Datuma Integreco. La datenoj stokitaj en la interrilataj datumbazoj de la fontsistemoj devas adheri al enta integreco kaj referenca integreco reguloj. Ajna tabelo kiu permesas nulon kiel la ĉefa ŝlosilo ne havas entan integrecon. Referenca integreco devigas la starigon de la gepatro-infanaj rilatoj ĝuste. En klient-al-orda rilato, referenca integreco certigas la ekziston de kliento por ĉiu mendo en la datumbazo.
[Konformo al reguloj pri datuma integreco. Datenoj stokitaj en interrilataj datumbazoj de fontsistemoj devas observi la regulojn de unuintegreco kaj referenca integreco. Ajna tabelo kiu permesas nulon kiel ĉefa ŝlosilo ne havas entan integrecon. Referenca integreco devigas la rilaton inter gepatroj kaj infanoj esti establita ĝuste. En kliento-orda rilato, referenca integreco certigas ke kliento ekzistas por ĉiu mendo en la datumbazo.]

4. Kvalito de datuma purigado

La kvalito de datumpurigado estas sufiĉe problema afero en bigdata. Respondi la demandon pri kia grado de datumpurigado estas necesa por plenumi la taskon estas fundamenta por ĉiu datuma analizisto. En la plej multaj aktualaj problemoj, ĉiu analizisto mem determinas tion kaj estas neverŝajne, ke iu el ekstere kapablas taksi ĉi tiun aspekton en sia solvo. Sed por la tasko en ĉi tiu kazo, ĉi tiu afero estis ege grava, ĉar la fidindeco de juraj datumoj devus tendenci al unu.

Konsiderante programajn testajn teknologiojn por determini funkcian fidindecon. Hodiaŭ estas pli ol ĉi tiuj modeloj 200. Multaj el la modeloj uzas reklaman servomodelon:

Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria
Fig. Xnumx

Pensante jene: "Se la trovita eraro estas evento simila al la malsukcesa evento en ĉi tiu modelo, kiel trovi analogon de la parametro t?" Kaj mi kompilis la jenan modelon: Ni imagu, ke la tempo necesa por testinto por kontroli unu rekordon estas 1 minuto (por la koncerna datumbazo), tiam por trovi ĉiujn erarojn li bezonos 365 494 minutojn, kio estas proksimume 3 jaroj kaj 3. monatoj da labortempo. Kiel ni komprenas, ĉi tio estas tre granda kvanto de laboro kaj la kostoj de kontrolo de la datumbazo estos malpermesaj por la kompililo de ĉi tiu datumbazo. En ĉi tiu pripensado aperas la ekonomia koncepto pri kostoj kaj post analizo mi alvenis al la konkludo, ke tio estas sufiĉe efika ilo. Surbaze de la leĝo de ekonomiko: "La volumeno de produktado (en unuoj) ĉe kiu la maksimuma profito de firmao estas atingita situas ĉe la punkto kie la marĝena kosto de produktado de nova unuo de produktaĵo estas komparita kun la prezo kiun tiu firmao povas ricevi. por nova unuo.” Surbaze de la postulato ke trovi ĉiun postan eraron postulas pli kaj pli da kontrolo de rekordoj, tio estas kostfaktoro. Tio estas, la postulato adoptita en testado de modeloj alprenas fizikan signifon en la sekva ŝablono: se por trovi la i-an eraron necesis kontroli n rekordojn, tiam por trovi la sekvan (i+1) eraron necesos. kontroli m registrojn kaj samtempe n

  1. Kiam la nombro da rekordoj kontrolitaj antaŭ ol nova eraro estas trovita stabiliĝas;
  2. Kiam la nombro da registroj kontrolitaj antaŭ trovi la sekvan eraron pliiĝos.

Por determini la kritikan valoron, mi turnis min al la koncepto de ekonomia farebleco, kiu ĉi-kaze, uzante la koncepton de sociaj kostoj, povas esti formulita jene: “La kostoj de korektado de la eraro devas esti portitaj de la ekonomia agento kiu povas fari ĝi je la plej malalta kosto.” Ni havas unu agenton - testilon kiu pasigas 1 minuton kontrolante unu rekordon. En monaj terminoj, se vi gajnas 6000 12,2 rublojn/tage, ĉi tio estos 1 rubloj. (proksimume hodiaŭ). Restas determini la duan flankon de la ekvilibro en ekonomia juro. Mi rezonis tiel. Ekzistanta eraro postulos, ke la koncernato elspezu penon por korekti ĝin, tio estas, la proprietulo. Ni diru, ke ĉi tio postulas XNUMX-tagon da ago (sendu kandidatiĝon, ricevu korektitan dokumenton). Tiam, el socia vidpunkto, liaj kostoj estos egalaj al la meza salajro tage. Meza akumuligita salajro en Khanty-Mansi Autonomous Okrug "Rezultoj de la sociekonomia disvolviĝo de la Aŭtonoma Okrugo Ĥanti-Mansijsk - Ugra por januaro-septembro 2019" 73285 rub. aŭ 3053,542 rubloj/tago. Sekve, ni ricevas kritikan valoron egala al:
3053,542: 12,2 = 250,4 unuoj de registroj.

Ĉi tio signifas, de socia vidpunkto, se testinto kontrolis 251 rekordojn kaj trovis unu eraron, tio estas ekvivalenta, ke la uzanto mem fiksas ĉi tiun eraron. Sekve, se la testilo pasigis tempon egalan al kontrolado de 252 registroj por trovi la sekvan eraron, tiam en ĉi tiu kazo estas pli bone ŝanĝi la koston de korekto al la uzanto.

Simpligita aliro estas prezentita ĉi tie, ĉar de socia vidpunkto necesas konsideri la tutan aldonan valoron generitan de ĉiu specialisto, tio estas kostoj inkluzive de impostoj kaj sociaj pagoj, sed la modelo estas klara. Sekvo de ĉi tiu rilato estas la sekva postulo por specialistoj: specialisto de la IT-industrio devas havi salajron pli grandan ol la nacia mezumo. Se lia salajro estas malpli ol la averaĝa salajro de eblaj datumbazaj uzantoj, tiam li mem devas kontroli la tutan datumbazon man-al-mane.

Kiam vi uzas la priskribitan kriterion, la unua postulo por la kvalito de la datumbazo estas formita:
mi (tr). La parto de kritikaj eraroj ne devus superi 1/250,4 = 0,39938%. Iom malpli ol rafinado oro en industrio. Kaj en fizikaj terminoj estas ne pli ol 1459 registroj kun eraroj.

Ekonomia retiriĝo.

Fakte, farante tian nombron da eraroj en rekordoj, socio konsentas pri ekonomiaj perdoj en la kvanto de:

1459*3053,542 = 4 rubloj.

Ĉi tiu kvanto estas determinita de la fakto, ke la socio ne havas la ilojn por redukti ĉi tiujn kostojn. Sekvas, ke se iu havas teknologion, kiu permesas al ili redukti la nombron da rekordoj kun eraroj al, ekzemple, 259, tiam ĉi tio permesos al la socio ŝpari:
1200*3053,542 = 3 rubloj.

Sed samtempe, li povas peti sian talenton kaj laboron, nu, ni diru - 1 miliono da rubloj.
Tio estas, sociaj kostoj estas reduktitaj per:

3 – 664 = 250 rubloj.

Esence, ĉi tiu efiko estas la aldonita valoro de la uzo de BigDat-teknologioj.

Sed ĉi tie oni devas konsideri, ke tio estas socia efiko, kaj la posedanto de la datumbazo estas urbaj aŭtoritatoj, ilia enspezo de la uzo de posedaĵoj registritaj en ĉi tiu datumbazo, kun rapideco de 0,3%, estas: 2,778 miliardoj da rubloj/ jaro. Kaj ĉi tiuj kostoj (4 455 118 rubloj) ne multe ĝenas lin, ĉar ili estas transdonitaj al la bienposedantoj. Kaj, en ĉi tiu aspekto, la programisto de pli rafinaj teknologioj en Bigdata devos montri la kapablon konvinki la posedanton de ĉi tiu datumbazo, kaj tiaj aferoj postulas konsiderindan talenton.

En ĉi tiu ekzemplo, la erartaksadalgoritmo estis elektita surbaze de la Schumann-modelo [2] de softvarkonfirmo dum fidindectestado. Pro ĝia tropezo en la Interreto kaj la kapablo akiri la necesajn statistikajn indikilojn. La metodaro estas prenita de Monakhov Yu.M. "Funkcia stabileco de informsistemoj", vidu sub la spoiler en Fig. 7-9.

Rizo. 7 – 9 Metodologio de la Schumann-modeloPurigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria

Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria

Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria

La dua parto de ĉi tiu materialo prezentas ekzemplon de purigado de datumoj, en kiu la rezultoj de uzado de la modelo Schumann estas akiritaj.
Mi prezentu la akiritajn rezultojn:
Laŭtaksa nombro da eraroj N = 3167 n.
Parametro C, lambda kaj fidindecfunkcio:

Purigu datumojn kiel ludo de Roko, Papero, Tondilo. Ĉu ĉi tio estas ludo kun aŭ sen fino? Parto 1. Teoria
Fig. 17

Esence, lambda estas fakta indikilo de la intenseco kun kiu eraroj estas detektitaj en ĉiu stadio. Se vi rigardas la duan parton, la takso por ĉi tiu indikilo estis 42,4-eraroj hore, kio estas sufiĉe komparebla al la indikilo de Schumann. Supre, estis determinite, ke la rapideco, je kiu programisto trovas erarojn, devus esti ne pli malalta ol 1 eraro per 250,4-rekordoj, kiam oni kontrolas 1-rekordon por minuto. Tial la kritika valoro de lambda por la Schumann-modelo:

60 / 250,4 = 0,239617.

Tio estas, la bezono efektivigi erarajn detektajn procedurojn devas esti efektivigita ĝis lambda, de la ekzistanta 38,964, malpliiĝas al 0,239617.

Aŭ ĝis la indikilo N (ebla nombro da eraroj) minus n (korektita nombro da eraroj) malpliiĝas sub nia akceptita sojlo - 1459 pcs.

Literaturo

  1. Monakhov, Yu. M. Funkcia stabileco de informsistemoj. En 3 horoj.Parto 1. Programaro fidindeco: lernolibro. poŝmono / Ju. M. Monakhov; Vladim. stato univ. – Vladimir: Izvo Vladim. stato Universitato, 2011. – 60 p. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Probabilismaj modeloj por programara fidindeco-prognozo."
  3. Fundamentoj pri datuma stokado por IT-profesiuloj / Paulraj Ponniah.—2-a red.

Dua parto. Teoria

fonto: www.habr.com

Aldoni komenton