Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties

1. Aanvanklike data

Dataskoonmaak is een van die uitdagings waarmee data-ontledingstake te kampe het. Hierdie materiaal het die ontwikkelings en oplossings weerspieël wat ontstaan ​​het as gevolg van die oplossing van 'n praktiese probleem van die ontleding van die databasis in die vorming van kadastrale waarde. Bronne hier “VERSLAG No. 01/OKS-2019 oor die resultate van die staatskadastrale waardasie van alle soorte vaste eiendom (behalwe vir erwe) in die gebied van die Khanty-Mansiysk Outonome Okrug - Ugra”.

Die lêer “Vergelykende model total.ods” in “Bylae B. Resultate van die bepaling van KS 5. Inligting oor die metode om kadastrale waarde te bepaal 5.1 Vergelykende benadering” is oorweeg.

Tabel 1. Statistiese aanwysers van die datastel in die lêer “Comparative model total.ods”
Totale aantal velde, st. — 44
Totale aantal rekords, st. — 365 490
Totale aantal karakters, st. — 101 714 693
Gemiddelde aantal karakters in 'n rekord, st. — 278,297 XNUMX
Standaardafwyking van karakters in 'n rekord, st. — 15,510 XNUMX
Minimum aantal karakters in 'n inskrywing, st. — 198
Maksimum aantal karakters in 'n inskrywing, st. — 363

2. Inleidende deel. Basiese standaarde

Terwyl die gespesifiseerde databasis ontleed is, is 'n taak gevorm om die vereistes vir die suiweringsgraad te spesifiseer, aangesien, soos vir almal duidelik is, die gespesifiseerde databasis regs- en ekonomiese gevolge vir gebruikers skep. Tydens die werk het dit geblyk dat daar geen spesifieke vereistes was vir die mate van skoonmaak van groot data nie. Deur die regsnorme in hierdie saak te ontleed, het ek tot die gevolgtrekking gekom dat hulle almal uit moontlikhede gevorm word. Dit wil sê, 'n sekere taak het verskyn, inligtingsbronne word vir die taak saamgestel, dan word 'n datastel gevorm en, gebaseer op die geskepte datastel, hulpmiddels om die probleem op te los. Die gevolglike oplossings is verwysingspunte in die keuse van alternatiewe. Ek het dit in Figuur 1 voorgestel.

Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties

Aangesien dit verkieslik is om op bewese tegnologieë te vertrou in die bepaling van enige standaarde, het ek die vereistes gekies wat in "MHRA GxP Data-integriteitsdefinisies en leiding vir die industrie", omdat ek hierdie dokument as die mees omvattende vir hierdie kwessie beskou het. In die besonder, in hierdie dokument sê die afdeling "Daar moet kennis geneem word dat data-integriteitvereistes ewe veel op handmatige (papier) en elektroniese data van toepassing is." (vertaling: “...data-integriteitsvereistes is ewe veel van toepassing op handleiding (papier) en elektroniese data”). Hierdie formulering word nogal spesifiek geassosieer met die konsep van “skriftelike getuienis”, in die bepalings van Artikel 71 van die Wetboek van Siviele Prosesreg, Art. 70 CAS, Art 75 APC, "skriftelik" Art. 84 Siviele Proseskode.

Figuur 2 bied 'n diagram aan van die vorming van benaderings tot tipes inligting in regspraak.

Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties
Rys. 2. Bron hier.

Figuur 3 toon die meganisme van Figuur 1, vir die take van bogenoemde “Leiding”. Dit is maklik om deur 'n vergelyking te sien dat die benaderings wat gebruik word wanneer aan die vereistes vir inligtingsintegriteit in moderne standaarde vir inligtingstelsels voldoen word, aansienlik beperk is in vergelyking met die regsbegrip van inligting.

Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties
Fig. 3

In die gespesifiseerde dokument (Guiding) word die verbinding met die tegniese deel, vermoëns vir die verwerking en stoor van data, goed bevestig deur 'n aanhaling uit Hoofstuk 18.2. Relasionele databasis: "Hierdie lêerstruktuur is inherent veiliger, aangesien die data in 'n groot lêerformaat gehou word wat die verhouding tussen data en metadata behou."

Trouens, in hierdie benadering - uit bestaande tegniese vermoëns, is daar niks abnormaal nie en op sigself is dit 'n natuurlike proses, aangesien die uitbreiding van konsepte afkomstig is van die mees bestudeerde aktiwiteit - databasisontwerp. Maar aan die ander kant verskyn regsnorme wat nie voorsiening maak vir afslag op die tegniese vermoëns van bestaande stelsels nie, byvoorbeeld: GDPR - Algemene Databeskermingsregulasie.

Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties
Rys. 4. Tregter van tegniese vermoëns (Bron).

In hierdie aspekte word dit duidelik dat die oorspronklike datastel (Fig. 1) eerstens gestoor sal moet word, en tweedens die basis moet wees om bykomende inligting daaruit te onttrek. Wel, as voorbeeld: kameras wat verkeersreëls opneem is alomteenwoordig, inligtingverwerkingstelsels verwyder oortreders, maar ander inligting kan ook aan ander verbruikers gebied word, byvoorbeeld as bemarkingsmonitering van die struktuur van die vloei van kliënte na 'n winkelsentrum. En dit is 'n bron van bykomende toegevoegde waarde wanneer BigDat gebruik word. Dit is heel moontlik dat die datastelle wat nou ingesamel word, iewers in die toekoms, waarde sal hê volgens 'n meganisme soortgelyk aan die waarde van seldsame uitgawes van 1700 op die oomblik. Trouens, tydelike datastelle is uniek en sal waarskynlik nie in die toekoms herhaal word nie.

3. Inleidende deel. Evalueringskriteria

Tydens die verwerkingsproses is die volgende klassifikasie van foute ontwikkel.

1. Foutklas (gebaseer op GOST R 8.736-2011): a) sistematiese foute; b) toevallige foute; c) 'n flater.

2. Deur veelvoud: a) mono-vervorming; b) multi-vervorming.

3. Volgens die kritiekheid van die gevolge: a) krities; b) nie krities nie.

4. Volgens bron van gebeurtenis:

A) Tegnies – foute wat tydens die werking van die toerusting voorkom. 'n Redelik relevante fout vir IoT-stelsels, stelsels met 'n beduidende mate van invloed op die kwaliteit van kommunikasie, toerusting (hardeware).

B) Operatorfoute - foute in 'n wye reeks van operateurtikfoute tydens invoer tot foute in die tegniese spesifikasies vir databasisontwerp.

C) Gebruikersfoute - hier is gebruikersfoute in die hele reeks van “vergeet om die uitleg oor te skakel” om meters vir voete te mis.

5. Geskei in 'n aparte klas:

a) die "taak van die skeier", dit wil sê die spasie en ":" (in ons geval) wanneer dit gedupliseer is;
b) woorde saam geskryf;
c) geen spasie na dienskarakters nie
d) simmetries veelvuldige simbole: (), "", "...".

Tesame, met die sistematisering van databasisfoute wat in Figuur 5 aangebied word, word 'n redelik effektiewe koördinaatstelsel gevorm om na foute te soek en 'n dataskoonmaakalgoritme vir hierdie voorbeeld te ontwikkel.

Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties
Rys. 5. Tipiese foute wat ooreenstem met die strukturele eenhede van die databasis (Bron: Oreshkov V.I., Paklin N.B. "Sleutelkonsepte van datakonsolidasie").

Akkuraatheid, domeinintegriteit, datatipe, konsekwentheid, oortolligheid, volledigheid, duplisering, voldoening aan besigheidsreëls, strukturele definitiefheid, data-anomalie, duidelikheid, tydige, nakoming van data-integriteitreëls. (Bladsy 334. Grondbeginsels van datapakhuise vir IT-professionele persone / Paulraj Ponniah.-2de uitg.)

Aangebied Engelse bewoording en Russiese masjienvertaling tussen hakies.

Akkuraatheid. Die waarde wat in die stelsel gestoor word vir 'n data-element is die regte waarde vir daardie voorkoms van die data-element. As jy 'n kliënt se naam en 'n adres in 'n rekord gestoor het, dan is die adres die korrekte adres vir die kliënt met daardie naam. As jy die hoeveelheid wat as 1000 eenhede bestel is in die rekord vir bestelnommer 12345678 vind, dan is daardie hoeveelheid die akkurate hoeveelheid vir daardie bestelling.
[Akkuraatheid. Die waarde wat in die stelsel gestoor is vir 'n data-element is die korrekte waarde vir daardie voorkoms van die data-element. As jy 'n kliënt se naam en adres in 'n rekord gestoor het, dan is die adres die korrekte adres vir die kliënt met daardie naam. As jy die hoeveelheid bestel as 1000 eenhede in die rekord vir bestelnommer 12345678 vind, dan is daardie hoeveelheid die presiese hoeveelheid vir daardie bestelling.]

Domeinintegriteit. Die datawaarde van 'n kenmerk val in die reeks toelaatbare, gedefinieerde waardes. Die algemene voorbeeld is dat die toelaatbare waardes "manlik" en "vroulik" is vir die geslagsdata-element.
[Domainintegriteit. Die kenmerkdatawaarde val binne die reeks geldige, gedefinieerde waardes. 'n Algemene voorbeeld is die geldige waardes "manlik" en "vroulik" vir 'n geslagsdata-element.]

Datatipe. Waarde vir 'n data-kenmerk word eintlik gestoor as die datatipe wat vir daardie eienskap gedefinieer is. Wanneer die datatipe van die winkelnaamveld as "teks" gedefinieer word, bevat alle gevalle van daardie veld die winkelnaam wat in teksformaat gewys word en nie numeriese kodes nie.
[Datatipe. Die waarde van 'n data-kenmerk word eintlik gestoor as die datatipe wat vir daardie eienskap gedefinieer is. As die winkelnaam-velddatatipe as "teks" gedefinieer word, bevat alle gevalle van hierdie veld die winkelnaam wat in teksformaat vertoon word eerder as numeriese kodes.]

Konsekwentheid. Die vorm en inhoud van 'n dataveld is dieselfde oor verskeie bronstelsels. As die produkkode vir produk ABC in een stelsel 1234 is, dan is die kode vir hierdie produk 1234 in elke bronstelsel.
[Konsekwentheid. Die vorm en inhoud van die dataveld is dieselfde in verskillende bronstelsels. As die produkkode vir produk ABC op een stelsel 1234 is, dan is die kode vir daardie produk 1234 op elke bronstelsel.]

Oortolligheid. Dieselfde data mag nie op meer as een plek in 'n stelsel gestoor word nie. As 'n data-element om doeltreffendheid doelbewus op meer as een plek in 'n stelsel gestoor word, moet die oortolligheid duidelik geïdentifiseer en geverifieer word.
[Oortolligheid. Dieselfde data moet nie op meer as een plek in die stelsel gestoor word nie. As 'n data-element om doeltreffendheid doelbewus op verskeie plekke in 'n stelsel gestoor word, moet oortolligheid duidelik gedefinieer en geverifieer word.]

Volledigheid. Daar is geen ontbrekende waardes vir 'n gegewe kenmerk in die stelsel nie. Byvoorbeeld, in 'n kliëntlêer moet daar 'n geldige waarde vir die "staat"-veld vir elke kliënt wees. In die lêer vir bestellingbesonderhede moet elke detailrekord vir 'n bestelling volledig ingevul word.
[Volledigheid. Daar is geen ontbrekende waardes in die stelsel vir hierdie kenmerk nie. Byvoorbeeld, die kliëntlêer moet 'n geldige waarde vir die "status"-veld vir elke kliënt hê. In die bestelbesonderhedelêer moet elke bestellingbesonderhederekord volledig voltooi word.]

Duplisering. Duplisering van rekords in 'n stelsel is heeltemal opgelos. As dit bekend is dat die produklêer duplikaatrekords het, dan word al die duplikaatrekords vir elke produk geïdentifiseer en 'n kruisverwysing geskep.
[Dupliseer. Duplisering van rekords in die stelsel is heeltemal uitgeskakel. As dit bekend is dat 'n produklêer duplikaatinskrywings bevat, word alle duplikaatinskrywings vir elke produk geïdentifiseer en 'n kruisverwysing word geskep.]

Voldoening aan besigheidsreëls. Die waardes van elke data-item voldoen aan voorgeskrewe besigheidsreëls. In 'n veilingstelsel kan die hamer- of verkoopprys nie minder as die reserweprys wees nie. In 'n bankleningsstelsel moet die leningsaldo altyd positief of nul wees.
[Nakoming van besigheidsreëls. Die waardes van elke data-element voldoen aan gevestigde besigheidsreëls. In 'n veilingstelsel kan die hamer- of verkoopprys nie minder as die reserweprys wees nie. In 'n bankkredietstelsel moet die leningsaldo altyd positief of nul wees.]

Strukturele Bepaaldheid. Waar 'n data-item natuurlik in individuele komponente gestruktureer kan word, moet die item hierdie goed gedefinieerde struktuur bevat. Byvoorbeeld, 'n individu se naam verdeel natuurlik in voornaam, middel voorletter en van. Waardes vir name van individue moet gestoor word as voornaam, middel voorletter en van. Hierdie eienskap van datakwaliteit vereenvoudig die toepassing van standaarde en verminder ontbrekende waardes.
[Struktuursekerheid. Waar 'n data-element natuurlik in individuele komponente gestruktureer kan word, moet die element hierdie goed gedefinieerde struktuur bevat. Byvoorbeeld, 'n persoon se naam word natuurlik verdeel in voornaam, middel voorletter en van. Waardes vir individuele name moet gestoor word as voornaam, middel voorletter en van. Hierdie datakwaliteiteienskap vergemaklik die toepassing van standaarde en verminder ontbrekende waardes.]

Data Anomalie. 'n Veld moet slegs gebruik word vir die doel waarvoor dit gedefinieer is. As die veld Adres-3 gedefinieer is vir enige moontlike derde adreslyn vir lang adresse, dan moet hierdie veld slegs gebruik word om die derde adreslyn aan te teken. Dit moet nie gebruik word om 'n telefoon- of faksnommer vir die kliënt in te voer nie.
[Data-anomalie. 'n Veld moet slegs gebruik word vir die doel waarvoor dit gedefinieer is. As die Adres-3-veld gedefinieer is vir enige moontlike derde adreslyn vir lang adresse, sal hierdie veld slegs gebruik word om die derde adreslyn aan te teken. Dit moet nie gebruik word om 'n telefoon- of faksnommer vir 'n kliënt in te voer nie.]

Duidelikheid. 'n Data-element kan al die ander kenmerke van kwaliteitdata besit, maar as die gebruikers nie die betekenis daarvan duidelik verstaan ​​nie, dan is die data-element van geen waarde vir die gebruikers nie. Behoorlike naamkonvensies help om die data-elemente goed deur die gebruikers te verstaan.
[Duidelikheid. 'n Data-element kan al die ander kenmerke van goeie data hê, maar as gebruikers nie die betekenis daarvan duidelik verstaan ​​nie, dan is die data-element van geen waarde vir gebruikers nie. Korrekte naamkonvensies help om data-elemente goed deur gebruikers te verstaan.]

Betyds. Die gebruikers bepaal die tydigheid van die data. As die gebruikers verwag dat kliëntedimensiedata nie ouer as een dag sal wees nie, moet die veranderinge aan klantdata in die bronstelsels daagliks op die datapakhuis toegepas word.
[In 'n tydige wyse. Gebruikers bepaal die tydigheid van data. As gebruikers verwag dat kliëntedimensiedata nie meer as een dag oud sal wees nie, moet veranderinge aan klantdata in die bronstelsels op 'n daaglikse basis op die datapakhuis toegepas word.]

Nut. Elke data-element in die datapakhuis moet aan sekere vereistes van die versameling van gebruikers voldoen. 'n Data-element kan akkuraat en van hoë gehalte wees, maar as dit van geen waarde vir die gebruikers is nie, is dit totaal onnodig dat daardie data-element in die datapakhuis moet wees.
[Nut. Elke data-item in die datastoor moet aan sekere vereistes van die gebruikerversameling voldoen. ’n Data-element kan akkuraat en van hoë gehalte wees, maar as dit nie waarde aan gebruikers verskaf nie, is dit nie nodig dat daardie data-element in die datapakhuis is nie.]

Nakoming van data-integriteitsreëls. Die data wat in die relasionele databasisse van die bronstelsels gestoor word, moet voldoen aan entiteitsintegriteit en verwysingsintegriteitreëls. Enige tabel wat nul as die primêre sleutel toelaat, het nie entiteitsintegriteit nie. Referensiële integriteit dwing die vestiging van die ouer-kind-verhoudings korrek af. In 'n kliënt-tot-bestelling-verhouding verseker verwysingsintegriteit die bestaan ​​van 'n kliënt vir elke bestelling in die databasis.
[Nakoming van data-integriteitreëls. Data wat in relasionele databasisse van bronstelsels gestoor word, moet voldoen aan die reëls van entiteitintegriteit en verwysingsintegriteit. Enige tabel wat nul as 'n primêre sleutel toelaat, het nie entiteitsintegriteit nie. Referensiële integriteit dwing die verhouding tussen ouers en kinders om korrek gevestig te word. In 'n kliënt-bestelling-verhouding verseker verwysingsintegriteit dat 'n kliënt vir elke bestelling in die databasis bestaan.]

4. Kwaliteit van data skoonmaak

Die kwaliteit van die skoonmaak van data is 'n taamlik problematiese kwessie in grootdata. Om die vraag te beantwoord watter mate van dataskoonmaak nodig is om die taak te voltooi, is fundamenteel vir elke data-ontleder. In die meeste huidige probleme stel elke ontleder dit self vas en dit is onwaarskynlik dat iemand van buite hierdie aspek in sy oplossing kan evalueer. Maar vir die taak wat in hierdie geval op hande was, was hierdie kwessie uiters belangrik, aangesien die betroubaarheid van regsdata tot een moet neig.

Oorweging van sagteware-toetstegnologieë om operasionele betroubaarheid te bepaal. Vandag is daar meer as hierdie modelle 200. Baie van die modelle gebruik 'n eisdiensmodel:

Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties
Fig. 6

Dink soos volg: "As die fout gevind is 'n gebeurtenis soortgelyk aan die mislukking gebeurtenis in hierdie model, hoe om dan 'n analoog van die parameter t te vind?" En ek het die volgende model saamgestel: Kom ons stel ons voor dat die tyd wat dit 'n toetser neem om een ​​rekord na te gaan 1 minuut is (vir die betrokke databasis), dan sal hy 365 494 minute nodig hê om al die foute te vind, wat ongeveer 3 jaar en 3 is. maande se werktyd. Soos ons verstaan, is dit 'n baie groot hoeveelheid werk en die koste van die nagaan van die databasis sal onbetaalbaar wees vir die samesteller van hierdie databasis. In hierdie refleksie kom die ekonomiese konsep van koste na vore en na ontleding het ek tot die gevolgtrekking gekom dat dit 'n redelik effektiewe hulpmiddel is. Gebaseer op die wet van ekonomie: “Die volume produksie (in eenhede) waarteen 'n firma se maksimum wins behaal word, is geleë op die punt waar die marginale koste van die produksie van 'n nuwe eenheid van uitset vergelyk word met die prys wat hierdie firma kan ontvang vir ’n nuwe eenheid.” Gebaseer op die postulaat dat die vind van elke daaropvolgende fout meer en meer nagaan van rekords verg, is dit 'n kostefaktor. Dit wil sê, die postulaat wat in toetsmodelle aangeneem word, kry 'n fisiese betekenis in die volgende patroon: as om die i-de fout te vind, was dit nodig om n rekords na te gaan, dan sal dit nodig wees om die volgende (i+1) fout te vind om m rekords na te gaan en terselfdertyd n

  1. Wanneer die aantal rekords wat nagegaan is voordat 'n nuwe fout gevind word stabiliseer;
  2. Wanneer die aantal rekords wat nagegaan is voordat die volgende fout gevind word, sal toeneem.

Om die kritieke waarde te bepaal, het ek my na die konsep van ekonomiese haalbaarheid gewend, wat in hierdie geval, met behulp van die konsep van maatskaplike koste, soos volg geformuleer kan word: “Die koste om die fout reg te stel moet gedra word deur die ekonomiese agent wat kan doen dit teen die laagste koste.” Ons het een agent - 'n toetser wat 1 minuut spandeer om een ​​rekord na te gaan. In geldelike terme, as jy 6000 12,2 roebels per dag verdien, sal dit 1 roebels wees. (ongeveer vandag). Dit bly om die tweede kant van die ewewig in ekonomiese reg te bepaal. Ek het so geredeneer. ’n Bestaande fout sal vereis dat die betrokke persoon moeite moet doen om dit reg te stel, dit wil sê die eienaar van die eiendom. Kom ons sê dit vereis XNUMX dag van aksie (dien 'n aansoek in, ontvang 'n gekorrigeerde dokument). Dan, uit 'n sosiale oogpunt, sal sy koste gelyk wees aan die gemiddelde salaris per dag. Gemiddelde opgelope salaris in Khanty-Mansi Outonome Okrug "Resultate van die sosio-ekonomiese ontwikkeling van die Khanty-Mansiysk Outonome Okrug - Ugra vir Januarie-September 2019" 73285 roebels. of 3053,542 roebels per dag. Gevolglik verkry ons 'n kritieke waarde gelykstaande aan:
3053,542: 12,2 = 250,4 eenhede rekords.

Dit beteken, uit 'n sosiale oogpunt, as 'n toetser 251 rekords nagegaan en een fout gevind het, is dit gelykstaande aan die gebruiker wat hierdie fout self regstel. Gevolglik, as die toetser tyd spandeer het wat gelykstaande is aan die kontrolering van 252 rekords om die volgende fout te vind, dan is dit in hierdie geval beter om die koste van regstelling na die gebruiker te verskuif.

'n Vereenvoudigde benadering word hier aangebied, aangesien dit vanuit 'n sosiale oogpunt nodig is om al die bykomende waarde wat deur elke spesialis gegenereer word, dit wil sê koste insluitend belasting en sosiale betalings, in ag te neem, maar die model is duidelik. 'n Gevolg van hierdie verhouding is die volgende vereiste vir spesialiste: 'n spesialis uit die IT-industrie moet 'n salaris groter as die nasionale gemiddelde hê. As sy salaris minder is as die gemiddelde salaris van potensiële databasisgebruikers, moet hy self die hele databasis hand-aan-hand nagaan.

Wanneer die beskryfde maatstaf gebruik word, word die eerste vereiste vir die kwaliteit van die databasis gevorm:
I(tr). Die aandeel kritieke foute moet nie 1/250,4 = 0,39938% oorskry nie. 'n Bietjie minder as verfyning goud in die industrie. En in fisiese terme is daar nie meer as 1459 rekords met foute nie.

Ekonomiese toevlug.

Trouens, deur so 'n aantal foute in rekords te maak, stem die samelewing in tot ekonomiese verliese in die bedrag van:

1459*3053,542 = 4 roebels.

Hierdie bedrag word bepaal deur die feit dat die samelewing nie die gereedskap het om hierdie koste te verminder nie. Dit volg dat as iemand 'n tegnologie het wat hulle in staat stel om die aantal rekords met foute tot byvoorbeeld 259 te verminder, dit die samelewing sal toelaat om te bespaar:
1200*3053,542 = 3 roebels.

Maar terselfdertyd kan hy vir sy talent en werk vra, wel, kom ons sê - 1 miljoen roebels.
Dit wil sê, maatskaplike koste word verminder deur:

3 – 664 = 250 roebels.

In wese is hierdie effek die toegevoegde waarde van die gebruik van BigDat-tegnologieë.

Maar hier moet in ag geneem word dat dit 'n sosiale effek is, en die eienaar van die databasis is munisipale owerhede, hul inkomste uit die gebruik van eiendom wat in hierdie databasis aangeteken is, teen 'n koers van 0,3%, is: 2,778 miljard roebels/ jaar. En hierdie koste (4 455 118 roebels) pla hom nie veel nie, aangesien dit aan die eienaars van die eiendom oorgedra word. En in hierdie aspek sal die ontwikkelaar van meer verfyningstegnologieë in Bigdata die vermoë moet toon om die eienaar van hierdie databasis te oortuig, en sulke dinge verg aansienlike talent.

In hierdie voorbeeld is die foutassesseringsalgoritme gekies op grond van die Schumann-model [2] van sagtewareverifikasie tydens betroubaarheidstoetsing. As gevolg van die voorkoms daarvan op die internet en die vermoë om die nodige statistiese aanwysers te verkry. Die metodologie is geneem uit Monakhov Yu.M. "Funksionele stabiliteit van inligtingstelsels", sien onder die bederf in Fig. 7-9.

Rys. 7 – 9 Metodologie van die Schumann-modelMaak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties

Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties

Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties

Die tweede deel van hierdie materiaal bied 'n voorbeeld van data-skoonmaak, waarin die resultate van die gebruik van die Schumann-model verkry word.
Laat ek die resultate wat verkry is, aanbied:
Geskatte aantal foute N = 3167 n.
Parameter C, lambda en betroubaarheidsfunksie:

Maak data soos rots, papier, skêr skoon. Is dit 'n speletjie met of sonder 'n afronding? Deel 1. Teoreties
Fig. 17

In wese is lambda 'n werklike aanduiding van die intensiteit waarmee foute in elke stadium opgespoor word. As jy na die tweede deel kyk, was die skatting vir hierdie aanwyser 42,4 foute per uur, wat redelik vergelykbaar is met die Schumann-aanwyser. Hierbo is bepaal dat die tempo waarteen ontwikkelaars foute vind nie laer as 1 fout per 250,4 rekords moet wees wanneer 1 rekord per minuut nagegaan word nie. Vandaar die kritieke waarde van lambda vir die Schumann-model:

60 / 250,4 = 0,239617.

Dit wil sê, die behoefte om die prosedures uit te voer om foute te vind, moet uitgevoer word totdat die lambda, vanaf die beskikbare 38,964, tot 0,239617 daal.

Of totdat die aanwyser N (potensiële aantal foute) minus n (gekorrigeerde aantal foute) daal onder ons aanvaarde drempel - 1459 stuks.

Letterkunde

  1. Monakhov, Yu. M. Funksionele stabiliteit van inligtingstelsels. In 3 uur Deel 1. Sagteware betroubaarheid: handboek. toelae / Yu. M. Monakhov; Vladim. staat univ. – Vladimir: Izvo Vladim. staat Universiteit, 2011. – 60 bl. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Probabilistiese modelle vir sagteware-betroubaarheidsvoorspelling."
  3. Datapakhuisbeginsels vir IT-professionele persone / Paulraj Ponniah.-2de uitg.

Deel twee. Teoreties

Bron: will.com

Voeg 'n opmerking