Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch

1. Éischt Donnéeën

Datereinigung ass eng vun den Erausfuerderunge fir d'Datenanalyseaufgaben. Dëst Material spigelt d'Entwécklungen a Léisungen, déi entstane sinn als Resultat vun der Léisung vun engem praktesche Problem vun der Analyse vun der Datebank an der Bildung vum Kadasterwäert. Quellen hei "REPORT Nr. 01/OKS-2019 iwwer d'Resultater vun der staatlecher Kadastrale Bewäertung vun all Zorte vun Immobilien (ausser fir Terrainen) am Territoire vun der Khanty-Mansiysk Autonom Okrug - Ugra".

De Fichier "Comparative Modell total.ods" am "Anhang B. Resultater vun Bestëmmung KS 5. Informatiounen iwwert d'Method vun Bestëmmung Kadaster Wäert 5.1 Comparativ Approche" considéréiert gouf.

Table 1. Statistesch Indikatoren vun der Datesaz an der Datei "Comparative model total.ods"
Gesamtzuel vun de Felder, St. — 44
Gesamtzuel vun de Rekorder, St. - 365 490
Gesamtzuel vun Zeechen, St. - 101 714 693
Duerchschnëtt Zuel vun Zeechen an engem Rekord, St. - 278,297
Standarddeviatioun vun Zeechen an engem Rekord, St. - 15,510
Minimum Unzuel vun Zeechen an engem Entrée, St. — 198
Maximal Unzuel vun Zeechen an engem Entrée, St. - 363

2. Aféierungscoursen Deel. Basis Normen

Beim Analyse vun der spezifizéierter Datebank gouf eng Aufgab geformt fir d'Ufuerderunge fir de Grad vun der Reinigung ze spezifizéieren, well, wéi jiddereen kloer ass, déi spezifizéierter Datebank legal a wirtschaftlech Konsequenze fir d'Benotzer schaaft. Wärend der Aarbecht huet sech erausgestallt datt et keng spezifesch Ufuerderunge fir den Ofschloss vun der Botzen vu Big Data goufen. Analyséiere vun de juristesche Normen an dëser Matière, sinn ech zur Conclusioun komm datt se all aus Méiglechkeeten geformt sinn. Dat ass, eng gewëssen Aufgab ass erschéngt, Informatiounsquellen ginn fir d'Aufgab zesummegesat, da gëtt en Dataset geformt an, baséiert op der erstalltem Dataset, Tools fir de Problem ze léisen. Déi resultéierend Léisunge sinn Referenzpunkte bei der Auswiel vun Alternativen. Ech hunn dat an der Figur 1 presentéiert.

Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch

Well, a Saache Bestëmmung vu Standarden, et am léifsten ass op bewisen Technologien ze vertrauen, hunn ech d'Ufuerderunge gewielt, déi am "MHRA GxP Data Integrity Definitions and Guidance for Industry", well ech dëst Dokument als déi ëmfaassendst fir dës Fro ugesinn hunn. Besonnesch an dësem Dokument seet d'Sektioun "Et sollt bemierkt datt d'Datenintegritéitsufuerderunge gläich op manuell (Pabeier) an elektronesch Daten gëllen." (Iwwersetzung: "...daten Integritéit Ufuerderunge gëlle gläich fir manuell (Pabeier) an elektronesch Daten"). Dës Formuléierung ass ganz spezifesch mam Konzept vun "schrëftleche Beweiser" verbonnen, an de Bestëmmunge vum Artikel 71 vum Code of Civil Procedure, Art. 70 CAS, Art 75 APC, "schrëftlech" Art. 84 Code Civil Procedure.

Figur 2 presentéiert en Diagramm vun der Formatioun vun Approche zu Zorte vun Informatiounen an Jurisprudenz.

Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch
Reis. 2. Quell hei.

Figur 3 weist de Mechanismus vun Figur 1, fir d'Aufgaben vun der uewen "Guide". Et ass einfach, andeems Dir e Verglach mécht, ze gesinn datt d'Approche benotzt wann Dir den Ufuerderunge fir Informatiounsintegritéit a modernen Normen fir Informatiounssystemer erfëllt, wesentlech limitéiert sinn am Verglach mam legale Informatiounskonzept.

Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch
Fig. 3

Am spezifizéierten Dokument (Guide) ass d'Verbindung zum techneschen Deel, d'Fäegkeeten fir d'Veraarbechtung an d'Späichere vun Donnéeën gutt bestätegt duerch en Zitat aus Kapitel 18.2. Relational Datebank: "Dës Dateistruktur ass natierlech méi sécher, well d'Donnéeën an engem grousse Dateiformat gehal ginn, deen d'Relatioun tëscht Daten a Metadaten bewahrt."

Tatsächlech, an dëser Approche - aus existéierend technesch Fäegkeeten, gëtt et näischt anormals an, u sech, ass dëst en natierleche Prozess, well d'Expansioun vu Konzepter aus der meescht studéierter Aktivitéit kënnt - Datebankdesign. Awer op der anerer Säit erschéngen juristesch Normen déi keng Remise op déi technesch Fäegkeeten vun existente Systemer ubidden, zum Beispill: GDPR - Allgemeng Dateschutzreglement.

Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch
Reis. 4. Triichter vun technesche Fäegkeeten (Source).

An dësen Aspekter gëtt et kloer datt den ursprénglechen Dataset (Fig. 1) fir d'éischt muss gespäichert ginn, an zweetens d'Basis sinn fir zousätzlech Informatioune doraus ze extrahieren. Ee, als e Beispill: Kameraen opgeholl Verkéier Regelen sinn ubiquitous, Informatiounen Veraarbechtung Systemer Onkraut violators, mä aner Informatiounen kann och zu anere Konsumenten ugebueden ginn, zum Beispill, als Marketing Iwwerwachung vun der Struktur vun de Flux vun Clienten zu engem Akafszenter. An dëst ass eng Quell vun zousätzleche Méiwäert wann Dir BigDat benotzt. Et ass ganz méiglech datt d'Datesätz, déi elo gesammelt ginn, iergendwou an der Zukunft, Wäert hunn no engem Mechanismus ähnlech wéi de Wäert vun seltenen Editiounen vun 1700 am Moment. Iwwerhaapt, tatsächlech, temporär Datesätz sinn eenzegaarteg a sinn onwahrscheinlech an Zukunft widderholl ze ginn.

3. Aféierungscoursen Deel. Evaluatioun Critèren

Wärend dem Veraarbechtungsprozess gouf déi folgend Klassifikatioun vu Feeler entwéckelt.

1. Feeler Klass (baséiert op GOST R 8.736-2011): eng) systematesch Feeler; b) zoufälleg Feeler; c) e Feeler.

2. Duerch Multiplizitéit: a) Mono Verzerrung; b) Multi-Verzerrung.

3. No der Kritik vun de Konsequenzen: a) kritesch; b) net kritesch.

4. No Quell vum Optriede:

A) Technesch - Feeler déi während der Operatioun vun der Ausrüstung geschéien. E zimlech relevante Feeler fir IoT Systemer, Systemer mat engem wesentlechen Afloss op d'Qualitéit vun der Kommunikatioun, Ausrüstung (Hardware).

B) Bedreiwer Feeler - Feeler an enger breet Palette vun Bedreiwer Tippfehler während Input bis Feeler an der technesch Spezifikatioune fir Datebank Design.

C) Benotzer Feeler - hei sinn Benotzer Feeler an der ganzer Gamme vun "vergiess de Layout ze wiesselen ugefaangen" ze verwiesselen Meter fir Féiss.

5. Getrennt an eng separat Klass:

a) d'"Aufgab vum Separator", dat heescht de Raum an ":" (an eisem Fall) wann et duplizéiert gouf;
b) Wierder zesummen geschriwwen;
c) kee Raum no Service Charaktere
d) symmetresch multiple Symboler: (), "", "...".

Zesummegefaasst, mat der Systematiséierung vun Datebankfehler presentéiert an der Figur 5, gëtt e relativ effektiven Koordinatesystem geformt fir no Feeler ze sichen an en Datereinigungsalgorithmus fir dëst Beispill z'entwéckelen.

Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch
Reis. 5. Typesch Feeler entspriechend de strukturellen Unitéiten vun der Datebank (Quell: Oreshkov VI, Paklin N.B. "Schlësselkonzepter vun der Datekonsolidéierung").

Genauegkeet, Domain Integritéit, Datentyp, Konsistenz, Redundanz, Vollständegkeet, Duplikatioun, Konformitéit zu Geschäftsreegelen, Strukturell Definitivitéit, Datanomalie, Kloerheet, Rechtzäiteg, Anhale vun Datenintegritéitsregelen. (Säit 334. Data warehousing fundamentals for IT professionals / Paulraj Ponniah.-2. Ed.)

Presentéiert Englesch Formuléierung a russesch Maschinn Iwwersetzung an Klammeren.

Genauegkeet. De Wäert, deen am System fir en Dateelement gespäichert ass, ass de richtege Wäert fir dat Optriede vum Dateelement. Wann Dir e Client Numm an eng Adress an engem Rekord gespäichert hutt, dann ass d'Adress déi richteg Adress fir de Client mat deem Numm. Wann Dir d'Quantitéit bestallt als 1000 Eenheeten am Rekord fir d'Bestellungsnummer 12345678 fannt, dann ass dës Quantitéit déi genau Quantitéit fir dës Bestellung.
[Genauegkeet. De Wäert am System gespäichert fir en Dateelement ass de richtege Wäert fir dat Optriede vum Dateelement. Wann Dir e Client Numm an Adress an engem Rekord gespäichert hutt, dann ass d'Adress déi richteg Adress fir de Client mat deem Numm. Wann Dir d'Quantitéit bestallt als 1000 Eenheeten am Rekord fir d'Bestellungsnummer 12345678 fannt, dann ass dës Quantitéit déi exakt Quantitéit fir dës Bestellung.]

Domain Integritéit. D'Donnéeë Wäert vun engem Attribut Falen am Beräich vun allowable, definéiert Wäerter. Dat gemeinsamt Beispill ass déi zulässlech Wäerter "männlech" a "weiblech" fir d'Geschlechtdatenelement.
[Domain Integritéit. Den Attributdatenwäert fällt am Beräich vu gültege, definéierte Wäerter. En allgemengt Beispill ass déi valabel Wäerter "männlech" a "weiblech" fir e Geschlechtdatenelement.]

Daten Typ. Wäert fir en Datattribut gëtt tatsächlech gespäichert als den Datetyp deen fir dat Attribut definéiert ass. Wann d'Datentyp vum Butteknummfeld als "Text" definéiert ass, enthalen all Instanzen vun deem Feld de Butteknumm, deen am Textformat an net numeresch Coden ugewise gëtt.
[Datentyp. De Wäert vun engem Datattribut gëtt tatsächlech als den Datetyp definéiert fir dat Attribut gespäichert. Wann de Buttek Numm Feld Daten Typ als "Text" definéiert ass, enthalen all Instanzen vun dësem Feld de Buttek Numm an Text Format ugewisen anstatt numeresch Coden.]

Konsistenz. D'Form an den Inhalt vun engem Datefeld ass d'selwecht iwwer verschidde Quellsystemer. Wann de Produktcode fir Produkt ABC an engem System 1234 ass, dann ass de Code fir dëst Produkt 1234 an all Quellsystem.
[Konsistenz. D'Form an den Inhalt vum Datefeld sinn déiselwecht a verschiddene Quellsystemer. Wann de Produktcode fir Produkt ABC op engem System 1234 ass, dann ass de Code fir dat Produkt 1234 op all Quellsystem.]

Redundanz. Déi selwecht Donnéeën däerfen net op méi wéi enger Plaz an engem System gespäichert ginn. Wann aus Effizienzgrënn en Dateelement bewosst op méi wéi enger Plaz an engem System gespäichert gëtt, da muss d'Redundanz kloer identifizéiert a verifizéiert ginn.
[Redundanz. Déi selwecht Donnéeë sollen net op méi wéi enger Plaz am System gespäichert ginn. Wann aus Effizienzgrënn en Dateelement bewosst op verschidde Plazen an engem System gespäichert ass, da muss d'Redundanz kloer definéiert a verifizéiert ginn.]

Vollständegkeet. Et gi keng fehlend Wäerter fir e bestëmmten Attribut am System. Zum Beispill, an enger Clientsdatei muss et e gültege Wäert fir de "Staat" Feld fir all Client sinn. Am Fichier fir Bestellungsdetailer muss all Detailrecord fir eng Bestellung komplett ausgefëllt sinn.
[Vollständegkeet. Et gi keng fehlend Wäerter am System fir dësen Attribut. Zum Beispill muss d'Clientdatei e gültege Wäert fir de "Status" Feld fir all Client hunn. An der Bestellungsdetaildatei muss all Bestellungsdetailrekord komplett ofgeschloss sinn.]

Duplikatioun. Duplikatioun vun records an engem System ass komplett geléist. Wann d'Produktdatei bekannt ass datt se duplizéiert records hunn, da ginn all duplizéiert records fir all Produkt identifizéiert an eng Kräizreferenz erstallt.
[Duplizéiert. Duplikatioun vun records am System gouf komplett eliminéiert. Wann e Produktdatei bekannt ass datt se duplizéiert Entréen enthält, da ginn all duplizéiert Entréen fir all Produkt identifizéiert an eng Kräizreferenz gëtt erstallt.]

Konformitéit mat Geschäftsregelen. D'Wäerter vun all Dateartikel hale sech un de verschriwwene Geschäftsregelen. An engem Auktiounssystem kann den Hammer oder de Verkafspräis net manner sinn wéi de Reservepräis. An engem Bankkreditsystem muss de Prêtbalance ëmmer positiv oder null sinn.
[Konformitéit mat Geschäftsregelen. D'Wäerter vun all Dateelement entspriechen etabléiert Geschäftsregelen. An engem Auktiounssystem kann den Hammer oder de Verkafspräis net manner sinn wéi de Reservepräis. An engem Bankkreditsystem muss de Prêtbalance ëmmer positiv oder null sinn.]

Strukturell Definitivitéit. Iwwerall wou en Dateartikel natierlech an eenzel Komponenten strukturéiert ka ginn, muss den Artikel dës gutt definéiert Struktur enthalen. Zum Beispill, den Numm vun engem Individuum trennt sech natierlech an Virnumm, Mëtt initial a Familljennumm. Wäerter fir Nimm vun Individuen mussen als Virnumm, Mëtt initial a Familljenumm gespäichert ginn. Dës Charakteristik vun der Datequalitéit vereinfacht Duerchféierung vu Standarden a reduzéiert fehlend Wäerter.
[Strukturell Sécherheet. Wou en Dateelement kann natierlech an eenzel Komponenten strukturéiert ginn, muss d'Element dës gutt definéiert Struktur enthalen. Zum Beispill gëtt den Numm vun enger Persoun natierlech an Virnumm, Mëttelinitial a Familljenumm opgedeelt. Wäerter fir eenzel Nimm sollen als Virnumm, Mëttelinitial a Familljenumm gespäichert ginn. Dës Datequalitéitcharakteristik vereinfacht d'Uwendung vu Standarden a reduzéiert fehlend Wäerter.]

Daten Anomalie. E Feld muss nëmme benotzt ginn fir den Zweck fir deen et definéiert ass. Wann d'Feld Adress-3 fir eng méiglech drëtt Adresslinn fir laang Adressen definéiert ass, da muss dëst Feld nëmme benotzt ginn fir déi drëtt Adresslinn opzehuelen. Et däerf net benotzt ginn fir eng Telefonsnummer oder Faxnummer fir de Client anzeginn.
[Daten Anomalie. E Feld muss nëmme benotzt ginn fir den Zweck fir deen et definéiert ass. Wann d'Adress-3 Feld fir eng méiglech drëtt Adresslinn fir laang Adressen definéiert ass, da soll dëst Feld nëmme benotzt ginn fir déi drëtt Adresslinn opzehuelen. Et sollt net benotzt ginn fir eng Telefon- oder Faxnummer fir e Client anzeginn.]

Kloerheet. En Dateelement kann all déi aner Charakteristike vu Qualitéitsdaten besëtzen, awer wann d'Benotzer seng Bedeitung net kloer verstinn, dann ass d'Datenelement kee Wäert fir d'Benotzer. Richteg Benennungskonventiounen hëllefen d'Datenelementer gutt vun de Benotzer verstane ze maachen.
[Klarheet. En Dateelement kann all déi aner Charakteristike vu gudden Donnéeën hunn, awer wann d'Benotzer seng Bedeitung net kloer verstinn, dann ass d'Datenelement kee Wäert fir d'Benotzer. Korrekt Benennungskonventiounen hëllefen d'Datenelementer gutt ze verstoen vun de Benotzer.]

Rechtzäiteg. D'Benotzer bestëmmen d'Zäitlechkeet vun den Donnéeën. Wann d'Benotzer erwaarden datt Clientsdimensiounsdaten net méi al wéi een Dag sinn, mussen d'Ännerunge vun de Clientdaten an de Quellsystemer all Dag op d'Datelager applizéiert ginn.
[Op eng fristgerecht Manéier. D'Benotzer bestëmmen d'Zäitlechkeet vun den Donnéeën. Wann d'Benotzer erwaarden datt d'Clientdimensiounsdaten net méi wéi een Dag al sinn, sollten d'Ännerunge vun de Clientdaten an de Quellsystemer all Dag op d'Datelager applizéiert ginn.]

Nëtzlechkeet. All Dateelement am Datelager muss e puer Ufuerderunge vun der Sammlung vun de Benotzer erfëllen. En Dateelement kann präzis a vu héich Qualitéit sinn, awer wann et kee Wäert fir d'Benotzer ass, dann ass et total onnéideg fir dat Dateelement am Datelager ze sinn.
[Utilitéit. All Dateartikel am Dategeschäft muss e puer Ufuerderunge vun der Benotzersammlung erfëllen. En Dateelement kann präzis a vun héich Qualitéit sinn, awer wann et kee Wäert fir d'Benotzer ubitt, ass et net néideg datt dat Dateelement am Datelager ass.]

Konformitéit mat Datenintegritéitsregelen. D'Daten, déi an de relationalen Datenbanken vun de Quellsystemer gespäichert sinn, mussen un d'Entitéitsintegritéit an d'Referenz Integritéitsregelen halen. All Dësch déi null als primäre Schlëssel erlaabt huet keng Entitéitsintegritéit. Referenziell Integritéit zwéngt d'Etablissement vun den Elteren-Kand Bezéiungen korrekt. An enger Client-zu-Bestellung Bezéiung garantéiert d'referentiell Integritéit d'Existenz vun engem Client fir all Bestellung an der Datebank.
[Konformitéit mat Datenintegritéitsregelen. Date gespäichert an relational Datenbanken vun Quell Systemer mussen d'Regele vun Entitéit Integritéit a referential Integritéit respektéieren. All Dësch déi null als primäre Schlëssel erlaabt huet keng Entitéitsintegritéit. Referentiell Integritéit zwéngt d'Relatioun tëscht Elteren a Kanner richteg opzebauen. An enger Client-Commande Relatioun garantéiert d'referentiell Integritéit datt e Client fir all Bestellung an der Datebank existéiert.]

4. Qualitéit vun Daten Botzen

D'Qualitéit vun der Datereinigung ass en zimlech problematesch Thema bei Bigdata. D'Äntwert op d'Fro vu wéi engem Grad vun der Datereinigung néideg ass fir d'Aufgab ze kompletéieren ass fundamental fir all Datenanalytiker. An de meeschte aktuellen Probleemer bestëmmt all Analyst dat selwer an et ass onwahrscheinlech datt iergendeen vu baussen dësen Aspekt a senger Léisung evaluéiere kann. Awer fir d'Aufgab an dësem Fall war dëst Thema extrem wichteg, well d'Zouverlässegkeet vu juristeschen Donnéeën zu engem tendéieren.

Bedenkt Software Testen Technologien fir operationell Zouverlässegkeet ze bestëmmen. Haut ginn et méi wéi dës Modeller 200. Vill vun de Modeller benotzen e Fuerderungsmodell:

Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch
Fig. 6

Denken wéi follegt: "Wann de Feeler fonnt ass en Event ähnlech wéi d'Feelevent an dësem Modell, wéi fannt Dir dann en Analog vum Parameter t?" An ech hunn de folgende Modell kompiléiert: Loosst eis virstellen datt d'Zäit et dauert fir en Tester fir e Rekord ze kontrolléieren ass 1 Minutt (fir d'Datebank a Fro), dann fir all d'Feeler ze fannen brauch hien 365 Minutten, dat ass ongeféier 494 Joer an 3 Méint Aarbechtszäit. Wéi mir verstinn, ass dëst eng ganz grouss Quantitéit un Aarbecht an d'Käschte fir d'Datebank ze kontrolléieren wäerte verbueden sinn fir de Compiler vun dëser Datebank. An dëser Reflexioun erschéngt d'wirtschaftlech Konzept vun de Käschten an no der Analyse sinn ech zur Conclusioun komm datt dëst e relativ effektiv Tool ass. Baséierend op d'Gesetz vun der Wirtschaft: "De Volume vun der Produktioun (an Eenheeten), bei deem de maximale Gewënn vun enger Firma erreecht gëtt, läit um Punkt wou d'Marginalkäschte fir eng nei Produktiounsunitéit ze produzéieren mam Präis vergläicht deen dës Firma kann kréien. fir eng nei Eenheet." Baséierend op dem Postulat datt all spéider Feeler ze fannen erfuerdert ëmmer méi Iwwerpréiwung vun records, ass dëst e Käschtefaktor. Dat ass, d'Postulat, déi an Testmodeller ugeholl gëtt, kritt eng kierperlech Bedeitung am folgende Muster: wann den i-th Feeler ze fannen ass et néideg n records ze kontrolléieren, dann fir den nächsten (i+3) Feeler ze fannen ass et néideg m records ze kontrolléieren a gläichzäiteg n

  1. Wann d'Zuel vun de records gepréift ier en neie Feeler fonnt gëtt stabiliséiert;
  2. Wann d'Zuel vun de Rekorder gepréift ier Dir de nächste Feeler fënnt, wäert eropgoen.

Fir de kritesche Wäert ze bestëmmen, hunn ech mech op d'Konzept vun der wirtschaftlecher Machbarkeet gedréint, déi an dësem Fall, mat dem Konzept vu soziale Käschten, wéi follegt formuléiert ka ginn: "D'Käschte fir de Feeler ze korrigéieren solle vum wirtschaftlechen Agent gedroe ginn, dee kann maachen. et zu de niddregsten Käschten." Mir hunn een Agent - en Tester deen 1 Minutt verbréngt fir ee Rekord ze kontrolléieren. Am monetäre Begrëffer, wann Dir 6000 Rubelen pro Dag verdéngt, wäert dat 12,2 Rubelen ginn. (ongeféier haut). Et bleift déi zweet Säit vum Gläichgewiicht am wirtschaftleche Gesetz ze bestëmmen. Ech hunn esou gemengt. E bestehende Feeler wäert déi betraffe Persoun erfuerderen Effort ze maachen fir et ze korrigéieren, dat heescht de Besëtzer. Loosst eis soen datt dëst 1 Dag vun der Handlung erfuerdert (eng Demande ofginn, e korrigéiert Dokument kréien). Dann, aus sozialer Siicht, wäert seng Käschten d'selwecht sinn wéi der Moyenne Pai pro Dag. Duerchschnëtt ugesammelt Gehalt am Khanty-Mansi Autonom Okrug "Resultater vun der sozio-ekonomescher Entwécklung vun der Khanty-Mansiysk Autonom Okrug - Ugra fir Januar-September 2019" 73285 3053,542 Rubel. oder XNUMX Rubelen / Dag. Deementspriechend kréie mir e kritesche Wäert gläich wéi:
3053,542: 12,2 = 250,4 Unitéiten vun records.

Dëst bedeit, aus enger sozialer Siicht, wann en Tester 251 records iwwerpréift an ee Feeler fonnt huet, ass et gläichwäerteg datt de Benotzer dëse Feeler selwer fixéiert. Deementspriechend, wann den Tester Zäit gläich verbruecht huet fir 252 records ze kontrolléieren fir den nächste Feeler ze fannen, ass et an dësem Fall besser d'Käschte vun der Korrektur op de Benotzer ze verschécken.

Hei gëtt eng vereinfacht Approche presentéiert, well aus enger sozialer Siicht ass et néideg all zousätzlech Wäerter ze berücksichtegen, déi vun all Spezialist generéiert ginn, dat heescht Käschten inklusiv Steieren a soziale Bezuelungen, awer de Modell ass kloer. Eng Konsequenz vun dëser Bezéiung ass déi folgend Fuerderung fir Spezialisten: e Spezialist aus der IT-Industrie muss eng Pai hunn, déi méi grouss ass wéi den nationalen Duerchschnëtt. Wann seng Pai manner ass wéi d'Duerchschnëttspai vu potenziellen Datebank Benotzer, da muss hie selwer d'ganz Datebank Hand-zu-Hand kontrolléieren.

Wann Dir de beschriwwenen Critère benotzt, gëtt déi éischt Ufuerderung fir d'Qualitéit vun der Datebank geformt:
ech (tr). Den Undeel vu kritesche Feeler däerf net méi wéi 1/250,4 = 0,39938% sinn. E bësse manner wéi raffinéiert Gold an der Industrie. A physesch sinn et net méi wéi 1459 records mat Feeler.

Wirtschaftlech Réckzuch.

Tatsächlech, andeems Dir esou eng Zuel vu Feeler an Opzeechnungen mécht, averstanen d'Gesellschaft wirtschaftlech Verloschter am Betrag vun:

1459 * 3053,542 = 4 Rubelen.

Dëse Betrag gëtt vun der Tatsaach festgeluegt datt d'Gesellschaft net d'Instrumenter huet fir dës Käschten ze reduzéieren. Et folgendermoossen, datt wann een eng Technologie huet, datt hinnen d'Zuel vun records mat Feeler ze reduzéieren erlaabt, zum Beispill, 259, da wäert dat erlaben Societeit ze retten:
1200 * 3053,542 = 3 Rubelen.

Awer gläichzäiteg kann hien fir säin Talent an d'Aarbecht froen, gutt, loosst eis soen - 1 Millioun Rubel.
Dat ass, sozial Käschten sinn reduzéiert duerch:

3 - 664 = 250 Rubelen.

Am Wesentlechen ass dësen Effekt de Plus vun der Notzung vu BigDat Technologien.

Mä hei soll et Rechnung gedroe ginn, datt dëst e sozialen Effekt ass, an de Besëtzer vun der Datebank ass Gemengenautoritéiten, hir Akommes aus der Notzung vun Immobilien an dëser Datebank opgeholl, mat engem Taux vun 0,3%, ass: 2,778 Milliarden Rubelen / Joer. An dës Käschten (4 Rubelen) stéieren him net vill, well se un d'Propriétéit Besëtzer transferéiert ginn. An an dësem Aspekt muss den Entwéckler vu méi Raffinéierungstechnologien a Bigdata d'Fäegkeet weisen, de Besëtzer vun dëser Datebank ze iwwerzeegen, an esou Saachen erfuerdert bedeitend Talent.

An dësem Beispill gouf de Fehlerbewäertungsalgorithmus gewielt baséiert op dem Schumann Modell [2] vu Softwareverifizéierung wärend Zouverlässegkeetsprüfung. Wéinst senger Prevalenz um Internet an der Fäegkeet fir déi néideg statistesch Indikatoren ze kréien. D'Methodologie gëtt vum Monakhov Yu.M. "Funktionell Stabilitéit vun Informatiounssystemer", kuckt ënner dem Spoiler an der Fig. 7-9.

Reis. 7 – 9 Methodologie vum Schumann-ModellBotzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch

Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch

Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch

Den zweeten Deel vun dësem Material presentéiert e Beispill vun Datenreinigung, an deem d'Resultater vum Gebrauch vum Schumann Modell kritt ginn.
Loosst mech d'Resultater presentéieren:
Geschätzte Zuel vu Feeler N = 3167 n.
Parameter C, Lambda an Zouverlässegkeet Funktioun:

Botzen Daten wéi e Spill vu Rock, Pabeier, Schéier. Ass dëst e Spill mat oder ouni Enn? Deel 1. Theoretesch
Fig. 17

Wesentlech ass Lambda en aktuellen Indikator vun der Intensitéit mat där Feeler an all Etapp festgestallt ginn. Wann Dir den zweeten Deel kuckt, ass d'Schätzung fir dësen Indikator 42,4 Feeler pro Stonn, wat relativ vergläichbar ass mam Schumann Indikator. Uewe gouf festgestallt datt den Taux mat deem d'Entwéckler Fehler fannen sollt net manner wéi 1 Feeler pro 250,4 records sinn, wann Dir 1 Rekord pro Minutt iwwerpréift. Dofir de kritesche Wäert vun der Lambda fir de Schumann Modell:

60 / 250,4 = 0,239617.

Dat ass, de Besoin fir Feeler Detektiounsprozeduren auszeféieren, muss duerchgefouert ginn bis Lambda, vun der existéierender 38,964, op 0,239617 erofgeet.

Oder bis den Indikator N (potenziell Zuel vu Feeler) minus n (korrigéiert Unzuel vu Feeler) ënner eiser akzeptéierter Schwell erofgeet - 1459 Stéck.

Literatur

  1. Monakhov, Yu. M. Funktionell Stabilitéit vun Informatiounssystemer. An 3 Stonnen.Deel 1. Software Zouverlässegkeet: Léierbuch. Zoulag / Yu. M. Monakhov; Vladim. Staat univ. – Vladimir: Izvo Vladim. Staat Universitéit, 2011. - 60 p. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Probabilistesch Modeller fir Software Reliability Prediction."
  3. Data warehousing fundamentals for IT professionals / Paulraj Ponniah.-2nd ed.

Zweeten Deel. Theoretesch

Source: will.com

Setzt e Commentaire