Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica

1. Dati iniziali

A pulizia di i dati hè una di e sfide di e attività di analisi di dati. Stu materiale riflette i sviluppi è i suluzioni chì sò ghjunti com'è u risultatu di risolve un prublema pratica di analizà a basa di dati in a furmazione di u valore catastral. Fonti quì "RAPPORTU N ° 01/OKS-2019 nantu à i risultati di a valutazione cadastrale statale di tutti i tipi di immubiliare (eccettu i terreni) in u territoriu di l'Okrug Autonomou Khanty-Mansiysk - Ugra".

U schedariu "Comprative model total.ods" in "Appendice B. Risultati di a determinazione di KS 5. L'infurmazioni nantu à u metudu di determinazione di u valore cadastrale 5.1 Approcciu comparativu" hè statu cunsideratu.

Table 1. Indicatori statistichi di u dataset in u schedariu "Model comparativu total.ods"
Numaru tutale di campi, pcs. — 44
Numaru tutale di registri, pezzi. — 365 490
Numaru tutale di caratteri, pezzi. - 101 714 693
U numeru mediu di caratteri in un record, pcs. — 278,297
Deviazione standard di caratteri in un record, pcs. — 15,510
U numeru minimu di caratteri in una entrata, pcs. — 198
U numeru massimu di caratteri in una entrata, pcs. — 363

2. Parte introduttiva. Standard basi

Mentre analizà a basa di dati specificata, un compitu hè statu furmatu per specificà i requisiti per u gradu di purificazione, postu chì, cum'è hè chjaru per tutti, a basa di dati specificata crea cunsiquenzi legali è ecunomichi per l'utilizatori. Duranti u travagliu, ci hè statu chì ùn ci era micca esigenze specifiche per u gradu di pulizia di big data. Analizendu e norme legali in questa materia, aghju ghjuntu à a cunclusione chì sò tutti furmati da pussibulità. Vale à dì, un certu compitu hè apparsu, e fonti d'infurmazioni sò compilati per u compitu, allora un dataset hè furmatu è, basatu annantu à u dataset creatu, arnesi per risolve u prublema. I suluzioni risultanti sò punti di riferimentu in a scelta di l'alternative. Aghju prisentatu questu in Figura 1.

Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica

Siccomu, in materia di determinazione di qualsiasi standard, hè preferibile cunfidendu tecnulugii pruvati, aghju sceltu i requisiti stabiliti in "MHRA GxP Definizioni di Integrità di Dati è Guida per l'Industria", perchè aghju cunsideratu stu documentu u più cumpletu per questu tema. In particulare, in questu documentu, a sezione dice "Si deve esse nutatu chì i requisiti di integrità di dati si applicanu ugualmente à e dati manuali (carta) è elettronichi". (traduzzione: "... i requisiti di integrità di dati si applicanu ugualmente à e dati manuali (carta) è elettronichi"). Sta formulazione hè assai specificamente assuciata à u cuncettu di "evidenza scritta", in e disposizioni di l'articulu 71 di u Code di Procedura Civile, Art. 70 CAS, Art. 75 APC, "in scrittura" Art. 84 Codice di Procedura Civile.

A figura 2 presenta un diagramma di a furmazione di l'approcciu à i tipi d'infurmazioni in a jurisprudenza.

Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica
Risu. 2. Fonte ccà.

A Figura 3 mostra u mecanismu di a Figura 1, per i travaglii di a "Guida" sopra. Hè facilitu, fendu un paraguni, per vede chì l'approcciu utilizatu quandu risponde à i requisiti per l'integrità di l'infurmazioni in i normi muderni per i sistemi d'informazione sò significativamente limitati in paragunà cù u cuncettu legale di l'infurmazioni.

Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica
Fig. 3

In u documentu specificatu (Guidance), a cunnessione à a parte tecnica, capacità per u processu è l'almacenamiento di dati, hè bè cunfirmata da una citazione di u Capitulu 18.2. A basa di dati relazionale: "Questa struttura di u schedariu hè intrinsecamente più sicura, postu chì e dati sò tenuti in un grande furmatu di fugliale chì cunserva a relazione trà e dati è metadata".

In fattu, in questu approcciu - da e capacità tecniche esistenti, ùn ci hè nunda anormali è, in sè stessu, questu hè un prucessu naturali, postu chì l'espansione di cuncetti vene da l'attività più studiata - u disignu di basa di dati. Ma, per un altra banda, parenu normi legali chì ùn furnisce micca sconti nantu à e capacità tecniche di i sistemi esistenti, per esempiu: GDPR - Regolamentu Generale di Proteczione di Dati.

Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica
Risu. 4. Funnel di capacità tecniche (Source).

In questi aspetti, diventa chjaru chì u dataset uriginale (Fig. 1) duverà, prima di tuttu, esse salvatu, è in segundu, esse a basa per l'estrazione di informazioni supplementari da ellu. Ebbè, per esempiu: e camere chì registranu e regule di trafficu sò omnipresenti, i sistemi di trasfurmazioni di l'informazioni eliminanu i violatori, ma altre informazioni ponu ancu esse offerte à l'altri cunsumatori, per esempiu, cum'è un monitoraghju di marketing di a struttura di u flussu di i clienti à un centru cummerciale. È questu hè una fonte di valore aghjuntu supplementu quandu si usa BigDat. Hè abbastanza pussibule chì i datasets chì sò racolti avà, in qualchì locu in u futuru, avarà valore secondu un mecanismu simile à u valore di l'edizioni rari di 1700 à u mumentu prisente. Dopu tuttu, in fattu, i datasets tempuranee sò unichi è sò improbabile di esse ripetuti in u futuru.

3. Parte introduttiva. Criterium di valutazione

Durante u prucessu di trasfurmazioni, a seguente classificazione di errori hè stata sviluppata.

1. Classe d'errore (basatu nantu à GOST R 8.736-2011): a) errori sistematichi; b) errori casuali; c) un sbagliu.

2. Per multiplicità: a) distorsione mono; b) multi-distorsione.

3. Sicondu a criticità di e cunsequenze : a) critica ; b) micca criticu.

4. Per fonte di l'occurrence:

A) Tecnicu - errori chì si trovanu durante u funziunamentu di l'equipaggiu. Un errore abbastanza pertinenti per i sistemi IoT, sistemi cun un gradu significativu di influenza nantu à a qualità di a cumunicazione, l'equipaggiu (hardware).

B) Errori di l'operatore - errori in una larga gamma da i typos di l'operatore durante l'input à l'errori in e specificazioni tecniche per u disignu di basa di dati.

C) Errori di l'utilizatori - quì sò l'errori di l'utilizatori in tutta a gamma da "scurdatu di cambià u layout" à sbaglià metri per pedi.

5. Separate in una classa separata:

a) a "task of the separator", vale à dì u spaziu è ":" (in u nostru casu) quandu era duplicatu;
b) parolle scritte inseme;
c) senza spaziu dopu caratteri di serviziu
d) simboli simmetricamente multipli: (), "", "...".

Pigliatu inseme, cù a sistematizazione di l'errori di basa di dati presentati in a Figura 5, un sistema di coordenate abbastanza efficace hè furmatu per a ricerca di l'errore è di sviluppà un algoritmu di pulizia di dati per questu esempiu.

Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica
Risu. 5. Errori tipici chì currispondenu à l'unità strutturali di a basa di dati (Fonte: Oreshkov V.I., Paklin N.B. "Concetti chjave di cunsulidazione di dati").

Accuratezza, Integrità di Dominiu, Tipu di Dati, Coerenza, Redundancy, Completeness, Duplicazione, Conformità à e Regule di l'Affari, Definizione Strutturale, Anomalia di Dati, Chiarezza, Tempestu, Aderenza à e Regule di Integrità di Dati. (Pagina 334. Fundamenti di u magazzinu di dati per i prufessiunali IT / Paulraj Ponniah.—2nd ed.)

Presentazione di parole in inglese è traduzzione automatica russa in parentesi.

Accuratezza. U valore guardatu in u sistema per un elementu di dati hè u valore ghjustu per quella occurrence di l'elementu di dati. Se tenete un nome di cliente è un indirizzu guardatu in un registru, l'indirizzu hè l'indirizzu currettu per u cliente cù quellu nome. Se truvate a quantità urdinata cum'è 1000 unità in u record per u numeru di ordine 12345678, allora quella quantità hè a quantità precisa per quellu ordine.
[Precisione. U valore guardatu in u sistema per un elementu di dati hè u valore currettu per quella occurrence di l'elementu di dati. Se tenete un nome di u cliente è l'indirizzu guardatu in un registru, l'indirizzu hè l'indirizzu currettu per u cliente cù quellu nome. Se truvate a quantità urdinata cum'è 1000 unità in u record per u numeru d'ordine 12345678, allora quella quantità hè a quantità esatta per quellu ordine.]

Integrità di u duminiu. U valore di dati di un attributu cade in a gamma di valori permessi, definiti. L'esempiu cumuni hè i valori permessi chì sò "maschile" è "femmina" per l'elementu di dati di genere.
[Integrità di u duminiu. U valore di dati di l'attributu si trova in a gamma di valori validi è definiti. Un esempiu generale hè i valori validi "maschile" è "femmina" per un elementu di dati di genere.]

Tipu di dati. U valore per un attributu di dati hè in realtà almacenatu cum'è u tipu di dati definitu per quellu attributu. Quandu u tipu di dati di u campu di u nome di a tenda hè definitu cum'è "testu", tutti i casi di quellu campu cuntenenu u nome di a tenda mostratu in formate testuale è micca codici numerichi.
[Tipu di dati. U valore di un attributu di dati hè in realtà almacenatu cum'è u tipu di dati definitu per quellu attributu. Se u tipu di dati di u campu di u nome di u magazinu hè definitu cum'è "testu", tutti i casi di stu campu cuntenenu u nome di u magazinu affissatu in forma di testu invece di codici numerichi.]

Cuerenza. A forma è u cuntenutu di un campu di dati hè u listessu in parechji sistemi di fonti. Se u codice di u produttu per u produttu ABC in un sistema hè 1234, allura u codice per stu pruduttu hè 1234 in ogni sistema di fonte.
[Cuerenza. A forma è u cuntenutu di u campu di dati sò listessi in diversi sistemi di fonte. Se u codice di u produttu per u produttu ABC in un sistema hè 1234, allora u codice per quellu pruduttu hè 1234 in ogni sistema fonte.]

Redundanza. I stessi dati ùn deve esse guardatu in più di un locu in un sistema. Se, per ragioni di efficienza, un elementu di dati hè intenzionalmente guardatu in più di un locu in un sistema, allora a redundanza deve esse chjaramente identificata è verificata.
[Ridundanza. I stessi dati ùn deve esse guardatu in più di un locu in u sistema. Se, per ragioni di efficienza, un elementu di dati hè intenzionalmente almacenatu in parechje locu in un sistema, allora a redundanza deve esse chjaramente definita è verificata.]

Cumpletezza. Ùn ci sò micca valori mancanti per un attributu datu in u sistema. Per esempiu, in un schedariu di u cliente, deve esse un valore validu per u campu "statu" per ogni cliente. In u schedariu per i dettagli di l'ordine, ogni record di dettagliu per un ordine deve esse cumpletu.
[Completezza. Ùn ci sò micca valori mancanti in u sistema per questu attributu. Per esempiu, u schedariu di u cliente deve avè un valore validu per u campu "status" per ogni cliente. In u schedariu di dettagliu di l'ordine, ogni registru di dettagliu di l'ordine deve esse cumpletamente cumpletu.]

Duplicazione. A duplicazione di registri in un sistema hè cumpletamente risolta. Se u schedariu di u produttu hè cunnisciutu per avè i registri duplicati, allora tutti i registri duplicati per ogni pruduttu sò identificati è hè creatu un riferimentu incruciatu.
[Duplicate. A duplicazione di registri in u sistema hè stata completamente eliminata. Se un schedariu di produttu hè cunnisciutu per cuntene entrate duplicate, allora tutte e voci duplicate per ogni pruduttu sò identificate è hè creatu un riferimentu incruciatu.]

Conformità à e regule di l'affari. I valori di ogni articulu di dati aderiscenu à e regule cummerciale prescritte. In un sistema d'asta, u prezzu di martellu o di vendita ùn pò esse menu di u prezzu di riserva. In un sistema di prestitu bancariu, u saldu di prestitu deve esse sempre pusitivu o zero.
[U rispettu di e regule cummerciale. I valori di ogni elementu di dati rispettu à e regule cummerciale stabilite. In un sistema d'asta, u prezzu di martellu o di vendita ùn pò esse menu di u prezzu di riserva. In un sistema di creditu bancariu, u saldu di prestitu deve esse sempre pusitivu o zero.]

Definizione strutturale. Induve un articulu di dati pò esse strutturatu in modu naturali in cumpunenti individuali, l'articulu deve cuntene sta struttura ben definita. Per esempiu, u nome di l'individuu si divide naturalmente in u nome, l'iniziale media è u cognome. I valori per i nomi di l'individui devenu esse guardati cum'è nome, iniziali media è cognome. Questa caratteristica di a qualità di dati simplifica l'applicazione di i normi è riduce i valori mancanti.
[Certezza strutturale. Induve un elementu di dati pò esse strutturatu naturali in cumpunenti individuali, l'elementu deve cuntene sta struttura ben definita. Per esempiu, u nome di una persona hè naturalmente divisu in u nome, l'iniziale media è u cognome. I valori per i nomi individuali duveranu esse guardati cum'è nome, iniziale media è cognome. Questa caratteristica di qualità di dati simplifica l'applicazione di i normi è riduce i valori mancanti.]

Anomalia di dati. Un campu deve esse usatu solu per u scopu per quale hè definitu. Se u campu Indirizzu-3 hè definitu per qualsiasi terza linea d'indirizzu pussibule per indirizzi longu, allora stu campu deve esse usatu solu per registrà a terza linea di indirizzu. Ùn deve esse usatu per inserisce un numeru di telefunu o fax per u cliente.
[Anomalia di dati. Un campu deve esse usatu solu per u scopu per quale hè definitu. Se u campu Indirizzu-3 hè definitu per qualsiasi eventuale terza linea d'indirizzu per indirizzi longu, allora stu campu serà solu usatu per registrà a terza linea di indirizzu. Ùn deve esse usatu per inserisce un numeru di telefunu o fax per un cliente.]

Chiarezza. Un elementu di dati pò pussede tutte l'altri caratteristiche di dati di qualità, ma se l'utilizatori ùn capiscenu micca u so significatu chjaramente, allora l'elementu di dati ùn hè micca di valore per l'utilizatori. Cunvenzioni di nomenamentu propiu aiutanu à fà chì l'elementi di dati capiscenu bè da l'utilizatori.
[Clarità. Un elementu di dati pò avè tutte l'altri caratteristiche di una bona data, ma se l'utilizatori ùn capiscenu micca chjaramente u so significatu, allura l'elementu di dati ùn hè micca valore per l'utilizatori. Cunvenzioni di nomenamentu currettu aiutanu à fà chì l'elementi di dati sò ben capiti da l'utilizatori.]

Tempestu. L'utilizatori determinanu a puntualità di e dati. Se l'utilizatori aspettanu chì e dati di dimensione di u cliente ùn sò micca più vechji di un ghjornu, i cambiamenti à i dati di i clienti in i sistemi di fonti devenu esse applicati à u magazzinu di dati ogni ghjornu.
[In una manera puntuale. L'utilizatori determinanu a puntualità di e dati. Se l'utilizatori aspettanu chì e dati di dimensione di u cliente ùn anu più di un ghjornu, i cambiamenti à i dati di i clienti in i sistemi di fonti devenu esse applicati à u magazzinu di dati ogni ghjornu.]

Utilità. Ogni elementu di dati in u magazzinu di dati deve risponde à certi esigenze di a cullizzioni di l'utilizatori. Un elementu di dati pò esse precisu è di alta qualità, ma s'ellu ùn hè micca di valore per l'utilizatori, allora ùn hè micca necessariu per quellu elementu di dati per esse in u magazzinu di dati.
[Utilità. Ogni articulu di dati in u magazzinu di dati deve risponde à certi requisiti di a cullizzioni di l'utilizatori. Un elementu di dati pò esse precisu è di alta qualità, ma s'ellu ùn furnisce micca valore à l'utilizatori, ùn hè micca necessariu chì quellu elementu di dati sia in u magazzinu di dati.]

Aderenza à e regule di integrità di dati. I dati almacenati in e basa di dati relazionale di i sistemi di fonte devenu aderiscenu à e regule di integrità di l'entità è di integrità referenziale. Ogni tavula chì permette null cum'è a chjave primaria ùn hà micca integrità di l'entità. L'integrità referenziale impone a stabilimentu di e relazioni genitori-figlioli currettamente. In una relazione di u cliente à l'ordine, l'integrità referenziale assicura l'esistenza di un cliente per ogni ordine in a basa di dati.
[Conformità cù e regule di integrità di dati. I dati almacenati in basa di dati relazionale di i sistemi di fonte devenu esse conformi à e regule di l'integrità di l'entità è l'integrità referenziale. Ogni tavula chì permette null cum'è chjave primaria ùn hà micca integrità di l'entità. L'integrità referenziale forza a relazione trà i genitori è i zitelli per esse stabilitu currettamente. In una relazione cliente-ordine, l'integrità referenziale assicura chì un cliente esiste per ogni ordine in a basa di dati.]

4. Qualità di pulizia di dati

A qualità di a pulizia di dati hè un prublema piuttostu problematicu in bigdata. Rispondi à a quistione di quale gradu di pulizia di dati hè necessariu per compie u compitu hè fundamentale per ogni analista di dati. In a maiò parte di i prublemi attuali, ogni analista determina questu ellu stessu è hè improbabile chì qualcunu da l'esternu sia capace di valutà questu aspettu in a so suluzione. Ma per u compitu in manu in questu casu, sta questione era assai impurtante, postu chì l'affidabilità di e dati legali deve tende à unu.

Cunsiderendu e tecnulugia di teste di software per determinà a affidabilità operativa. Oghje ci sò più di questi mudelli 200. Parechji di i mudelli utilizanu un mudellu di serviziu di serviziu:

Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica
Fig. 6

Pensendu cusì: "Se l'errore truvatu hè un avvenimentu simile à l'eventu di fallimentu in questu mudellu, allora cumu truvà un analogu di u paràmetru t?" E aghju compilatu u mudellu seguente: Imaginemu chì u tempu chì piglia un tester per verificà un registru hè 1 minutu (per a basa di dati in quistione), dopu per truvà tutti l'errori, hà bisognu di 365 minuti, chì hè circa 494 anni è 3. mesi di tempu di travagliu. Comu avemu capitu, questu hè una quantità assai grande di travagliu è i costi di cuntrollà a basa di dati seranu pruibitivi per u compilatore di sta basa di dati. In questa riflessione, u cuncettu ecunomicu di i costi si prisenta è dopu l'analisi sò ghjuntu à a cunclusione chì questu hè un strumentu abbastanza efficace. Basatu nantu à a lege di l'ecunumia: "U voluminu di pruduzzione (in unità) à quale u prufittu massimu di l'impresa hè rializatu hè situatu à u puntu induve u costu marginale di pruduce una nova unità di pruduzzione hè paragunatu cù u prezzu chì questa impresa pò riceve. per una nova unità ". Basatu nantu à u postulatu chì truvà ogni errore sussegwente richiede più è più verificazione di i registri, questu hè un fattore di costu. Vale à dì, u postulatu aduttatu in i mudelli di teste piglia un significatu fisicu in u mudellu seguente: se per truvà l'i-esimu errore era necessariu di verificà n records, allora per truvà u prossimu (i + 3) errore serà necessariu. per verificà m records è à tempu n

  1. Quandu u numeru di registri verificati prima di truvà un novu errore stabilizza;
  2. Quandu u numeru di dischi verificati prima di truvà u prossimu errore aumenta.

Per determinà u valore criticu, aghju vultatu à u cuncettu di fattibilità ecunomica, chì in questu casu, utilizendu u cuncettu di i costi suciali, pò esse formulatu cusì: "U costu di currezzione di l'errore deve esse sopratu da l'agente ecunomicu chì pò fà. à u prezzu più bassu ". Avemu un agente - un tester chì passa 1 minutu à cuntrollà un record. In termini monetari, se guadagnà 6000 12,2 rubles / ghjornu, questu serà 1 rubles. (circa oghje). Resta à determinà a seconda parte di l'equilibriu in u dirittu ecunomicu. Aghju ragiunatu cusì. Un errore esistente richiederà à a persona interessata di spende un sforzu per correggillu, vale à dì u pruprietariu. Diciamu chì questu richiede XNUMX ghjornu d'azzione (presentate una dumanda, riceve un documentu currettu). Allora, da un puntu di vista suciale, i so costi seranu uguali à u salariu mediu per ghjornu. Salariu mediu accumulatu in Khanty-Mansi Autonomous Okrug "Risultati di u sviluppu socio-ecunomicu di u Khanty-Mansiysk Autonomous Okrug - Ugra per ghjennaghju-settembre 2019" 73285 rub. o 3053,542 rubles / ghjornu. Dunque, ottenemu un valore criticu uguale à:
3053,542: 12,2 = 250,4 unità di registri.

Questu significa, da un puntu di vista suciale, se un tester hà verificatu 251 records è hà truvatu un errore, hè equivalente à l'utilizatore chì ripara stu errore stessu. In cunsiquenza, se u tester hà passatu u tempu uguali à cuntrollà i registri 252 per truvà u prossimu errore, allora in questu casu hè megliu trasfurmà u costu di correzione à l'utilizatore.

Un accostu simplificatu hè prisentatu quì, postu chì da un puntu di vista suciale hè necessariu di piglià in contu tutti i valori supplementari generati da ogni specialista, vale à dì, i costi cumpresi i tassi è i pagamenti suciali, ma u mudellu hè chjaru. A cunsiguenza di sta rilazioni hè u requisitu di i specialisti: un specialista di l'industria IT deve avè un salariu più grande di a media naziunale. Se u so salariu hè menu di u salariu mediu di l'utilizatori potenziali di basa di dati, allora ellu stessu deve verificà a basa di dati sana in manu.

Quandu si usa u criteriu descrittu, u primu requisitu per a qualità di a basa di dati hè furmatu:
I (tr). A parte di l'errori critichi ùn deve esse più di 1/250,4 = 0,39938%. Un pocu menu di raffinazione oru in l'industria. È in termini fisichi ùn ci sò più di 1459 records cù errori.

Ritirata ecunomica.

In fatti, fendu un tali numeru di errori in i registri, a sucietà accunsente à perdite ecunomiche in quantità di:

1459 * 3053,542 = 4 rubles.

Questa quantità hè determinata da u fattu chì a sucità ùn hà micca l'arnesi per riduce questi costi. Segue chì, se qualchissia hà una tecnulugia chì li permette di riduce u nùmeru di registri cù errori à, per esempiu, 259, allora questu permetterà à a sucietà di salvà:
1200 * 3053,542 = 3 rubles.

Ma à u stessu tempu, pò dumandà u so talentu è u travagliu, bè, dicemu - 1 million rubles.
Questu hè, i costi suciali sò ridotti da:

3 - 664 = 250 rubles.

In esencia, questu effettu hè u valore aghjuntu da l'usu di e tecnulugia BigDat.

Ma quì si deve esse cunsideratu chì questu hè un effettu suciale, è u pruprietariu di a basa di dati hè l'autorità municipali, u so ingressu da l'usu di a pruprietà arregistrata in questa basa di dati, à una tarifa di 0,3%, hè: 2,778 miliardi di rubli / annu. E sti costi (4 455 118 rubles) ùn l'anu micca assai, postu chì sò trasferiti à i pruprietarii. E, in questu aspettu, u sviluppatore di più tecnulugii di raffinazione in Bigdata duverà mustrà a capacità di cunvince u pruprietariu di sta basa di dati, è tali cose necessitanu un talentu considerableu.

In questu esempiu, l'algoritmu di valutazione d'errore hè statu sceltu basatu annantu à u mudellu Schumann [2] di verificazione di software durante a prova di affidabilità. A causa di a so prevalenza in Internet è a capacità di ottene l'indicatori statistici necessarii. A metodulugia hè presa da Monakhov Yu.M. "Stabilità funziunale di i sistemi d'infurmazione", vede sottu u spoiler in Fig. 7-9.

Risu. 7 – 9 Metodologia di u mudellu SchumannPulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica

Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica

Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica

A seconda parte di stu materiale presenta un esempiu di pulizia di dati, in quale i risultati di l'usu di u mudellu Schumann sò ottenuti.
Permettemu di presentà i risultati ottenuti:
Nùmeru stimatu di errori N = 3167 n.
Parametru C, lambda è funzione di affidabilità:

Pulisce e dati cum'è un ghjocu di Rock, Paper, Scissors. Hè un ghjocu cù o senza un finale? Parte 1. Teorica
Fig. 17

Essenzialmente, lambda hè un indicatore attuale di l'intensità cù quale l'errore sò rilevati in ogni stadiu. Se fighjate à a seconda parte, l'estimazione per questu indicatore era 42,4 errori per ora, chì hè abbastanza paragunabile à l'indicatore Schumann. Sopra, hè statu determinatu chì a tarifa à quale un sviluppatore trova l'errore ùn deve esse micca più bassu di 1 errore per 250,4 records, quandu verificate 1 record per minutu. D'où la valeur critique de lambda pour le modèle Schumann :

60 / 250,4 = 0,239617.

Questu hè, a necessità di realizà e prucedure di deteczione di errore deve esse realizatu finu à chì lambda, da u 38,964 esistente, diminuite à 0,239617.

O finu à chì l'indicatore N (nùmeru potenziale d'errori) minus n (nùmmuru currettu d'errori) diminuite sottu u nostru limitu accettatu - 1459 pcs.

Letteratura

  1. Monakhov, Yu. M. Stabilità funziunale di i sistemi d'infurmazione. In l'ora di 3. Parte 1. Affidabilità di u software: libru di testu. indennità / Yu. M. Monakhov; Vladim. statu univ. – Vladimir: Izvo Vladim. statu Università, 2011. – 60 p. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Modelli probabilistici per a predizione di affidabilità di software".
  3. Fundamenti di u magazzinu di dati per i prufessiunali IT / Paulraj Ponniah.—2nd ed.

A seconda parte. Teorica

Source: www.habr.com

Add a comment