Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica

В prima parte hè statu discrittu chì sta publicazione hè stata fatta nantu à a basa di una dataset di i risultati di a valutazione catastrali di l'immubiliare in u Khanty-Mansi Autonomous Okrug.

A parte pratica hè presentata in forma di passi. Tutta a pulizia hè stata fatta in Excel, postu chì l'uttellu più cumuni è l'operazioni descritte ponu esse ripetuti da a maiò parte di i specialisti chì cunnoscenu Excel. È abbastanza bè adattatu per u travagliu a manu.

U stadiu cero serà u travagliu di lanciari è salvà u schedariu, postu chì hè 100 MB in grandezza, allora cù u numeru di sti operazioni esse decine è cintunari, piglianu un tempu significativu.
Apertura, in media, hè di 30 seconde.
Salvà - 22 sec.

A prima tappa principia cù a determinazione di l'indicatori statistichi di u dataset.

Table 1. Indicatori statistichi di u dataset
Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica

Tecnulugia 2.1.

Creemu un campu ausiliariu, l'aghju sottu u numeru - AY. Per ogni entrata, formemu a formula "=LENGTH(F365502)+LENGTH(G365502)+...+LENGTH(AW365502)"

Tempu tutale passatu in u stadiu 2.1 (per a formula di Schumann) t21 = 1 ora.
Nùmeru d'errori truvati in u stadiu 2.1 (per a formula Schumann) n21 = 0 pcs.

U sicondu stadiu.
Verificate i cumpunenti di u dataset.
2.2. Tutti i valori in i registri sò furmati cù simboli standard. Dunque, seguitemu e statistiche per simboli.

Table 2. Indicatori statistichi di caratteri in u dataset cù l'analisi prelimiunale di i risultati.Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica

Tecnulugia 2.2.1.

Creemu un campu ausiliariu - "alpha1". Per ogni record, formemu a formula "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Creemu una cellula Omega-1 fissa. Inseremu alternativamente i codici di caratteri secondu Windows-1251 da 32 à 255 in questa cellula.
Creemu un campu ausiliariu - "alpha2". Cù a formula "= FIND (SYMBOL (Omega, 1); "alpha1", N)".
Creemu un campu ausiliariu - "alpha3". Cù a formula "=IF(ISNUMBER("alpha2",N),1)"
Crea una cellula fissa "Omega-2", cù a formula "=SUM("alpha3"N1: "alpha3"N365498)"

Table 3. Risultati di l'analisi preliminari di i risultatiPulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica

Table 4. Errori arregistrati in questa tappaPulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica

Tempu tutale passatu in u stadiu 2.2.1 (per a formula di Schumann) t221 = 8 ora.
Nùmeru d'errori curretti in u stadiu 2.2.1 (per a formula Schumann) n221 = 0 pcs.

Stage 3.
U terzu passu hè di registrà u statu di u dataset. Assignendu ogni record un numeru unicu (ID) è ogni campu. Questu hè necessariu di paragunà u dataset cunvertitu cù l'uriginale. Questu hè ancu necessariu per prufittà pienamente di e capacità di raggruppamentu è di filtrazione. Quì dinò turnemu à a tavula 2.2.2 è selezziunate un simbulu chì ùn hè micca usatu in u dataset. Avemu ciò chì hè mostratu in Figura 10.

Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Fig. 10. Assegnazione di identificatori.

Tempu tutale passatu in u stadiu 3 (per a formula di Schumann) t3 = 0,75 ora.
Nùmeru d'errori truvati in u stadiu 3 (per a formula Schumann) n3 = 0 pcs.

Siccomu a furmula di Schumann esige chì a tappa sia cumpletata da corregge l'errori. Riturnemu à u stadiu 2.

Stage 2.2.2.
In questu passu correggeremu ancu spazii doppiu è triple.
Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Fig. 11. Numero di spazii doppiu.

Currezzione di l'errori identificati in a tavula 2.2.4.

Table 5. Etapa di currezzione di errorePulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica

Un esempiu di perchè un aspettu cum'è l'usu di e lettere "e" o "e" hè significativu hè presentatu in a Figura 12.

Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Fig. 12. Discrepanza in a lettera "e".

U tempu tutale passatu in u passu 2.2.2 t222 = 4 ore.
Nùmeru d'errori truvati in u stadiu 2.2.2 (per a formula Schumann) n222 = 583 pcs.

Quarta tappa.
A verificazione di a redundanza di u campu si mette bè in questa tappa. Di i 44 campi, 6 campi:
7 - Scopu di a struttura
16 - Numeru di piani sottu
17 - Ughjettu parenti
21 - Cunsigliu di u paese
38 - Paràmetri di struttura (descrizzione)
40 – Patrimoniu culturale

Ùn anu micca entrate. Vale à dì, sò redundante.
U campu "22 - City" hà una sola entrata, Figura 13.

Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Fig. 13. L'unica entrata hè Z_348653 in u campu "City".

U campu "34 - Nome di l'edificiu" cuntene entrate chì chjaramente ùn currispondenu micca à u scopu di u campu, Figura 14.

Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Fig. 14. Un esempiu di una entrata non conforme.

Escludemu questi campi da u dataset. È avemu registratu u cambiamentu in 214 records.

Tempu tutale passatu in u stadiu 4 (per a formula di Schumann) t4 = 2,5 ora.
Nùmeru d'errori truvati in u stadiu 4 (per a formula Schumann) n4 = 222 pcs.

Table 6. Analisi di l'indicatori di data set after the 4th stage

Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica

In generale, analizendu i cambiamenti in l'indicatori (Table 6) pudemu dì chì:
1) U rapportu di u numeru mediu di simboli à a leva di deviazione standard hè vicinu à 3, vale à dì, ci sò segni di una distribuzione normale (regula di sei sigma).
2) Una deviazione significativa di e palanca minima è massima da a palanca media suggerisce chì l'studiu di e coda hè una direzzione promettente quandu cercanu l'errore.

Esaminemu i risultati di truvà errori utilizendu a metodulugia di Schumann.

I tappe inattivi

2.1. Tempu tutale passatu in u stadiu 2.1 (per a formula di Schumann) t21 = 1 ora.
Nùmeru d'errori truvati in u stadiu 2.1 (per a formula Schumann) n21 = 0 pcs.

3. Tempu tutale passatu in u stadiu 3 (per a formula di Schumann) t3 = 0,75 ora.
Nùmeru d'errori truvati in u stadiu 3 (per a formula Schumann) n3 = 0 pcs.

Tappe efficace
2.2. Tempu tutale passatu in u stadiu 2.2.1 (per a formula di Schumann) t221 = 8 ora.
Nùmeru d'errori curretti in u stadiu 2.2.1 (per a formula Schumann) n221 = 0 pcs.
U tempu tutale passatu in u passu 2.2.2 t222 = 4 ore.
Nùmeru d'errori truvati in u stadiu 2.2.2 (per a formula Schumann) n222 = 583 pcs.

U tempu tutale passatu in u passu 2.2 t22 = 8 + 4 = 12 ore.
Nùmeru d'errori truvati in u stadiu 2.2.2 (per a formula Schumann) n222 = 583 pcs.

4. Tempu tutale passatu in u stadiu 4 (per a formula di Schumann) t4 = 2,5 ora.
Nùmeru d'errori truvati in u stadiu 4 (per a formula Schumann) n4 = 222 pcs.

Siccomu ci sò zero tappe chì deve esse incluse in a prima tappa di u mudellu Schumann, è da l'altra banda, i tappe 2.2 è 4 sò intrinsecamente indipindenti, tandu datu chì u mudellu Schumann assume chì, aumentendu a durata di u cuntrollu, a probabilità. di detecting un errore diminuisce, vale à dì, u flussu diminuisce fallimenti, tandu esaminendu stu flussu avemu da determinà chì u stadiu à mette prima, secondu à a regula, induve a densità di fallimentu hè più frequente, avemu da mette quellu stadiu prima.

Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Fig. 15.

Da a furmula in a Figura 15 segue chì hè preferibile di mette a quarta tappa prima di u stadiu 2.2 in i calculi.

Utilizendu a formula di Schumann, determinamu u numeru iniziale stimatu di errori:

Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Fig. 16.

Da i risultati in a Figura 16 pò esse vistu chì u numeru preditu di l'errori hè N2 = 3167, chì hè più di u criteriu minimu di 1459.

In u risultatu di a correzione, avemu currettu l'errore 805, è u numeru previstu hè 3167 - 805 = 2362, chì hè sempre più di u limitu minimu chì avemu accettatu.

Definimu u paràmetru C, lambda è a funzione di affidabilità:

Pulizia di dati cum'è Rock, Paper, Scissors. Hè un ghjocu cù o senza finitu? Parte 2. Pràtica
Fig. 17.

Essenzialmente, lambda hè un indicatore attuale di l'intensità à quale l'errore sò rilevati in ogni stadiu. Se guardate quì sopra, l'estimazione previa di questu indicatore era 42,4 errori per ora, chì hè abbastanza paragunabile à l'indicatore Schumann. Turnendu à a prima parte di stu materiale, hè statu determinatu chì a tarifa à quale un sviluppatore trova l'errore ùn deve esse micca più bassu di 1 errore per 250,4 records, quandu cuntrolla 1 record per minutu. D'où la valeur critique de lambda pour le modèle Schumann :
60 / 250,4 = 0,239617.

Questu hè, a necessità di realizà e prucedure di deteczione di errore deve esse realizatu finu à chì lambda, da u 38,964 esistente, diminuite à 0,239617.

O finu à chì l'indicatore N (nùmeru potenziale d'errori) minus n (nùmmuru currettu d'errori) diminuite sottu à u limitu chì avemu accettatu (in a prima parte) - 1459 pcs.

Parte 1. Teorica.

Source: www.habr.com

Add a comment