Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica

В prima parte è stato descritto che questa pubblicazione è stata effettuata sulla base di un set di dati dei risultati della valutazione catastale degli immobili nell'Okrug autonomo dei Khanty-Mansi.

La parte pratica è presentata sotto forma di passaggi. Tutta la pulizia è stata eseguita in Excel, poiché lo strumento più comune e le operazioni descritte possono essere ripetute dalla maggior parte degli specialisti che conoscono Excel. E abbastanza adatto per il lavoro corpo a corpo.

La fase zero sarà il lavoro di avvio e salvataggio del file, poiché ha una dimensione di 100 MB, quindi con il numero di queste operazioni di decine e centinaia, richiedono molto tempo.
L'apertura, in media, è di 30 secondi.
Salvataggio – 22 sec.

La prima fase inizia con la determinazione degli indicatori statistici del set di dati.

Tabella 1. Indicatori statistici del dataset
Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica

Tecnologia 2.1.

Creiamo un campo ausiliario, ce l'ho sotto il numero - AY. Per ogni voce, formiamo la formula “=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”

Tempo totale trascorso nella fase 2.1 (per la formula di Schumann) t21 = 1 ora.
Numero di errori riscontrati nella fase 2.1 (per la formula di Schumann) n21 = 0 pz.

Il secondo stadio.
Controllo dei componenti del set di dati.
2.2. Tutti i valori nei record sono formati utilizzando simboli standard. Pertanto, tracciamo le statistiche tramite simboli.

Tabella 2. Indicatori statistici dei caratteri nel dataset con analisi preliminare dei risultati.Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica

Tecnologia 2.2.1.

Creiamo un campo ausiliario - "alpha1". Per ogni record formiamo la formula “=CONCATENATE(Foglio1!B9;...Foglio1!AQ9)”
Creiamo una cellula Omega-1 fissa. In questa cella inseriremo alternativamente i codici dei caratteri secondo Windows-1251 da 32 a 255.
Creiamo un campo ausiliario - "alpha2". Con la formula “=TROVA(SIMBOLO(Omega,1); “alfa1”,N)”.
Creiamo un campo ausiliario - "alpha3". Con la formula “=SE(VAL.NUMERO(“alfa2”,N),1)”
Creare una cella fissa “Omega-2”, con la formula “=SOMMA(“alpha3”N1: “alpha3”N365498)”

Tabella 3. Risultati dell'analisi preliminare dei risultatiPulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica

Tabella 4. Errori registrati in questa fasePulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica

Tempo totale trascorso nella fase 2.2.1 (per la formula di Schumann) t221 = 8 ora.
Numero di errori corretti nella fase 2.2.1 (per la formula di Schumann) n221 = 0 pz.

Step 3.
Il terzo passaggio consiste nel registrare lo stato del set di dati. Assegnando a ciascun record un numero (ID) univoco e ciascun campo. Ciò è necessario per confrontare il set di dati convertito con quello originale. Ciò è necessario anche per sfruttare appieno le funzionalità di raggruppamento e filtro. Anche in questo caso passiamo alla tabella 2.2.2 e selezioniamo un simbolo che non è utilizzato nel set di dati. Otteniamo quanto mostrato nella Figura 10.

Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Figura 10. Assegnazione di identificatori.

Tempo totale trascorso nella fase 3 (per la formula di Schumann) t3 = 0,75 ora.
Numero di errori riscontrati nella fase 3 (per la formula di Schumann) n3 = 0 pz.

Poiché la formula di Schumann richiede che la fase venga completata correggendo gli errori. Torniamo alla fase 2.

Step 2.2.2.
In questo passaggio correggeremo anche gli spazi doppi e tripli.
Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Figura 11. Numero di spazi doppi.

Correzione degli errori individuati nella tabella 2.2.4.

Tabella 5. Fase di correzione degli erroriPulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica

Un esempio del motivo per cui un aspetto come l’uso delle lettere “e” o “e” è significativo è presentato nella Figura 12.

Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Figura 12. Discrepanza nella lettera "e".

Tempo totale trascorso nel passaggio 2.2.2 t222 = 4 ore.
Numero di errori riscontrati nella fase 2.2.2 (per la formula di Schumann) n222 = 583 pz.

Quarto stadio.
Il controllo della ridondanza del campo si inserisce bene in questa fase. Dei 44 campi, 6 campi:
7 - Oggetto della struttura
16 — Numero di piani interrati
17 - Oggetto padre
21 - Consiglio del villaggio
38 — Parametri della struttura (descrizione)
40 – Beni culturali

Non hanno alcuna voce. Cioè, sono ridondanti.
Il campo “22 – Città” ha una sola voce, Figura 13.

Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Figura 13. L'unica voce è Z_348653 nel campo “Città”.

Il campo “34 - Nome edificio” contiene voci che chiaramente non corrispondono allo scopo del campo, Figura 14.

Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Figura 14. Un esempio di voce non conforme.

Escludiamo questi campi dal set di dati. E registriamo la variazione in 214 registrazioni.

Tempo totale trascorso nella fase 4 (per la formula di Schumann) t4 = 2,5 ora.
Numero di errori riscontrati nella fase 4 (per la formula di Schumann) n4 = 222 pz.

Tabella 6. Analisi degli indicatori del set di dati dopo la 4a fase

Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica

In generale, analizzando l’evoluzione degli indicatori (Tabella 6) possiamo affermare che:
1) Il rapporto tra il numero medio di simboli e la leva della deviazione standard è vicino a 3, cioè ci sono segni di una distribuzione normale (regola del sei sigma).
2) Una deviazione significativa delle leve minima e massima dalla leva media suggerisce che lo studio delle code è una direzione promettente nella ricerca di errori.

Esaminiamo i risultati della ricerca degli errori utilizzando la metodologia di Schumann.

Stadi inattivi

2.1. Tempo totale trascorso nella fase 2.1 (per la formula di Schumann) t21 = 1 ora.
Numero di errori riscontrati nella fase 2.1 (per la formula di Schumann) n21 = 0 pz.

3. Tempo totale trascorso nella fase 3 (per la formula di Schumann) t3 = 0,75 ora.
Numero di errori riscontrati nella fase 3 (per la formula di Schumann) n3 = 0 pz.

Fasi effettive
2.2. Tempo totale trascorso nella fase 2.2.1 (per la formula di Schumann) t221 = 8 ora.
Numero di errori corretti nella fase 2.2.1 (per la formula di Schumann) n221 = 0 pz.
Tempo totale trascorso nel passaggio 2.2.2 t222 = 4 ore.
Numero di errori riscontrati nella fase 2.2.2 (per la formula di Schumann) n222 = 583 pz.

Tempo totale trascorso nella fase 2.2 t22 = 8 + 4 = 12 ore.
Numero di errori riscontrati nella fase 2.2.2 (per la formula di Schumann) n222 = 583 pz.

4. Tempo totale trascorso nella fase 4 (per la formula di Schumann) t4 = 2,5 ora.
Numero di errori riscontrati nella fase 4 (per la formula di Schumann) n4 = 222 pz.

Poiché non ci sono fasi che devono essere incluse nella prima fase del modello di Schumann, e d'altra parte le fasi 2.2 e 4 sono intrinsecamente indipendenti, allora dato che il modello di Schumann presuppone che aumentando la durata del controllo, la probabilità di rilevamento di un errore diminuisce, cioè diminuisce il flusso di guasti, quindi esaminando questo flusso determineremo quale stadio mettere per primo, secondo la regola, dove la densità di guasti è più frequente, metteremo per primo quello stadio.

Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Rys.15.

Dalla formula di Figura 15 segue che nei calcoli è preferibile anteporre la quarta fase alla fase 2.2.

Utilizzando la formula di Schumann, determiniamo il numero iniziale stimato di errori:

Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Rys.16.

Dai risultati nella Figura 16 si può vedere che il numero di errori previsto è N2 = 3167, che è superiore al criterio minimo di 1459.

Come risultato della correzione, abbiamo corretto 805 errori e il numero previsto è 3167 – 805 = 2362, che è ancora superiore alla soglia minima da noi accettata.

Definiamo il parametro C, lambda e la funzione di affidabilità:

Pulisci i dati come in un gioco di sasso, carta e forbici. È un gioco con o senza finale? Parte 2. Pratica
Rys.17.

In sostanza, lambda è un vero e proprio indicatore dell'intensità con cui vengono rilevati gli errori in ogni fase. Se guardi sopra, la stima precedente di questo indicatore era di 42,4 errori all'ora, che è abbastanza paragonabile all'indicatore Schumann. Passando alla prima parte di questo materiale, è stato stabilito che la velocità con cui uno sviluppatore rileva gli errori non dovrebbe essere inferiore a 1 errore ogni 250,4 record, quando si controlla 1 record al minuto. Da qui il valore critico di lambda per il modello di Schumann:
60 / 250,4 = 0,239617.

Cioè, la necessità di eseguire procedure di rilevamento degli errori deve essere eseguita fino a quando lambda, dall'attuale 38,964, non scende a 0,239617.

Oppure fino a quando l'indicatore N (numero potenziale di errori) meno n (numero di errori corretto) scende al di sotto della soglia da noi accettata (nella prima parte) - 1459 pz.

Parte 1. Teorica.

Fonte: habr.com

Aggiungi un commento