В È stato descritto che questa pubblicazione è stata realizzata sulla base di un set di dati dei risultati della valutazione catastale degli immobili nel Circondario autonomo di Khanty-Mansi.
La parte pratica è presentata in passaggi. Tutte le operazioni di pulizia sono state eseguite in Excel, poiché è lo strumento più comune e le operazioni descritte possono essere ripetute dalla maggior parte dei professionisti che hanno familiarità con Excel. È anche molto adatto per il lavoro pratico.
Considererò il lavoro di avvio e salvataggio del file come fase zero, poiché ha una dimensione di 100 MB e, con decine e centinaia di queste operazioni, richiedono una notevole quantità di tempo.
Il tempo di apertura è in media di 30 secondi.
Tempo di risparmio: 22 sec.
La prima fase inizia con la definizione degli indicatori statistici del set di dati.
Tabella 1. Indicatori statistici del set di dati

Tecnologia 2.1.
Crea un campo ausiliario; lo chiamerò AY. Per ogni record, crea la formula "=LEN(F365502)+LEN(G365502)+…+LEN(AW365502)"
Tempo totale trascorso nella fase 2.1 (per la formula di Schumann) t21 = 1 ora.
Il numero di errori riscontrati nel passaggio 2.1 (per la formula di Schumann) n21 = 0 pz.
Il secondo stadio.
Controllo dei componenti del set di dati.
2.2. Tutti i valori nei record sono formati utilizzando simboli standard. Pertanto, tracciamo le statistiche per simbolo.
Tabella 2. Indicatori statistici dei simboli nel set di dati con analisi preliminare dei risultati.




Tecnologia 2.2.1.
Creiamo un campo ausiliario, “alpha1”. Per ogni record, creiamo la formula “=CONCATENATE(Sheet1!B9;…Sheet1!AQ9)”
Creeremo una cella fissa chiamata "Omega-1". In questa cella inseriremo i codici carattere Windows-1251 da 32 a 255, uno alla volta.
Creiamo un campo ausiliario – “alpha2”. Con la formula “=FIND(CHAR(Omega;1); “alpha1”;N)”.
Creiamo un campo ausiliario – “alpha3”. Con la formula “=SE(VAL.NUMERO(“alpha2”;N);1;0)”
Crea una cella fissa "Omega-2" con la formula "=SOMMA("alpha3"N1:"alpha3"N365498)"
Tabella 3. Risultati dell'analisi preliminare dei risultati
Tabella 4. Errori registrati in questa fase
Tempo totale trascorso nella fase 2.2.1 (per la formula di Schumann) t221 = 8 ora.
Numero di errori corretti nella fase 2.2.1 (per la formula di Schumann) n221 = 0 pz.
Step 3.
Il terzo passaggio consiste nel registrare lo stato del dataset. Assegniamo un numero univoco (ID) a ciascun record e a ciascun campo. Questo è necessario per confrontare il dataset trasformato con quello originale. È inoltre necessario sfruttare appieno le funzionalità di raggruppamento e filtro. Anche in questo caso, facciamo nuovamente riferimento alla Tabella 2.2.2 e selezioniamo un simbolo non utilizzato nel dataset. Il risultato è mostrato in Figura 10.

Fig.10. Assegnazione degli identificatori.
Tempo totale trascorso nella fase 3 (per la formula di Schumann) t3 = 0,75 ora.
Il numero di errori riscontrati nel passaggio 3 (per la formula di Schumann) n3 = 0 pz.
Poiché la formula di Schumann richiede che questa fase venga completata con la correzione degli errori, torniamo alla fase 2.
Step 2.2.2.
In questa fase correggeremo anche gli spazi doppi e tripli.

Fig.11. Numero di spazi doppi.
Correzione degli errori identificati nella Tabella 2.2.4.
Tabella 5. Fase di correzione degli errori

Un esempio dell'importanza di un aspetto come l'uso delle lettere "e" o "yo" è mostrato nella Figura 12.

Fig. 12. Incoerenza nella lettera "ё".
Tempo totale trascorso sulla fase 2.2.2 t222 = 4 ore.
Il numero di errori riscontrati nel passaggio 2.2.2 (per la formula di Schumann) n222 = 583 pz.
Quarto stadio.
Il controllo della ridondanza dei campi si adatta bene a questa fase. Dei 44 campi, 6 sono:
7 — Scopo della struttura
16 - Numero di piani interrati
17 — Oggetto padre
21 — Consiglio del villaggio
38 — Parametri di struttura (descrizione)
40 - Patrimonio culturale
Non hanno una sola voce. Cioè, sono ridondanti.
Il campo "22 - Città" ha una sola voce, Figura 13.

Fig. 13. L'unica voce Z_348653 nel campo "Città".
Il campo “34 — Nome dell’edificio” contiene voci che chiaramente non corrispondono allo scopo del campo, Figura 14.

Fig. 14. Esempio di una voce non conforme.
Escludiamo questi campi dal set di dati e registriamo le modifiche in 214 record.
Tempo totale trascorso nella fase 4 (per la formula di Schumann) t4 = 2,5 ora.
Il numero di errori riscontrati nel passaggio 4 (per la formula di Schumann) n4 = 222 pz.
Tabella 6. Analisi degli indicatori del set di dati dopo la quarta fase

In generale, analizzando l’evoluzione degli indicatori (Tabella 6), possiamo affermare che:
1) Il rapporto tra il numero medio di simboli e la leva della deviazione standard è prossimo a 3, il che significa che ci sono segnali di una distribuzione normale (regola dei sei sigma).
2) La deviazione significativa delle leve minima e massima dalla leva media suggerisce che lo studio delle code è una direzione promettente nella ricerca degli errori.
Esamineremo i risultati della ricerca degli errori utilizzando la metodologia di Schumann.
Fasi inattive
2.1. Tempo totale impiegato nella fase 2.1 (per la formula di Schumann) t21 = 1 ora.
Il numero di errori riscontrati nel passaggio 2.1 (per la formula di Schumann) n21 = 0 pz.
3. Tempo totale impiegato nella fase 3 (per la formula di Schumann) t3 = 0,75 ora.
Il numero di errori riscontrati nel passaggio 3 (per la formula di Schumann) n3 = 0 pz.
Fasi efficaci
2.2. Tempo totale impiegato nella fase 2.2.1 (per la formula di Schumann) t221 = 8 ora.
Numero di errori corretti nella fase 2.2.1 (per la formula di Schumann) n221 = 0 pz.
Tempo totale trascorso sulla fase 2.2.2 t222 = 4 ore.
Il numero di errori riscontrati nel passaggio 2.2.2 (per la formula di Schumann) n222 = 583 pz.
Tempo totale trascorso sulla fase 2.2 t22 = 8 + 4 = 12 ore.
Il numero di errori riscontrati nel passaggio 2.2.2 (per la formula di Schumann) n222 = 583 pz.
4. Tempo totale impiegato nella fase 4 (per la formula di Schumann) t4 = 2,5 ora.
Il numero di errori riscontrati nel passaggio 4 (per la formula di Schumann) n4 = 222 pz.
Poiché non ci sono fasi che devono essere incluse nella prima fase del modello di Schumann, e d'altra parte, le fasi 2.2 e 4 sono essenzialmente indipendenti, allora tenendo conto che il modello di Schumann presuppone che con un aumento della durata del test, la probabilità di rilevare un errore diminuisce, cioè diminuisce il flusso di guasti, allora studiando questo flusso determineremo quale delle fasi mettere per prima, secondo la regola, dove la densità di guasti è più frequente, quella fase viene messa per prima.
![]()
Rys.15.
Dalla formula della Figura 15 si evince che è preferibile posizionare nei calcoli la quarta fase prima della fase 2.2.
Utilizzando la formula di Schumann, determiniamo il numero iniziale stimato di errori:

Rys.16.
Dai risultati della Figura 16 si può osservare che il numero previsto di errori N2 = 3167, ovvero maggiore del criterio minimo di 1459.
Grazie alla correzione, abbiamo corretto 805 errori e il numero previsto è 3167 - 805 = 2362, che è comunque superiore alla soglia minima da noi adottata.
Definiamo il parametro C, lambda e la funzione di affidabilità:

Rys.17.
In sostanza, lambda è un indicatore reale della velocità con cui vengono rilevati gli errori in ogni fase. Considerando la stima precedente, questo indicatore era pari a 42,4 errori all'ora, un valore abbastanza paragonabile all'indicatore di Schumann. Facendo riferimento alla prima parte di questo materiale, è stato stabilito che la velocità di rilevamento degli errori dello sviluppatore non dovrebbe essere inferiore a 1 errore ogni 250,4 record, con un record controllato al minuto. Pertanto, il valore lambda critico per il modello di Schumann è:
60 / 250,4 = 0,239617.
Cioè, la necessità di eseguire procedure di rilevamento degli errori deve essere eseguita fino a quando lambda, dall'attuale 38,964, non scende a 0,239617.
Oppure finché l'indicatore N (numero potenziale di errori) meno n (numero corretto di errori) non scende al di sotto della soglia da noi adottata (nella prima parte) – 1459 pz.
Fonte: habr.com
