Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica

В primera part es va descriure que aquesta publicació es va fer sobre la base d'un conjunt de dades dels resultats de la valoració cadastral de béns immobles al districte autònom de Khanty-Mansi.

La part pràctica es presenta en forma de passos. Tota la neteja es va fer en Excel, ja que l'eina més habitual i les operacions descrites poden ser repetides per la majoria d'especialistes que coneixen Excel. I molt adequat per al treball cos a mà.

L'etapa zero serà la feina d'engegar i desar el fitxer, ja que té una mida de 100 MB, llavors, amb el nombre d'aquestes operacions en desenes i centenars, triguen un temps important.
L'obertura, de mitjana, és de 30 segons.
Estalvi: 22 segons.

La primera etapa comença amb la determinació dels indicadors estadístics del conjunt de dades.

Taula 1. Indicadors estadístics del conjunt de dades
Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica

Tecnologia 2.1.

Creem un camp auxiliar, el tinc sota el número - AY. Per a cada entrada, formem la fórmula "=LONGITUD(F365502)+LONGITUD(G365502)+...+LONGITUD(AW365502)"

Temps total passat a l'etapa 2.1 (per a la fórmula de Schumann) t21 = 1 hora.
Nombre d'errors trobats a l'etapa 2.1 (per a la fórmula de Schumann) n21 = 0 pcs.

La segona etapa.
Comprovació dels components del conjunt de dades.
2.2. Tots els valors dels registres es formen mitjançant símbols estàndard. Per tant, fem un seguiment de les estadístiques per símbols.

Taula 2. Indicadors estadístics de personatges del conjunt de dades amb anàlisi preliminar dels resultats.Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica

Tecnologia 2.2.1.

Creem un camp auxiliar: "alpha1". Per a cada registre, formem la fórmula “=CONCATENAR(Full1!B9;...Full1!AQ9)”
Creem una cèl·lula Omega-1 fixa. Introduirem alternativament codis de caràcters segons Windows-1251 del 32 al 255 en aquesta cel·la.
Creem un camp auxiliar: "alpha2". Amb la fórmula "=FIND(SYMBOL(Omega,1); "alpha1",N)".
Creem un camp auxiliar: "alpha3". Amb la fórmula "=IF(ISNUMBER("alpha2",N),1)"
Creeu una cel·la fixa "Omega-2", amb la fórmula "=SUM("alpha3"N1: "alpha3"N365498)"

Taula 3. Resultats de l'anàlisi preliminar dels resultatsNeteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica

Taula 4. Errors registrats en aquesta etapaNeteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica

Temps total passat a l'etapa 2.2.1 (per a la fórmula de Schumann) t221 = 8 hora.
Nombre d'errors corregits a l'etapa 2.2.1 (per a la fórmula de Schumann) n221 = 0 pcs.

Pas 3.
El tercer pas és registrar l'estat del conjunt de dades. Assignant a cada registre un número únic (ID) i cada camp. Això és necessari per comparar el conjunt de dades convertit amb l'original. Això també és necessari per aprofitar al màxim les capacitats d'agrupació i filtratge. Aquí tornem a la taula 2.2.2 i seleccionem un símbol que no s'utilitza al conjunt de dades. Obtenim el que es mostra a la figura 10.

Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Fig. 10. Assignació d'identificadors.

Temps total passat a l'etapa 3 (per a la fórmula de Schumann) t3 = 0,75 hora.
Nombre d'errors trobats a l'etapa 3 (per a la fórmula de Schumann) n3 = 0 pcs.

Atès que la fórmula de Schumann requereix que l'etapa es completi corregint errors. Tornem a l'etapa 2.

Pas 2.2.2.
En aquest pas també corregirem els espais dobles i triples.
Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Fig. 11. Nombre d'espais dobles.

Correcció d'errors identificats a la taula 2.2.4.

Taula 5. Etapa de correcció d'errorsNeteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica

A la figura 12 es presenta un exemple de per què un aspecte com l'ús de les lletres "e" o "e" és significatiu.

Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Fig. 12. Discrepància en la lletra "e".

Temps total dedicat al pas 2.2.2 t222 = 4 hores.
Nombre d'errors trobats a l'etapa 2.2.2 (per a la fórmula de Schumann) n222 = 583 pcs.

Quarta etapa.
La comprovació de la redundància de camp encaixa bé en aquesta etapa. Dels 44 camps, 6 camps:
7 - Finalitat de l'estructura
16 — Nombre de plantes subterrànies
17 - Objecte pare
21 - Consell de Vila
38 — Paràmetres d'estructura (descripció)
40 – Patrimoni cultural

No tenen cap entrada. És a dir, són redundants.
El camp "22 - Ciutat" té una única entrada, Figura 13.

Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Fig. 13. L'única entrada és Z_348653 al camp "Ciutat".

El camp "34 - Nom de l'edifici" conté entrades que clarament no es corresponen amb la finalitat del camp, figura 14.

Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Fig. 14. Un exemple d'una entrada no conforme.

Excloem aquests camps del conjunt de dades. I registrem el canvi en 214 registres.

Temps total passat a l'etapa 4 (per a la fórmula de Schumann) t4 = 2,5 hora.
Nombre d'errors trobats a l'etapa 4 (per a la fórmula de Schumann) n4 = 222 pcs.

Taula 6. Anàlisi dels indicadors del conjunt de dades després de la 4a etapa

Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica

En general, analitzant els canvis en els indicadors (taula 6) podem dir que:
1) La relació entre el nombre mitjà de símbols i la palanca de desviació estàndard és propera a 3, és a dir, hi ha signes d'una distribució normal (regla de sis sigma).
2) Una desviació significativa de les palanques de mínim i màxim de la palanca mitjana suggereix que l'estudi de les cues és una direcció prometedora a l'hora de buscar errors.

Examinem els resultats de trobar errors utilitzant la metodologia de Schumann.

Etapes ocioses

2.1. Temps total passat a l'etapa 2.1 (per a la fórmula de Schumann) t21 = 1 hora.
Nombre d'errors trobats a l'etapa 2.1 (per a la fórmula de Schumann) n21 = 0 pcs.

3. Temps total passat a l'etapa 3 (per a la fórmula de Schumann) t3 = 0,75 hora.
Nombre d'errors trobats a l'etapa 3 (per a la fórmula de Schumann) n3 = 0 pcs.

Etapes efectives
2.2. Temps total passat a l'etapa 2.2.1 (per a la fórmula de Schumann) t221 = 8 hora.
Nombre d'errors corregits a l'etapa 2.2.1 (per a la fórmula de Schumann) n221 = 0 pcs.
Temps total dedicat al pas 2.2.2 t222 = 4 hores.
Nombre d'errors trobats a l'etapa 2.2.2 (per a la fórmula de Schumann) n222 = 583 pcs.

Temps total dedicat al pas 2.2 t22 = 8 + 4 = 12 hores.
Nombre d'errors trobats a l'etapa 2.2.2 (per a la fórmula de Schumann) n222 = 583 pcs.

4. Temps total passat a l'etapa 4 (per a la fórmula de Schumann) t4 = 2,5 hora.
Nombre d'errors trobats a l'etapa 4 (per a la fórmula de Schumann) n4 = 222 pcs.

Atès que hi ha zero etapes que s'han d'incloure en la primera etapa del model de Schumann, i d'altra banda, les etapes 2.2 i 4 són inherentment independents, doncs donat que el model de Schumann suposa que augmentant la durada de la comprovació, la probabilitat de detectar un error disminueix, és a dir, el cabal disminueix les fallades, aleshores examinant aquest flux determinarem quina etapa posar primer, segons la regla, on la densitat de fallada és més freqüent, posarem aquesta etapa en primer lloc.

Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Fig. 15.

De la fórmula de la figura 15 es desprèn que és preferible situar la quarta etapa abans de l'etapa 2.2 en els càlculs.

Utilitzant la fórmula de Schumann, determinem el nombre inicial estimat d'errors:

Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Fig. 16.

A partir dels resultats de la figura 16 es pot veure que el nombre d'errors previst és N2 = 3167, que és més que el criteri mínim de 1459.

Com a resultat de la correcció, vam corregir 805 errors i el nombre previst és 3167 – 805 = 2362, que encara és més que el llindar mínim que vam acceptar.

Definim el paràmetre C, lambda i la funció de fiabilitat:

Neteja de dades com pedra, paper, tisores. És un joc amb o sense final? Part 2. Pràctica
Fig. 17.

Bàsicament, lambda és un indicador real de la intensitat amb què es detecten errors en cada etapa. Si mireu més amunt, l'estimació anterior d'aquest indicador era de 42,4 errors per hora, que és bastant comparable a l'indicador de Schumann. Passant a la primera part d'aquest material, es va determinar que la velocitat a la qual un desenvolupador troba errors no hauria de ser inferior a 1 error per cada 250,4 registres, en comprovar 1 registre per minut. D'aquí el valor crític de lambda per al model de Schumann:
60 / 250,4 = 0,239617.

És a dir, la necessitat de realitzar tràmits de detecció d'errors s'ha de dur a terme fins que lambda, de l'existent 38,964, disminueixi a 0,239617.

O fins que l'indicador N (nombre potencial d'errors) menys n (nombre d'errors corregit) disminueixi per sota del llindar que vam acceptar (a la primera part): 1459 peces.

Part 1. Teòrica.

Font: www.habr.com

Afegeix comentari