Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica

В primeira parte describiuse que esta publicación foi feita a partir dun conxunto de datos de resultados de valoración catastral de inmobles no distrito autónomo de Khanty-Mansi.

A parte práctica preséntase en forma de pasos. Toda a limpeza realizouse en Excel, xa que a ferramenta máis común e as operacións descritas poden ser repetidas pola maioría dos especialistas que coñecen Excel. E moi axeitado para o traballo corpo a corpo.

A fase cero será o traballo de lanzar e gardar o ficheiro, xa que ten un tamaño de 100 MB, entón, sendo o número destas operacións de decenas e centos, levan un tempo importante.
A apertura, de media, é de 30 segundos.
Aforro - 22 seg.

A primeira etapa comeza coa determinación dos indicadores estatísticos do conxunto de datos.

Táboa 1. Indicadores estatísticos do conxunto de datos
Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica

Tecnoloxía 2.1.

Creamos un campo auxiliar, téñoo baixo o número - AY. Para cada entrada, formamos a fórmula "=LONXITUDE(F365502)+LONGITUD(G365502)+...+LONGITUD(AW365502)"

Tempo total pasado na etapa 2.1 (para fórmula de Schumann) t21 = 1 hora.
Número de erros atopados na fase 2.1 (para fórmula de Schumann) n21 = 0 unidades.

A segunda etapa.
Comprobación dos compoñentes do conxunto de datos.
2.2. Todos os valores dos rexistros fórmanse usando símbolos estándar. Polo tanto, imos seguir as estatísticas por símbolos.

Táboa 2. Indicadores estatísticos de personaxes do conxunto de datos con análise preliminar dos resultados.Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica

Tecnoloxía 2.2.1.

Creamos un campo auxiliar - "alpha1". Para cada rexistro, formamos a fórmula “=CONCATENATE(Folla1!B9;...Folla1!AQ9)”
Creamos unha célula Omega-1 fixa. Introduceremos alternativamente os códigos de caracteres segundo Windows-1251 de 32 a 255 nesta cela.
Creamos un campo auxiliar - "alpha2". Coa fórmula "=FIND(SYMBOL(Omega,1); "alpha1",N)".
Creamos un campo auxiliar - "alpha3". Coa fórmula "=IF(ISNUMBER("alpha2",N),1)"
Cree unha cela fixa "Omega-2", coa fórmula "=SUMA("alpha3"N1: "alpha3"N365498)"

Táboa 3. Resultados da análise preliminar dos resultadosLimpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica

Táboa 4. Erros rexistrados nesta faseLimpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica

Tempo total pasado na etapa 2.2.1 (para fórmula de Schumann) t221 = 8 hora.
Número de erros corrixidos na fase 2.2.1 (para fórmula de Schumann) n221 = 0 unidades.

Paso 3.
O terceiro paso é rexistrar o estado do conxunto de datos. Asignando a cada rexistro un número único (ID) e cada campo. Isto é necesario para comparar o conxunto de datos convertido co orixinal. Isto tamén é necesario para aproveitar ao máximo as capacidades de agrupación e filtrado. Aquí de novo imos á táboa 2.2.2 e seleccionamos un símbolo que non se utiliza no conxunto de datos. Obtemos o que se mostra na figura 10.

Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Fig. 10. Asignación de identificadores.

Tempo total pasado na etapa 3 (para fórmula de Schumann) t3 = 0,75 hora.
Número de erros atopados na fase 3 (para fórmula de Schumann) n3 = 0 unidades.

Xa que a fórmula de Schumann esixe que a etapa se complete corrixindo erros. Volvemos á fase 2.

Paso 2.2.2.
Neste paso tamén corrixiremos espazos dobres e triplos.
Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Fig. 11. Número de espazos dobres.

Corrección de erros identificados na táboa 2.2.4.

Táboa 5. Fase de corrección de errosLimpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica

Na Figura 12 preséntase un exemplo de por que un aspecto como o uso das letras "e" ou "e" é significativo.

Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Fig. 12. Discrepancia na letra "e".

Tempo total empregado no paso 2.2.2 t222 = 4 horas.
Número de erros atopados na fase 2.2.2 (para fórmula de Schumann) n222 = 583 unidades.

Cuarta etapa.
A comprobación da redundancia de campo encaixa ben nesta fase. Dos 44 campos, 6 campos:
7 - Finalidade da estrutura
16 — Número de plantas subterráneas
17 - Obxecto principal
21 - Concello da aldea
38 — Parámetros de estrutura (descrición)
40 – Patrimonio cultural

Non teñen entradas. É dicir, son redundantes.
O campo "22 - Cidade" ten unha única entrada, Figura 13.

Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Fig. 13. A única entrada é Z_348653 no campo "Cidade".

O campo "34 - Nome do edificio" contén entradas que claramente non se corresponden co propósito do campo, Figura 14.

Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Fig. 14. Un exemplo de entrada non conforme.

Excluímos estes campos do conxunto de datos. E rexistramos o cambio en 214 rexistros.

Tempo total pasado na etapa 4 (para fórmula de Schumann) t4 = 2,5 hora.
Número de erros atopados na fase 4 (para fórmula de Schumann) n4 = 222 unidades.

Táboa 6. Análise dos indicadores do conxunto de datos despois da 4a etapa

Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica

En xeral, analizando os cambios nos indicadores (táboa 6) podemos dicir que:
1) A relación entre o número medio de símbolos e a panca de desviación estándar é próxima a 3, é dicir, hai signos dunha distribución normal (regra de seis sigma).
2) Unha desviación significativa das pancas mínima e máxima da panca media suxire que o estudo das colas é unha dirección prometedora á hora de buscar erros.

Examinemos os resultados de atopar erros usando a metodoloxía de Schumann.

Etapas inactivas

2.1. Tempo total pasado na etapa 2.1 (para fórmula de Schumann) t21 = 1 hora.
Número de erros atopados na fase 2.1 (para fórmula de Schumann) n21 = 0 unidades.

3. Tempo total pasado na etapa 3 (para fórmula de Schumann) t3 = 0,75 hora.
Número de erros atopados na fase 3 (para fórmula de Schumann) n3 = 0 unidades.

Etapas efectivas
2.2. Tempo total pasado na etapa 2.2.1 (para fórmula de Schumann) t221 = 8 hora.
Número de erros corrixidos na fase 2.2.1 (para fórmula de Schumann) n221 = 0 unidades.
Tempo total empregado no paso 2.2.2 t222 = 4 horas.
Número de erros atopados na fase 2.2.2 (para fórmula de Schumann) n222 = 583 unidades.

Tempo total empregado no paso 2.2 t22 = 8 + 4 = 12 horas.
Número de erros atopados na fase 2.2.2 (para fórmula de Schumann) n222 = 583 unidades.

4. Tempo total pasado na etapa 4 (para fórmula de Schumann) t4 = 2,5 hora.
Número de erros atopados na fase 4 (para fórmula de Schumann) n4 = 222 unidades.

Dado que hai cero etapas que deben incluírse na primeira etapa do modelo de Schumann e, por outra banda, as etapas 2.2 e 4 son inherentemente independentes, dado que o modelo de Schumann asume que ao aumentar a duración da comprobación, a probabilidade de de detectar un erro diminúe, é dicir, o caudal diminúe os fallos, entón examinando este fluxo determinaremos que fase poñer en primeiro lugar, segundo a regra, onde a densidade de avaría é máis frecuente, poñeremos esa fase en primeiro lugar.

Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Fig. 15.

Da fórmula da Figura 15 despréndese que é preferible situar a cuarta etapa antes da etapa 2.2 nos cálculos.

Usando a fórmula de Schumann, determinamos o número inicial estimado de erros:

Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Fig. 16.

A partir dos resultados da Figura 16 pódese ver que o número previsto de erros é N2 = 3167, que é máis que o criterio mínimo de 1459.

Como resultado da corrección, corriximos 805 erros e o número previsto é 3167 – 805 = 2362, que aínda é máis que o limiar mínimo que aceptamos.

Definimos o parámetro C, lambda e función de fiabilidade:

Limpar datos como un xogo de Rock, Paper, Scissors. É un xogo con ou sen final? Parte 2. Práctica
Fig. 17.

Esencialmente, a lambda é un indicador real da intensidade coa que se detectan os erros en cada etapa. Se miras arriba, a estimación anterior deste indicador era de 42,4 erros por hora, o que é bastante comparable ao indicador Schumann. Pasando á primeira parte deste material, determinouse que a velocidade á que un desenvolvedor atopa erros non debe ser inferior a 1 erro por cada 250,4 rexistros, ao comprobar 1 rexistro por minuto. De aí o valor crítico de lambda para o modelo de Schumann:
60 / 250,4 = 0,239617.

É dicir, a necesidade de realizar trámites de detección de erros debe realizarse ata que a lambda, do 38,964 existente, diminúa a 0,239617.

Ou ata que o indicador N (número potencial de erros) menos n (número de erros corrixido) diminúe por debaixo do limiar que aceptamos (na primeira parte) - 1459 unidades.

Parte 1. Teórica.

Fonte: www.habr.com

Engadir un comentario