Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica

В parte uno Se informó que esta publicación se realizó sobre la base de un conjunto de datos sobre los resultados de la valoración catastral de bienes inmuebles en el Distrito Autónomo de Khanty-Mansi.

La parte práctica se presenta en forma de pasos. Toda la limpieza se realizó en Excel, ya que la herramienta más común y las operaciones descritas pueden ser repetidas por la mayoría de los especialistas que conocen Excel. Y bastante adecuado para el trabajo manual.

La etapa cero será el trabajo de ejecutar y guardar el archivo, ya que tiene un tamaño de 100 MB, luego, como el número de estas operaciones es de decenas y cientos, llevan mucho tiempo.
La apertura, en promedio, es de 30 segundos.
Ahorro – 22 seg.

La primera etapa comienza con la determinación de los indicadores estadísticos del conjunto de datos.

Tabla 1. Indicadores estadísticos del conjunto de datos.
Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica

Tecnología 2.1.

Creamos un campo auxiliar, lo tengo bajo el número - AY. Para cada entrada, formamos la fórmula “=LONGITUD(F365502)+LONGITUD(G365502)+…+LONGITUD(AW365502)”

Tiempo total empleado en la etapa 2.1 (para fórmula Schumann) t21 = 1 hora.
Número de errores encontrados en la etapa 2.1 (para fórmula de Schumann) n21 = 0 uds.

La segunda etapa.
Comprobación de los componentes del conjunto de datos.
2.2. Todos los valores de los registros se forman utilizando símbolos estándar. Por lo tanto, sigamos las estadísticas por símbolos.

Tabla 2. Indicadores estadísticos de personajes del conjunto de datos con análisis preliminar de los resultados.Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica

Tecnología 2.2.1.

Creamos un campo auxiliar - "alpha1". Para cada registro formamos la fórmula “=CONCATENAR(Hoja1!B9;...Hoja1!AQ9)”
Creamos una célula fija de Omega-1. En esta celda ingresaremos alternativamente códigos de caracteres según Windows-1251 del 32 al 255.
Creamos un campo auxiliar - "alpha2". Con la fórmula “=ENCONTRAR(SÍMBOLO(Omega,1); “alfa1”,N)”.
Creamos un campo auxiliar - "alpha3". Con la fórmula “=SI(ESNÚMERO(“alfa2”,N),1)”
Cree una celda fija “Omega-2”, con la fórmula “=SUM(“alpha3”N1: “alpha3”N365498)”

Tabla 3. Resultados del análisis preliminar de resultados.Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica

Tabla 4. Errores registrados en esta etapaLimpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica

Tiempo total empleado en la etapa 2.2.1 (para fórmula Schumann) t221 = 8 hora.
Número de errores corregidos en la etapa 2.2.1 (para fórmula de Schumann) n221 = 0 uds.

Paso 3.
El tercer paso es registrar el estado del conjunto de datos. Asignando a cada registro un número único (ID) y a cada campo. Esto es necesario para comparar el conjunto de datos convertido con el original. Esto también es necesario para aprovechar al máximo las capacidades de agrupación y filtrado. Aquí nuevamente pasamos a la tabla 2.2.2 y seleccionamos un símbolo que no se utiliza en el conjunto de datos. Obtenemos lo que se muestra en la Figura 10.

Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Figura 10. Asignación de identificadores.

Tiempo total empleado en la etapa 3 (para fórmula Schumann) t3 = 0,75 hora.
Número de errores encontrados en la etapa 3 (para fórmula de Schumann) n3 = 0 uds.

Ya que la fórmula de Schumann exige que la etapa se complete corrigiendo errores. Volvamos a la etapa 2.

Paso 2.2.2.
En este paso también corregiremos espacios dobles y triples.
Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Figura 11. Número de espacios dobles.

Corrección de errores identificados en la tabla 2.2.4.

Tabla 5. Etapa de corrección de erroresLimpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica

En la Figura 12 se presenta un ejemplo de por qué un aspecto como el uso de las letras “e” o “e” es significativo.

Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Figura 12. Discrepancia en la letra "e".

Tiempo total empleado en el paso 2.2.2 t222 = 4 horas.
Número de errores encontrados en la etapa 2.2.2 (para fórmula de Schumann) n222 = 583 uds.

La cuarta etapa.
La verificación de la redundancia de campos encaja bien en esta etapa. De los 44 campos, 6 campos:
7 - Finalidad de la estructura
16 — Número de plantas subterráneas
17 - Objeto padre
21 - Ayuntamiento
38 — Parámetros de estructura (descripción)
40 – Patrimonio cultural

No tienen ninguna entrada. Es decir, son redundantes.
El campo “22 – Ciudad” tiene una sola entrada, Figura 13.

Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Figura 13. La única entrada es Z_348653 en el campo "Ciudad".

El campo “34 - Nombre del edificio” contiene entradas que claramente no corresponden al propósito del campo, Figura 14.

Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Figura 14. Un ejemplo de una entrada no conforme.

Excluimos estos campos del conjunto de datos. Y registramos el cambio en 214 registros.

Tiempo total empleado en la etapa 4 (para fórmula Schumann) t4 = 2,5 hora.
Número de errores encontrados en la etapa 4 (para fórmula de Schumann) n4 = 222 uds.

Tabla 6. Análisis de indicadores del conjunto de datos después de la cuarta etapa

Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica

En general, analizando la evolución de los indicadores (Cuadro 6) podemos decir que:
1) La relación entre el número promedio de símbolos y la palanca de desviación estándar es cercana a 3, es decir, hay signos de una distribución normal (regla seis sigma).
2) Una desviación significativa de las palancas mínima y máxima de la palanca promedio sugiere que el estudio de las colas es una dirección prometedora en la búsqueda de errores.

Examinemos los resultados de encontrar errores utilizando la metodología de Schumann.

Etapas inactivas

2.1. Tiempo total empleado en la etapa 2.1 (para fórmula Schumann) t21 = 1 hora.
Número de errores encontrados en la etapa 2.1 (para fórmula de Schumann) n21 = 0 uds.

3. Tiempo total empleado en la etapa 3 (para fórmula Schumann) t3 = 0,75 hora.
Número de errores encontrados en la etapa 3 (para fórmula de Schumann) n3 = 0 uds.

Etapas efectivas
2.2. Tiempo total empleado en la etapa 2.2.1 (para fórmula Schumann) t221 = 8 hora.
Número de errores corregidos en la etapa 2.2.1 (para fórmula de Schumann) n221 = 0 uds.
Tiempo total empleado en el paso 2.2.2 t222 = 4 horas.
Número de errores encontrados en la etapa 2.2.2 (para fórmula de Schumann) n222 = 583 uds.

Tiempo total empleado en el paso 2.2 t22 = 8 + 4 = 12 horas.
Número de errores encontrados en la etapa 2.2.2 (para fórmula de Schumann) n222 = 583 uds.

4. Tiempo total empleado en la etapa 4 (para fórmula Schumann) t4 = 2,5 hora.
Número de errores encontrados en la etapa 4 (para fórmula de Schumann) n4 = 222 uds.

Dado que hay cero etapas que deben incluirse en la primera etapa del modelo de Schumann y, por otro lado, las etapas 2.2 y 4 son inherentemente independientes, entonces dado que el modelo de Schumann supone que al aumentar la duración de la verificación, la probabilidad de detectar un error disminuye, es decir, el flujo de fallas disminuye, luego examinando este flujo determinaremos que etapa poner primero, de acuerdo a la regla, donde la densidad de fallas sea más frecuente, pondremos esa etapa primero.

Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Figura 15.

De la fórmula de la Figura 15 se deduce que es preferible colocar la cuarta etapa antes de la etapa 2.2 en los cálculos.

Utilizando la fórmula de Schumann, determinamos el número inicial estimado de errores:

Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Figura 16.

De los resultados de la Figura 16 se puede ver que el número previsto de errores es N2 = 3167, que es mayor que el criterio mínimo de 1459.

Como resultado de la corrección, corregimos 805 errores y el número previsto es 3167 – 805 = 2362, que sigue siendo más que el umbral mínimo que aceptamos.

Definimos el parámetro C, lambda y la función de confiabilidad:

Limpieza de datos como Piedra, Papel, Tijeras. ¿Es un juego con o sin acabado? Parte 2. Práctica
Figura 17.

Básicamente, lambda es un indicador real de la intensidad con la que se detectan errores en cada etapa. Si miramos arriba, la estimación anterior de este indicador era de 42,4 errores por hora, lo que es bastante comparable al indicador Schumann. Volviendo a la primera parte de este material, se determinó que la velocidad a la que un desarrollador encuentra errores no debe ser inferior a 1 error por 250,4 registros, al verificar 1 registro por minuto. De ahí el valor crítico de lambda para el modelo de Schumann:
60 / 250,4 0,239617 =.

Es decir, la necesidad de realizar procedimientos de detección de errores debe realizarse hasta que lambda, de los 38,964 existentes, disminuya a 0,239617.

O hasta que el indicador N (número potencial de errores) menos n (número corregido de errores) disminuya por debajo del umbral que aceptamos (en la primera parte): 1459 unidades.

Parte 1. Teórica.

Fuente: habr.com

Añadir un comentario