В
A parte práctica preséntase en forma de pasos. Toda a limpeza realizouse en Excel, xa que a ferramenta máis común e as operacións descritas poden ser repetidas pola maioría dos especialistas que coñecen Excel. E moi axeitado para o traballo corpo a corpo.
A fase cero será o traballo de lanzar e gardar o ficheiro, xa que ten un tamaño de 100 MB, entón, sendo o número destas operacións de decenas e centos, levan un tempo importante.
A apertura, de media, é de 30 segundos.
Aforro - 22 seg.
A primeira etapa comeza coa determinación dos indicadores estatísticos do conxunto de datos.
Táboa 1. Indicadores estatísticos do conxunto de datos
Tecnoloxía 2.1.
Creamos un campo auxiliar, téñoo baixo o número - AY. Para cada entrada, formamos a fórmula "=LONXITUDE(F365502)+LONGITUD(G365502)+...+LONGITUD(AW365502)"
Tempo total pasado na etapa 2.1 (para fórmula de Schumann) t21 = 1 hora.
Número de erros atopados na fase 2.1 (para fórmula de Schumann) n21 = 0 unidades.
A segunda etapa.
Comprobación dos compoñentes do conxunto de datos.
2.2. Todos os valores dos rexistros fórmanse usando símbolos estándar. Polo tanto, imos seguir as estatísticas por símbolos.
Táboa 2. Indicadores estatísticos de personaxes do conxunto de datos con análise preliminar dos resultados.
Tecnoloxía 2.2.1.
Creamos un campo auxiliar - "alpha1". Para cada rexistro, formamos a fórmula “=CONCATENATE(Folla1!B9;...Folla1!AQ9)”
Creamos unha célula Omega-1 fixa. Introduceremos alternativamente os códigos de caracteres segundo Windows-1251 de 32 a 255 nesta cela.
Creamos un campo auxiliar - "alpha2". Coa fórmula "=FIND(SYMBOL(Omega,1); "alpha1",N)".
Creamos un campo auxiliar - "alpha3". Coa fórmula "=IF(ISNUMBER("alpha2",N),1)"
Cree unha cela fixa "Omega-2", coa fórmula "=SUMA("alpha3"N1: "alpha3"N365498)"
Táboa 3. Resultados da análise preliminar dos resultados
Táboa 4. Erros rexistrados nesta fase
Tempo total pasado na etapa 2.2.1 (para fórmula de Schumann) t221 = 8 hora.
Número de erros corrixidos na fase 2.2.1 (para fórmula de Schumann) n221 = 0 unidades.
Paso 3.
O terceiro paso é rexistrar o estado do conxunto de datos. Asignando a cada rexistro un número único (ID) e cada campo. Isto é necesario para comparar o conxunto de datos convertido co orixinal. Isto tamén é necesario para aproveitar ao máximo as capacidades de agrupación e filtrado. Aquí de novo imos á táboa 2.2.2 e seleccionamos un símbolo que non se utiliza no conxunto de datos. Obtemos o que se mostra na figura 10.
Fig. 10. Asignación de identificadores.
Tempo total pasado na etapa 3 (para fórmula de Schumann) t3 = 0,75 hora.
Número de erros atopados na fase 3 (para fórmula de Schumann) n3 = 0 unidades.
Xa que a fórmula de Schumann esixe que a etapa se complete corrixindo erros. Volvemos á fase 2.
Paso 2.2.2.
Neste paso tamén corrixiremos espazos dobres e triplos.
Fig. 11. Número de espazos dobres.
Corrección de erros identificados na táboa 2.2.4.
Táboa 5. Fase de corrección de erros
Na Figura 12 preséntase un exemplo de por que un aspecto como o uso das letras "e" ou "e" é significativo.
Fig. 12. Discrepancia na letra "e".
Tempo total empregado no paso 2.2.2 t222 = 4 horas.
Número de erros atopados na fase 2.2.2 (para fórmula de Schumann) n222 = 583 unidades.
Cuarta etapa.
A comprobación da redundancia de campo encaixa ben nesta fase. Dos 44 campos, 6 campos:
7 - Finalidade da estrutura
16 — Número de plantas subterráneas
17 - Obxecto principal
21 - Concello da aldea
38 — Parámetros de estrutura (descrición)
40 – Patrimonio cultural
Non teñen entradas. É dicir, son redundantes.
O campo "22 - Cidade" ten unha única entrada, Figura 13.
Fig. 13. A única entrada é Z_348653 no campo "Cidade".
O campo "34 - Nome do edificio" contén entradas que claramente non se corresponden co propósito do campo, Figura 14.
Fig. 14. Un exemplo de entrada non conforme.
Excluímos estes campos do conxunto de datos. E rexistramos o cambio en 214 rexistros.
Tempo total pasado na etapa 4 (para fórmula de Schumann) t4 = 2,5 hora.
Número de erros atopados na fase 4 (para fórmula de Schumann) n4 = 222 unidades.
Táboa 6. Análise dos indicadores do conxunto de datos despois da 4a etapa
En xeral, analizando os cambios nos indicadores (táboa 6) podemos dicir que:
1) A relación entre o número medio de símbolos e a panca de desviación estándar é próxima a 3, é dicir, hai signos dunha distribución normal (regra de seis sigma).
2) Unha desviación significativa das pancas mínima e máxima da panca media suxire que o estudo das colas é unha dirección prometedora á hora de buscar erros.
Examinemos os resultados de atopar erros usando a metodoloxía de Schumann.
Etapas inactivas
2.1. Tempo total pasado na etapa 2.1 (para fórmula de Schumann) t21 = 1 hora.
Número de erros atopados na fase 2.1 (para fórmula de Schumann) n21 = 0 unidades.
3. Tempo total pasado na etapa 3 (para fórmula de Schumann) t3 = 0,75 hora.
Número de erros atopados na fase 3 (para fórmula de Schumann) n3 = 0 unidades.
Etapas efectivas
2.2. Tempo total pasado na etapa 2.2.1 (para fórmula de Schumann) t221 = 8 hora.
Número de erros corrixidos na fase 2.2.1 (para fórmula de Schumann) n221 = 0 unidades.
Tempo total empregado no paso 2.2.2 t222 = 4 horas.
Número de erros atopados na fase 2.2.2 (para fórmula de Schumann) n222 = 583 unidades.
Tempo total empregado no paso 2.2 t22 = 8 + 4 = 12 horas.
Número de erros atopados na fase 2.2.2 (para fórmula de Schumann) n222 = 583 unidades.
4. Tempo total pasado na etapa 4 (para fórmula de Schumann) t4 = 2,5 hora.
Número de erros atopados na fase 4 (para fórmula de Schumann) n4 = 222 unidades.
Dado que hai cero etapas que deben incluírse na primeira etapa do modelo de Schumann e, por outra banda, as etapas 2.2 e 4 son inherentemente independentes, dado que o modelo de Schumann asume que ao aumentar a duración da comprobación, a probabilidade de de detectar un erro diminúe, é dicir, o caudal diminúe os fallos, entón examinando este fluxo determinaremos que fase poñer en primeiro lugar, segundo a regra, onde a densidade de avaría é máis frecuente, poñeremos esa fase en primeiro lugar.
Fig. 15.
Da fórmula da Figura 15 despréndese que é preferible situar a cuarta etapa antes da etapa 2.2 nos cálculos.
Usando a fórmula de Schumann, determinamos o número inicial estimado de erros:
Fig. 16.
A partir dos resultados da Figura 16 pódese ver que o número previsto de erros é N2 = 3167, que é máis que o criterio mínimo de 1459.
Como resultado da corrección, corriximos 805 erros e o número previsto é 3167 – 805 = 2362, que aínda é máis que o limiar mínimo que aceptamos.
Definimos o parámetro C, lambda e función de fiabilidade:
Fig. 17.
Esencialmente, a lambda é un indicador real da intensidade coa que se detectan os erros en cada etapa. Se miras arriba, a estimación anterior deste indicador era de 42,4 erros por hora, o que é bastante comparable ao indicador Schumann. Pasando á primeira parte deste material, determinouse que a velocidade á que un desenvolvedor atopa erros non debe ser inferior a 1 erro por cada 250,4 rexistros, ao comprobar 1 rexistro por minuto. De aí o valor crítico de lambda para o modelo de Schumann:
60 / 250,4 = 0,239617.
É dicir, a necesidade de realizar trámites de detección de erros debe realizarse ata que a lambda, do 38,964 existente, diminúa a 0,239617.
Ou ata que o indicador N (número potencial de erros) menos n (número de erros corrixido) diminúe por debaixo do limiar que aceptamos (na primeira parte) - 1459 unidades.
Fonte: www.habr.com