В
A parte prática é apresentada em etapas. Toda a limpeza foi feita em Excel, pois a ferramenta mais comum e as operações descritas podem ser repetidas pela maioria dos especialistas que conhecem Excel. E bastante adequado para trabalhos manuais.
A etapa zero será o trabalho de iniciar e salvar o arquivo, já que ele tem 100 MB, então como o número dessas operações é de dezenas e centenas, elas demoram um tempo significativo.
A abertura, em média, é de 30 segundos.
Salvando – 22 seg.
A primeira etapa começa com a determinação dos indicadores estatísticos do conjunto de dados.
Tabela 1. Indicadores estatísticos do conjunto de dados
Tecnologia 2.1.
Criamos um campo auxiliar, tenho-o sob o número - AY. Para cada entrada, formamos a fórmula “=COMPRIMENTO(F365502)+COMPRIMENTO(G365502)+…+COMPRIMENTO(AW365502)”
Tempo total gasto na etapa 2.1 (para fórmula de Schumann) t21 = 1 hora.
Número de erros encontrados na etapa 2.1 (para a fórmula de Schumann) n21 = 0 unidades.
A segunda etapa.
Verificando os componentes do conjunto de dados.
2.2. Todos os valores nos registros são formados usando símbolos padrão. Portanto, vamos acompanhar as estatísticas por símbolos.
Tabela 2. Indicadores estatísticos dos caracteres do conjunto de dados com análise preliminar dos resultados.
Tecnologia 2.2.1.
Criamos um campo auxiliar - “alpha1”. Para cada registro, formamos a fórmula “=CONCATENATE(Planilha1!B9;...Planilha1!AQ9)”
Criamos uma célula fixa de Ômega-1. Inseriremos alternadamente códigos de caracteres de acordo com Windows-1251 de 32 a 255 nesta célula.
Criamos um campo auxiliar - “alpha2”. Com a fórmula “= ENCONTRAR (SÍMBOLO (Ômega, 1); “alfa1”, N)”.
Criamos um campo auxiliar - “alpha3”. Com a fórmula “=SE(ISNUMBER(“alfa2”,N),1)”
Crie uma célula fixa “Omega-2”, com a fórmula “=SUM(“alpha3”N1: “alpha3”N365498)”
Tabela 3. Resultados da análise preliminar dos resultados
Tabela 4. Erros registrados nesta etapa
Tempo total gasto na etapa 2.2.1 (para fórmula de Schumann) t221 = 8 hora.
Número de erros corrigidos na etapa 2.2.1 (para a fórmula de Schumann) n221 = 0 unid.
Passo 3.
A terceira etapa é registrar o estado do conjunto de dados. Atribuindo a cada registro um número (ID) exclusivo e cada campo. Isso é necessário para comparar o conjunto de dados convertido com o original. Isto também é necessário para aproveitar ao máximo os recursos de agrupamento e filtragem. Aqui novamente voltamos para a tabela 2.2.2 e selecionamos um símbolo que não é usado no conjunto de dados. Obtemos o que é mostrado na Figura 10.
Figura 10. Atribuição de identificadores.
Tempo total gasto na etapa 3 (para fórmula de Schumann) t3 = 0,75 hora.
Número de erros encontrados na etapa 3 (para a fórmula de Schumann) n3 = 0 unidades.
Já a fórmula de Schumann exige que a etapa seja concluída com a correção dos erros. Voltemos ao estágio 2.
Passo 2.2.2.
Nesta etapa também corrigiremos espaços duplos e triplos.
Figura 11. Número de espaços duplos.
Correção de erros identificados na tabela 2.2.4.
Tabela 5. Estágio de correção de erros
Um exemplo de por que um aspecto como o uso das letras “e” ou “e” é significativo é apresentado na Figura 12.
Figura 12. Discrepância na letra "e".
Tempo total gasto na etapa 2.2.2 t222 = 4 horas.
Número de erros encontrados na etapa 2.2.2 (para a fórmula de Schumann) n222 = 583 unidades.
Quarta etapa.
A verificação de redundância de campo se enquadra bem neste estágio. Dos 44 campos, 6 campos:
7 – Finalidade da estrutura
16 — Número de pisos subterrâneos
17 - Objeto pai
21 - Conselho da Aldeia
38 — Parâmetros de estrutura (descrição)
40 – Patrimônio cultural
Eles não têm nenhuma entrada. Ou seja, eles são redundantes.
O campo “22 – Cidade” possui uma única entrada, Figura 13.
Figura 13. A única entrada é Z_348653 no campo “Cidade”.
O campo “34 – Nome do edifício” contém entradas que manifestamente não correspondem à finalidade do campo, Figura 14.
Figura 14. Um exemplo de entrada não conforme.
Excluímos esses campos do conjunto de dados. E registramos a mudança em 214 registros.
Tempo total gasto na etapa 4 (para fórmula de Schumann) t4 = 2,5 hora.
Número de erros encontrados na etapa 4 (para a fórmula de Schumann) n4 = 222 unidades.
Tabela 6. Análise dos indicadores do conjunto de dados após a 4ª etapa
De forma geral, analisando a evolução dos indicadores (Tabela 6) podemos afirmar que:
1) A relação entre o número médio de símbolos e a alavanca do desvio padrão é próxima de 3, ou seja, há sinais de distribuição normal (regra dos seis sigma).
2) Um desvio significativo das alavancas mínima e máxima da alavanca média sugere que o estudo das caudas é uma direção promissora na busca por erros.
Vamos examinar os resultados da localização de erros usando a metodologia de Schumann.
Estágios ociosos
2.1. Tempo total gasto na etapa 2.1 (para fórmula de Schumann) t21 = 1 hora.
Número de erros encontrados na etapa 2.1 (para a fórmula de Schumann) n21 = 0 unidades.
3. Tempo total gasto na etapa 3 (para fórmula de Schumann) t3 = 0,75 hora.
Número de erros encontrados na etapa 3 (para a fórmula de Schumann) n3 = 0 unidades.
Estágios eficazes
2.2. Tempo total gasto na etapa 2.2.1 (para fórmula de Schumann) t221 = 8 hora.
Número de erros corrigidos na etapa 2.2.1 (para a fórmula de Schumann) n221 = 0 unid.
Tempo total gasto na etapa 2.2.2 t222 = 4 horas.
Número de erros encontrados na etapa 2.2.2 (para a fórmula de Schumann) n222 = 583 unidades.
Tempo total gasto na etapa 2.2 t22 = 8 + 4 = 12 horas.
Número de erros encontrados na etapa 2.2.2 (para a fórmula de Schumann) n222 = 583 unidades.
4. Tempo total gasto na etapa 4 (para fórmula de Schumann) t4 = 2,5 hora.
Número de erros encontrados na etapa 4 (para a fórmula de Schumann) n4 = 222 unidades.
Como existem zero estágios que devem ser incluídos no primeiro estágio do modelo Schumann, e por outro lado, os estágios 2.2 e 4 são inerentemente independentes, então dado que o modelo Schumann assume que ao aumentar a duração da verificação, a probabilidade de detectar um erro diminui, ou seja, o fluxo diminui as falhas, então examinando esse fluxo vamos determinar qual estágio colocar primeiro, conforme a regra, onde a densidade de falhas é mais frequente, colocaremos esse estágio primeiro.
Pic.15
Da fórmula da Figura 15 conclui-se que é preferível colocar o quarto estágio antes do estágio 2.2 nos cálculos.
Usando a fórmula de Schumann, determinamos o número inicial estimado de erros:
Pic.16
A partir dos resultados da Figura 16 pode-se observar que o número previsto de erros é N2 = 3167, o que é superior ao critério mínimo de 1459.
Como resultado da correção, corrigimos 805 erros, e o número previsto é 3167 – 805 = 2362, que ainda é mais do que o limite mínimo que aceitamos.
Definimos o parâmetro C, lambda e função de confiabilidade:
Pic.17
Essencialmente, lambda é um indicador real da intensidade com que os erros são detectados em cada estágio. Se você olhar acima, a estimativa anterior deste indicador era de 42,4 erros por hora, o que é bastante comparável ao indicador Schumann. Passando para a primeira parte deste material, foi determinado que a taxa na qual um desenvolvedor encontra erros não deve ser inferior a 1 erro por 250,4 registros, ao verificar 1 registro por minuto. Daí o valor crítico de lambda para o modelo Schumann:
60 / 250,4 = 0,239617.
Ou seja, a necessidade de realizar procedimentos de detecção de erros deve ser realizada até que o lambda, dos 38,964 existentes, diminua para 0,239617.
Ou até que o indicador N (número potencial de erros) menos n (número corrigido de erros) diminua abaixo do limite que aceitamos (na primeira parte) - 1459 unidades.
Fonte: habr.com