Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático

В parte um foi descrito que esta publicação foi feita com base em um conjunto de dados de resultados de avaliação cadastral de imóveis no Okrug Autônomo de Khanty-Mansi.

A parte prática é apresentada em etapas. Toda a limpeza foi feita em Excel, pois a ferramenta mais comum e as operações descritas podem ser repetidas pela maioria dos especialistas que conhecem Excel. E bastante adequado para trabalhos manuais.

A etapa zero será o trabalho de iniciar e salvar o arquivo, já que ele tem 100 MB, então como o número dessas operações é de dezenas e centenas, elas demoram um tempo significativo.
A abertura, em média, é de 30 segundos.
Salvando – 22 seg.

A primeira etapa começa com a determinação dos indicadores estatísticos do conjunto de dados.

Tabela 1. Indicadores estatísticos do conjunto de dados
Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático

Tecnologia 2.1.

Criamos um campo auxiliar, tenho-o sob o número - AY. Para cada entrada, formamos a fórmula “=COMPRIMENTO(F365502)+COMPRIMENTO(G365502)+…+COMPRIMENTO(AW365502)”

Tempo total gasto na etapa 2.1 (para fórmula de Schumann) t21 = 1 hora.
Número de erros encontrados na etapa 2.1 (para a fórmula de Schumann) n21 = 0 unidades.

A segunda etapa.
Verificando os componentes do conjunto de dados.
2.2. Todos os valores nos registros são formados usando símbolos padrão. Portanto, vamos acompanhar as estatísticas por símbolos.

Tabela 2. Indicadores estatísticos dos caracteres do conjunto de dados com análise preliminar dos resultados.Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático

Tecnologia 2.2.1.

Criamos um campo auxiliar - “alpha1”. Para cada registro, formamos a fórmula “=CONCATENATE(Planilha1!B9;...Planilha1!AQ9)”
Criamos uma célula fixa de Ômega-1. Inseriremos alternadamente códigos de caracteres de acordo com Windows-1251 de 32 a 255 nesta célula.
Criamos um campo auxiliar - “alpha2”. Com a fórmula “= ENCONTRAR (SÍMBOLO (Ômega, 1); “alfa1”, N)”.
Criamos um campo auxiliar - “alpha3”. Com a fórmula “=SE(ISNUMBER(“alfa2”,N),1)”
Crie uma célula fixa “Omega-2”, com a fórmula “=SUM(“alpha3”N1: “alpha3”N365498)”

Tabela 3. Resultados da análise preliminar dos resultadosLimpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático

Tabela 4. Erros registrados nesta etapaLimpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático

Tempo total gasto na etapa 2.2.1 (para fórmula de Schumann) t221 = 8 hora.
Número de erros corrigidos na etapa 2.2.1 (para a fórmula de Schumann) n221 = 0 unid.

Passo 3.
A terceira etapa é registrar o estado do conjunto de dados. Atribuindo a cada registro um número (ID) exclusivo e cada campo. Isso é necessário para comparar o conjunto de dados convertido com o original. Isto também é necessário para aproveitar ao máximo os recursos de agrupamento e filtragem. Aqui novamente voltamos para a tabela 2.2.2 e selecionamos um símbolo que não é usado no conjunto de dados. Obtemos o que é mostrado na Figura 10.

Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Figura 10. Atribuição de identificadores.

Tempo total gasto na etapa 3 (para fórmula de Schumann) t3 = 0,75 hora.
Número de erros encontrados na etapa 3 (para a fórmula de Schumann) n3 = 0 unidades.

Já a fórmula de Schumann exige que a etapa seja concluída com a correção dos erros. Voltemos ao estágio 2.

Passo 2.2.2.
Nesta etapa também corrigiremos espaços duplos e triplos.
Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Figura 11. Número de espaços duplos.

Correção de erros identificados na tabela 2.2.4.

Tabela 5. Estágio de correção de errosLimpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático

Um exemplo de por que um aspecto como o uso das letras “e” ou “e” é significativo é apresentado na Figura 12.

Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Figura 12. Discrepância na letra "e".

Tempo total gasto na etapa 2.2.2 t222 = 4 horas.
Número de erros encontrados na etapa 2.2.2 (para a fórmula de Schumann) n222 = 583 unidades.

Quarta etapa.
A verificação de redundância de campo se enquadra bem neste estágio. Dos 44 campos, 6 campos:
7 – Finalidade da estrutura
16 — Número de pisos subterrâneos
17 - Objeto pai
21 - Conselho da Aldeia
38 — Parâmetros de estrutura (descrição)
40 – Patrimônio cultural

Eles não têm nenhuma entrada. Ou seja, eles são redundantes.
O campo “22 – Cidade” possui uma única entrada, Figura 13.

Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Figura 13. A única entrada é Z_348653 no campo “Cidade”.

O campo “34 – Nome do edifício” contém entradas que manifestamente não correspondem à finalidade do campo, Figura 14.

Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Figura 14. Um exemplo de entrada não conforme.

Excluímos esses campos do conjunto de dados. E registramos a mudança em 214 registros.

Tempo total gasto na etapa 4 (para fórmula de Schumann) t4 = 2,5 hora.
Número de erros encontrados na etapa 4 (para a fórmula de Schumann) n4 = 222 unidades.

Tabela 6. Análise dos indicadores do conjunto de dados após a 4ª etapa

Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático

De forma geral, analisando a evolução dos indicadores (Tabela 6) podemos afirmar que:
1) A relação entre o número médio de símbolos e a alavanca do desvio padrão é próxima de 3, ou seja, há sinais de distribuição normal (regra dos seis sigma).
2) Um desvio significativo das alavancas mínima e máxima da alavanca média sugere que o estudo das caudas é uma direção promissora na busca por erros.

Vamos examinar os resultados da localização de erros usando a metodologia de Schumann.

Estágios ociosos

2.1. Tempo total gasto na etapa 2.1 (para fórmula de Schumann) t21 = 1 hora.
Número de erros encontrados na etapa 2.1 (para a fórmula de Schumann) n21 = 0 unidades.

3. Tempo total gasto na etapa 3 (para fórmula de Schumann) t3 = 0,75 hora.
Número de erros encontrados na etapa 3 (para a fórmula de Schumann) n3 = 0 unidades.

Estágios eficazes
2.2. Tempo total gasto na etapa 2.2.1 (para fórmula de Schumann) t221 = 8 hora.
Número de erros corrigidos na etapa 2.2.1 (para a fórmula de Schumann) n221 = 0 unid.
Tempo total gasto na etapa 2.2.2 t222 = 4 horas.
Número de erros encontrados na etapa 2.2.2 (para a fórmula de Schumann) n222 = 583 unidades.

Tempo total gasto na etapa 2.2 t22 = 8 + 4 = 12 horas.
Número de erros encontrados na etapa 2.2.2 (para a fórmula de Schumann) n222 = 583 unidades.

4. Tempo total gasto na etapa 4 (para fórmula de Schumann) t4 = 2,5 hora.
Número de erros encontrados na etapa 4 (para a fórmula de Schumann) n4 = 222 unidades.

Como existem zero estágios que devem ser incluídos no primeiro estágio do modelo Schumann, e por outro lado, os estágios 2.2 e 4 são inerentemente independentes, então dado que o modelo Schumann assume que ao aumentar a duração da verificação, a probabilidade de detectar um erro diminui, ou seja, o fluxo diminui as falhas, então examinando esse fluxo vamos determinar qual estágio colocar primeiro, conforme a regra, onde a densidade de falhas é mais frequente, colocaremos esse estágio primeiro.

Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Pic.15

Da fórmula da Figura 15 conclui-se que é preferível colocar o quarto estágio antes do estágio 2.2 nos cálculos.

Usando a fórmula de Schumann, determinamos o número inicial estimado de erros:

Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Pic.16

A partir dos resultados da Figura 16 pode-se observar que o número previsto de erros é N2 = 3167, o que é superior ao critério mínimo de 1459.

Como resultado da correção, corrigimos 805 erros, e o número previsto é 3167 – 805 = 2362, que ainda é mais do que o limite mínimo que aceitamos.

Definimos o parâmetro C, lambda e função de confiabilidade:

Limpe os dados como se fosse um jogo de Pedra, Papel e Tesoura. Este é um jogo com ou sem final? Parte 2. Prático
Pic.17

Essencialmente, lambda é um indicador real da intensidade com que os erros são detectados em cada estágio. Se você olhar acima, a estimativa anterior deste indicador era de 42,4 erros por hora, o que é bastante comparável ao indicador Schumann. Passando para a primeira parte deste material, foi determinado que a taxa na qual um desenvolvedor encontra erros não deve ser inferior a 1 erro por 250,4 registros, ao verificar 1 registro por minuto. Daí o valor crítico de lambda para o modelo Schumann:
60 / 250,4 = 0,239617.

Ou seja, a necessidade de realizar procedimentos de detecção de erros deve ser realizada até que o lambda, dos 38,964 existentes, diminua para 0,239617.

Ou até que o indicador N (número potencial de erros) menos n (número corrigido de erros) diminua abaixo do limite que aceitamos (na primeira parte) - 1459 unidades.

Parte 1. Teórica.

Fonte: habr.com

Adicionar um comentário