Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique

В partie un il a été indiqué que cette publication avait été réalisée sur la base d'un ensemble de données des résultats de l'évaluation cadastrale des biens immobiliers dans l'Okrug autonome des Khantys-Mansis.

La partie pratique est présentée sous forme d'étapes. Tout le nettoyage a été effectué dans Excel, puisque l'outil le plus courant et les opérations décrites peuvent être répétés par la plupart des spécialistes connaissant Excel. Et tout à fait bien adapté au travail à la main.

L'étape zéro sera le travail de lancement et de sauvegarde du fichier, puisqu'il fait 100 Mo, alors avec le nombre de ces opérations étant des dizaines et des centaines, elles prennent beaucoup de temps.
L'ouverture dure en moyenne 30 secondes.
Sauvegarde – 22 sec.

La première étape commence par la détermination des indicateurs statistiques de l'ensemble de données.

Tableau 1. Indicateurs statistiques de l'ensemble de données
Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique

Technologie 2.1.

Nous créons un champ auxiliaire, je l'ai sous le numéro - AY. Pour chaque entrée, nous formons la formule « =LONGUEUR(F365502)+LONGUEUR(G365502)+…+LONGUEUR(AW365502) »

Temps total passé sur l'étape 2.1 (pour la formule Schumann) t21 = 1 heure.
Nombre d'erreurs trouvées à l'étape 2.1 (pour la formule de Schumann) n21 = 0 pcs.

La deuxième étape.
Vérification des composants de l'ensemble de données.
2.2. Toutes les valeurs des enregistrements sont formées à l'aide de symboles standard. Par conséquent, suivons les statistiques par symboles.

Tableau 2. Indicateurs statistiques des caractères de l'ensemble de données avec analyse préliminaire des résultats.Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique

Technologie 2.2.1.

Nous créons un champ auxiliaire - "alpha1". Pour chaque enregistrement, nous formons la formule « =CONCATENATE(Sheet1!B9;...Sheet1!AQ9) »
Nous créons une cellule oméga-1 fixe. Nous saisirons alternativement les codes de caractères selon Windows-1251 de 32 à 255 dans cette cellule.
Nous créons un champ auxiliaire - "alpha2". Avec la formule « =FIND(SYMBOL(Omega,1); « alpha1 »,N) ».
Nous créons un champ auxiliaire - "alpha3". Avec la formule "=IF(ISNUMBER("alpha2",N),1)"
Créez une cellule fixe "Oméga-2", avec la formule "=SUM("alpha3"N1 : "alpha3"N365498)"

Tableau 3. Résultats de l'analyse préliminaire des résultatsNettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique

Tableau 4. Erreurs enregistrées à ce stadeNettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique

Temps total passé sur l'étape 2.2.1 (pour la formule Schumann) t221 = 8 heure.
Nombre d'erreurs corrigées à l'étape 2.2.1 (pour la formule Schumann) n221 = 0 pcs.

Étape 3.
La troisième étape consiste à enregistrer l'état de l'ensemble de données. En attribuant à chaque enregistrement un numéro (ID) unique et à chaque champ. Ceci est nécessaire pour comparer l'ensemble de données converti avec celui d'origine. Cela est également nécessaire pour tirer pleinement parti des capacités de regroupement et de filtrage. Ici encore, nous nous tournons vers le tableau 2.2.2 et sélectionnons un symbole qui n'est pas utilisé dans l'ensemble de données. Nous obtenons ce qui est montré sur la figure 10.

Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Figure 10. Attribution d'identifiants.

Temps total passé sur l'étape 3 (pour la formule Schumann) t3 = 0,75 heure.
Nombre d'erreurs trouvées à l'étape 3 (pour la formule de Schumann) n3 = 0 pcs.

Puisque la formule de Schumann exige que l'étape soit complétée par la correction des erreurs. Revenons à l'étape 2.

Étape 2.2.2.
Dans cette étape, nous corrigerons également les espaces doubles et triples.
Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Figure 11. Nombre de doubles espaces.

Correction des erreurs identifiées dans le tableau 2.2.4.

Tableau 5. Étape de correction des erreursNettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique

Un exemple de la raison pour laquelle un aspect tel que l'utilisation des lettres « e » ou « e » est important est présenté dans la figure 12.

Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Figure 12. Différence dans la lettre "e".

Temps total passé à l'étape 2.2.2 t222 = 4 heures.
Nombre d'erreurs trouvées à l'étape 2.2.2 (pour la formule de Schumann) n222 = 583 pcs.

Quatrième étape.
La vérification de la redondance du terrain s'inscrit bien dans cette étape. Sur les 44 champs, 6 champs :
7 - Objet de la structure
16 — Nombre d'étages souterrains
17 - Objet parent
21 - Conseil Villageois
38 — Paramètres de structure (description)
40 – Patrimoine culturel

Ils n'ont aucune entrée. Autrement dit, ils sont redondants.
Le champ « 22 – Ville » comporte une seule entrée, figure 13.

Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Figure 13. La seule entrée est Z_348653 dans le champ « Ville ».

Le champ « 34 - Nom du bâtiment » contient des entrées qui ne correspondent clairement pas à l'objet du champ, figure 14.

Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Figure 14. Un exemple d'entrée non conforme.

Nous excluons ces champs de l'ensemble de données. Et nous enregistrons le changement dans 214 enregistrements.

Temps total passé sur l'étape 4 (pour la formule Schumann) t4 = 2,5 heure.
Nombre d'erreurs trouvées à l'étape 4 (pour la formule de Schumann) n4 = 222 pcs.

Tableau 6. Analyse des indicateurs de l'ensemble de données après la 4ème étape

Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique

De manière générale, en analysant l'évolution des indicateurs (tableau 6), on peut dire que :
1) Le rapport entre le nombre moyen de symboles et le levier d'écart type est proche de 3, c'est-à-dire qu'il existe des signes d'une distribution normale (règle six sigma).
2) Un écart significatif des leviers minimum et maximum par rapport au levier moyen suggère que l'étude des queues est une direction prometteuse pour la recherche d'erreurs.

Examinons les résultats de la recherche d'erreurs à l'aide de la méthodologie de Schumann.

Étapes inactives

2.1. Temps total passé sur l'étape 2.1 (pour la formule Schumann) t21 = 1 heure.
Nombre d'erreurs trouvées à l'étape 2.1 (pour la formule de Schumann) n21 = 0 pcs.

3. Temps total passé sur l'étape 3 (pour la formule Schumann) t3 = 0,75 heure.
Nombre d'erreurs trouvées à l'étape 3 (pour la formule de Schumann) n3 = 0 pcs.

Étapes efficaces
2.2. Temps total passé sur l'étape 2.2.1 (pour la formule Schumann) t221 = 8 heure.
Nombre d'erreurs corrigées à l'étape 2.2.1 (pour la formule Schumann) n221 = 0 pcs.
Temps total passé à l'étape 2.2.2 t222 = 4 heures.
Nombre d'erreurs trouvées à l'étape 2.2.2 (pour la formule de Schumann) n222 = 583 pcs.

Temps total passé à l'étape 2.2 t22 = 8 + 4 = 12 heures.
Nombre d'erreurs trouvées à l'étape 2.2.2 (pour la formule de Schumann) n222 = 583 pcs.

4. Temps total passé sur l'étape 4 (pour la formule Schumann) t4 = 2,5 heure.
Nombre d'erreurs trouvées à l'étape 4 (pour la formule de Schumann) n4 = 222 pcs.

Puisqu'il n'y a aucune étape qui doit être incluse dans la première étape du modèle Schumann, et d'autre part, les étapes 2.2 et 4 sont intrinsèquement indépendantes, alors étant donné que le modèle Schumann suppose qu'en augmentant la durée du contrôle, la probabilité de détection d'une erreur diminue, c'est-à-dire que le flux diminue les pannes, puis en examinant ce flux nous déterminerons quelle étape mettre en premier, selon la règle, là où la densité de défaillances est plus fréquente, nous mettrons cette étape en premier.

Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Figure 15.

De la formule de la figure 15, il résulte qu'il est préférable de placer la quatrième étape avant l'étape 2.2 dans les calculs.

À l'aide de la formule de Schumann, nous déterminons le nombre initial d'erreurs estimé :

Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Figure 16.

D’après les résultats de la figure 16, on peut voir que le nombre d’erreurs prévu est N2 = 3167 1459, ce qui est supérieur au critère minimum de XNUMX XNUMX.

À la suite de la correction, nous avons corrigé 805 erreurs et le nombre prédit est 3167 – 805 = 2362, ce qui est toujours supérieur au seuil minimum que nous avons accepté.

Nous définissons le paramètre C, lambda et la fonction de fiabilité :

Nettoyer les données comme Pierre, Papier, Ciseaux. Est-ce un jeu avec ou sans finish ? Partie 2. Pratique
Figure 17.

Essentiellement, lambda est un véritable indicateur de l’intensité avec laquelle les erreurs sont détectées à chaque étape. Si vous regardez ci-dessus, l'estimation précédente de cet indicateur était de 42,4 erreurs par heure, ce qui est tout à fait comparable à l'indicateur Schumann. En ce qui concerne la première partie de ce document, il a été déterminé que le taux auquel un développeur trouve des erreurs ne devrait pas être inférieur à 1 erreur pour 250,4 enregistrements, lors de la vérification d'un enregistrement par minute. D'où la valeur critique de lambda pour le modèle de Schumann :
60 / 250,4 = 0,239617.

C'est-à-dire que la nécessité d'effectuer des procédures de détection d'erreurs doit être effectuée jusqu'à ce que lambda, du 38,964 existant, diminue à 0,239617.

Ou jusqu'à ce que l'indicateur N (nombre potentiel d'erreurs) moins n (nombre d'erreurs corrigé) diminue en dessous du seuil que nous avons accepté (dans la première partie) - 1459 pcs.

Partie 1. Théorique.

Source: habr.com

Ajouter un commentaire