Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

В Teil eins Es wurde beschrieben, dass diese Veröffentlichung auf der Grundlage eines Datensatzes der Katasterbewertungsergebnisse von Immobilien im Autonomen Kreis der Chanten und Mansen erstellt wurde.

Der praktische Teil wird in Schritten dargestellt. Die gesamte Reinigung wurde in Excel durchgeführt, da das gängigste Tool und die beschriebenen Vorgänge von den meisten Excel-Kennern wiederholt werden können. Und ganz gut für Handarbeit geeignet.

Die Nullphase wird das Starten und Speichern der Datei sein, da sie 100 MB groß ist. Da die Anzahl dieser Vorgänge dann Dutzende und Hunderte beträgt, nehmen sie viel Zeit in Anspruch.
Das Öffnen dauert durchschnittlich 30 Sekunden.
Speichern – 22 Sek.

Der erste Schritt beginnt mit der Bestimmung der statistischen Indikatoren des Datensatzes.

Tabelle 1. Statistische Indikatoren des Datensatzes
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Technologie 2.1.

Wir erstellen ein Hilfsfeld, ich habe es unter der Nummer - AY. Für jeden Eintrag bilden wir die Formel „=LÄNGE(F365502)+LÄNGE(G365502)+…+LÄNGE(AW365502)“

Gesamtzeitaufwand für Stufe 2.1 (für Schumann-Formel) t21 = 1 Stunde.
Anzahl der in Stufe 2.1 gefundenen Fehler (für die Schumann-Formel) n21 = 0 Stk.

Die zweite Stufe.
Überprüfung der Komponenten des Datensatzes.
2.2. Alle Werte in Datensätzen werden mit Standardsymbolen gebildet. Lassen Sie uns daher die Statistiken anhand von Symbolen verfolgen.

Tabelle 2. Statistische Indikatoren der Zeichen im Datensatz mit vorläufiger Analyse der Ergebnisse.Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Technologie 2.2.1.

Wir erstellen ein Hilfsfeld – „alpha1“. Für jeden Datensatz bilden wir die Formel „=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)“
Wir schaffen eine feste Omega-1-Zelle. In diese Zelle werden wir abwechselnd Zeichencodes nach Windows-1251 von 32 bis 255 eingeben.
Wir erstellen ein Hilfsfeld – „alpha2“. Mit der Formel „=FIND(SYMBOL(Omega,1); „alpha1“,N)“.
Wir erstellen ein Hilfsfeld – „alpha3“. Mit der Formel „=IF(ISNUMBER(„alpha2“,N),1)“
Erstellen Sie eine feste Zelle „Omega-2“ mit der Formel „=SUM(“alpha3“N1: „alpha3“N365498)“

Tabelle 3. Ergebnisse der vorläufigen ErgebnisanalyseBereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Tabelle 4. Zu diesem Zeitpunkt aufgezeichnete FehlerBereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Gesamtzeitaufwand für Stufe 2.2.1 (für Schumann-Formel) t221 = 8 Stunde.
Anzahl der korrigierten Fehler in Stufe 2.2.1 (für Schumann-Formel) n221 = 0 Stk.

Schritt 3.
Der dritte Schritt besteht darin, den Zustand des Datensatzes aufzuzeichnen. Indem jedem Datensatz und jedem Feld eine eindeutige Nummer (ID) zugewiesen wird. Dies ist notwendig, um den konvertierten Datensatz mit dem Original zu vergleichen. Dies ist auch erforderlich, um die Gruppierungs- und Filterfunktionen optimal nutzen zu können. Auch hier wenden wir uns Tabelle 2.2.2 zu und wählen ein Symbol aus, das im Datensatz nicht verwendet wird. Wir erhalten, was in Abbildung 10 dargestellt ist.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb. 10. Identifikatoren vergeben.

Gesamtzeitaufwand für Stufe 3 (für Schumann-Formel) t3 = 0,75 Stunde.
Anzahl der in Stufe 3 gefundenen Fehler (für die Schumann-Formel) n3 = 0 Stk.

Da die Schumann-Formel erfordert, dass die Stufe durch die Korrektur von Fehlern abgeschlossen wird. Kehren wir zu Stufe 2 zurück.

Schritt 2.2.2.
In diesem Schritt korrigieren wir auch doppelte und dreifache Leerzeichen.
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb. 11. Anzahl der doppelten Leerzeichen.

Korrektur der in Tabelle 2.2.4 identifizierten Fehler.

Tabelle 5. FehlerkorrekturphaseBereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Ein Beispiel dafür, warum ein Aspekt wie die Verwendung der Buchstaben „e“ oder „e“ von Bedeutung ist, ist in Abbildung 12 dargestellt.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb. 12. Diskrepanz im Buchstaben „e“.

Gesamtzeitaufwand für Schritt 2.2.2 t222 = 4 Stunden.
Anzahl der in Stufe 2.2.2 gefundenen Fehler (für die Schumann-Formel) n222 = 583 Stk.

Vierte Stufe.
Die Prüfung auf Feldredundanz passt gut in diese Phase. Von den 44 Feldern sind 6 Felder:
7 - Zweck der Struktur
16 – Anzahl der unterirdischen Stockwerke
17 – Übergeordnetes Objekt
21 – Dorfrat
38 — Strukturparameter (Beschreibung)
40 – Kulturelles Erbe

Sie haben keine Einträge. Das heißt, sie sind überflüssig.
Feld „22 – Stadt“ hat einen einzigen Eintrag, Abbildung 13.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb. 13. Der einzige Eintrag ist Z_348653 im Feld „Stadt“.

Das Feld „34 – Gebäudename“ enthält Einträge, die eindeutig nicht dem Zweck des Feldes entsprechen, Abbildung 14.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb. 14. Ein Beispiel für einen nicht konformen Eintrag.

Wir schließen diese Felder aus dem Datensatz aus. Und wir erfassen die Änderung in 214 Datensätzen.

Gesamtzeitaufwand für Stufe 4 (für Schumann-Formel) t4 = 2,5 Stunde.
Anzahl der in Stufe 4 gefundenen Fehler (für die Schumann-Formel) n4 = 222 Stk.

Tabelle 6. Analyse der Datensatzindikatoren nach der 4. Stufe

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Im Allgemeinen können wir bei der Analyse der Veränderungen der Indikatoren (Tabelle 6) Folgendes sagen:
1) Das Verhältnis der durchschnittlichen Anzahl von Symbolen zum Standardabweichungshebel liegt nahe bei 3, d. h. es liegen Anzeichen einer Normalverteilung vor (Six-Sigma-Regel).
2) Eine signifikante Abweichung der minimalen und maximalen Hebel vom durchschnittlichen Hebel legt nahe, dass die Untersuchung von Tails eine vielversprechende Richtung bei der Suche nach Fehlern ist.

Lassen Sie uns die Ergebnisse der Fehlersuche anhand der Schumann-Methodik untersuchen.

Leerlaufphasen

2.1. Gesamtzeitaufwand für Stufe 2.1 (für Schumann-Formel) t21 = 1 Stunde.
Anzahl der in Stufe 2.1 gefundenen Fehler (für die Schumann-Formel) n21 = 0 Stk.

3. Gesamtzeitaufwand für Stufe 3 (für Schumann-Formel) t3 = 0,75 Stunde.
Anzahl der in Stufe 3 gefundenen Fehler (für die Schumann-Formel) n3 = 0 Stk.

Effektive Bühnen
2.2. Gesamtzeitaufwand für Stufe 2.2.1 (für Schumann-Formel) t221 = 8 Stunde.
Anzahl der korrigierten Fehler in Stufe 2.2.1 (für Schumann-Formel) n221 = 0 Stk.
Gesamtzeitaufwand für Schritt 2.2.2 t222 = 4 Stunden.
Anzahl der in Stufe 2.2.2 gefundenen Fehler (für die Schumann-Formel) n222 = 583 Stk.

Gesamtzeit für Schritt 2.2 t22 = 8 + 4 = 12 Stunden.
Anzahl der in Stufe 2.2.2 gefundenen Fehler (für die Schumann-Formel) n222 = 583 Stk.

4. Gesamtzeitaufwand für Stufe 4 (für Schumann-Formel) t4 = 2,5 Stunde.
Anzahl der in Stufe 4 gefundenen Fehler (für die Schumann-Formel) n4 = 222 Stk.

Da es null Stufen gibt, die in die erste Stufe des Schumann-Modells einbezogen werden müssen, und andererseits die Stufen 2.2 und 4 von Natur aus unabhängig sind, geht man davon aus, dass das Schumann-Modell davon ausgeht, dass durch die Erhöhung der Dauer der Prüfung die Wahrscheinlichkeit steigt Wenn die Erkennung eines Fehlers abnimmt, d.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Ris.15.

Aus der Formel in Abbildung 15 folgt, dass es in den Berechnungen vorzuziehen ist, die vierte Stufe vor Stufe 2.2 zu platzieren.

Mithilfe der Schumann-Formel ermitteln wir die geschätzte Anfangsfehlerzahl:

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Ris.16.

Aus den Ergebnissen in Abbildung 16 ist ersichtlich, dass die vorhergesagte Fehleranzahl N2 = 3167 beträgt, was über dem Mindestkriterium von 1459 liegt.

Als Ergebnis der Korrektur haben wir 805 Fehler korrigiert und die vorhergesagte Zahl beträgt 3167 – 805 = 2362, was immer noch über dem von uns akzeptierten Mindestschwellenwert liegt.

Wir definieren Parameter C, Lambda und Zuverlässigkeitsfunktion:

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Ris.17.

Im Wesentlichen ist Lambda ein tatsächlicher Indikator für die Intensität, mit der Fehler in jeder Phase erkannt werden. Wenn Sie oben nachsehen, lag die vorherige Schätzung dieses Indikators bei 42,4 Fehlern pro Stunde, was durchaus mit dem Schumann-Indikator vergleichbar ist. Im ersten Teil dieses Materials wurde festgestellt, dass die Rate, mit der ein Entwickler Fehler findet, nicht weniger als 1 Fehler pro 250,4 Datensätze betragen sollte, wenn 1 Datensatz pro Minute überprüft wird. Daher der kritische Wert von Lambda für das Schumann-Modell:
60 / 250,4 = 0,239617.

Das heißt, die Notwendigkeit, Fehlererkennungsverfahren durchzuführen, muss durchgeführt werden, bis Lambda von den vorhandenen 38,964 auf 0,239617 absinkt.

Oder bis der Indikator N (potenzielle Fehleranzahl) minus n (korrigierte Fehleranzahl) unter den von uns (im ersten Teil) akzeptierten Schwellenwert sinkt – 1459 Stk.

Teil 1. Theoretisch.

Source: habr.com

Kommentar hinzufügen