Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

В Teil eins Es wurde beschrieben, dass diese Veröffentlichung auf der Grundlage eines Datensatzes der Ergebnisse der Katasterbewertung von Immobilienobjekten im Autonomen Kreis der Chanten und Mansen erstellt wurde.

Der praktische Teil wird schrittweise dargestellt. Die gesamte Bereinigung wurde in Excel durchgeführt, da dies das am häufigsten verwendete Tool ist und die beschriebenen Vorgänge von den meisten Spezialisten, die Excel kennen, wiederholt werden können. Und es ist durchaus für den Nahkampf geeignet.

Ich werde die Arbeit zum Starten und Speichern der Datei als Nullphase einstufen, da sie 100 MB groß ist und diese Vorgänge bei einer Anzahl von Dutzenden und Hunderten eine beträchtliche Zeit in Anspruch nehmen.
Die Öffnungszeit beträgt im Durchschnitt 30 Sekunden.
Speichern - 22 Sek.

Die erste Phase beginnt mit der Definition der statistischen Indikatoren des Datensatzes.

Tabelle 1. Statistische Indikatoren des Datensatzes
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Technologie 2.1.

Wir erstellen ein Hilfsfeld, ich habe es unter der Nummer - AY. Für jeden Eintrag bilden wir die Formel „=LEN(F365502)+LEN(G365502)+…+LEN(AW365502)“

Gesamtzeit für Stufe 2.1 (für die Schumann-Formel) t21 = 1 Stunde.
Die Anzahl der in Stufe 2.1 gefundenen Fehler (für die Schumann-Formel) beträgt n21 = 0 Stk.

Die zweite Stufe.
Überprüfen der Datensatzkomponenten.
2.2. Alle Werte in Datensätzen werden durch Standardsymbole gebildet. Lassen Sie uns daher die Statistiken anhand von Symbolen verfolgen.

Tabelle 2. Statistische Indikatoren der Symbole im Datensatz mit vorläufiger Analyse der Ergebnisse.Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Technologie 2.2.1.

Wir erstellen ein Hilfsfeld – „alpha1“. Für jeden Eintrag bilden wir die Formel „=CONCATENATE(Sheet1!B9;…Sheet1!AQ9)“
Wir erstellen eine feste Omega-1-Zelle. In diese Zelle geben wir nacheinander die Zeichencodes von 1251 bis 32 gemäß Windows-255 ein.
Wir erstellen ein Hilfsfeld – „alpha2“. Mit der Formel „=FIND(CHAR(Omega;1); "alpha1";N)“.
Wir erstellen ein Hilfsfeld – „alpha3“. Mit der Formel "=WENN(ISTZAHL("alpha2";N);1;0)"
Erstellen Sie eine feste Zelle „Omega-2“ mit der Formel „=SUM("alpha3"N1:"alpha3"N365498)“.

Tabelle 3. Ergebnisse der vorläufigen Analyse der ErgebnisseBereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Tabelle 4. In dieser Phase aufgezeichnete FehlerBereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Gesamtzeit für Stufe 2.2.1 (für die Schumann-Formel) t221 = 8 Stunde.
Die Anzahl der in Schritt 2.2.1 korrigierten Fehler (für die Schumann-Formel) beträgt n221 = 0 Stk.

Schritt 3.
Der dritte Schritt besteht darin, den Zustand des Datensatzes aufzuzeichnen. Indem jedem Datensatz und jedem Feld eine eindeutige Nummer (ID) zugewiesen wird. Dies ist notwendig, um den transformierten Datensatz mit dem Original zu vergleichen. Dies ist auch erforderlich, um die Gruppierungs- und Filterfunktionen vollständig nutzen zu können. Hier greifen wir erneut auf Tabelle 2.2.2 zurück und wählen ein Symbol aus, das im Datensatz nicht verwendet wird. Wir erhalten das in Abbildung 10 dargestellte Ergebnis.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb.10. Kennungen vergeben.

Gesamtzeit für Stufe 3 (für die Schumann-Formel) t3 = 0,75 Stunde.
Die Anzahl der in Stufe 3 gefundenen Fehler (für die Schumann-Formel) beträgt n3 = 0 Stk.

Denn die Schumann-Formel erfordert, dass die Stufe durch eine Fehlerkorrektur abgeschlossen wird. Gehen wir zurück zu Phase 2.

Schritt 2.2.2.
In dieser Phase korrigieren wir auch doppelte und dreifache Leerzeichen.
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb.11. Anzahl der doppelten Leerzeichen.

Korrektur der in Tabelle 2.2.4 festgestellten Fehler.

Tabelle 5. FehlerkorrekturphaseBereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Ein Beispiel dafür, warum ein Aspekt wie die Verwendung der Buchstaben „e“ oder „yo“ wichtig ist, ist in Abbildung 12 dargestellt.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb.12. Inkonsistenz beim Buchstaben „ё“.

Gesamtzeit für Etappe 2.2.2 t222 = 4 Stunden.
Die Anzahl der in Stufe 2.2.2 gefundenen Fehler (für die Schumann-Formel) beträgt n222 = 583 Stk.

Vierte Stufe.
Die Überprüfung auf Feldredundanz passt gut in diese Phase. Von den 44 Feldern sind 6 Felder:
7 — Zweck der Struktur
16 - Anzahl der Untergeschosse
17 – Übergeordnetes Objekt
21 — Gemeinderat
38 — Parameter der Struktur (Beschreibung)
40 - Kulturelles Erbe

Sie haben keine Aufzeichnungen. Das heißt, sie sind überflüssig.
Das Feld „22 – Stadt“ hat einen einzigen Eintrag, Abbildung 13.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb.13. Der einzige Eintrag im Feld Stadt ist Z_348653.

Das Feld „34 – Gebäudename“ enthält Einträge, die offensichtlich nicht dem Zweck des Feldes entsprechen, Abbildung 14.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Abb.14. Beispiel für einen nicht konformen Eintrag.

Wir schließen diese Felder aus dem Datensatz aus. Und wir verzeichnen eine Änderung in 214 Datensätzen.

Gesamtzeit für Stufe 4 (für die Schumann-Formel) t4 = 2,5 Stunde.
Die Anzahl der in Stufe 4 gefundenen Fehler (für die Schumann-Formel) beträgt n4 = 222 Stk.

Tabelle 6. Analyse der Datensatzindikatoren nach der 4. Phase

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch

Im Allgemeinen können wir bei der Analyse der Änderungen der Indikatoren (Tabelle 6) Folgendes sagen:
1) Das Verhältnis der Hebel der durchschnittlichen Symbolanzahl zum Hebel der Standardabweichung liegt nahe bei 3, d. h. es liegen Anzeichen einer Normalverteilung vor (Six-Sigma-Regel).
2) Die erhebliche Abweichung der minimalen und maximalen Hebel vom durchschnittlichen Hebel deutet darauf hin, dass die Untersuchung der Enden eine vielversprechende Richtung bei der Suche nach Fehlern ist.

Wir werden die Ergebnisse der Fehlersuche mit Schumanns Methodik untersuchen.

Leerlaufphasen

2.1. Gesamtzeit für Stufe 2.1 (für die Schumann-Formel) t21 = 1 Stunde.
Die Anzahl der in Stufe 2.1 gefundenen Fehler (für die Schumann-Formel) beträgt n21 = 0 Stk.

3. Gesamtzeit für Stufe 3 (für die Schumann-Formel) t3 = 0,75 Stunde.
Die Anzahl der in Stufe 3 gefundenen Fehler (für die Schumann-Formel) beträgt n3 = 0 Stk.

Ergebnisphasen
2.2. Gesamtzeit für Stufe 2.2.1 (für die Schumann-Formel) t221 = 8 Stunde.
Die Anzahl der in Schritt 2.2.1 korrigierten Fehler (für die Schumann-Formel) beträgt n221 = 0 Stk.
Gesamtzeit für Etappe 2.2.2 t222 = 4 Stunden.
Die Anzahl der in Stufe 2.2.2 gefundenen Fehler (für die Schumann-Formel) beträgt n222 = 583 Stk.

Gesamtzeit für Etappe 2.2 t22 = 8 + 4 = 12 Stunden.
Die Anzahl der in Stufe 2.2.2 gefundenen Fehler (für die Schumann-Formel) beträgt n222 = 583 Stk.

4. Gesamtzeit für Stufe 4 (für die Schumann-Formel) t4 = 2,5 Stunde.
Die Anzahl der in Stufe 4 gefundenen Fehler (für die Schumann-Formel) beträgt n4 = 222 Stk.

Da es in der ersten Stufe des Schumann-Modells null Stufen gibt, die einbezogen werden sollten, und da andererseits die Stufen 2.2, 4 und XNUMX im Wesentlichen unabhängig sind, und wir berücksichtigen, dass das Schumann-Modell davon ausgeht, dass mit zunehmender Dauer des Tests die Wahrscheinlichkeit der Entdeckung eines Fehlers sinkt, das heißt, dass der Fluss der Fehler abnimmt, können wir durch die Untersuchung dieses Flusses bestimmen, welche der Stufen an die erste Stelle gesetzt werden soll, gemäß der Regel, dass die Stufe mit der höchsten Fehlerdichte an die erste Stelle gesetzt wird.

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Ris.15.

Aus der Formel in Abbildung 15 folgt, dass die vierte Stufe in den Berechnungen vorzugsweise vor Stufe 2.2 platziert werden sollte.

Mithilfe der Schumann-Formel ermitteln wir die geschätzte anfängliche Fehleranzahl:

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Ris.16.

Aus den Ergebnissen in Abbildung 16 ist ersichtlich, dass die vorhergesagte Anzahl von Fehlern N2 = 3167 beträgt und damit größer ist als das Mindestkriterium von 1459.

Als Ergebnis der Korrektur haben wir 805 Fehler korrigiert und die vorhergesagte Zahl beträgt 3167 – 805 = 2362, was immer noch über dem von uns angenommenen Mindestschwellenwert liegt.

Wir definieren den Parameter C, Lambda und Zuverlässigkeitsfunktion:

Bereinigen von Daten wie Stein, Papier, Schere. Ist es ein Spiel mit oder ohne Abschluss? Teil 2. Praktisch
Ris.17.

Im Wesentlichen ist Lambda ein tatsächlicher Indikator für die Intensität, mit der in jeder Phase Fehler erkannt werden. Wenn Sie nach oben schauen, lag die vorherige Schätzung dieses Indikators bei 42,4 Fehlern pro Stunde, was durchaus mit dem Schumann-Indikator vergleichbar ist. In Bezug auf den ersten Teil dieses Materials wurde festgestellt, dass die Intensität der Fehlersuche durch den Entwickler nicht weniger als 1 Fehler pro 250,4 Datensätze betragen sollte, wenn 1 Datensatz pro Minute überprüft wird. Daher der kritische Wert von Lambda für das Schumann-Modell:
60 / 250,4 = 0,239617.

Das heißt, die Notwendigkeit, Fehlererkennungsverfahren durchzuführen, muss durchgeführt werden, bis Lambda von den vorhandenen 38,964 auf 0,239617 absinkt.

Oder bis der Indikator N (die potenzielle Anzahl der Fehler) minus n (die korrigierte Anzahl der Fehler) unter den von uns (im ersten Teil) angenommenen Schwellenwert von 1459 Stück fällt.

Teil 1. Theoretisch.

Source: habr.com

Kommentar hinzufügen