Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna

В część pierwsza wskazano, że publikacja ta powstała na podstawie zbioru wyników wyceny katastralnej nieruchomości na terenie Chanty-Mansyjskiego Okręgu Autonomicznego.

Część praktyczna przedstawiona jest w formie kroków. Całe czyszczenie zostało wykonane w programie Excel, ponieważ najpopularniejsze narzędzie i opisane operacje mogą być powtarzane przez większość specjalistów znających Excel. I całkiem dobrze nadaje się do pracy ręcznej.

Etap zerowy będzie polegał na uruchomieniu i zapisaniu pliku, ponieważ ma on rozmiar 100 MB, następnie przy liczbie tych operacji wynoszącej dziesiątki i setki zajmują one dużo czasu.
Otwarcie trwa średnio 30 sekund.
Oszczędność – 22 sek.

Pierwszy etap rozpoczyna się od określenia wskaźników statystycznych zbioru danych.

Tabela 1. Wskaźniki statystyczne zbioru danych
Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna

Technologia 2.1.

Tworzymy pole pomocnicze, mam je pod numerem - AY. Dla każdego wpisu tworzymy formułę „=DŁUGOŚĆ(F365502)+DŁUGOŚĆ(G365502)+…+DŁUGOŚĆ(AW365502)”

Całkowity czas spędzony na etapie 2.1 (dla wzoru Schumanna) t21 = 1 godzina.
Liczba błędów stwierdzonych na etapie 2.1 (dla wzoru Schumanna) n21 = 0 szt.

Drugi etap.
Sprawdzanie komponentów zbioru danych.
2.2. Wszystkie wartości w rekordach tworzone są przy użyciu standardowych symboli. Dlatego śledźmy statystyki za pomocą symboli.

Tabela 2. Wskaźniki statystyczne postaci w zbiorze danych wraz ze wstępną analizą wyników.Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna

Technologia 2.2.1.

Tworzymy pole pomocnicze - „alfa1”. Dla każdego rekordu tworzymy formułę „=CONCATENATE(Arkusz1!B9;...Arkusz1!AQ9)”
Tworzymy stałą komórkę Omega-1. Do tej komórki będziemy naprzemiennie wprowadzać kody znaków według Windows-1251 od 32 do 255.
Tworzymy pole pomocnicze - „alfa2”. Za pomocą wzoru „=ZNAJDŹ(SYMBOL(Omega,1); „alfa1”,N)”.
Tworzymy pole pomocnicze - „alfa3”. Za pomocą formuły „=JEŻELI(CZY LICZBA(„alfa2”,N),1)”
Utwórz stałą komórkę „Omega-2” za pomocą formuły „=SUMA(„alfa3”N1: „alfa3”N365498)”

Tabela 3. Wyniki wstępnej analizy wynikówOczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna

Tabela 4. Błędy zarejestrowane na tym etapieOczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna

Całkowity czas spędzony na etapie 2.2.1 (dla wzoru Schumanna) t221 = 8 godzina.
Liczba poprawionych błędów w etapie 2.2.1 (dla wzoru Schumanna) n221 = 0 szt.

Krok 3.
Trzecim krokiem jest zarejestrowanie stanu zbioru danych. Poprzez przypisanie każdemu rekordowi unikalnego numeru (ID) i każdemu polu. Jest to konieczne, aby porównać przekonwertowany zbiór danych z oryginalnym. Jest to również konieczne, aby w pełni wykorzystać możliwości grupowania i filtrowania. Tutaj ponownie zwracamy się do tabeli 2.2.2 i wybieramy symbol, który nie jest używany w zbiorze danych. Otrzymujemy to, co pokazano na rysunku 10.

Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Ryc. 10. Nadawanie identyfikatorów.

Całkowity czas spędzony na etapie 3 (dla wzoru Schumanna) t3 = 0,75 godzina.
Liczba błędów stwierdzonych na etapie 3 (dla wzoru Schumanna) n3 = 0 szt.

Ponieważ wzór Schumanna wymaga, aby etap został zakończony poprzez poprawienie błędów. Wróćmy do etapu 2.

Krok 2.2.2.
Na tym etapie poprawimy również spacje podwójne i potrójne.
Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Ryc. 11. Liczba podwójnych spacji.

Korekta błędów zidentyfikowanych w tabeli 2.2.4.

Tabela 5. Etap korekcji błędówOczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna

Przykład tego, dlaczego taki aspekt, jak użycie litery „e” lub „e” jest istotny, przedstawiono na rysunku 12.

Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Ryc. 12. Rozbieżność w literze „e”.

Całkowity czas spędzony w kroku 2.2.2 t222 = 4 godziny.
Liczba błędów stwierdzonych na etapie 2.2.2 (dla wzoru Schumanna) n222 = 583 szt.

Czwarty etap.
Sprawdzenie nadmiarowości pola dobrze pasuje do tego etapu. Z 44 pól 6 pól:
7 - Cel konstrukcji
16 — Liczba kondygnacji podziemnych
17 - Obiekt nadrzędny
21 - Rada Wsi
38 — Parametry konstrukcji (opis)
40 – Dziedzictwo kulturowe

Nie mają żadnych wpisów. Oznacza to, że są zbędne.
Pole „22 – Miasto” zawiera jeden wpis, rysunek 13.

Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Ryc. 13. Jedyny wpis to Z_348653 w polu „Miasto”.

Pole „34 – Nazwa budynku” zawiera wpisy wyraźnie nieodpowiadające celowi pola, rys. 14.

Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Ryc. 14. Przykład wpisu niezgodnego.

Wykluczamy te pola ze zbioru danych. I odnotowujemy zmianę w 214 rekordach.

Całkowity czas spędzony na etapie 4 (dla wzoru Schumanna) t4 = 2,5 godzina.
Liczba błędów stwierdzonych na etapie 4 (dla wzoru Schumanna) n4 = 222 szt.

Tabela 6. Analiza wskaźników zbioru danych po IV etapie

Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna

Generalnie analizując zmiany wskaźników (tabela 6) można stwierdzić, że:
1) Stosunek średniej liczby symboli do dźwigni odchylenia standardowego jest bliski 3, co oznacza, że ​​występują oznaki rozkładu normalnego (reguła sześciu sigma).
2) Znaczące odchylenie dźwigni minimalnej i maksymalnej od dźwigni średniej sugeruje, że badanie ogonów jest obiecującym kierunkiem w poszukiwaniu błędów.

Przyjrzyjmy się wynikom wyszukiwania błędów metodologią Schumanna.

Bezczynne etapy

2.1. Całkowity czas spędzony na etapie 2.1 (dla wzoru Schumanna) t21 = 1 godzina.
Liczba błędów stwierdzonych na etapie 2.1 (dla wzoru Schumanna) n21 = 0 szt.

3. Całkowity czas spędzony na etapie 3 (dla wzoru Schumanna) t3 = 0,75 godzina.
Liczba błędów stwierdzonych na etapie 3 (dla wzoru Schumanna) n3 = 0 szt.

Efektowne etapy
2.2. Całkowity czas spędzony na etapie 2.2.1 (dla wzoru Schumanna) t221 = 8 godzina.
Liczba poprawionych błędów w etapie 2.2.1 (dla wzoru Schumanna) n221 = 0 szt.
Całkowity czas spędzony w kroku 2.2.2 t222 = 4 godziny.
Liczba błędów stwierdzonych na etapie 2.2.2 (dla wzoru Schumanna) n222 = 583 szt.

Całkowity czas spędzony w kroku 2.2 t22 = 8 + 4 = 12 godzin.
Liczba błędów stwierdzonych na etapie 2.2.2 (dla wzoru Schumanna) n222 = 583 szt.

4. Całkowity czas spędzony na etapie 4 (dla wzoru Schumanna) t4 = 2,5 godzina.
Liczba błędów stwierdzonych na etapie 4 (dla wzoru Schumanna) n4 = 222 szt.

Ponieważ w pierwszym etapie modelu Schumanna nie ma etapów, które należy uwzględnić, a z drugiej strony etapy 2.2 i 4 są z natury niezależne, to biorąc pod uwagę, że model Schumanna zakłada, że ​​zwiększając czas trwania kontroli, prawdopodobieństwo wykrycia błędu maleje, czyli przepływ zmniejsza awarie, to badając ten przepływ ustalimy, który stopień postawić jako pierwszy, zgodnie z zasadą, że tam, gdzie gęstość awarii jest większa, postawimy ten etap na pierwszym miejscu.

Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Ris.15.

Ze wzoru na rysunku 15 wynika, że ​​w obliczeniach lepiej jest umieścić czwarty etap przed etapem 2.2.

Korzystając ze wzoru Schumanna wyznaczamy szacunkową początkową liczbę błędów:

Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Ris.16.

Z wyników przedstawionych na rysunku 16 widać, że przewidywana liczba błędów wynosi N2 = 3167, czyli więcej niż minimalne kryterium wynoszące 1459.

W wyniku korekty poprawiliśmy 805 błędów, a przewidywana liczba to 3167 – 805 = 2362, czyli i tak więcej niż przyjęty przez nas minimalny próg.

Definiujemy parametr C, lambda i funkcję niezawodności:

Oczyść dane jak w grze w kamień, papier i nożyczki. Czy to jest gra z zakończeniem czy bez? Część 2. Praktyczna
Ris.17.

Zasadniczo lambda jest rzeczywistym wskaźnikiem intensywności wykrywania błędów na każdym etapie. Jeśli spojrzysz powyżej, poprzednie szacunki tego wskaźnika wynosiły 42,4 błędów na godzinę, co jest dość porównywalne ze wskaźnikiem Schumanna. Wracając do pierwszej części tego materiału, ustalono, że tempo znajdowania przez programistę błędów nie powinno być mniejsze niż 1 błąd na 250,4 rekordów przy sprawdzaniu 1 rekordu na minutę. Stąd krytyczna wartość lambda dla modelu Schumanna:
60 / 250,4 = 0,239617.

Oznacza to, że należy przeprowadzić procedury wykrywania błędów, dopóki lambda z istniejących 38,964 nie spadnie do 0,239617.

Lub dopóki wskaźnik N (potencjalna liczba błędów) minus n (skorygowana liczba błędów) nie spadnie poniżej przyjętego przez nas (w części pierwszej) progu – 1459 szt.

Część 1. Teoretyczna.

Źródło: www.habr.com

Dodaj komentarz