Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické

В první část bylo popsáno, že tato publikace byla vytvořena na základě datového souboru výsledků katastrálního ocenění nemovitostí v autonomní oblasti Chanty-Mansi.

Praktická část je prezentována ve formě kroků. Veškeré čištění bylo provedeno v Excelu, protože nejběžnější nástroj a popsané operace dokáže zopakovat většina odborníků, kteří Excel znají. A docela dobře se hodí pro ruční práci.

Nultou fází bude práce se spuštěním a uložením souboru, protože má velikost 100 MB, pak při počtu desítek a stovek těchto operací zaberou značný čas.
Otevření je v průměru 30 sekund.
Úspora – 22 sec.

První fáze začíná stanovením statistických ukazatelů datového souboru.

Tabulka 1. Statistické ukazatele souboru dat
Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické

Technologie 2.1.

Vytvoříme si pomocné pole, mám ho pod číslem - AY. Pro každý záznam vytvoříme vzorec „=DÉLKA(F365502)+DÉLKA(G365502)+…+DÉLKA(AW365502)“

Celkový čas strávený ve fázi 2.1 (pro Schumannův vzorec) t21 = 1 hodina.
Počet nalezených chyb ve fázi 2.1 (pro Schumannův vzorec) n21 = 0 ks.

Druhá fáze.
Kontrola komponent datové sady.
2.2. Všechny hodnoty v záznamech jsou tvořeny pomocí standardních symbolů. Proto sledujme statistiky podle symbolů.

Tabulka 2. Statistické ukazatele znaků v souboru dat s předběžnou analýzou výsledků.Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické

Technologie 2.2.1.

Vytvoříme pomocné pole – „alfa1“. Pro každý záznam vytvoříme vzorec „=CONCATENATE(List1!B9;...List1!AQ9)“
Vytváříme pevnou Omega-1 buňku. Do této buňky budeme střídavě zadávat kódy znaků podle Windows-1251 od 32 do 255.
Vytvoříme pomocné pole - „alfa2“. Se vzorcem “=NAJÍT(SYMBOL(Omega,1); “alfa1”,N)”.
Vytvoříme pomocné pole - „alfa3“. Se vzorcem “=IF(ISNUMBER(“alpha2”,N),1)”
Vytvořte pevnou buňku "Omega-2" se vzorcem "=SUM("alpha3"N1: "alpha3"N365498)"

Tabulka 3. Výsledky předběžné analýzy výsledkůČištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické

Tabulka 4. Chyby zaznamenané v této fáziČištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické

Celkový čas strávený ve fázi 2.2.1 (pro Schumannův vzorec) t221 = 8 hodina.
Počet opravených chyb ve fázi 2.2.1 (pro Schumannův vzorec) n221 = 0 ks.

Krok 3.
Třetím krokem je zaznamenání stavu datové sady. Přidělením každého záznamu jedinečné číslo (ID) a každé pole. To je nezbytné pro porovnání převedeného datového souboru s původním. To je také nezbytné pro plné využití možností seskupování a filtrování. Zde opět přejdeme k tabulce 2.2.2 a vybereme symbol, který není použit v datové sadě. Dostaneme to, co je znázorněno na obrázku 10.

Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Obr. 10 Přidělování identifikátorů.

Celkový čas strávený ve fázi 3 (pro Schumannův vzorec) t3 = 0,75 hodina.
Počet nalezených chyb ve fázi 3 (pro Schumannův vzorec) n3 = 0 ks.

Protože Schumannův vzorec vyžaduje, aby byla fáze dokončena opravou chyb. Vraťme se do fáze 2.

Krok 2.2.2.
V tomto kroku také opravíme dvojité a trojité mezery.
Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Obr. 11 Počet dvojitých mezer.

Oprava chyb uvedených v tabulce 2.2.4.

Tabulka 5. Fáze opravy chybČištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické

Příklad toho, proč je takový aspekt jako použití písmen „e“ nebo „e“ významný, je uveden na obrázku 12.

Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Obr. 12 Rozpor v písmenu „e“.

Celkový čas strávený v kroku 2.2.2 t222 = 4 hodiny.
Počet nalezených chyb ve fázi 2.2.2 (pro Schumannův vzorec) n222 = 583 ks.

Čtvrtá etapa.
Kontrola redundance pole do této fáze dobře zapadá. Ze 44 polí je 6 polí:
7 - Účel konstrukce
16 — Počet podzemních podlaží
17 - Nadřazený objekt
21 - Rada obce
38 — Parametry struktury (popis)
40 – Kulturní dědictví

Nemají žádné záznamy. To znamená, že jsou nadbytečné.
Pole „22 – Město“ má jednu položku, obrázek 13.

Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Obr. 13. Jediný záznam je Z_348653 v poli „Město“.

Pole „34 – Název budovy“ obsahuje položky, které zjevně neodpovídají účelu pole, Obrázek 14.

Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Obr. 14. Příklad nevyhovujícího záznamu.

Tato pole z datové sady vylučujeme. A změnu evidujeme ve 214 záznamech.

Celkový čas strávený ve fázi 4 (pro Schumannův vzorec) t4 = 2,5 hodina.
Počet nalezených chyb ve fázi 4 (pro Schumannův vzorec) n4 = 222 ks.

Tabulka 6. Analýza indikátorů souboru dat po 4. etapě

Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické

Obecně lze při analýze změn ukazatelů (tabulka 6) říci, že:
1) Poměr průměrného počtu symbolů k páce směrodatné odchylky se blíží 3, to znamená, že existují známky normálního rozdělení (pravidlo šest sigma).
2) Výrazná odchylka minimální a maximální páky od průměrné páky naznačuje, že studium ocasů je slibným směrem při hledání chyb.

Prozkoumejme výsledky hledání chyb pomocí Schumannovy metodologie.

Nečinné fáze

2.1. Celkový čas strávený ve fázi 2.1 (pro Schumannův vzorec) t21 = 1 hodina.
Počet nalezených chyb ve fázi 2.1 (pro Schumannův vzorec) n21 = 0 ks.

3. Celkový čas strávený ve fázi 3 (pro Schumannův vzorec) t3 = 0,75 hodina.
Počet nalezených chyb ve fázi 3 (pro Schumannův vzorec) n3 = 0 ks.

Efektivní fáze
2.2. Celkový čas strávený ve fázi 2.2.1 (pro Schumannův vzorec) t221 = 8 hodina.
Počet opravených chyb ve fázi 2.2.1 (pro Schumannův vzorec) n221 = 0 ks.
Celkový čas strávený v kroku 2.2.2 t222 = 4 hodiny.
Počet nalezených chyb ve fázi 2.2.2 (pro Schumannův vzorec) n222 = 583 ks.

Celkový čas strávený v kroku 2.2 t22 = 8 + 4 = 12 hodin.
Počet nalezených chyb ve fázi 2.2.2 (pro Schumannův vzorec) n222 = 583 ks.

4. Celkový čas strávený ve fázi 4 (pro Schumannův vzorec) t4 = 2,5 hodina.
Počet nalezených chyb ve fázi 4 (pro Schumannův vzorec) n4 = 222 ks.

Protože existuje nula fází, které musí být zahrnuty do první fáze Schumannova modelu, a na druhé straně fáze 2.2 a 4 jsou inherentně nezávislé, pak vzhledem k tomu, že Schumannův model předpokládá, že zvýšením doby trvání kontroly se pravděpodobnost detekce chyby klesá, to znamená, že průtok snižuje poruchy, pak zkoumáním tohoto toku určíme, který stupeň zařadit jako první, podle pravidla, kde je hustota poruch častější, zařadíme tento stupeň jako první.

Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Obr.

Ze vzorce na obrázku 15 vyplývá, že je vhodnější umístit čtvrtý stupeň před stupeň 2.2 ve výpočtech.

Pomocí Schumannova vzorce určíme odhadovaný počáteční počet chyb:

Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Obr.

Z výsledků na obrázku 16 je vidět, že předpokládaný počet chyb je N2 = 3167, což je více než minimální kritérium 1459.

V důsledku opravy jsme opravili 805 chyb a predikovaný počet je 3167 – 805 = 2362, což je stále více než minimální hranice, kterou jsme akceptovali.

Definujeme parametr C, lambda a funkci spolehlivosti:

Čištění dat jako kámen, papír, nůžky. Je to hra s povrchem nebo bez něj? Část 2. Praktické
Obr.

V podstatě je lambda skutečným indikátorem intenzity, s jakou jsou chyby detekovány v každé fázi. Pokud se podíváte výše, předchozí odhad tohoto ukazatele byl 42,4 chyb za hodinu, což je zcela srovnatelné se Schumannovým ukazatelem. Pokud jde o první část tohoto materiálu, bylo zjištěno, že rychlost, s jakou vývojář nachází chyby, by neměla být nižší než 1 chyba na 250,4 záznamů při kontrole 1 záznamu za minutu. Z toho vyplývá kritická hodnota lambda pro Schumannův model:
60 / 250,4 = 0,239617.

To znamená, že potřeba provádět procedury detekce chyb musí být prováděna, dokud lambda ze stávajících 38,964 neklesne na 0,239617.

Nebo dokud indikátor N (potenciální počet chyb) mínus n (opravený počet chyb) neklesne pod námi přijatou hranici (v první části) - 1459 ks.

Část 1. Teoretická.

Zdroj: www.habr.com

Přidat komentář