В
Praktická část je prezentována ve formě kroků. Veškeré čištění bylo provedeno v Excelu, protože nejběžnější nástroj a popsané operace dokáže zopakovat většina odborníků, kteří Excel znají. A docela dobře se hodí pro ruční práci.
Nultou fází bude práce se spuštěním a uložením souboru, protože má velikost 100 MB, pak při počtu desítek a stovek těchto operací zaberou značný čas.
Otevření je v průměru 30 sekund.
Úspora – 22 sec.
První fáze začíná stanovením statistických ukazatelů datového souboru.
Tabulka 1. Statistické ukazatele souboru dat
Technologie 2.1.
Vytvoříme si pomocné pole, mám ho pod číslem - AY. Pro každý záznam vytvoříme vzorec „=DÉLKA(F365502)+DÉLKA(G365502)+…+DÉLKA(AW365502)“
Celkový čas strávený ve fázi 2.1 (pro Schumannův vzorec) t21 = 1 hodina.
Počet nalezených chyb ve fázi 2.1 (pro Schumannův vzorec) n21 = 0 ks.
Druhá fáze.
Kontrola komponent datové sady.
2.2. Všechny hodnoty v záznamech jsou tvořeny pomocí standardních symbolů. Proto sledujme statistiky podle symbolů.
Tabulka 2. Statistické ukazatele znaků v souboru dat s předběžnou analýzou výsledků.
Technologie 2.2.1.
Vytvoříme pomocné pole – „alfa1“. Pro každý záznam vytvoříme vzorec „=CONCATENATE(List1!B9;...List1!AQ9)“
Vytváříme pevnou Omega-1 buňku. Do této buňky budeme střídavě zadávat kódy znaků podle Windows-1251 od 32 do 255.
Vytvoříme pomocné pole - „alfa2“. Se vzorcem “=NAJÍT(SYMBOL(Omega,1); “alfa1”,N)”.
Vytvoříme pomocné pole - „alfa3“. Se vzorcem “=IF(ISNUMBER(“alpha2”,N),1)”
Vytvořte pevnou buňku "Omega-2" se vzorcem "=SUM("alpha3"N1: "alpha3"N365498)"
Tabulka 3. Výsledky předběžné analýzy výsledků
Tabulka 4. Chyby zaznamenané v této fázi
Celkový čas strávený ve fázi 2.2.1 (pro Schumannův vzorec) t221 = 8 hodina.
Počet opravených chyb ve fázi 2.2.1 (pro Schumannův vzorec) n221 = 0 ks.
Krok 3.
Třetím krokem je zaznamenání stavu datové sady. Přidělením každého záznamu jedinečné číslo (ID) a každé pole. To je nezbytné pro porovnání převedeného datového souboru s původním. To je také nezbytné pro plné využití možností seskupování a filtrování. Zde opět přejdeme k tabulce 2.2.2 a vybereme symbol, který není použit v datové sadě. Dostaneme to, co je znázorněno na obrázku 10.
Obr. 10 Přidělování identifikátorů.
Celkový čas strávený ve fázi 3 (pro Schumannův vzorec) t3 = 0,75 hodina.
Počet nalezených chyb ve fázi 3 (pro Schumannův vzorec) n3 = 0 ks.
Protože Schumannův vzorec vyžaduje, aby byla fáze dokončena opravou chyb. Vraťme se do fáze 2.
Krok 2.2.2.
V tomto kroku také opravíme dvojité a trojité mezery.
Obr. 11 Počet dvojitých mezer.
Oprava chyb uvedených v tabulce 2.2.4.
Tabulka 5. Fáze opravy chyb
Příklad toho, proč je takový aspekt jako použití písmen „e“ nebo „e“ významný, je uveden na obrázku 12.
Obr. 12 Rozpor v písmenu „e“.
Celkový čas strávený v kroku 2.2.2 t222 = 4 hodiny.
Počet nalezených chyb ve fázi 2.2.2 (pro Schumannův vzorec) n222 = 583 ks.
Čtvrtá etapa.
Kontrola redundance pole do této fáze dobře zapadá. Ze 44 polí je 6 polí:
7 - Účel konstrukce
16 — Počet podzemních podlaží
17 - Nadřazený objekt
21 - Rada obce
38 — Parametry struktury (popis)
40 – Kulturní dědictví
Nemají žádné záznamy. To znamená, že jsou nadbytečné.
Pole „22 – Město“ má jednu položku, obrázek 13.
Obr. 13. Jediný záznam je Z_348653 v poli „Město“.
Pole „34 – Název budovy“ obsahuje položky, které zjevně neodpovídají účelu pole, Obrázek 14.
Obr. 14. Příklad nevyhovujícího záznamu.
Tato pole z datové sady vylučujeme. A změnu evidujeme ve 214 záznamech.
Celkový čas strávený ve fázi 4 (pro Schumannův vzorec) t4 = 2,5 hodina.
Počet nalezených chyb ve fázi 4 (pro Schumannův vzorec) n4 = 222 ks.
Tabulka 6. Analýza indikátorů souboru dat po 4. etapě
Obecně lze při analýze změn ukazatelů (tabulka 6) říci, že:
1) Poměr průměrného počtu symbolů k páce směrodatné odchylky se blíží 3, to znamená, že existují známky normálního rozdělení (pravidlo šest sigma).
2) Výrazná odchylka minimální a maximální páky od průměrné páky naznačuje, že studium ocasů je slibným směrem při hledání chyb.
Prozkoumejme výsledky hledání chyb pomocí Schumannovy metodologie.
Nečinné fáze
2.1. Celkový čas strávený ve fázi 2.1 (pro Schumannův vzorec) t21 = 1 hodina.
Počet nalezených chyb ve fázi 2.1 (pro Schumannův vzorec) n21 = 0 ks.
3. Celkový čas strávený ve fázi 3 (pro Schumannův vzorec) t3 = 0,75 hodina.
Počet nalezených chyb ve fázi 3 (pro Schumannův vzorec) n3 = 0 ks.
Efektivní fáze
2.2. Celkový čas strávený ve fázi 2.2.1 (pro Schumannův vzorec) t221 = 8 hodina.
Počet opravených chyb ve fázi 2.2.1 (pro Schumannův vzorec) n221 = 0 ks.
Celkový čas strávený v kroku 2.2.2 t222 = 4 hodiny.
Počet nalezených chyb ve fázi 2.2.2 (pro Schumannův vzorec) n222 = 583 ks.
Celkový čas strávený v kroku 2.2 t22 = 8 + 4 = 12 hodin.
Počet nalezených chyb ve fázi 2.2.2 (pro Schumannův vzorec) n222 = 583 ks.
4. Celkový čas strávený ve fázi 4 (pro Schumannův vzorec) t4 = 2,5 hodina.
Počet nalezených chyb ve fázi 4 (pro Schumannův vzorec) n4 = 222 ks.
Protože existuje nula fází, které musí být zahrnuty do první fáze Schumannova modelu, a na druhé straně fáze 2.2 a 4 jsou inherentně nezávislé, pak vzhledem k tomu, že Schumannův model předpokládá, že zvýšením doby trvání kontroly se pravděpodobnost detekce chyby klesá, to znamená, že průtok snižuje poruchy, pak zkoumáním tohoto toku určíme, který stupeň zařadit jako první, podle pravidla, kde je hustota poruch častější, zařadíme tento stupeň jako první.
Obr.
Ze vzorce na obrázku 15 vyplývá, že je vhodnější umístit čtvrtý stupeň před stupeň 2.2 ve výpočtech.
Pomocí Schumannova vzorce určíme odhadovaný počáteční počet chyb:
Obr.
Z výsledků na obrázku 16 je vidět, že předpokládaný počet chyb je N2 = 3167, což je více než minimální kritérium 1459.
V důsledku opravy jsme opravili 805 chyb a predikovaný počet je 3167 – 805 = 2362, což je stále více než minimální hranice, kterou jsme akceptovali.
Definujeme parametr C, lambda a funkci spolehlivosti:
Obr.
V podstatě je lambda skutečným indikátorem intenzity, s jakou jsou chyby detekovány v každé fázi. Pokud se podíváte výše, předchozí odhad tohoto ukazatele byl 42,4 chyb za hodinu, což je zcela srovnatelné se Schumannovým ukazatelem. Pokud jde o první část tohoto materiálu, bylo zjištěno, že rychlost, s jakou vývojář nachází chyby, by neměla být nižší než 1 chyba na 250,4 záznamů při kontrole 1 záznamu za minutu. Z toho vyplývá kritická hodnota lambda pro Schumannův model:
60 / 250,4 = 0,239617.
To znamená, že potřeba provádět procedury detekce chyb musí být prováděna, dokud lambda ze stávajících 38,964 neklesne na 0,239617.
Nebo dokud indikátor N (potenciální počet chyb) mínus n (opravený počet chyb) neklesne pod námi přijatou hranici (v první části) - 1459 ks.
Zdroj: www.habr.com