В
Praktická časť je prezentovaná vo forme krokov. Všetko čistenie bolo vykonané v Exceli, pretože najbežnejší nástroj a opísané operácie dokáže zopakovať väčšina odborníkov, ktorí Excel poznajú. A celkom dobre sa hodí na ručnú prácu.
Nultou fázou bude spustenie a uloženie súboru, pretože má veľkosť 100 MB, takže pri počte týchto operácií, ktoré sú desiatky a stovky, zaberú značný čas.
Otvorenie je v priemere 30 sekúnd.
Úspora – 22 sekúnd.
Prvá fáza začína určením štatistických ukazovateľov súboru údajov.
Tabuľka 1. Štatistické ukazovatele súboru údajov
Technológia 2.1.
Vytvárame pomocné pole, mám ho pod číslom - AY. Pre každý záznam vytvoríme vzorec „=DĹŽKA(F365502)+DĹŽKA(G365502)+…+DĹŽKA(AW365502)“
Celkový čas strávený na stupni 2.1 (pre Schumannov vzorec) t21 = 1 hodina.
Počet zistených chýb v štádiu 2.1 (pre Schumannov vzorec) n21 = 0 ks.
Druhá fáza.
Kontrola komponentov súboru údajov.
2.2. Všetky hodnoty v záznamoch sú vytvorené pomocou štandardných symbolov. Preto sledujme štatistiky podľa symbolov.
Tabuľka 2. Štatistické ukazovatele znakov v súbore údajov s predbežnou analýzou výsledkov.
Technológia 2.2.1.
Vytvárame pomocné pole - „alfa1“. Pre každý záznam vytvoríme vzorec „=CONCATENATE(Hárok1!B9;...Hárok1!AQ9)“
Vytvárame fixnú Omega-1 bunku. Do tejto bunky budeme striedavo zadávať kódy znakov podľa Windows-1251 od 32 do 255.
Vytvárame pomocné pole - „alfa2“. So vzorcom „=NÁJSŤ(SYMBOL(Omega,1); „alfa1“,N)“.
Vytvárame pomocné pole - „alfa3“. So vzorcom „=AK(ISNUMBER(“alfa2”,N),1)”
Vytvorte pevnú bunku "Omega-2" so vzorcom "= SUM("alpha3"N1: "alpha3"N365498)"
Tabuľka 3. Výsledky predbežnej analýzy výsledkov
Tabuľka 4. Chyby zaznamenané v tejto fáze
Celkový čas strávený na stupni 2.2.1 (pre Schumannov vzorec) t221 = 8 hodina.
Počet opravených chýb v štádiu 2.2.1 (pre Schumannov vzorec) n221 = 0 ks.
Krok 3.
Tretím krokom je zaznamenanie stavu súboru údajov. Priradením každého záznamu jedinečné číslo (ID) a každé pole. Je to potrebné na porovnanie konvertovaného súboru údajov s pôvodným súborom. To je tiež potrebné na plné využitie možností zoskupovania a filtrovania. Tu sa opäť obrátime na tabuľku 2.2.2 a vyberieme symbol, ktorý sa v súbore údajov nepoužíva. Dostaneme to, čo je znázornené na obrázku 10.
Obr. 10. Priraďovanie identifikátorov.
Celkový čas strávený na stupni 3 (pre Schumannov vzorec) t3 = 0,75 hodina.
Počet zistených chýb v štádiu 3 (pre Schumannov vzorec) n3 = 0 ks.
Keďže Schumannov vzorec vyžaduje, aby sa etapa dokončila opravou chýb. Vráťme sa k fáze 2.
Krok 2.2.2.
V tomto kroku opravíme aj dvojité a trojité medzery.
Obr. Počet dvojitých medzier.
Oprava chýb uvedených v tabuľke 2.2.4.
Tabuľka 5. Fáza opravy chýb
Príklad, prečo je taký aspekt, ako je použitie písmen „e“ alebo „e“ významný, je uvedený na obrázku 12.
Obr. 12. Nezrovnalosť v písmene „e“.
Celkový čas strávený v kroku 2.2.2 t222 = 4 hodiny.
Počet zistených chýb v štádiu 2.2.2 (pre Schumannov vzorec) n222 = 583 ks.
Štvrtá etapa.
Kontrola redundancie poľa dobre zapadá do tejto fázy. Zo 44 polí je 6 polí:
7 - Účel konštrukcie
16 — Počet podzemných podlaží
17 - Nadradený objekt
21 - Rada obce
38 — Parametre štruktúry (popis)
40 – Kultúrne dedičstvo
Nemajú žiadne záznamy. To znamená, že sú nadbytočné.
Pole „22 – Mesto“ má jednu položku, obrázok 13.
Obr. 13. Jediný záznam je Z_348653 v poli „Mesto“.
Pole „34 – Názov budovy“ obsahuje položky, ktoré zjavne nezodpovedajú účelu poľa, obrázok 14.
Obr. 14. Príklad nevyhovujúceho záznamu.
Tieto polia zo súboru údajov vylúčime. A zmenu evidujeme v 214 záznamoch.
Celkový čas strávený na stupni 4 (pre Schumannov vzorec) t4 = 2,5 hodina.
Počet zistených chýb v štádiu 4 (pre Schumannov vzorec) n4 = 222 ks.
Tabuľka 6. Analýza indikátorov súboru údajov po 4. etape
Vo všeobecnosti pri analýze zmien ukazovateľov (tabuľka 6) môžeme povedať, že:
1) Pomer priemerného počtu symbolov k páke štandardnej odchýlky je blízko 3, to znamená, že existujú znaky normálneho rozdelenia (pravidlo šiestich sigma).
2) Výrazná odchýlka minimálnej a maximálnej páky od priemernej páky naznačuje, že štúdium chvostov je sľubným smerom pri hľadaní chýb.
Pozrime sa na výsledky hľadania chýb pomocou Schumannovej metodológie.
Nečinné štádiá
2.1. Celkový čas strávený na stupni 2.1 (pre Schumannov vzorec) t21 = 1 hodina.
Počet zistených chýb v štádiu 2.1 (pre Schumannov vzorec) n21 = 0 ks.
3. Celkový čas strávený na stupni 3 (pre Schumannov vzorec) t3 = 0,75 hodina.
Počet zistených chýb v štádiu 3 (pre Schumannov vzorec) n3 = 0 ks.
Efektívne etapy
2.2. Celkový čas strávený na stupni 2.2.1 (pre Schumannov vzorec) t221 = 8 hodina.
Počet opravených chýb v štádiu 2.2.1 (pre Schumannov vzorec) n221 = 0 ks.
Celkový čas strávený v kroku 2.2.2 t222 = 4 hodiny.
Počet zistených chýb v štádiu 2.2.2 (pre Schumannov vzorec) n222 = 583 ks.
Celkový čas strávený v kroku 2.2 t22 = 8 + 4 = 12 hodín.
Počet zistených chýb v štádiu 2.2.2 (pre Schumannov vzorec) n222 = 583 ks.
4. Celkový čas strávený na stupni 4 (pre Schumannov vzorec) t4 = 2,5 hodina.
Počet zistených chýb v štádiu 4 (pre Schumannov vzorec) n4 = 222 ks.
Keďže existuje nula štádií, ktoré musia byť zahrnuté v prvej fáze Schumannovho modelu, a na druhej strane, fázy 2.2 a 4 sú vo svojej podstate nezávislé, potom vzhľadom na to, že Schumannov model predpokladá, že zvýšením doby trvania kontroly sa pravdepodobnosť detekcie chyby klesá, to znamená, že prietok znižuje poruchy, potom preskúmaním tohto toku určíme, ktorý stupeň zaradiť ako prvý, podľa pravidla, kde je hustota porúch častejšia, zaradíme tento stupeň ako prvý.
Obr.
Zo vzorca na obrázku 15 vyplýva, že je vhodnejšie umiestniť štvrtý stupeň pred fázu 2.2 vo výpočtoch.
Pomocou Schumannovho vzorca určíme odhadovaný počiatočný počet chýb:
Obr.
Z výsledkov na obrázku 16 je vidieť, že predpokladaný počet chýb je N2 = 3167, čo je viac ako minimálne kritérium 1459.
V dôsledku opravy sme opravili 805 chýb a predpovedaný počet je 3167 – 805 = 2362, čo je stále viac ako minimálna hranica, ktorú sme akceptovali.
Definujeme parameter C, lambda a funkciu spoľahlivosti:
Obr.
V podstate je lambda skutočným indikátorom intenzity, s ktorou sa zisťujú chyby v každej fáze. Ak sa pozriete vyššie, predchádzajúci odhad tohto ukazovateľa bol 42,4 chýb za hodinu, čo je celkom porovnateľné so Schumannovým ukazovateľom. Pokiaľ ide o prvú časť tohto materiálu, zistilo sa, že rýchlosť, s akou vývojár nachádza chyby, by nemala byť nižšia ako 1 chyba na 250,4 záznamov pri kontrole 1 záznamu za minútu. Preto kritická hodnota lambda pre Schumannov model:
60 / 250,4 = 0,239617.
To znamená, že je potrebné vykonať postupy zisťovania chýb, kým lambda z existujúcich 38,964 neklesne na 0,239617.
Alebo kým indikátor N (potenciálny počet chýb) mínus n (opravený počet chýb) neklesne pod hranicu, ktorú sme akceptovali (v prvej časti) - 1459 ks.
Zdroj: hab.com