Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické

В časť prvá bolo opísané, že táto publikácia bola vypracovaná na základe súboru údajov výsledkov katastrálneho oceňovania nehnuteľností v autonómnom okruhu Chanty-Mansi.

Praktická časť je prezentovaná vo forme krokov. Všetko čistenie bolo vykonané v Exceli, pretože najbežnejší nástroj a opísané operácie dokáže zopakovať väčšina odborníkov, ktorí Excel poznajú. A celkom dobre sa hodí na ručnú prácu.

Nultou fázou bude spustenie a uloženie súboru, pretože má veľkosť 100 MB, takže pri počte týchto operácií, ktoré sú desiatky a stovky, zaberú značný čas.
Otvorenie je v priemere 30 sekúnd.
Úspora – 22 sekúnd.

Prvá fáza začína určením štatistických ukazovateľov súboru údajov.

Tabuľka 1. Štatistické ukazovatele súboru údajov
Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické

Technológia 2.1.

Vytvárame pomocné pole, mám ho pod číslom - AY. Pre každý záznam vytvoríme vzorec „=DĹŽKA(F365502)+DĹŽKA(G365502)+…+DĹŽKA(AW365502)“

Celkový čas strávený na stupni 2.1 (pre Schumannov vzorec) t21 = 1 hodina.
Počet zistených chýb v štádiu 2.1 (pre Schumannov vzorec) n21 = 0 ks.

Druhá fáza.
Kontrola komponentov súboru údajov.
2.2. Všetky hodnoty v záznamoch sú vytvorené pomocou štandardných symbolov. Preto sledujme štatistiky podľa symbolov.

Tabuľka 2. Štatistické ukazovatele znakov v súbore údajov s predbežnou analýzou výsledkov.Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické

Technológia 2.2.1.

Vytvárame pomocné pole - „alfa1“. Pre každý záznam vytvoríme vzorec „=CONCATENATE(Hárok1!B9;...Hárok1!AQ9)“
Vytvárame fixnú Omega-1 bunku. Do tejto bunky budeme striedavo zadávať kódy znakov podľa Windows-1251 od 32 do 255.
Vytvárame pomocné pole - „alfa2“. So vzorcom „=NÁJSŤ(SYMBOL(Omega,1); „alfa1“,N)“.
Vytvárame pomocné pole - „alfa3“. So vzorcom „=AK(ISNUMBER(“alfa2”,N),1)”
Vytvorte pevnú bunku "Omega-2" so vzorcom "= SUM("alpha3"N1: "alpha3"N365498)"

Tabuľka 3. Výsledky predbežnej analýzy výsledkovVyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické

Tabuľka 4. Chyby zaznamenané v tejto fázeVyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické

Celkový čas strávený na stupni 2.2.1 (pre Schumannov vzorec) t221 = 8 hodina.
Počet opravených chýb v štádiu 2.2.1 (pre Schumannov vzorec) n221 = 0 ks.

Krok 3.
Tretím krokom je zaznamenanie stavu súboru údajov. Priradením každého záznamu jedinečné číslo (ID) a každé pole. Je to potrebné na porovnanie konvertovaného súboru údajov s pôvodným súborom. To je tiež potrebné na plné využitie možností zoskupovania a filtrovania. Tu sa opäť obrátime na tabuľku 2.2.2 a vyberieme symbol, ktorý sa v súbore údajov nepoužíva. Dostaneme to, čo je znázornené na obrázku 10.

Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Obr. 10. Priraďovanie identifikátorov.

Celkový čas strávený na stupni 3 (pre Schumannov vzorec) t3 = 0,75 hodina.
Počet zistených chýb v štádiu 3 (pre Schumannov vzorec) n3 = 0 ks.

Keďže Schumannov vzorec vyžaduje, aby sa etapa dokončila opravou chýb. Vráťme sa k fáze 2.

Krok 2.2.2.
V tomto kroku opravíme aj dvojité a trojité medzery.
Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Obr. Počet dvojitých medzier.

Oprava chýb uvedených v tabuľke 2.2.4.

Tabuľka 5. Fáza opravy chýbVyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické

Príklad, prečo je taký aspekt, ako je použitie písmen „e“ alebo „e“ významný, je uvedený na obrázku 12.

Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Obr. 12. Nezrovnalosť v písmene „e“.

Celkový čas strávený v kroku 2.2.2 t222 = 4 hodiny.
Počet zistených chýb v štádiu 2.2.2 (pre Schumannov vzorec) n222 = 583 ks.

Štvrtá etapa.
Kontrola redundancie poľa dobre zapadá do tejto fázy. Zo 44 polí je 6 polí:
7 - Účel konštrukcie
16 — Počet podzemných podlaží
17 - Nadradený objekt
21 - Rada obce
38 — Parametre štruktúry (popis)
40 – Kultúrne dedičstvo

Nemajú žiadne záznamy. To znamená, že sú nadbytočné.
Pole „22 – Mesto“ má jednu položku, obrázok 13.

Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Obr. 13. Jediný záznam je Z_348653 v poli „Mesto“.

Pole „34 – Názov budovy“ obsahuje položky, ktoré zjavne nezodpovedajú účelu poľa, obrázok 14.

Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Obr. 14. Príklad nevyhovujúceho záznamu.

Tieto polia zo súboru údajov vylúčime. A zmenu evidujeme v 214 záznamoch.

Celkový čas strávený na stupni 4 (pre Schumannov vzorec) t4 = 2,5 hodina.
Počet zistených chýb v štádiu 4 (pre Schumannov vzorec) n4 = 222 ks.

Tabuľka 6. Analýza indikátorov súboru údajov po 4. etape

Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické

Vo všeobecnosti pri analýze zmien ukazovateľov (tabuľka 6) môžeme povedať, že:
1) Pomer priemerného počtu symbolov k páke štandardnej odchýlky je blízko 3, to znamená, že existujú znaky normálneho rozdelenia (pravidlo šiestich sigma).
2) Výrazná odchýlka minimálnej a maximálnej páky od priemernej páky naznačuje, že štúdium chvostov je sľubným smerom pri hľadaní chýb.

Pozrime sa na výsledky hľadania chýb pomocou Schumannovej metodológie.

Nečinné štádiá

2.1. Celkový čas strávený na stupni 2.1 (pre Schumannov vzorec) t21 = 1 hodina.
Počet zistených chýb v štádiu 2.1 (pre Schumannov vzorec) n21 = 0 ks.

3. Celkový čas strávený na stupni 3 (pre Schumannov vzorec) t3 = 0,75 hodina.
Počet zistených chýb v štádiu 3 (pre Schumannov vzorec) n3 = 0 ks.

Efektívne etapy
2.2. Celkový čas strávený na stupni 2.2.1 (pre Schumannov vzorec) t221 = 8 hodina.
Počet opravených chýb v štádiu 2.2.1 (pre Schumannov vzorec) n221 = 0 ks.
Celkový čas strávený v kroku 2.2.2 t222 = 4 hodiny.
Počet zistených chýb v štádiu 2.2.2 (pre Schumannov vzorec) n222 = 583 ks.

Celkový čas strávený v kroku 2.2 t22 = 8 + 4 = 12 hodín.
Počet zistených chýb v štádiu 2.2.2 (pre Schumannov vzorec) n222 = 583 ks.

4. Celkový čas strávený na stupni 4 (pre Schumannov vzorec) t4 = 2,5 hodina.
Počet zistených chýb v štádiu 4 (pre Schumannov vzorec) n4 = 222 ks.

Keďže existuje nula štádií, ktoré musia byť zahrnuté v prvej fáze Schumannovho modelu, a na druhej strane, fázy 2.2 a 4 sú vo svojej podstate nezávislé, potom vzhľadom na to, že Schumannov model predpokladá, že zvýšením doby trvania kontroly sa pravdepodobnosť detekcie chyby klesá, to znamená, že prietok znižuje poruchy, potom preskúmaním tohto toku určíme, ktorý stupeň zaradiť ako prvý, podľa pravidla, kde je hustota porúch častejšia, zaradíme tento stupeň ako prvý.

Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Obr.

Zo vzorca na obrázku 15 vyplýva, že je vhodnejšie umiestniť štvrtý stupeň pred fázu 2.2 vo výpočtoch.

Pomocou Schumannovho vzorca určíme odhadovaný počiatočný počet chýb:

Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Obr.

Z výsledkov na obrázku 16 je vidieť, že predpokladaný počet chýb je N2 = 3167, čo je viac ako minimálne kritérium 1459.

V dôsledku opravy sme opravili 805 chýb a predpovedaný počet je 3167 – 805 = 2362, čo je stále viac ako minimálna hranica, ktorú sme akceptovali.

Definujeme parameter C, lambda a funkciu spoľahlivosti:

Vyčistite dáta ako v hre kameň, papier, nožnice. Je to hra s koncom alebo bez neho? Časť 2. Praktické
Obr.

V podstate je lambda skutočným indikátorom intenzity, s ktorou sa zisťujú chyby v každej fáze. Ak sa pozriete vyššie, predchádzajúci odhad tohto ukazovateľa bol 42,4 chýb za hodinu, čo je celkom porovnateľné so Schumannovým ukazovateľom. Pokiaľ ide o prvú časť tohto materiálu, zistilo sa, že rýchlosť, s akou vývojár nachádza chyby, by nemala byť nižšia ako 1 chyba na 250,4 záznamov pri kontrole 1 záznamu za minútu. Preto kritická hodnota lambda pre Schumannov model:
60 / 250,4 = 0,239617.

To znamená, že je potrebné vykonať postupy zisťovania chýb, kým lambda z existujúcich 38,964 neklesne na 0,239617.

Alebo kým indikátor N (potenciálny počet chýb) mínus n (opravený počet chýb) neklesne pod hranicu, ktorú sme akceptovali (v prvej časti) - 1459 ks.

Časť 1. Teoretická.

Zdroj: hab.com

Pridať komentár