Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično

В prvi dio opisano je da je ova publikacija napravljena na osnovu skupa podataka rezultata katastarske procjene nekretnina u Hanti-Mansijskom autonomnom okrugu.

Praktični dio je predstavljen u obliku koraka. Čišćenje je urađeno u Excelu, budući da najčešći alat i opisane operacije može ponoviti većina stručnjaka koji poznaju Excel. I prilično pogodan za ručni rad.

Nulta faza će biti rad na pokretanju i čuvanju datoteke, budući da je veličine 100 MB, a s obzirom da je broj ovih operacija na desetine i stotine, one oduzimaju značajno vrijeme.
Otvaranje je u prosjeku 30 sekundi.
Ušteda – 22 sek.

Prva faza počinje određivanjem statističkih pokazatelja skupa podataka.

Tabela 1. Statistički pokazatelji skupa podataka
Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično

Tehnologija 2.1.

Kreiramo pomoćno polje, imam ga pod brojem - AY. Za svaki unos formiramo formulu “=DUŽINA(F365502)+DUŽINA(G365502)+…+DUŽINA(AW365502)”

Ukupno vrijeme provedeno na fazi 2.1 (za Schumannu formulu) t21 = 1 sat.
Broj pronađenih grešaka u fazi 2.1 (za Šumanovu formulu) n21 = 0 kom.

Druga faza.
Provjera komponenti skupa podataka.
2.2. Sve vrijednosti u zapisima se formiraju pomoću standardnih simbola. Stoga, pratimo statistiku po simbolima.

Tabela 2. Statistički pokazatelji karaktera u skupu podataka sa preliminarnom analizom rezultata.Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično

Tehnologija 2.2.1.

Kreiramo pomoćno polje - “alpha1”. Za svaki zapis formiramo formulu “=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)”
Stvaramo fiksnu Omega-1 ćeliju. Naizmjenično ćemo unositi znakovne kodove prema Windows-1251 od 32 do 255 u ovu ćeliju.
Kreiramo pomoćno polje - “alpha2”. Sa formulom “=PRONAĐI(SIMBOL(Omega,1); “alfa1”,N)”.
Kreiramo pomoćno polje - “alpha3”. Sa formulom “=IF(ISBROJ(“alfa2”,N),1)”
Napravite fiksnu ćeliju “Omega-2”, sa formulom “=SUM(“alpha3”N1: “alpha3”N365498)”

Tabela 3. Rezultati preliminarne analize rezultataČišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično

Tabela 4. Greške zabilježene u ovoj faziČišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično

Ukupno vrijeme provedeno na fazi 2.2.1 (za Schumannu formulu) t221 = 8 sat.
Broj ispravljenih grešaka u fazi 2.2.1 (za Šumanovu formulu) n221 = 0 kom.

Faza 3.
Treći korak je snimanje stanja skupa podataka. Dodjeljujući svakom zapisu jedinstveni broj (ID) i svako polje. Ovo je neophodno za upoređivanje konvertovanog skupa podataka sa originalnim. Ovo je takođe neophodno da bi se u potpunosti iskoristile mogućnosti grupisanja i filtriranja. Ovdje ponovo prelazimo na tabelu 2.2.2 i biramo simbol koji se ne koristi u skupu podataka. Dobijamo ono što je prikazano na slici 10.

Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Slika 10. Dodjela identifikatora.

Ukupno vrijeme provedeno na fazi 3 (za Schumannu formulu) t3 = 0,75 sat.
Broj pronađenih grešaka u fazi 3 (za Šumanovu formulu) n3 = 0 kom.

Budući da Schumannova formula zahtijeva da se faza završi ispravljanjem grešaka. Vratimo se na fazu 2.

Faza 2.2.2.
U ovom koraku ćemo također ispraviti dvostruke i trostruke razmake.
Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Slika 11. Broj duplih razmaka.

Ispravka grešaka identifikovanih u tabeli 2.2.4.

Tabela 5. Faza ispravljanja greškeČišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično

Primjer zašto je takav aspekt kao što je upotreba slova “e” ili “e” značajan prikazan je na slici 12.

Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Slika 12. Neslaganje u slovu "e".

Ukupno vrijeme provedeno u koraku 2.2.2 t222 = 4 sata.
Broj pronađenih grešaka u fazi 2.2.2 (za Šumanovu formulu) n222 = 583 kom.

Četvrta faza.
Provjera zaliha polja dobro se uklapa u ovu fazu. Od 44 polja, 6 polja:
7 - Namjena strukture
16 — Broj podzemnih spratova
17 - Roditeljski objekt
21 - Seosko vijeće
38 — Parametri strukture (opis)
40 – Kulturna baština

Nemaju nijedan unos. Odnosno, oni su suvišni.
Polje „22 – Grad“ ima jedan jedini unos, slika 13.

Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Slika 13. Jedini unos je Z_348653 u polju “Grad”.

Polje “34 - Naziv zgrade” sadrži unose koji očigledno ne odgovaraju namjeni polja, slika 14.

Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Slika 14. Primjer unosa koji nije usklađen.

Isključujemo ova polja iz skupa podataka. I mi bilježimo promjenu u 214 zapisa.

Ukupno vrijeme provedeno na fazi 4 (za Schumannu formulu) t4 = 2,5 sat.
Broj pronađenih grešaka u fazi 4 (za Šumanovu formulu) n4 = 222 kom.

Tabela 6. Analiza indikatora skupa podataka nakon 4. faze

Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično

Generalno, analizirajući promjene indikatora (Tabela 6) možemo reći da:
1) Odnos prosječnog broja simbola i poluge standardne devijacije je blizu 3, odnosno postoje znakovi normalne distribucije (pravilo šest sigma).
2) Značajno odstupanje minimalne i maksimalne poluge od prosječne poluge sugerira da je proučavanje repova obećavajući smjer pri traženju grešaka.

Hajde da ispitamo rezultate pronalaženja grešaka koristeći Šumanovu metodologiju.

Idle stages

2.1. Ukupno vrijeme provedeno na fazi 2.1 (za Schumannu formulu) t21 = 1 sat.
Broj pronađenih grešaka u fazi 2.1 (za Šumanovu formulu) n21 = 0 kom.

3. Ukupno vrijeme provedeno na fazi 3 (za Schumannu formulu) t3 = 0,75 sat.
Broj pronađenih grešaka u fazi 3 (za Šumanovu formulu) n3 = 0 kom.

Efektivne faze
2.2. Ukupno vrijeme provedeno na fazi 2.2.1 (za Schumannu formulu) t221 = 8 sat.
Broj ispravljenih grešaka u fazi 2.2.1 (za Šumanovu formulu) n221 = 0 kom.
Ukupno vrijeme provedeno u koraku 2.2.2 t222 = 4 sata.
Broj pronađenih grešaka u fazi 2.2.2 (za Šumanovu formulu) n222 = 583 kom.

Ukupno vrijeme provedeno u koraku 2.2 t22 = 8 + 4 = 12 sati.
Broj pronađenih grešaka u fazi 2.2.2 (za Šumanovu formulu) n222 = 583 kom.

4. Ukupno vrijeme provedeno na fazi 4 (za Schumannu formulu) t4 = 2,5 sat.
Broj pronađenih grešaka u fazi 4 (za Šumanovu formulu) n4 = 222 kom.

Budući da postoje nulte faze koje moraju biti uključene u prvu fazu Schumanovog modela, a s druge strane, faze 2.2 i 4 su inherentno nezavisne, onda s obzirom na to da Schumannov model pretpostavlja da povećanjem trajanja provjere, vjerovatnoća detekcije greške se smanjuje, odnosno tok smanjuje kvarove, onda ćemo ispitivanjem ovog toka odrediti koji stepen staviti prvi, po pravilu, gdje je gustina kvarova češća, tu fazu ćemo staviti na prvo mjesto.

Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Slika 15.

Iz formule na slici 15 proizilazi da je bolje staviti četvrti stupanj prije faze 2.2 u proračunima.

Koristeći Schumannovu formulu, određujemo procijenjeni početni broj grešaka:

Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Slika 16.

Iz rezultata na slici 16 može se vidjeti da je predviđeni broj grešaka N2 = 3167, što je više od minimalnog kriterija od 1459.

Kao rezultat korekcije ispravljeno je 805 grešaka, a predviđeni broj je 3167 – 805 = 2362, što je i dalje više od minimalnog praga koji smo prihvatili.

Definiramo parametar C, lambda i funkciju pouzdanosti:

Čišćenje podataka kao što su kamen, papir, makaze. Je li ovo igra sa ili bez završetka? Dio 2. Praktično
Slika 17.

U suštini, lambda je stvarni indikator intenziteta u kojem se greške otkrivaju u svakoj fazi. Ako pogledate gore, prethodna procjena ovog indikatora bila je 42,4 greške na sat, što je prilično uporedivo sa Schumanovim indikatorom. Vraćajući se prvom dijelu ovog materijala, utvrđeno je da stopa po kojoj programer pronalazi greške ne smije biti niža od 1 greške na 250,4 zapisa, pri provjeri 1 zapisa u minuti. Otuda kritična vrijednost lambde za Schumannov model:
60 / 250,4 = 0,239617.

Odnosno, potreba za provođenjem procedura detekcije grešaka mora se provoditi sve dok se lambda, sa postojećih 38,964, ne smanji na 0,239617.

Ili dok indikator N (potencijalni broj grešaka) minus n (ispravljeni broj grešaka) ne padne ispod praga koji smo prihvatili (u prvom delu) - 1459 kom.

Dio 1. Teorijski.

izvor: www.habr.com

Dodajte komentar