Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično

В prvi dio opisano je da je ova publikacija izrađena na temelju skupa podataka o rezultatima katastarske procjene nekretnina u autonomnom okrugu Khanty-Mansi.

Praktični dio je prikazan u obliku koraka. Sva čišćenja su napravljena u Excelu, budući da najčešći alat i opisane operacije može ponoviti većina stručnjaka koji poznaju Excel. I vrlo dobro prilagođen za rad ruku u ruku.

Nulta faza bit će rad na pokretanju i spremanju datoteke, budući da je veličine 100 MB, a broj ovih operacija je desetine i stotine, te zahtijevaju dosta vremena.
Otvaranje, u prosjeku, traje 30 sekundi.
Spremanje – 22 sek.

Prva faza započinje određivanjem statističkih pokazatelja skupa podataka.

Tablica 1. Statistički pokazatelji skupa podataka
Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično

Tehnologija 2.1.

Stvaramo pomoćno polje, imam ga pod brojem - AY. Za svaki unos formiramo formulu "=DULJINA(F365502)+DULJINA(G365502)+...+DULJINA(AW365502)"

Ukupno vrijeme provedeno na stupnju 2.1 (za Schumannovu formulu) t21 = 1 sat.
Broj pogrešaka pronađenih u fazi 2.1 (za Schumannovu formulu) n21 = 0 kom.

Druga faza.
Provjera komponenti skupa podataka.
2.2. Sve vrijednosti u zapisima formiraju se pomoću standardnih simbola. Stoga, pratimo statistiku po simbolima.

Tablica 2. Statistički pokazatelji znakova u skupu podataka s preliminarnom analizom rezultata.Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično

Tehnologija 2.2.1.

Stvaramo pomoćno polje - "alpha1". Za svaki zapis formiramo formulu “=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)”
Stvaramo fiksnu stanicu Omega-1. U ovu ćeliju ćemo naizmjenično unositi kodove znakova prema Windows-1251 od 32 do 255.
Stvaramo pomoćno polje - "alpha2". S formulom “=NAĐI(SIMBOL(Omega,1); “alfa1”,N)”.
Stvaramo pomoćno polje - "alpha3". S formulom "=IF(ISBROJ("alpha2",N),1)"
Napravite fiksnu ćeliju "Omega-2" s formulom "=SUM("alpha3"N1: "alpha3"N365498)"

Tablica 3. Rezultati preliminarne analize rezultataOčistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično

Tablica 4. Pogreške zabilježene u ovoj faziOčistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično

Ukupno vrijeme provedeno na stupnju 2.2.1 (za Schumannovu formulu) t221 = 8 sat.
Broj ispravljenih pogrešaka u fazi 2.2.1 (za Schumannovu formulu) n221 = 0 kom.

Korak 3.
Treći korak je snimanje stanja skupa podataka. Dodjeljivanjem svakom zapisu jedinstvenog broja (ID) i svakom polju. Ovo je neophodno za usporedbu pretvorenog skupa podataka s izvornim. Ovo je također neophodno kako bi se u potpunosti iskoristile mogućnosti grupiranja i filtriranja. Ovdje ponovno prelazimo na tablicu 2.2.2 i odabiremo simbol koji se ne koristi u skupu podataka. Dobili smo ono što je prikazano na slici 10.

Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Slika 10. Dodjeljivanje identifikatora.

Ukupno vrijeme provedeno na stupnju 3 (za Schumannovu formulu) t3 = 0,75 sat.
Broj pogrešaka pronađenih u fazi 3 (za Schumannovu formulu) n3 = 0 kom.

Budući da Schumannova formula zahtijeva da se faza završi ispravljanjem pogrešaka. Vratimo se na fazu 2.

Korak 2.2.2.
U ovom koraku također ćemo ispraviti dvostruke i trostruke razmake.
Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Slika 11. Broj duplih razmaka.

Ispravak grešaka identificiranih u tablici 2.2.4.

Tablica 5. Faza ispravljanja pogreškeOčistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično

Primjer zašto je takav aspekt kao što je upotreba slova "e" ili "e" značajan prikazan je na slici 12.

Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Slika 12. Neslaganje u slovu "e".

Ukupno vrijeme potrošeno u koraku 2.2.2 t222 = 4 sata.
Broj pogrešaka pronađenih u fazi 2.2.2 (za Schumannovu formulu) n222 = 583 kom.

Četvrta faza.
Provjera redundancije polja dobro se uklapa u ovu fazu. Od 44 polja, 6 polja:
7 - Namjena strukture
16 — Broj podzemnih etaža
17 - Nadređeni objekt
21 - Seosko vijeće
38 — Parametri strukture (opis)
40 – Kulturna baština

Nemaju nikakvih unosa. Odnosno, oni su suvišni.
Polje “22 – Grad” ima jedan jedini unos, slika 13.

Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Slika 13. Jedini unos je Z_348653 u polju “Grad”.

Polje “34 - Naziv građevine” sadrži unose koji očito ne odgovaraju namjeni polja, slika 14.

Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Slika 14. Primjer nesukladnog unosa.

Ova polja isključujemo iz skupa podataka. A promjenu bilježimo u 214 zapisa.

Ukupno vrijeme provedeno na stupnju 4 (za Schumannovu formulu) t4 = 2,5 sat.
Broj pogrešaka pronađenih u fazi 4 (za Schumannovu formulu) n4 = 222 kom.

Tablica 6. Analiza pokazatelja skupa podataka nakon 4. faze

Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično

Općenito, analizirajući promjene pokazatelja (tablica 6) možemo reći da:
1) Omjer prosječnog broja simbola i poluge standardne devijacije je blizu 3, odnosno postoje znakovi normalne distribucije (pravilo šest sigma).
2) Značajno odstupanje minimalne i maksimalne poluge od prosječne poluge sugerira da je proučavanje repova obećavajući smjer pri traženju pogrešaka.

Ispitajmo rezultate pronalaženja pogrešaka pomoću Schumannove metodologije.

Prazni stupnjevi

2.1. Ukupno vrijeme provedeno na stupnju 2.1 (za Schumannovu formulu) t21 = 1 sat.
Broj pogrešaka pronađenih u fazi 2.1 (za Schumannovu formulu) n21 = 0 kom.

3. Ukupno vrijeme provedeno na stupnju 3 (za Schumannovu formulu) t3 = 0,75 sat.
Broj pogrešaka pronađenih u fazi 3 (za Schumannovu formulu) n3 = 0 kom.

Učinkovite faze
2.2. Ukupno vrijeme provedeno na stupnju 2.2.1 (za Schumannovu formulu) t221 = 8 sat.
Broj ispravljenih pogrešaka u fazi 2.2.1 (za Schumannovu formulu) n221 = 0 kom.
Ukupno vrijeme potrošeno u koraku 2.2.2 t222 = 4 sata.
Broj pogrešaka pronađenih u fazi 2.2.2 (za Schumannovu formulu) n222 = 583 kom.

Ukupno vrijeme potrošeno u koraku 2.2 t22 = 8 + 4 = 12 sati.
Broj pogrešaka pronađenih u fazi 2.2.2 (za Schumannovu formulu) n222 = 583 kom.

4. Ukupno vrijeme provedeno na stupnju 4 (za Schumannovu formulu) t4 = 2,5 sat.
Broj pogrešaka pronađenih u fazi 4 (za Schumannovu formulu) n4 = 222 kom.

Budući da postoji nula stupnjeva koji moraju biti uključeni u prvi stupanj Schumannova modela, a s druge strane, stupnjevi 2.2 i 4 su inherentno neovisni, s obzirom da Schumannov model pretpostavlja da povećanjem trajanja provjere, vjerojatnost otkrivanja greške smanjuje, odnosno tok smanjuje kvarove, onda ćemo ispitivanjem tog toka odrediti koji stupanj staviti na prvo mjesto, prema pravilu, gdje je gustoća kvara češća, taj ćemo stupanj staviti na prvo mjesto.

Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Sl. 15.

Iz formule na slici 15. proizlazi da je poželjno staviti četvrti stupanj ispred stupnja 2.2 u izračunima.

Pomoću Schumannove formule određujemo procijenjeni početni broj pogrešaka:

Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Sl. 16.

Iz rezultata na slici 16 vidljivo je da je predviđeni broj grešaka N2 = 3167, što je više od minimalnog kriterija od 1459.

Kao rezultat ispravka, ispravili smo 805 pogrešaka, a predviđeni broj je 3167 – 805 = 2362, što je još uvijek više od minimalnog praga koji smo prihvatili.

Definiramo parametar C, lambda i funkciju pouzdanosti:

Očistite podatke poput igre Kamen, papir i škare. Je li ovo igra sa ili bez kraja? Dio 2. Praktično
Sl. 17.

U biti, lambda je stvarni pokazatelj intenziteta s kojim se pogreške otkrivaju u svakoj fazi. Ako pogledate gore, prethodna procjena ovog pokazatelja bila je 42,4 pogreške po satu, što je sasvim usporedivo sa Schumannovim pokazateljem. Vraćajući se na prvi dio ovog materijala, utvrđeno je da stopa kojom programer pronalazi pogreške ne smije biti niža od 1 pogreške na 250,4 zapisa, kada se provjerava 1 zapis u minuti. Otuda kritična vrijednost lambda za Schumannov model:
60 / 250,4 = 0,239617.

Odnosno, potrebno je provoditi postupke otkrivanja grešaka sve dok se lambda s postojećih 38,964 ne smanji na 0,239617.

Ili dok se pokazatelj N (potencijalni broj grešaka) minus n (ispravljeni broj grešaka) ne smanji ispod praga koji smo prihvatili (u prvom dijelu) - 1459 kom.

Dio 1. Teorijski.

Izvor: www.habr.com

Dodajte komentar