Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično

В prvi del opisano je bilo, da je bila ta objava narejena na podlagi nabora podatkov rezultatov katastrskega vrednotenja nepremičnin v avtonomnem okrožju Khanty-Mansi.

Praktični del je predstavljen v obliki korakov. Vse čiščenje je potekalo v Excelu, saj najpogostejše orodje in opisane operacije lahko ponovi večina strokovnjakov, ki poznajo Excel. In zelo primeren za ročno delo.

Ničelna stopnja bo delo zagona in shranjevanja datoteke, saj je velika 100 MB, potem pa s številom teh operacij na desetine in stotine vzamejo precej časa.
Odpiranje je v povprečju 30 sekund.
Shranjevanje – 22 sek.

Prva faza se začne z določitvijo statističnih kazalcev nabora podatkov.

Tabela 1. Statistični indikatorji nabora podatkov
Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično

Tehnologija 2.1.

Ustvarimo pomožno polje, imam ga pod številko - AY. Za vsak vnos oblikujemo formulo »=DOLŽINA(F365502)+DOLŽINA(G365502)+…+DOLŽINA(AW365502)«

Skupni čas, porabljen na stopnji 2.1 (za Schumannovo formulo) t21 = 1 ura.
Število napak, ugotovljenih na stopnji 2.1 (za Schumannovo formulo) n21 = 0 kosov.

Druga faza.
Preverjanje komponent nabora podatkov.
2.2. Vse vrednosti v zapisih so oblikovane s standardnimi simboli. Zato spremljajmo statistiko po simbolih.

Tabela 2. Statistični indikatorji znakov v naboru podatkov s predhodno analizo rezultatov.Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično

Tehnologija 2.2.1.

Ustvarimo pomožno polje - "alpha1". Za vsak zapis oblikujemo formulo »=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)«
Ustvarimo fiksno celico Omega-1. V to celico bomo izmenično vnašali kode znakov po Windows-1251 od 32 do 255.
Ustvarimo pomožno polje - "alpha2". S formulo “=NAJDI(SIMBOL(Omega,1); “alfa1”,N)”.
Ustvarimo pomožno polje - "alpha3". S formulo "=ČE(ISŠTEVIL("alfa2",N),1)"
Ustvarite fiksno celico "Omega-2" s formulo "=SUM("alpha3"N1: "alpha3"N365498)"

Tabela 3. Rezultati predhodne analize rezultatovOčistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično

Tabela 4. Napake, zabeležene na tej stopnjiOčistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično

Skupni čas, porabljen na stopnji 2.2.1 (za Schumannovo formulo) t221 = 8 ura.
Število popravljenih napak na stopnji 2.2.1 (za Schumannovo formulo) n221 = 0 kos.

Korak 3.
Tretji korak je beleženje stanja nabora podatkov. Tako, da vsakemu zapisu dodelite edinstveno številko (ID) in vsakemu polju. To je potrebno za primerjavo pretvorjenega nabora podatkov z izvirnim. To je potrebno tudi za popoln izkoristek zmožnosti združevanja in filtriranja. Tukaj se ponovno obrnemo na tabelo 2.2.2 in izberemo simbol, ki ni uporabljen v naboru podatkov. Dobimo, kar je prikazano na sliki 10.

Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Slika 10. Dodeljevanje identifikatorjev.

Skupni čas, porabljen na stopnji 3 (za Schumannovo formulo) t3 = 0,75 ura.
Število napak, ugotovljenih na stopnji 3 (za Schumannovo formulo) n3 = 0 kosov.

Ker Schumannova formula zahteva, da se stopnja zaključi s popravljanjem napak. Vrnimo se k 2. stopnji.

Korak 2.2.2.
V tem koraku bomo popravili tudi dvojne in trojne presledke.
Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Slika 11. Število dvojnih presledkov.

Popravek napak, opredeljenih v tabeli 2.2.4.

Tabela 5. Stopnja odprave napakOčistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično

Primer, zakaj je tak vidik, kot je uporaba črk "e" ali "e", pomemben, je predstavljen na sliki 12.

Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Slika 12. Neskladje v črki "e".

Skupni čas, porabljen v koraku 2.2.2 t222 = 4 ure.
Število napak, ugotovljenih na stopnji 2.2.2 (za Schumannovo formulo) n222 = 583 kosov.

Četrta faza.
Preverjanje redundance polja se dobro ujema s to stopnjo. Od 44 polj, 6 polj:
7 - Namen strukture
16 — Število podzemnih etaž
17 - Nadrejeni predmet
21 - Vaški svet
38 — Parametri strukture (opis)
40 – Kulturna dediščina

Nimajo nobenih vnosov. Se pravi, da so odveč.
Polje “22 – Mesto” ima en sam vnos, slika 13.

Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Slika 13. Edini vnos je Z_348653 v polju »Mesto«.

Polje “34 - Ime objekta” vsebuje vnose, ki očitno ne ustrezajo namenu polja, slika 14.

Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Slika 14. Primer neskladnega vnosa.

Ta polja izločimo iz nabora podatkov. In spremembo beležimo v 214 zapisih.

Skupni čas, porabljen na stopnji 4 (za Schumannovo formulo) t4 = 2,5 ura.
Število napak, ugotovljenih na stopnji 4 (za Schumannovo formulo) n4 = 222 kosov.

Tabela 6. Analiza kazalnikov nabora podatkov po 4. stopnji

Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično

Na splošno lahko z analizo sprememb kazalnikov (tabela 6) rečemo, da:
1) Razmerje med povprečnim številom simbolov in standardnim odklonom je blizu 3, kar pomeni, da obstajajo znaki normalne porazdelitve (pravilo šestih sigm).
2) Znatno odstopanje minimalnih in največjih vzvodov od povprečnega vzvoda nakazuje, da je preučevanje repov obetavna smer pri iskanju napak.

Oglejmo si rezultate iskanja napak po Schumannovi metodologiji.

Stopnje mirovanja

2.1. Skupni čas, porabljen na stopnji 2.1 (za Schumannovo formulo) t21 = 1 ura.
Število napak, ugotovljenih na stopnji 2.1 (za Schumannovo formulo) n21 = 0 kosov.

3. Skupni čas, porabljen na stopnji 3 (za Schumannovo formulo) t3 = 0,75 ura.
Število napak, ugotovljenih na stopnji 3 (za Schumannovo formulo) n3 = 0 kosov.

Učinkovite stopnje
2.2. Skupni čas, porabljen na stopnji 2.2.1 (za Schumannovo formulo) t221 = 8 ura.
Število popravljenih napak na stopnji 2.2.1 (za Schumannovo formulo) n221 = 0 kos.
Skupni čas, porabljen v koraku 2.2.2 t222 = 4 ure.
Število napak, ugotovljenih na stopnji 2.2.2 (za Schumannovo formulo) n222 = 583 kosov.

Skupni čas, porabljen v koraku 2.2 t22 = 8 + 4 = 12 ur.
Število napak, ugotovljenih na stopnji 2.2.2 (za Schumannovo formulo) n222 = 583 kosov.

4. Skupni čas, porabljen na stopnji 4 (za Schumannovo formulo) t4 = 2,5 ura.
Število napak, ugotovljenih na stopnji 4 (za Schumannovo formulo) n4 = 222 kosov.

Ker ni ničelnih stopenj, ki jih je treba vključiti v prvo stopnjo Schumannovega modela, po drugi strani pa sta stopnji 2.2 in 4 sami po sebi neodvisni, potem glede na to, da Schumannov model predpostavlja, da s povečanjem trajanja preverjanja verjetnost odkrivanja napake zmanjša, to pomeni, da tok zmanjša napake, nato pa bomo s pregledom tega toka ugotovili, katero stopnjo postaviti na prvo mesto, po pravilu, kjer je gostota napak pogostejša, bomo to stopnjo postavili na prvo mesto.

Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Slika 15.

Iz formule na sliki 15 sledi, da je pri izračunih četrto stopnjo bolje postaviti pred stopnjo 2.2.

S Schumannovo formulo določimo ocenjeno začetno število napak:

Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Slika 16.

Iz rezultatov na sliki 16 je razvidno, da je predvideno število napak N2 = 3167, kar je več od minimalnega kriterija 1459.

Kot rezultat popravka smo popravili 805 napak, predvideno število pa je 3167 – 805 = 2362, kar je še vedno več od najnižjega praga, ki smo ga sprejeli.

Definiramo parameter C, lambda in funkcijo zanesljivosti:

Očistite podatke kot igra kamen, papir, škarje. Je to igra z ali brez konca? 2. del. Praktično
Slika 17.

V bistvu je lambda dejanski indikator intenzivnosti, s katero so napake odkrite na vsaki stopnji. Če pogledate zgoraj, je bila prejšnja ocena tega kazalnika 42,4 napake na uro, kar je povsem primerljivo s Schumannovim kazalnikom. Če se obrnemo na prvi del tega gradiva, je bilo ugotovljeno, da hitrost, s katero razvijalec odkrije napake, ne sme biti nižja od 1 napake na 250,4 zapisa pri preverjanju 1 zapisa na minuto. Od tod kritična vrednost lambda za Schumannov model:
60 / 250,4 = 0,239617.

To pomeni, da je treba izvajati postopke odkrivanja napak, dokler se lambda z obstoječih 38,964 ne zmanjša na 0,239617.

Ali dokler se indikator N (potencialno število napak) minus n (popravljeno število napak) ne zmanjša pod prag, ki smo ga sprejeli (v prvem delu) - 1459 kosov.

1. del. Teoretično.

Vir: www.habr.com

Dodaj komentar