Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika

В unua parto estis priskribite, ke ĉi tiu publikigo estis farita surbaze de datumaro de katastraj taksadrezultoj de nemoveblaĵoj en la Aŭtonoma Okrug Khanty-Mansi.

La praktika parto estas prezentita en formo de paŝoj. Ĉiu purigado estis farita en Excel, ĉar la plej ofta ilo kaj la priskribitaj operacioj povas esti ripetitaj de plej multaj specialistoj, kiuj konas Excel. Kaj sufiĉe bone taŭgas por man-al-mana laboro.

La nula etapo estos la laboro por lanĉi kaj konservi la dosieron, ĉar ĝi estas 100 MB en grandeco, tiam kun la nombro de ĉi tiuj operacioj estas dekoj kaj centoj, ili prenas signifan tempon.
Malfermo, averaĝe, estas 30 sekundoj.
Ŝparo - 22 sek.

La unua etapo komenciĝas per determini la statistikajn indikilojn de la datumaro.

Tabelo 1. Statistikaj indikiloj de la datumaro
Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika

Teknologio 2.1.

Ni kreas helpkampon, mi havas ĝin sub la nombro - AY. Por ĉiu eniro, ni formas la formulon "=LENGTH(F365502)+LENGTH(G365502)+...+LENGTH(AW365502)"

Suma tempo pasigita sur la etapo 2.1 (por Schumann-formulo) t21 = 1 horo.
Nombro de eraroj trovitaj en la etapo 2.1 (por Schumann-formulo) n21 = 0 pcs.

Dua fazo.
Kontrolante la komponantojn de la datumaro.
2.2. Ĉiuj valoroj en registroj estas formitaj per normaj simboloj. Tial ni spuru la statistikojn per simboloj.

Tabelo 2. Statistikaj indikiloj de karakteroj en la datumaro kun prepara analizo de la rezultoj.Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika

Teknologio 2.2.1.

Ni kreas helpan kampon - "alpha1". Por ĉiu rekordo, ni formas la formulon "=KONKATENI(Folio1!B9;...Folio1!AQ9)"
Ni kreas fiksan Omega-1-ĉelon. Ni alterne enigos signajn kodojn laŭ Windows-1251 de 32 ĝis 255 en ĉi tiun ĉelon.
Ni kreas helpan kampon - "alpha2". Kun la formulo "=TROVU(SIMBOLO(Omega,1); "alfa1",N)".
Ni kreas helpan kampon - "alpha3". Kun la formulo "=IF(ISNUMERO("alfa2",N),1)"
Kreu fiksan ĉelon "Omega-2", kun la formulo "=SUM ("alfa3"N1: "alfa3"N365498)"

Tabelo 3. Rezultoj de prepara analizo de rezultojPurigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika

Tabelo 4. Eraroj registritaj en ĉi tiu etapoPurigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika

Suma tempo pasigita sur la etapo 2.2.1 (por Schumann-formulo) t221 = 8 horo.
Nombro de korektitaj eraroj en la etapo 2.2.1 (por Schumann-formulo) n221 = 0 pcs.

Etapo 3.
La tria paŝo estas registri la staton de la datumaro. Asignante al ĉiu rekordo unikan nombron (ID) kaj ĉiun kampon. Ĉi tio estas necesa por kompari la konvertitan datumaron kun la originala. Ĉi tio ankaŭ estas necesa por plene profiti la grupigajn kaj filtrajn kapablojn. Ĉi tie denove ni turnas al tabelo 2.2.2 kaj elektas simbolon, kiu ne estas uzata en la datumaro. Ni ricevas tion, kio estas montrita en Figuro 10.

Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Fig. 10. Asigni identigilojn.

Suma tempo pasigita sur la etapo 3 (por Schumann-formulo) t3 = 0,75 horo.
Nombro de eraroj trovitaj en la etapo 3 (por Schumann-formulo) n3 = 0 pcs.

Ĉar la Schumann-formulo postulas ke la stadio estu kompletigita korektante erarojn. Ni revenu al la 2-a etapo.

Etapo 2.2.2.
En ĉi tiu paŝo ni ankaŭ korektos duoblajn kaj trioblajn spacojn.
Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Fig. 11. Nombro de duoblaj spacoj.

Korekto de eraroj identigitaj en tabelo 2.2.4.

Tabelo 5. Etapo de eraro-korektadoPurigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika

Ekzemplo de kial tia aspekto kiel la uzo de la literoj "e" aŭ "e" estas signifa estas prezentita en Figuro 12.

Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Fig. 12. Diferenco en la litero "e".

Suma tempo pasigita en paŝo 2.2.2 t222 = 4 horoj.
Nombro de eraroj trovitaj en la etapo 2.2.2 (por Schumann-formulo) n222 = 583 pcs.

Kvara etapo.
Kontroli por kamporedundo bone taŭgas en ĉi tiu etapo. El la 44 kampoj, 6 kampoj:
7 - Celo de la strukturo
16 — Nombro de subteraj etaĝoj
17 - Gepatra objekto
21 - Vilaĝa Konsilio
38 — Strukturo-parametroj (priskribo)
40 – Kultura heredaĵo

Ili ne havas enskribojn. Tio estas, ili estas superfluaj.
Kampo "22 - Urbo" havas unu ununuran enskribon, Figuro 13.

Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Fig. 13. La sola enskribo estas Z_348653 en la kampo "Urbo".

Kampo "34 - Konstrua nomo" enhavas enskribojn kiuj klare ne kongruas al la celo de la kampo, Figuro 14.

Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Fig. 14. Ekzemplo de nekonforma eniro.

Ni ekskludas ĉi tiujn kampojn el la datumaro. Kaj ni registras la ŝanĝon en 214 rekordoj.

Suma tempo pasigita sur la etapo 4 (por Schumann-formulo) t4 = 2,5 horo.
Nombro de eraroj trovitaj en la etapo 4 (por Schumann-formulo) n4 = 222 pcs.

Tabelo 6. Analizo de datumaj indikiloj post la 4-a etapo

Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika

Ĝenerale, analizante ŝanĝojn en indikiloj (Tabelo 6) ni povas diri tion:
1) La rilatumo de la averaĝa nombro da simboloj al la norma devio-levilo estas proksima al 3, tio estas, estas signoj de normala distribuo (ses sigma regulo).
2) Signifa devio de la minimumaj kaj maksimumaj leviloj de la averaĝa levilo sugestas, ke la studo de vostoj estas promesplena direkto dum serĉado de eraroj.

Ni ekzamenu la rezultojn de trovado de eraroj uzante la metodaron de Schumann.

Neaktivaj etapoj

2.1. Suma tempo pasigita sur la etapo 2.1 (por Schumann-formulo) t21 = 1 horo.
Nombro de eraroj trovitaj en la etapo 2.1 (por Schumann-formulo) n21 = 0 pcs.

3. Suma tempo pasigita sur la etapo 3 (por Schumann-formulo) t3 = 0,75 horo.
Nombro de eraroj trovitaj en la etapo 3 (por Schumann-formulo) n3 = 0 pcs.

Efikaj etapoj
2.2. Suma tempo pasigita sur la etapo 2.2.1 (por Schumann-formulo) t221 = 8 horo.
Nombro de korektitaj eraroj en la etapo 2.2.1 (por Schumann-formulo) n221 = 0 pcs.
Suma tempo pasigita en paŝo 2.2.2 t222 = 4 horoj.
Nombro de eraroj trovitaj en la etapo 2.2.2 (por Schumann-formulo) n222 = 583 pcs.

Suma tempo pasigita en paŝo 2.2 t22 = 8 + 4 = 12 horoj.
Nombro de eraroj trovitaj en la etapo 2.2.2 (por Schumann-formulo) n222 = 583 pcs.

4. Suma tempo pasigita sur la etapo 4 (por Schumann-formulo) t4 = 2,5 horo.
Nombro de eraroj trovitaj en la etapo 4 (por Schumann-formulo) n4 = 222 pcs.

Ĉar ekzistas nul stadioj kiuj devas esti inkluditaj en la unua etapo de la Schumann-modelo, kaj aliflanke, stadioj 2.2 kaj 4 estas esence sendependaj, tiam donita ke la Schumann-modelo supozas ke pliigante la daŭron de la ĉeko, la probableco. de detektado de eraro malpliiĝas, tio estas, la fluo malpliigas malsukcesojn, tiam ekzamenante ĉi tiun fluon ni determinos kiun etapon meti unue, laŭ la regulo, kie la malsukcesa denseco estas pli ofta, ni metos tiun etapon unue.

Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Fig. 15.

El la formulo en Figuro 15 sekvas, ke estas preferinde meti la kvaran etapon antaŭ la etapo 2.2 en la kalkuloj.

Uzante la formulon de Schumann, ni determinas la laŭtaksan komencan nombron da eraroj:

Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Fig. 16.

El la rezultoj en Figuro 16 oni povas vidi, ke la antaŭdirita nombro da eraroj estas N2 = 3167, kio estas pli ol la minimuma kriterio de 1459.

Kiel rezulto de la korekto, ni korektis 805-erarojn, kaj la antaŭdirita nombro estas 3167 – 805 = 2362, kiu estas ankoraŭ pli ol la minimuma sojlo, kiun ni akceptis.

Ni difinas parametron C, lambda kaj fidindecfunkcion:

Purigado de datumoj kiel Roko, Papero, Tondilo. Ĉu ĝi estas ludo kun aŭ sen fino? Parto 2. Praktika
Fig. 17.

Esence, lambda estas fakta indikilo de la intenseco kun kiu eraroj estas detektitaj en ĉiu stadio. Se vi rigardas supre, la antaŭa takso de ĉi tiu indikilo estis 42,4-eraroj hore, kio estas sufiĉe komparebla al la Schumann-indikilo. Rilate al la unua parto de ĉi tiu materialo, oni determinis, ke la rapideco, je kiu programisto trovas erarojn, devus esti ne pli malalta ol 1 eraro per 250,4-rekordoj, kiam oni kontrolas 1-rekordon por minuto. Tial la kritika valoro de lambda por la Schumann-modelo:
60 / 250,4 = 0,239617.

Tio estas, la bezono efektivigi erarajn detektajn procedurojn devas esti efektivigita ĝis lambda, de la ekzistanta 38,964, malpliiĝas al 0,239617.

Aŭ ĝis la indikilo N (ebla nombro da eraroj) minus n (korektita nombro da eraroj) malpliiĝas sub la sojlo, kiun ni akceptis (en la unua parto) - 1459 pcs.

Parto 1. Teoria.

fonto: www.habr.com

Aldoni komenton