Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal

Π’ unang bahagi inilarawan na ang publikasyong ito ay ginawa batay sa isang dataset ng mga resulta ng cadastral valuation ng real estate sa Khanty-Mansi Autonomous Okrug.

Ang praktikal na bahagi ay ipinakita sa anyo ng mga hakbang. Ang lahat ng paglilinis ay ginawa sa Excel, dahil ang pinakakaraniwang tool at ang inilarawan na mga operasyon ay maaaring ulitin ng karamihan sa mga espesyalista na nakakaalam ng Excel. At medyo angkop para sa kamay-sa-kamay na trabaho.

Ang zero na yugto ay ang gawain ng paglulunsad at pag-save ng file, dahil ito ay 100 MB ang laki, at sa bilang ng mga operasyong ito ay sampu at daan-daan, tumatagal sila ng makabuluhang oras.
Ang pagbubukas, sa karaniwan, ay 30 segundo.
Nagse-save – 22 seg.

Ang unang yugto ay nagsisimula sa pagtukoy ng mga istatistikal na tagapagpahiwatig ng dataset.

Talahanayan 1. Mga tagapagpahiwatig ng istatistika ng dataset
Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal

Teknolohiya 2.1.

Lumilikha kami ng isang pantulong na patlang, mayroon ako nito sa ilalim ng numero - AY. Para sa bawat entry, binubuo namin ang formula na β€œ=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”

Kabuuang oras na ginugol sa stage 2.1 (para sa Schumann formula) t21 = 1 oras.
Bilang ng mga error na natagpuan sa stage 2.1 (para sa Schumann formula) n21 = 0 pcs.

Ang pangalawang yugto.
Sinusuri ang mga bahagi ng dataset.
2.2. Ang lahat ng mga halaga sa mga talaan ay nabuo gamit ang mga karaniwang simbolo. Samakatuwid, subaybayan natin ang mga istatistika sa pamamagitan ng mga simbolo.

Talahanayan 2. Mga tagapagpahiwatig ng istatistika ng mga character sa dataset na may paunang pagsusuri ng mga resulta.Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal

Teknolohiya 2.2.1.

Lumilikha kami ng isang pantulong na patlang - "alpha1". Para sa bawat tala, binubuo namin ang formula na "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Lumilikha kami ng nakapirming Omega-1 na cell. Salit-salit kaming maglalagay ng mga character code ayon sa Windows-1251 mula 32 hanggang 255 sa cell na ito.
Lumilikha kami ng isang pantulong na patlang - "alpha2". Gamit ang formula na β€œ=FIND(SYMBOL(Omega,1); β€œalpha1”,N)”.
Lumilikha kami ng isang pantulong na patlang - "alpha3". Gamit ang formula na β€œ=IF(ISNUMBER(β€œalpha2”,N),1)”
Gumawa ng nakapirming cell na "Omega-2", na may formula na "=SUM("alpha3"N1: "alpha3"N365498)"

Talahanayan 3. Mga resulta ng paunang pagsusuri ng mga resultaLinisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal

Talahanayan 4. Mga error na naitala sa yugtong itoLinisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal

Kabuuang oras na ginugol sa stage 2.2.1 (para sa Schumann formula) t221 = 8 oras.
Bilang ng mga naitama na error sa stage 2.2.1 (para sa Schumann formula) n221 = 0 pcs.

Hakbang 3.
Ang ikatlong hakbang ay ang pagtatala ng estado ng dataset. Sa pamamagitan ng pagtatalaga sa bawat tala ng isang natatanging numero (ID) at bawat field. Ito ay kinakailangan upang ihambing ang na-convert na dataset sa orihinal. Ito ay kinakailangan din upang lubos na mapakinabangan ang mga kakayahan sa pagpapangkat at pag-filter. Dito muli tayong bumaling sa talahanayan 2.2.2 at pumili ng simbolo na hindi ginagamit sa dataset. Nakukuha namin ang ipinapakita sa Figure 10.

Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Larawan 10. Pagtatalaga ng mga identifier.

Kabuuang oras na ginugol sa stage 3 (para sa Schumann formula) t3 = 0,75 oras.
Bilang ng mga error na natagpuan sa stage 3 (para sa Schumann formula) n3 = 0 pcs.

Dahil ang Schumann formula ay nangangailangan na ang yugto ay makumpleto sa pamamagitan ng pagwawasto ng mga pagkakamali. Balik tayo sa stage 2.

Hakbang 2.2.2.
Sa hakbang na ito ay itatama din namin ang doble at triple na mga puwang.
Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Larawan 11. Bilang ng dobleng espasyo.

Pagwawasto ng mga pagkakamali na natukoy sa talahanayan 2.2.4.

Talahanayan 5. Yugto ng pagwawasto ng errorLinisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal

Ang isang halimbawa kung bakit ang aspeto tulad ng paggamit ng mga titik na "e" o "e" ay makabuluhan ay ipinakita sa Figure 12.

Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Larawan 12. Pagkakaiba sa titik "e".

Kabuuang oras na ginugol sa hakbang 2.2.2 t222 = 4 na oras.
Bilang ng mga error na natagpuan sa stage 2.2.2 (para sa Schumann formula) n222 = 583 pcs.

Ikaapat na yugto.
Ang pagsuri para sa redundancy ng field ay akma sa yugtong ito. Sa 44 na field, 6 na field:
7 - Layunin ng istraktura
16 β€” Bilang ng mga sahig sa ilalim ng lupa
17 - object ng magulang
21 - Konseho ng Nayon
38 β€” Mga parameter ng istruktura (paglalarawan)
40 – Pamanang kultural

Wala silang entry. Ibig sabihin, redundant sila.
Ang field na "22 - City" ay may isang solong entry, Figure 13.

Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Larawan 13. Ang tanging entry ay Z_348653 sa field na β€œCity”.

Ang field na "34 - Pangalan ng gusali" ay naglalaman ng mga entry na malinaw na hindi tumutugma sa layunin ng field, Figure 14.

Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Larawan 14. Isang halimbawa ng hindi sumusunod na entry.

Ibinubukod namin ang mga field na ito mula sa dataset. At naitala namin ang pagbabago sa 214 na talaan.

Kabuuang oras na ginugol sa stage 4 (para sa Schumann formula) t4 = 2,5 oras.
Bilang ng mga error na natagpuan sa stage 4 (para sa Schumann formula) n4 = 222 pcs.

Talahanayan 6. Pagsusuri ng mga tagapagpahiwatig ng set ng data pagkatapos ng ika-4 na yugto

Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal

Sa pangkalahatan, ang pagsusuri ng mga pagbabago sa mga tagapagpahiwatig (Talahanayan 6) ay masasabi nating:
1) Ang ratio ng average na bilang ng mga simbolo sa standard deviation lever ay malapit sa 3, iyon ay, may mga palatandaan ng isang normal na pamamahagi (anim na sigma na panuntunan).
2) Ang isang makabuluhang paglihis ng minimum at maximum na mga lever mula sa average na lever ay nagmumungkahi na ang pag-aaral ng mga buntot ay isang promising na direksyon kapag naghahanap ng mga error.

Suriin natin ang mga resulta ng paghahanap ng mga error gamit ang pamamaraan ni Schumann.

Idle stages

2.1. Kabuuang oras na ginugol sa stage 2.1 (para sa Schumann formula) t21 = 1 oras.
Bilang ng mga error na natagpuan sa stage 2.1 (para sa Schumann formula) n21 = 0 pcs.

3. Kabuuang oras na ginugol sa stage 3 (para sa Schumann formula) t3 = 0,75 oras.
Bilang ng mga error na natagpuan sa stage 3 (para sa Schumann formula) n3 = 0 pcs.

Mga mabisang yugto
2.2. Kabuuang oras na ginugol sa stage 2.2.1 (para sa Schumann formula) t221 = 8 oras.
Bilang ng mga naitama na error sa stage 2.2.1 (para sa Schumann formula) n221 = 0 pcs.
Kabuuang oras na ginugol sa hakbang 2.2.2 t222 = 4 na oras.
Bilang ng mga error na natagpuan sa stage 2.2.2 (para sa Schumann formula) n222 = 583 pcs.

Kabuuang oras na ginugol sa hakbang 2.2 t22 = 8 + 4 = 12 oras.
Bilang ng mga error na natagpuan sa stage 2.2.2 (para sa Schumann formula) n222 = 583 pcs.

4. Kabuuang oras na ginugol sa stage 4 (para sa Schumann formula) t4 = 2,5 oras.
Bilang ng mga error na natagpuan sa stage 4 (para sa Schumann formula) n4 = 222 pcs.

Dahil mayroong mga zero na yugto na dapat isama sa unang yugto ng modelong Schumann, at sa kabilang banda, ang mga yugto 2.2 at 4 ay likas na independyente, pagkatapos ay ibinigay na ang modelong Schumann ay ipinapalagay na sa pamamagitan ng pagtaas ng tagal ng tseke, ang posibilidad ng pag-detect ng isang error ay bumababa, iyon ay, ang daloy ay bumababa ng mga pagkabigo, pagkatapos ay sa pamamagitan ng pagsusuri sa daloy na ito ay matutukoy natin kung aling yugto ang uunahin, ayon sa panuntunan, kung saan ang density ng pagkabigo ay mas madalas, uunahin natin ang yugtong iyon.

Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Larawan 15.

Mula sa pormula sa Figure 15 sumusunod na mas mainam na ilagay ang ikaapat na yugto bago ang yugto 2.2 sa mga kalkulasyon.

Gamit ang formula ng Schumann, tinutukoy namin ang tinantyang paunang bilang ng mga error:

Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Larawan 16.

Mula sa mga resulta sa Figure 16 makikita na ang hinulaang bilang ng mga error ay N2 = 3167, na higit pa sa minimum na pamantayan ng 1459.

Bilang resulta ng pagwawasto, naitama namin ang 805 na mga error, at ang hinulaang numero ay 3167 – 805 = 2362, na higit pa sa minimum na threshold na tinanggap namin.

Tinutukoy namin ang parameter C, lambda at reliability function:

Linisin ang data tulad ng isang laro ng Rock, Paper, Gunting. Ito ba ay isang laro na may katapusan o wala? Bahagi 2. Praktikal
Larawan 17.

Sa pangkalahatan, ang lambda ay isang aktwal na tagapagpahiwatig ng intensity kung saan ang mga error ay natukoy sa bawat yugto. Kung titingnan mo sa itaas, ang nakaraang pagtatantya ng tagapagpahiwatig na ito ay 42,4 na mga error bawat oras, na medyo maihahambing sa tagapagpahiwatig ng Schumann. Sa unang bahagi ng materyal na ito, natukoy na ang rate kung saan nakahanap ng mga error ang isang developer ay hindi dapat mas mababa sa 1 error sa bawat 250,4 na tala, kapag sinusuri ang 1 record kada minuto. Samakatuwid ang kritikal na halaga ng lambda para sa modelong Schumann:
60 / 250,4 = 0,239617.

Iyon ay, ang pangangailangan na magsagawa ng mga pamamaraan ng pagtuklas ng error ay dapat isagawa hanggang sa ang lambda, mula sa umiiral na 38,964, ay bumaba sa 0,239617.

O hanggang ang indicator N (potensyal na bilang ng mga error) minus n (naitama na bilang ng mga error) ay bumaba sa ibaba ng threshold na aming tinanggap (sa unang bahagi) - 1459 na mga PC.

Bahagi 1. Teoretikal.

Pinagmulan: www.habr.com

Magdagdag ng komento