Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike

В Pjesa e pare u përshkrua se ky publikim u bë në bazë të një grupi të dhënash të rezultateve të vlerësimit kadastral të pasurive të paluajtshme në Okrug Autonome Khanty-Mansi.

Pjesa praktike paraqitet në formë hapash. I gjithë pastrimi u krye në Excel, pasi mjeti më i zakonshëm dhe operacionet e përshkruara mund të përsëriten nga shumica e specialistëve që njohin Excel. Dhe mjaft i përshtatshëm për punë dorë më dorë.

Faza zero do të jetë puna e nisjes dhe ruajtjes së skedarit, pasi është 100 MB në madhësi, atëherë me numrin e këtyre operacioneve dhjetëra dhe qindra, ato kërkojnë kohë të konsiderueshme.
Hapja, mesatarisht, është 30 sekonda.
Kursimi – 22 sek.

Faza e parë fillon me përcaktimin e treguesve statistikorë të grupit të të dhënave.

Tabela 1. Treguesit statistikorë të grupit të të dhënave
Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike

Teknologjia 2.1.

Ne krijojmë një fushë ndihmëse, e kam nën numrin - AY. Për çdo hyrje, ne formojmë formulën "=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)"

Koha totale e kaluar në fazën 2.1 (për formulën Schumann) t21 = 1 orë.
Numri i gabimeve të gjetura në fazën 2.1 (për formulën Schumann) n21 = 0 copë.

Faza e dytë.
Kontrollimi i përbërësve të grupit të të dhënave.
2.2. Të gjitha vlerat në regjistrime formohen duke përdorur simbole standarde. Prandaj, le të gjurmojmë statistikat sipas simboleve.

Tabela 2. Treguesit statistikorë të karaktereve në grupin e të dhënave me analizë paraprake të rezultateve.Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike

Teknologjia 2.2.1.

Ne krijojmë një fushë ndihmëse - "alfa1". Për çdo regjistrim, ne formojmë formulën "=CONCATENATE(Fletë1!B9;...Fletë1!AQ9)"
Ne krijojmë një qelizë fikse Omega-1. Ne do të futim në mënyrë alternative kodet e karaktereve sipas Windows-1251 nga 32 në 255 në këtë qelizë.
Ne krijojmë një fushë ndihmëse - "alfa2". Me formulën "=FIND(SIMBOL(Omega,1); "alfa1",N)".
Ne krijojmë një fushë ndihmëse - "alpha3". Me formulën "=IF(ISNUMRI("alfa2",N),1)"
Krijo një qelizë fikse "Omega-2", me formulën "=SUM("alfa3"N1: "alfa3"N365498)"

Tabela 3. Rezultatet e analizës paraprake të rezultatevePastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike

Tabela 4. Gabimet e regjistruara në këtë fazëPastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike

Koha totale e kaluar në fazën 2.2.1 (për formulën Schumann) t221 = 8 orë.
Numri i gabimeve të korrigjuara në fazën 2.2.1 (për formulën Schumann) n221 = 0 copë.

Faza 3.
Hapi i tretë është regjistrimi i gjendjes së grupit të të dhënave. Duke i caktuar çdo regjistrimi një numër unik (ID) dhe çdo fushë. Kjo është e nevojshme për të krahasuar grupin e të dhënave të konvertuar me atë origjinal. Kjo është gjithashtu e nevojshme për të përfituar plotësisht nga aftësitë e grupimit dhe filtrimit. Këtu përsëri i drejtohemi tabelës 2.2.2 dhe zgjedhim një simbol që nuk përdoret në grupin e të dhënave. Marrim atë që tregohet në Figurën 10.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Fig. 10. Caktimi i identifikuesve.

Koha totale e kaluar në fazën 3 (për formulën Schumann) t3 = 0,75 orë.
Numri i gabimeve të gjetura në fazën 3 (për formulën Schumann) n3 = 0 copë.

Meqenëse formula e Schumann-it kërkon që faza të përfundojë duke korrigjuar gabimet. Le të kthehemi në fazën 2.

Faza 2.2.2.
Në këtë hap do të korrigjojmë edhe hapësirat e dyfishta dhe të trefishta.
Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Fig. 11. Numri i hapësirave të dyfishta.

Korrigjimi i gabimeve të identifikuara në tabelën 2.2.4.

Tabela 5. Faza e korrigjimit të gabimitPastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike

Një shembull se pse një aspekt i tillë si përdorimi i shkronjave "e" ose "e" është i rëndësishëm është paraqitur në Figurën 12.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Fig. 12. Mospërputhje në shkronjën "e".

Koha totale e shpenzuar në hapin 2.2.2 t222 = 4 orë.
Numri i gabimeve të gjetura në fazën 2.2.2 (për formulën Schumann) n222 = 583 copë.

Faza e katërt.
Kontrollimi për tepricë në terren përshtatet mirë në këtë fazë. Nga 44 fusha, 6 fusha:
7 - Qëllimi i strukturës
16 — Numri i kateve nëntokësore
17 - Objekti prind
21 - Këshilli i fshatit
38 — Parametrat e strukturës (përshkrimi)
40 – Trashëgimia kulturore

Ata nuk kanë asnjë hyrje. Domethënë janë të tepërta.
Fusha “22 – Qyteti” ka një hyrje të vetme, Figura 13.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Fig. 13. Hyrja e vetme është Z_348653 në fushën "Qyteti".

Fusha “34 - Emri i ndërtesës” përmban shënime që qartësisht nuk korrespondojnë me qëllimin e fushës, Figura 14.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Fig. 14. Një shembull i një hyrjeje që nuk përputhet.

Ne i përjashtojmë këto fusha nga grupi i të dhënave. Dhe ndryshimin e regjistrojmë në 214 regjistrime.

Koha totale e kaluar në fazën 4 (për formulën Schumann) t4 = 2,5 orë.
Numri i gabimeve të gjetura në fazën 4 (për formulën Schumann) n4 = 222 copë.

Tabela 6. Analiza e treguesve të grupit të të dhënave pas fazës së 4-të

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike

Në përgjithësi, duke analizuar ndryshimet në tregues (Tabela 6) mund të themi se:
1) Raporti i numrit mesatar të simboleve me levën e devijimit standard është afër 3, domethënë ka shenja të një shpërndarjeje normale (rregulli gjashtë sigma).
2) Një devijim i konsiderueshëm i levave minimale dhe maksimale nga leva mesatare sugjeron që studimi i bishtave është një drejtim premtues kur kërkoni gabime.

Le të shqyrtojmë rezultatet e gjetjes së gabimeve duke përdorur metodologjinë e Schumann-it.

Fazat boshe

2.1. Koha totale e kaluar në fazën 2.1 (për formulën Schumann) t21 = 1 orë.
Numri i gabimeve të gjetura në fazën 2.1 (për formulën Schumann) n21 = 0 copë.

3. Koha totale e kaluar në fazën 3 (për formulën Schumann) t3 = 0,75 orë.
Numri i gabimeve të gjetura në fazën 3 (për formulën Schumann) n3 = 0 copë.

Fazat efektive
2.2. Koha totale e kaluar në fazën 2.2.1 (për formulën Schumann) t221 = 8 orë.
Numri i gabimeve të korrigjuara në fazën 2.2.1 (për formulën Schumann) n221 = 0 copë.
Koha totale e shpenzuar në hapin 2.2.2 t222 = 4 orë.
Numri i gabimeve të gjetura në fazën 2.2.2 (për formulën Schumann) n222 = 583 copë.

Koha totale e kaluar në hapin 2.2 t22 = 8 + 4 = 12 orë.
Numri i gabimeve të gjetura në fazën 2.2.2 (për formulën Schumann) n222 = 583 copë.

4. Koha totale e kaluar në fazën 4 (për formulën Schumann) t4 = 2,5 orë.
Numri i gabimeve të gjetura në fazën 4 (për formulën Schumann) n4 = 222 copë.

Meqenëse ka zero faza që duhet të përfshihen në fazën e parë të modelit Schumann, dhe nga ana tjetër, fazat 2.2 dhe 4 janë në thelb të pavarura, atëherë duke qenë se modeli Schumann supozon se duke rritur kohëzgjatjen e kontrollit, probabiliteti e zbulimit të një gabimi zvogëlohet, pra zvogëlohet rrjedha dështimet, pastaj duke e shqyrtuar këtë rrjedhë do të përcaktojmë se cilën fazë të vendosim të parën, sipas rregullit, ku dendësia e dështimit është më e shpeshtë, do ta vendosim atë fazë të parë.

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Fig. 15

Nga formula e figurës 15 rezulton se është e preferueshme që në llogaritje të vendoset faza e katërt përpara fazës 2.2.

Duke përdorur formulën e Schumann-it, ne përcaktojmë numrin fillestar të vlerësuar të gabimeve:

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Fig. 16

Nga rezultatet në figurën 16 mund të shihet se numri i parashikuar i gabimeve është N2 = 3167, që është më shumë se kriteri minimal prej 1459.

Si rezultat i korrigjimit, korrigjuam 805 gabime, dhe numri i parashikuar është 3167 – 805 = 2362, që është akoma më shumë se pragu minimal që pranuam.

Ne përcaktojmë parametrin C, lambda dhe funksionin e besueshmërisë:

Pastroni të dhënat si një lojë shkëmbi, letre, gërshërësh. A është kjo një lojë me apo pa fund? Pjesa 2. Praktike
Fig. 17

Në thelb, lambda është një tregues aktual i intensitetit me të cilin zbulohen gabimet në çdo fazë. Nëse shikoni më lart, vlerësimi i mëparshëm i këtij treguesi ishte 42,4 gabime në orë, gjë që është mjaft e krahasueshme me treguesin Schumann. Duke iu kthyer pjesës së parë të këtij materiali, u përcaktua se shkalla me të cilën një zhvillues gjen gabime duhet të jetë jo më e ulët se 1 gabim për 250,4 regjistrime, kur kontrollohet 1 rekord në minutë. Prandaj vlera kritike e lambda për modelin Schumann:
60 / 250,4 = 0,239617.

Kjo do të thotë, nevoja për të kryer procedurat e zbulimit të gabimeve duhet të kryhet derisa lambda, nga 38,964 ekzistuese, të ulet në 0,239617.

Ose derisa treguesi N (numri i mundshëm i gabimeve) minus n (numri i korrigjuar i gabimeve) të ulet nën pragun që pranuam (në pjesën e parë) - 1459 copë.

Pjesa 1. Teorike.

Burimi: www.habr.com

Shto një koment