В tika aprakstīts, ka šī publikācija sagatavota, pamatojoties uz Hantimansu autonomā apgabala nekustamā īpašuma kadastrālās vērtēšanas rezultātu datu kopu.
Praktiskā daļa ir parādīta soļu veidā. Visa tīrīšana tika veikta programmā Excel, jo visizplatītāko rīku un aprakstītās darbības var atkārtot lielākā daļa speciālistu, kuri pārzina Excel. Un diezgan labi piemērots darbam ar rokām.
Nulles posms būs faila palaišanas un saglabāšanas darbs, jo tas ir 100 MB liels, tad, ja šo darbību skaits ir desmiti un simti, tās aizņem ievērojamu laiku.
Atvēršana vidēji ir 30 sekundes.
Ietaupījums – 22 sek.
Pirmais posms sākas ar datu kopas statistisko rādītāju noteikšanu.
1. tabula. Datu kopas statistiskie rādītāji

Tehnoloģija 2.1.
Mēs izveidojam palīglauku, man tas ir zem numura - AY. Katram ierakstam mēs veidojam formulu “=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”
Kopējais laiks, kas pavadīts posmā 2.1 (Šūmaņa formulai) t21 = 1 stunda.
2.1. stadijā konstatēto kļūdu skaits (Šūmaņa formulai) n21 = 0 gab.
Otrais posms.
Datu kopas komponentu pārbaude.
2.2. Visas ierakstu vērtības tiek veidotas, izmantojot standarta simbolus. Tāpēc izsekosim statistikai pēc simboliem.
2. tabula. Rakstzīmju statistiskie rādītāji datu kopā ar sākotnējo rezultātu analīzi.




Tehnoloģija 2.2.1.
Mēs izveidojam palīglauku - “alpha1”. Katram ierakstam mēs veidojam formulu “=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)”
Mēs izveidojam fiksētu Omega-1 šūnu. Šajā šūnā mēs pārmaiņus ievadīsim rakstzīmju kodus saskaņā ar Windows-1251 no 32 līdz 255.
Mēs izveidojam palīglauku - “alpha2”. Ar formulu “=Atrast(SIMBOLS(Omega,1); “alfa1”,N)”.
Mēs izveidojam palīglauku - “alpha3”. Ar formulu “=IF(ISNUMURS(“alfa2”,N),1)”
Izveidojiet fiksētu šūnu “Omega-2” ar formulu “=SUM(“alpha3”N1: “alpha3”N365498)”
3. tabula. Rezultātu sākotnējās analīzes rezultāti
4. tabula. Šajā posmā reģistrētās kļūdas
Kopējais laiks, kas pavadīts posmā 2.2.1 (Šūmaņa formulai) t221 = 8 stunda.
Izlaboto kļūdu skaits posmā 2.2.1 (Šūmaņa formulai) n221 = 0 gab.
Solis 3.
Trešais solis ir reģistrēt datu kopas stāvokli. Piešķirot katram ierakstam unikālu numuru (ID) un katram laukam. Tas ir nepieciešams, lai salīdzinātu konvertēto datu kopu ar sākotnējo. Tas ir nepieciešams arī, lai pilnībā izmantotu grupēšanas un filtrēšanas iespējas. Šeit mēs atkal pievēršamies tabulai 2.2.2 un atlasām simbolu, kas netiek izmantots datu kopā. Mēs iegūstam to, kas parādīts 10. attēlā.

10. att. Identifikatoru piešķiršana.
Kopējais laiks, kas pavadīts posmā 3 (Šūmaņa formulai) t3 = 0,75 stunda.
3. stadijā konstatēto kļūdu skaits (Šūmaņa formulai) n3 = 0 gab.
Tā kā Šūmaņa formula pieprasa posmu pabeigt, labojot kļūdas. Atgriezīsimies 2. posmā.
Solis 2.2.2.
Šajā solī mēs arī labosim dubultās un trīskāršās atstarpes.

11. att. Dubulto atstarpju skaits.
2.2.4. tabulā konstatēto kļūdu labošana.
5. tabula. Kļūdu labošanas posms

Piemērs, kāpēc tāds aspekts kā burtu “e” vai “e” lietošana ir nozīmīgs, parādīts 12. attēlā.

12. att. Neatbilstība burtā "e".
Kopējais laiks, kas pavadīts solī 2.2.2 t222 = 4 stundas.
2.2.2. stadijā konstatēto kļūdu skaits (Šūmaņa formulai) n222 = 583 gab.
Ceturtais posms.
Lauka dublēšanas pārbaude labi iekļaujas šajā posmā. No 44 laukiem 6 lauki:
7 - Struktūras mērķis
16 — Pazemes stāvu skaits
17 - Vecāku objekts
21 - ciema padome
38 — Struktūras parametri (apraksts)
40 – Kultūras mantojums
Viņiem nav neviena ieraksta. Tas ir, tie ir lieki.
Laukā “22 – Pilsēta” ir viens ieraksts, 13. attēls.

13. att. Vienīgais ieraksts ir Z_348653 laukā “Pilsēta”.
Laukā “34 – Ēkas nosaukums” ir ieraksti, kas nepārprotami neatbilst lauka mērķim, 14. attēls.

14. att. Neatbilstoša ieraksta piemērs.
Mēs izslēdzam šos laukus no datu kopas. Un mēs reģistrējam izmaiņas 214 ierakstos.
Kopējais laiks, kas pavadīts posmā 4 (Šūmaņa formulai) t4 = 2,5 stunda.
4. stadijā konstatēto kļūdu skaits (Šūmaņa formulai) n4 = 222 gab.
6. tabula. Datu kopas rādītāju analīze pēc 4. posma

Kopumā, analizējot rādītāju izmaiņas (6. tabula), varam teikt, ka:
1) Simbolu vidējā skaita attiecība pret standartnovirzes sviru ir tuvu 3, tas ir, ir normāla sadalījuma pazīmes (sešu sigmu noteikums).
2) Būtiska minimālās un maksimālās sviras novirze no vidējās sviras liecina, ka astes izpēte ir daudzsološs virziens kļūdu meklēšanā.
Apskatīsim kļūdu atrašanas rezultātus, izmantojot Šūmaņa metodoloģiju.
Tukšgaitas posmi
2.1. Kopējais laiks, kas pavadīts posmā 2.1 (Šūmaņa formulai) t21 = 1 stunda.
2.1. stadijā konstatēto kļūdu skaits (Šūmaņa formulai) n21 = 0 gab.
3. Kopējais laiks, kas pavadīts posmā 3 (Šūmaņa formulai) t3 = 0,75 stunda.
3. stadijā konstatēto kļūdu skaits (Šūmaņa formulai) n3 = 0 gab.
Efektīvi posmi
2.2. Kopējais laiks, kas pavadīts posmā 2.2.1 (Šūmaņa formulai) t221 = 8 stunda.
Izlaboto kļūdu skaits posmā 2.2.1 (Šūmaņa formulai) n221 = 0 gab.
Kopējais laiks, kas pavadīts solī 2.2.2 t222 = 4 stundas.
2.2.2. stadijā konstatēto kļūdu skaits (Šūmaņa formulai) n222 = 583 gab.
Kopējais laiks, kas pavadīts solī 2.2 t22 = 8 + 4 = 12 stundas.
2.2.2. stadijā konstatēto kļūdu skaits (Šūmaņa formulai) n222 = 583 gab.
4. Kopējais laiks, kas pavadīts posmā 4 (Šūmaņa formulai) t4 = 2,5 stunda.
4. stadijā konstatēto kļūdu skaits (Šūmaņa formulai) n4 = 222 gab.
Tā kā Šūmaņa modeļa pirmajā posmā ir jāiekļauj nulles posmi, un, no otras puses, posmi 2.2 un 4 pēc savas būtības ir neatkarīgi, tad, ņemot vērā, ka Šūmaņa modelis pieņem, ka, palielinot pārbaudes ilgumu, varbūtība kļūdas noteikšanas gadījumā samazinās, tas ir, plūsma samazina atteices, tad, pārbaudot šo plūsmu, mēs noteiksim, kuru posmu likt pirmajā vietā, saskaņā ar noteikumu, kur atteices blīvums ir biežāks, mēs liksim šo posmu pirmajā vietā.
![]()
15. attēls.
No formulas 15. attēlā izriet, ka aprēķinos ceturto posmu vēlams novietot pirms 2.2. posma.
Izmantojot Šūmaņa formulu, mēs nosakām aptuveno sākotnējo kļūdu skaitu:

16. attēls.
No rezultātiem 16. attēlā var redzēt, ka prognozētais kļūdu skaits ir N2 = 3167, kas ir vairāk nekā minimālais kritērijs 1459.
Labojuma rezultātā mēs izlabojām 805 kļūdas, un prognozētais skaitlis ir 3167 – 805 = 2362, kas joprojām ir vairāk nekā mūsu pieņemtais minimālais slieksnis.
Mēs definējam parametru C, lambda un uzticamības funkciju:

17. attēls.
Būtībā lambda ir faktiskais rādītājs intensitātei, ar kādu katrā posmā tiek konstatētas kļūdas. Ja paskatās augstāk, tad iepriekšējais šī rādītāja novērtējums bija 42,4 kļūdas stundā, kas ir diezgan salīdzināms ar Šūmaņa rādītāju. Pievēršoties šī materiāla pirmajai daļai, tika noteikts, ka ātrumam, kādā izstrādātājs konstatē kļūdas, nevajadzētu būt mazākam par 1 kļūdu uz 250,4 ierakstiem, pārbaudot 1 ierakstu minūtē. Tādējādi lambda kritiskā vērtība Šūmaņa modelim:
60/250,4 = 0,239617.
Tas ir, nepieciešamība veikt kļūdu noteikšanas procedūras ir jāveic, līdz lambda no esošā 38,964 samazinās līdz 0,239617.
Vai līdz brīdim, kad rādītājs N (potenciālais kļūdu skaits) mīnus n (labotais kļūdu skaits) samazinās zem mūsu pieņemtā sliekšņa (pirmajā daļā) - 1459 gab.
Avots: www.habr.com
