В it waard beskreaun dat dizze publikaasje waard makke op basis fan in dataset fan kadastrale wurdearring resultaten fan ûnreplik guod yn de Khanty-Mansi Autonome Okrug.
It praktyske diel wurdt presintearre yn 'e foarm fan stappen. Alle skjinmeitsjen waard dien yn Excel, om't it meast foarkommende ark en de beskreaune operaasjes kinne wurde werhelle troch de measte spesjalisten dy't Excel kenne. En hiel goed geskikt foar hân-oan-hân wurk.
It nulpoadium sil it wurk wêze fan it lansearjen en bewarjen fan it bestân, om't it 100 MB yn grutte is, dan mei it oantal fan dizze operaasjes tsientallen en hûnderten, nimme se signifikante tiid.
Iepening is gemiddeld 30 sekonden.
Besparje - 22 sek.
De earste etappe begjint mei it bepalen fan de statistyske yndikatoaren fan de dataset.
Tabel 1. Statistyske yndikatoaren fan de dataset

Technology 2.1.
Wy meitsje in helpfjild, ik haw it ûnder it nûmer - AY. Foar elke yngong foarmje wy de formule "=LENGTH(F365502)+LENGTH(G365502)+...+LENGTH(AW365502)"
Totale tiid bestege oan poadium 2.1 (foar Schumann formule) t21 = 1 oere.
Oantal flaters fûn by poadium 2.1 (foar Schumann formule) n21 = 0 pcs.
De twadde poadium.
Kontrolearje de komponinten fan 'e dataset.
2.2. Alle wearden yn records wurde foarme mei standert symboalen. Lit ús dêrom de statistiken folgje troch symboalen.
Tabel 2. Statistyske yndikatoaren fan karakters yn 'e dataset mei foarriedige analyze fan' e resultaten.




Technology 2.2.1.
Wy meitsje in helpfjild - "alpha1". Foar elke record foarmje wy de formule "= CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Wy meitsje in fêste Omega-1 sel. Wy sille ôfwikseljend karakterkoades ynfiere neffens Windows-1251 fan 32 oant 255 yn dizze sel.
Wy meitsje in helpfjild - "alpha2". Mei de formule "=FIND(SYMBOOL(Omega,1); "alpha1",N)".
Wy meitsje in helpfjild - "alpha3". Mei de formule "=IF(ISNUMBER("alfa2",N),1)"
Meitsje in fêste sel "Omega-2", mei de formule "=SUM("alpha3"N1: "alpha3"N365498)"
Tabel 3. Resultaten fan foarriedige analyze fan resultaten
Tabel 4. Flaters opnommen yn dit stadium
Totale tiid bestege oan poadium 2.2.1 (foar Schumann formule) t221 = 8 oere.
Oantal korrizjearre flaters op poadium 2.2.1 (foar Schumann formule) n221 = 0 pcs.
Stage 3.
De tredde stap is om de steat fan 'e dataset op te nimmen. Troch it tawizen fan elk rekord in unyk nûmer (ID) en elk fjild. Dit is nedich om de konvertearre dataset te fergelykjen mei de orizjinele. Dit is ek nedich om folslein te profitearjen fan 'e groepearrings- en filtermooglikheden. Hjir wer wy keare nei tabel 2.2.2 en selektearje in symboal dat wurdt net brûkt yn de dataset. Wy krije wat is werjûn yn figuer 10.

Fig. 10. It tawizen fan identifiers.
Totale tiid bestege oan poadium 3 (foar Schumann formule) t3 = 0,75 oere.
Oantal flaters fûn by poadium 3 (foar Schumann formule) n3 = 0 pcs.
Sûnt de Schumann-formule fereasket dat it poadium foltôge wurdt troch flaters te korrigearjen. Litte wy weromgean nei poadium 2.
Stage 2.2.2.
Yn dizze stap sille wy ek dûbele en trije spaasjes korrigearje.

Fig. 11. Oantal dûbele spaasjes.
Korreksje fan flaters identifisearre yn tabel 2.2.4.
tabel 5. Flater korreksje poadium

In foarbyld fan wêrom sa'n aspekt as it brûken fan de letters "e" of "e" wichtich is, wurdt presintearre yn figuer 12.

Fig. 12. Diskrepânsje yn 'e letter "e".
Totale tiid bestege yn stap 2.2.2 t222 = 4 oeren.
Oantal flaters fûn by poadium 2.2.2 (foar Schumann formule) n222 = 583 pcs.
Fjirde etappe.
Kontrolearje op fjildoerstalligens past goed yn dit stadium. Fan de 44 fjilden, 6 fjilden:
7 - Doel fan de struktuer
16 - Oantal ûndergrûnske ferdjippings
17 - Parent foarwerp
21 - Doarpsbestjoer
38 - Struktuerparameters (beskriuwing)
40 - Kultureel erfguod
Se hawwe gjin ynstjoerings. Dat is, se binne oerstallich.
Fjild "22 - Stêd" hat ien inkele yngong, figuer 13.

Fig. 13. De ienige yngong is Z_348653 yn it fjild "Stêd".
Fjild "34 - Gebounamme" befettet ynstjoerings dy't dúdlik net oerienkomme mei it doel fan it fjild, figuer 14.

Fig. 14. In foarbyld fan in net-konforme yngong.
Wy slúte dizze fjilden út fan de dataset. En wy registrearje de feroaring yn 214 records.
Totale tiid bestege oan poadium 4 (foar Schumann formule) t4 = 2,5 oere.
Oantal flaters fûn by poadium 4 (foar Schumann formule) n4 = 222 pcs.
Tabel 6. Analyse fan yndikatoaren fan gegevensset nei de 4e etappe

Yn it algemien, analysearjen fan feroaringen yn yndikatoaren (tabel 6) kinne wy sizze dat:
1) De ferhâlding fan it gemiddelde oantal symboalen oan de standertdeviaasje lever is tichtby 3, dat is, der binne tekens fan in normale ferdieling (seis sigma regel).
2) In signifikante ôfwiking fan 'e minimale en maksimale levers fan' e gemiddelde lever suggerearret dat de stúdzje fan sturten in kânsrike rjochting is by it sykjen nei flaters.
Lit ús ûndersykje de resultaten fan it finen flaters mei help fan Schumann syn metodyk.
Idle stadia
2.1. Totale tiid bestege oan poadium 2.1 (foar Schumann formule) t21 = 1 oere.
Oantal flaters fûn by poadium 2.1 (foar Schumann formule) n21 = 0 pcs.
3. Totale tiid bestege oan poadium 3 (foar Schumann formule) t3 = 0,75 oere.
Oantal flaters fûn by poadium 3 (foar Schumann formule) n3 = 0 pcs.
Effektive stadia
2.2. Totale tiid bestege oan poadium 2.2.1 (foar Schumann formule) t221 = 8 oere.
Oantal korrizjearre flaters op poadium 2.2.1 (foar Schumann formule) n221 = 0 pcs.
Totale tiid bestege yn stap 2.2.2 t222 = 4 oeren.
Oantal flaters fûn by poadium 2.2.2 (foar Schumann formule) n222 = 583 pcs.
Totale tiid bestege yn stap 2.2 t22 = 8 + 4 = 12 oeren.
Oantal flaters fûn by poadium 2.2.2 (foar Schumann formule) n222 = 583 pcs.
4. Totale tiid bestege oan poadium 4 (foar Schumann formule) t4 = 2,5 oere.
Oantal flaters fûn by poadium 4 (foar Schumann formule) n4 = 222 pcs.
Om't der nul stadia binne dy't moatte wurde opnommen yn 'e earste etappe fan it Schumann-model, en oan' e oare kant, stadia 2.2 en 4 binne ynherent ûnôfhinklik, dan jûn dat it Schumann-model oannimt dat troch it fergrutsjen fan de doer fan 'e kontrôle, de kâns fan it opspoaren fan in flater nimt ôf, dat is, de stream fermindert mislearrings, dan sille wy troch dizze streaming te ûndersykjen bepale hokker poadium earst te setten is, neffens de regel, wêr't de flaterdichtheid faker is, sille wy dat poadium earst sette.
![]()
Ofbylding 15.
Ut de formule yn figuer 15 folget dat it de foarkar is om de fjirde etappe foar poadium 2.2 yn 'e berekkeningen te pleatsen.
Mei de formule fan Schumann bepale wy it skatte initial oantal flaters:

Ofbylding 16.
Ut de resultaten yn figuer 16 kin sjoen wurde dat it foarsein oantal flaters N2 = 3167 is, wat mear is as it minimale kritearium fan 1459.
As gefolch fan 'e korreksje hawwe wy 805 flaters korrizjearre, en it foarsein oantal is 3167 - 805 = 2362, wat noch mear is as de minimale drompel dy't wy aksepteare.
Wy definiearje parameter C, lambda en betrouberensfunksje:

Ofbylding 17.
Yn essinsje is lambda in feitlike yndikator fan 'e yntensiteit wêrmei't flaters yn elke poadium ûntdutsen wurde. As jo hjirboppe sjogge, wie de foarige skatting fan dizze yndikator 42,4 flaters per oere, wat frijwat te fergelykjen is mei de Schumann-yndikator. Trochgean nei it earste diel fan dit materiaal, waard bepaald dat it taryf wêrop in ûntwikkelder flaters fynt net leger wêze soe as 1 flater per 250,4 records, by it kontrolearjen fan 1 record per minuut. Dêrom is de krityske wearde fan lambda foar it Schumann-model:
60 / 250,4 = 0,239617.
Dat is, de needsaak om flaterdeteksjeprosedueres út te fieren moat wurde útfierd oant lambda, fan 'e besteande 38,964, ôfnimt nei 0,239617.
Of oant de yndikator N (potinsjele oantal flaters) minus n (korrizjearre oantal flaters) sakket ûnder de drompel dy't wy aksepteare (yn it earste diel) - 1459 pcs.
Boarne: www.habr.com
