РDet beskrevs att denna publikation gjordes baserat pÄ en datauppsÀttning med resultaten av kadastervÀrdering av fastighetsobjekt i Khanty-Mansijsk autonoma okrug.
Den praktiska delen presenteras i form av steg. All rengöring utfördes i Excel, eftersom det Àr det vanligaste verktyget och de beskrivna operationerna kan upprepas av de flesta specialister som kan Excel. Och det Àr mycket lÀmpligt för praktiskt arbete.
Jag kommer att lÀgga arbetet pÄ att starta och spara filen som nollsteg, eftersom den Àr 100 MB stor, och med antalet av dessa operationer i tiotals och hundratals tar de en betydande mÀngd tid.
Ăppningstiden Ă€r i genomsnitt 30 sekunder.
Sparande - 22 sek.
Det första steget börjar med att definiera de statistiska indikatorerna för datamÀngden.
Tabell 1. Statistiska indikatorer för datamÀngden

Teknik 2.1.
Vi skapar ett hjĂ€lpfĂ€lt, jag har det under numret â AY. För varje post bildar vi formeln «=LEN(F365502)+LEN(G365502)+âŠ+LEN(AW365502)»
Total tid spenderad pÄ steg 2.1 (för Schumanns formel) t21 = 1 timme.
Antalet fel som hittats i steg 2.1 (för Schumann-formeln) n21 = 0 st.
Det andra steget.
Kontroll av datamÀngdens komponenter.
2.2. Alla vÀrden i poster bildas av standardsymboler. DÀrför kommer vi att spÄra statistik med hjÀlp av symboler.
Tabell 2. Statistiska indikatorer för symboler i datasetet med preliminĂ€r analys av resultaten.




Teknik 2.2.1.
Vi skapar ett hjĂ€lpfĂ€lt â âalpha1â. För varje post bildar vi formeln â=CONCATENATE(Sheet1!B9;âŠSheet1!AQ9)â.
Vi skapar en fast cell "Omega-1". I den hÀr cellen kommer vi att ange teckenkoder enligt Windows-1251 frÄn 32 till 255 en i taget.
Vi skapar ett hjĂ€lpfĂ€lt â âalpha2â. Med formeln â=FIND(CHAR(Omega;1); âalpha1â;N)â.
Vi skapar ett hjĂ€lpfĂ€lt â âalfa3â. Med formeln â=OM(ĂRTAL(âalfa2â;N);1;0)â
Skapa en fast cell "Omega-2" med formeln "=SUM("alpha3"N1:"alpha3"N365498)"
Tabell 3. Resultat av den preliminĂ€ra analysen av resultaten
Tabell 4. Fel som registrerats i detta skede
Total tid spenderad pÄ steg 2.2.1 (för Schumanns formel) t221 = 8 timme.
Antalet korrigerade fel i steg 2.2.1 (för Schumann-formeln) n221 = 0 st.
Steg 3.
Det tredje steget Àr att fixera datamÀngdens tillstÄnd. Genom att tilldela ett unikt nummer (ID) till varje post och varje fÀlt. Detta Àr nödvÀndigt för att jÀmföra den transformerade datamÀngden med originalet. Det Àr ocksÄ nödvÀndigt att fullt ut utnyttja grupperings- och filtreringsmöjligheterna. HÀr vÀnder vi oss Äterigen till tabell 2.2.2 och vÀljer en symbol som inte anvÀnds i datamÀngden. Vi fÄr det som visas i figur 10.

Bild 10. Tilldelning av identifierare.
Total tid spenderad pÄ steg 3 (för Schumanns formel) t3 = 0,75 timme.
Antalet fel som hittats i steg 3 (för Schumann-formeln) n3 = 0 st.
Eftersom Schumanns formel krÀver att steget kompletteras genom felkorrigering ÄtergÄr vi till steg 2.
Steg 2.2.2.
I det hÀr skedet kommer vi Àven att korrigera dubbla och tredubbla mellanslag.

Bild 11. Antal dubbla mellanslag.
RĂ€ttelse av fel som identifierats i tabell 2.2.4.
Tabell 5. Felkorrigeringsfas

Ett exempel pĂ„ varför en sĂ„dan aspekt som anvĂ€ndningen av bokstĂ€verna âeâ eller âyoâ Ă€r viktig visas i figur 12.

Fig. 12. Inkonsekvens i bokstaven "Ń".
Total tid spenderad pÄ etapp 2.2.2 t222 = 4 timmar.
Antalet fel som hittats i steg 2.2.2 (för Schumann-formeln) n222 = 583 st.
Den fjÀrde etappen.
Det hÀr steget passar bra med att kontrollera fÀltredundans. Av de 44 fÀlten Àr 6 fÀlt:
7 â Strukturens syfte
16 - Antal vÄningar under jord
17 â FörĂ€ldraobjekt
21 â ByarĂ„det
38 â Strukturens parametrar (beskrivning)
40 - Kulturarv
De har inte en enda post. Det vill sÀga, de Àr redundanta.
FĂ€ltet "22 - Stad" har en enda post, figur 13.

Bild 13. Den enda posten Z_348653 i fĂ€ltet âStadâ.
FĂ€ltet â34 â Byggnadsnamnâ innehĂ„ller poster som uppenbarligen inte motsvarar fĂ€ltets syfte, figur 14.

Bild 14. Exempel pÄ en icke-kompatibel post.
Vi exkluderar dessa fÀlt frÄn datasetet. Och vi registrerar Àndringen av 214 poster.
Total tid spenderad pÄ steg 4 (för Schumanns formel) t4 = 2,5 timme.
Antalet fel som hittats i steg 4 (för Schumann-formeln) n4 = 222 st.
Tabell 6. Analys av datamÀngdsindikatorer efter det fjÀrde steget

Generellt sett kan vi, genom att analysera förÀndringarna i indikatorerna (tabell 6), sÀga att:
1) FörhÄllandet mellan hÀvstÄngarna för det genomsnittliga antalet symboler och hÀvstÄngen för standardavvikelsen Àr nÀra 3, det vill sÀga det finns tecken pÄ en normalfördelning (sexsigma-regeln).
2) Den signifikanta avvikelsen mellan minimi- och maximihÀvstÄngarna och den genomsnittliga hÀvstÄngen tyder pÄ att studier av svansarna Àr en lovande riktning för att söka efter fel.
Vi kommer att undersöka resultaten av att hitta fel med hjÀlp av Schumanns metod.
TomgÄngsstadier
2.1 Total tid spenderad pÄ steg 2.1 (för Schumanns formel) t21 = 1 timme.
Antalet fel som hittats i steg 2.1 (för Schumann-formeln) n21 = 0 st.
3 Total tid spenderad pÄ steg 3 (för Schumanns formel) t3 = 0,75 timme.
Antalet fel som hittats i steg 3 (för Schumann-formeln) n3 = 0 st.
Resultatfaser
2.2 Total tid spenderad pÄ steg 2.2.1 (för Schumanns formel) t221 = 8 timme.
Antalet korrigerade fel i steg 2.2.1 (för Schumann-formeln) n221 = 0 st.
Total tid spenderad pÄ etapp 2.2.2 t222 = 4 timmar.
Antalet fel som hittats i steg 2.2.2 (för Schumann-formeln) n222 = 583 st.
Total tid spenderad pÄ etapp 2.2 t22 = 8 + 4 = 12 timmar.
Antalet fel som hittats i steg 2.2.2 (för Schumann-formeln) n222 = 583 st.
4 Total tid spenderad pÄ steg 4 (för Schumanns formel) t4 = 2,5 timme.
Antalet fel som hittats i steg 4 (för Schumann-formeln) n4 = 222 st.
Eftersom det finns noll steg som bör inkluderas i det första steget i Schumann-modellen, och Ä andra sidan stegen 2.2 och 4 Àr i huvudsak oberoende, kommer vi, med hÀnsyn till att Schumann-modellen antar att med en ökning av testets varaktighet minskar sannolikheten för att upptÀcka ett fel, det vill sÀga att flödet av fel minskar, genom att studera detta flöde att avgöra vilket av stegen som ska placeras först, enligt regeln att dÀr feltÀtheten Àr mer frekvent, placeras det steget först.
![]()
Fig. 15.
Av formeln i figur 15 följer att det Àr att föredra att placera det fjÀrde steget före steg 2.2 i berÀkningarna.
Med hjÀlp av Schumanns formel bestÀmmer vi det uppskattade initiala antalet fel:

Fig. 16.
Av resultaten i figur 16 framgÄr att det förutspÄdda antalet fel N2 = 3167, vilket Àr större Àn minimikriteriet pÄ 1459.
Till följd av korrigeringen korrigerade vi 805 fel, och det förutspÄdda antalet Àr 3167 - 805 = 2362, vilket fortfarande Àr mer Àn det lÀgsta tröskelvÀrde vi antog.
Vi definierar parametern C, lambda och tillförlitlighetsfunktionen:

Fig. 17.
I grund och botten Àr lambda en faktisk indikator pÄ intensiteten med vilken fel upptÀcks i varje steg. Om man tittar ovan uppgick uppskattningen av denna indikator tidigare till 42,4 fel per timme, vilket Àr ganska jÀmförbart med Schumann-indikatorn. Med hÀnvisning till den första delen av detta material faststÀlldes att intensiteten för att upptÀcka fel av utvecklaren inte skulle vara mindre Àn 1 fel per 250,4 poster, vid kontroll av 1 post per minut. DÀrav det kritiska vÀrdet för lambda för Schumann-modellen:
60 / 250,4 = 0,239617.
Det vill sÀga att behovet av att utföra feldetekteringsprocedurer mÄste utföras tills lambdan, frÄn befintliga 38,964, minskar till 0,239617.
Eller tills indikatorn N (det potentiella antalet fel) minus n (det korrigerade antalet fel) minskar under det tröskelvĂ€rde vi antog (i den första delen) â 1459 st.
KĂ€lla: will.com
