Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

В del én Det ble beskrevet at denne publikasjonen ble laget på grunnlag av et datasett med resultatene av matrikkelvurdering av eiendomsobjekter i Khanty-Mansi autonome okrug.

Den praktiske delen presenteres i trinn. All opprydding ble utført i Excel, siden det er det vanligste verktøyet, og operasjonene som er beskrevet kan gjentas av de fleste fagfolk som er kjent med Excel. Det er også ganske godt egnet for praktisk arbeid.

Jeg legger arbeidet med å starte og lagre filen til nulltrinn, siden den er 100 MB stor, og med titalls og hundrevis av disse operasjonene tar de betydelig tid.
Åpningstiden er i gjennomsnitt 30 sekunder.
Sparetid: 22 sek.

Det første trinnet begynner med å definere de statistiske indikatorene for datasettet.

Tabell 1. Statistiske indikatorer for datasettet
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Teknologi 2.1.

Opprett et hjelpefelt; jeg kaller det AY. For hver post oppretter du formelen "=LEN(F365502)+LEN(G365502)+…+LEN(AW365502)".

Total tid brukt på trinn 2.1 (for Schumann-formelen) t21 = 1 time.
Antall feil funnet i trinn 2.1 (for Schumann-formelen) n21 = 0 stk.

Det andre trinn.
Kontroll av datasettkomponentene.
2.2. Alle verdier i poster er dannet ved hjelp av standardsymboler. La oss derfor spore statistikken etter symbol.

Tabell 2. Statistiske indikatorer for symboler i datasettet med foreløpig analyse av resultatene.Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Teknologi 2.2.1.

Vi oppretter et hjelpefelt – «alpha1». For hver post oppretter vi formelen «=CONCATENATE(Ark1!B9;…Ark1!AQ9)».
Vi oppretter en fast celle kalt «Omega-1». Vi skriver inn Windows-1251-tegnkoder fra 32 til 255 i denne cellen, én etter én.
Vi oppretter et hjelpefelt – «alpha2». Med formelen «=FIND(CHAR(Omega;1); «alpha1»;N)».
Vi oppretter et hjelpefelt – «alfa3». Med formelen «=HVIS(ERANTALL(«alfa2»;N);1;0)»
Opprett en fast celle «Omega-2» med formelen «=SUM("alpha3"N1:"alpha3"N365498)»

Tabell 3. Resultater av den foreløpige analysen av resultateneRydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Tabell 4. Feil registrert på dette stadietRydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Total tid brukt på trinn 2.2.1 (for Schumann-formelen) t221 = 8 time.
Antall feil rettet i trinn 2.2.1 (for Schumann-formelen) n221 = 0 stk.

Trinn 3.
Det tredje trinnet er å registrere datasettets tilstand. Vi tilordner et unikt nummer (ID) til hver post og hvert felt. Dette er nødvendig for å sammenligne det transformerte datasettet med originalen. Det er også nødvendig å utnytte grupperings- og filtreringsmulighetene fullt ut. Her refererer vi igjen til tabell 2.2.2 og velger et symbol som ikke brukes i datasettet. Resultatet er vist i figur 10.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Figur 10. Tildeling av identifikatorer.

Total tid brukt på trinn 3 (for Schumann-formelen) t3 = 0,75 time.
Antall feil funnet i trinn 3 (for Schumann-formelen) n3 = 0 stk.

Siden Schumann-formelen krever at denne fasen fullføres med feilretting, går vi tilbake til fase 2.

Trinn 2.2.2.
På dette stadiet vil vi også korrigere doble og trippel mellomrom.
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Figur 11. Antall doble mellomrom.

Korrigering av feil identifisert i tabell 2.2.4.

Tabell 5. FeilrettingstrinneRydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Et eksempel på hvorfor et slikt aspekt som bruken av bokstavene «e» eller «yo» er viktig, vises i figur 12.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 12. Inkonsekvens i bokstaven «ё».

Total tid brukt på trinn 2.2.2 t222 = 4 timer.
Antall feil funnet i trinn 2.2.2 (for Schumann-formelen) n222 = 583 stk.

Fjerde trinn.
Å sjekke for feltredundans passer godt inn i dette trinnet. Av de 44 feltene er 6:
7 — Strukturens formål
16 - Antall etasjer under bakkenivå
17 — Overordnet objekt
21 — Landsbyrådet
38 — Strukturparametere (beskrivelse)
40 - Kulturarv

De har ikke en eneste oppføring. Det vil si at de er overflødige.
Feltet «22 – By» har én enkelt oppføring, figur 13.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 13. Den eneste oppføringen Z_348653 i feltet «By».

Felt «34 – Bygningens navn» inneholder oppføringer som tydeligvis ikke samsvarer med feltets formål, figur 14.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Figur 14. Eksempel på en ikke-kompatibel oppføring.

Vi ekskluderer disse feltene fra datasettet og registrerer endringer i 214 poster.

Total tid brukt på trinn 4 (for Schumann-formelen) t4 = 2,5 time.
Antall feil funnet i trinn 4 (for Schumann-formelen) n4 = 222 stk.

Tabell 6. Analyse av datasettindikatorer etter 4. trinn

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Generelt sett kan vi, ved å analysere endringene i indikatorene (tabell 6), si at:
1) Forholdet mellom gjennomsnittlig antall symboler og standardavviksspaken er nær 3, noe som betyr at det er tegn på en normalfordeling (seks sigma-regelen).
2) Det betydelige avviket mellom minimums- og maksimumsvektene fra gjennomsnittsvekten antyder at studiet av haler er en lovende retning i søket etter feil.

Vi vil undersøke resultatene av å finne feil ved hjelp av Schumanns metode.

Tomgangsfaser

2.1. Total tid brukt på trinn 2.1 (for Schumann-formelen) t21 = 1 time.
Antall feil funnet i trinn 2.1 (for Schumann-formelen) n21 = 0 stk.

3. Total tid brukt på trinn 3 (for Schumann-formelen) t3 = 0,75 time.
Antall feil funnet i trinn 3 (for Schumann-formelen) n3 = 0 stk.

Effektive stadier
2.2. Total tid brukt på trinn 2.2.1 (for Schumann-formelen) t221 = 8 time.
Antall feil rettet i trinn 2.2.1 (for Schumann-formelen) n221 = 0 stk.
Total tid brukt på trinn 2.2.2 t222 = 4 timer.
Antall feil funnet i trinn 2.2.2 (for Schumann-formelen) n222 = 583 stk.

Total tid brukt på trinn 2.2 t22 = 8 + 4 = 12 timer.
Antall feil funnet i trinn 2.2.2 (for Schumann-formelen) n222 = 583 stk.

4. Total tid brukt på trinn 4 (for Schumann-formelen) t4 = 2,5 time.
Antall feil funnet i trinn 4 (for Schumann-formelen) n4 = 222 stk.

Siden det er null stadier som må inkluderes i det første stadiet av Schumann-modellen, og på den annen side stadiene 2.2 og 4 i hovedsak er uavhengige, vil vi, tatt i betraktning at Schumann-modellen antar at med en økning i testvarigheten, reduseres sannsynligheten for å oppdage en feil, det vil si at strømmen av feil reduseres, og ved å studere denne strømmen vil vi bestemme hvilket av stadiene som skal plasseres først, i henhold til regelen om at der feiltettheten er hyppigere, plasseres det stadiet først.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 15.

Fra formelen i figur 15 følger det at det er å foretrekke å plassere det fjerde trinnet før trinn 2.2 i beregningene.

Ved hjelp av Schumann-formelen bestemmer vi det estimerte initiale antallet feil:

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 16.

Fra resultatene i figur 16 kan man se at det predikerte antallet feil N2 = 3167, som er større enn minimumskriteriet på 1459.

Som et resultat av korrigeringen korrigerte vi 805 feil, og det predikerte tallet er 3167 - 805 = 2362, som fortsatt er mer enn minimumsterskelen vi tok i bruk.

Vi definerer parameter C, lambda og pålitelighetsfunksjonen:

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 17.

I hovedsak er lambda en faktisk indikator på hvor raskt feil oppdages i hvert trinn. Ut fra det forrige estimatet var denne indikatoren 42,4 feil per time, noe som er ganske sammenlignbart med Schumann-indikatoren. Med henvisning til den første delen av dette materialet ble det bestemt at utviklerens feildeteksjonsrate ikke skulle være lavere enn 1 feil per 250,4 poster, med én post per minutt kontrollert. Derfor er den kritiske lambda-verdien for Schumann-modellen:
60 / 250,4 = 0,239617.

Det vil si at behovet for å utføre feildeteksjonsprosedyrer må utføres til lambda, fra eksisterende 38,964, reduseres til 0,239617.

Eller inntil indikatoren N (potensielt antall feil) minus n (korrigert antall feil) synker under terskelen vi tok i bruk (i første del) – 1459 stk.

Del 1. Teoretisk.

Kilde: www.habr.com

Legg til en kommentar