Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

В del en det ble beskrevet at denne publikasjonen ble laget på grunnlag av et datasett med matrikkelverdivurderingsresultater av eiendom i Khanty-Mansi autonome okrug.

Den praktiske delen presenteres i form av trinn. All rengjøring ble gjort i Excel, siden det vanligste verktøyet og de beskrevne operasjonene kan gjentas av de fleste spesialister som kan Excel. Og ganske godt egnet for hånd-til-hånd arbeid.

Nullstadiet vil være arbeidet med å starte og lagre filen, siden den er 100 MB i størrelse, og med antallet av disse operasjonene som er titalls og hundrevis, tar de betydelig tid.
Åpning er i gjennomsnitt 30 sekunder.
Sparing – 22 sek.

Det første trinnet begynner med å bestemme de statistiske indikatorene for datasettet.

Tabell 1. Statistiske indikatorer for datasettet
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Teknologi 2.1.

Vi oppretter et hjelpefelt, jeg har det under nummeret - AY. For hver oppføring danner vi formelen "=LENGTH(F365502)+LENGTH(G365502)+...+LENGTH(AW365502)"

Total tid brukt på scene 2.1 (for Schumann-formel) t21 = 1 time.
Antall feil funnet på trinn 2.1 (for Schumann-formel) n21 = 0 stk.

Det andre trinn.
Kontrollerer komponentene i datasettet.
2.2. Alle verdier i poster dannes ved hjelp av standardsymboler. La oss derfor spore statistikken etter symboler.

Tabell 2. Statistiske indikatorer på tegn i datasettet med foreløpig analyse av resultatene.Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Teknologi 2.2.1.

Vi oppretter et hjelpefelt - "alpha1". For hver post danner vi formelen "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Vi lager en fast Omega-1-celle. Vi vil vekselvis legge inn tegnkoder i henhold til Windows-1251 fra 32 til 255 i denne cellen.
Vi oppretter et hjelpefelt - "alpha2". Med formelen "=FINN(SYMBOL(Omega,1); "alfa1",N)".
Vi oppretter et hjelpefelt - "alpha3". Med formelen "=HVIS(ISNUMBER("alfa2",N),1)"
Lag en fast celle "Omega-2", med formelen "=SUM("alpha3"N1: "alpha3"N365498)"

Tabell 3. Resultater av foreløpig analyse av resultaterRydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Tabell 4. Feil registrert på dette stadietRydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Total tid brukt på scene 2.2.1 (for Schumann-formel) t221 = 8 time.
Antall korrigerte feil på trinn 2.2.1 (for Schumann-formel) n221 = 0 stk.

Trinn 3.
Det tredje trinnet er å registrere tilstanden til datasettet. Ved å tildele hver post et unikt nummer (ID) og hvert felt. Dette er nødvendig for å sammenligne det konverterte datasettet med det opprinnelige. Dette er også nødvendig for å dra full nytte av grupperings- og filtreringsmulighetene. Her går vi igjen til tabell 2.2.2 og velger et symbol som ikke brukes i datasettet. Vi får det som er vist i figur 10.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 10. Tilordning av identifikatorer.

Total tid brukt på scene 3 (for Schumann-formel) t3 = 0,75 time.
Antall feil funnet på trinn 3 (for Schumann-formel) n3 = 0 stk.

Siden Schumann-formelen krever at etappen fullføres ved å rette feil. La oss gå tilbake til trinn 2.

Trinn 2.2.2.
I dette trinnet vil vi også korrigere dobbelt- og trippelrom.
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 11. Antall dobbeltrom.

Retting av feil identifisert i tabell 2.2.4.

Tabell 5. FeilrettingsstadiumRydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Et eksempel på hvorfor et slikt aspekt som bruken av bokstavene "e" eller "e" er viktig er presentert i figur 12.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 12. Avvik i bokstaven "e".

Total tid brukt i trinn 2.2.2 t222 = 4 timer.
Antall feil funnet på trinn 2.2.2 (for Schumann-formel) n222 = 583 stk.

Fjerde trinn.
Å se etter feltredundans passer godt inn i dette stadiet. Av de 44 feltene, 6 felter:
7 - Formålet med strukturen
16 — Antall underjordiske etasjer
17 - Overordnet objekt
21 - Bygderåd
38 — Strukturparametere (beskrivelse)
40 – Kulturarv

De har ingen oppføringer. Det vil si at de er overflødige.
Felt "22 – City" har én enkelt oppføring, figur 13.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 13. Den eneste oppføringen er Z_348653 i "By"-feltet.

Felt "34 - Bygningsnavn" inneholder oppføringer som tydeligvis ikke samsvarer med formålet med feltet, figur 14.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 14. Et eksempel på en ikke-kompatibel oppføring.

Vi ekskluderer disse feltene fra datasettet. Og vi registrerer endringen i 214 poster.

Total tid brukt på scene 4 (for Schumann-formel) t4 = 2,5 time.
Antall feil funnet på trinn 4 (for Schumann-formel) n4 = 222 stk.

Tabell 6. Analyse av datasettindikatorer etter 4. trinn

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk

Generelt, ved å analysere endringer i indikatorer (tabell 6), kan vi si at:
1) Forholdet mellom gjennomsnittlig antall symboler og standardavviksspaken er nær 3, det vil si at det er tegn på normalfordeling (six sigma-regelen).
2) Et betydelig avvik mellom minimums- og maksimumsspakene fra gjennomsnittsspaken antyder at studiet av haler er en lovende retning når man søker etter feil.

La oss undersøke resultatene av å finne feil ved å bruke Schumanns metodikk.

Tomgangsetapper

2.1. Total tid brukt på scene 2.1 (for Schumann-formel) t21 = 1 time.
Antall feil funnet på trinn 2.1 (for Schumann-formel) n21 = 0 stk.

3. Total tid brukt på scene 3 (for Schumann-formel) t3 = 0,75 time.
Antall feil funnet på trinn 3 (for Schumann-formel) n3 = 0 stk.

Effektive stadier
2.2. Total tid brukt på scene 2.2.1 (for Schumann-formel) t221 = 8 time.
Antall korrigerte feil på trinn 2.2.1 (for Schumann-formel) n221 = 0 stk.
Total tid brukt i trinn 2.2.2 t222 = 4 timer.
Antall feil funnet på trinn 2.2.2 (for Schumann-formel) n222 = 583 stk.

Total tid brukt i trinn 2.2 t22 = 8 + 4 = 12 timer.
Antall feil funnet på trinn 2.2.2 (for Schumann-formel) n222 = 583 stk.

4. Total tid brukt på scene 4 (for Schumann-formel) t4 = 2,5 time.
Antall feil funnet på trinn 4 (for Schumann-formel) n4 = 222 stk.

Siden det er null stadier som må inkluderes i den første fasen av Schumann-modellen, og på den annen side, trinn 2.2 og 4 er iboende uavhengige, så gitt at Schumann-modellen antar at ved å øke varigheten av kontrollen, er sannsynligheten for å oppdage en feil reduseres, det vil si at strømmen reduserer feil, så ved å undersøke denne strømmen vil vi bestemme hvilket trinn vi skal sette først, i henhold til regelen, hvor feiltettheten er hyppigere, vil vi sette det stadiet først.

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 15.

Av formelen i figur 15 følger det at det er å foretrekke å plassere fjerde trinn før trinn 2.2 i beregningene.

Ved å bruke Schumanns formel bestemmer vi det estimerte antallet feil:

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 16.

Fra resultatene i figur 16 kan man se at det predikerte antall feil er N2 = 3167, som er mer enn minimumskriteriet på 1459.

Som et resultat av korrigeringen korrigerte vi 805 feil, og det anslåtte antallet er 3167 – 805 = 2362, som fortsatt er mer enn minimumsterskelen vi godtok.

Vi definerer parameter C, lambda og pålitelighetsfunksjon:

Rydd opp i data som et spill med stein, papir, saks. Er dette et spill med eller uten slutt? Del 2. Praktisk
Fig. 17.

I hovedsak er lambda en faktisk indikator på intensiteten som feil oppdages i hvert trinn. Hvis du ser ovenfor, var det forrige anslaget for denne indikatoren 42,4 feil per time, noe som er ganske sammenlignbart med Schumann-indikatoren. Når vi ser på den første delen av dette materialet, ble det bestemt at hastigheten som en utvikler finner feil med, ikke bør være lavere enn 1 feil per 250,4 poster, når du sjekker 1 post per minutt. Derfor den kritiske verdien av lambda for Schumann-modellen:
60 / 250,4 = 0,239617.

Det vil si at behovet for å utføre feildeteksjonsprosedyrer må utføres til lambda, fra eksisterende 38,964, reduseres til 0,239617.

Eller til indikatoren N (potensielt antall feil) minus n (korrigert antall feil) synker under terskelen vi aksepterte (i første del) - 1459 stk.

Del 1. Teoretisk.

Kilde: www.habr.com

Legg til en kommentar