Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk

В del et det blev beskrevet, at denne publikation blev lavet på grundlag af et datasæt af matrikulære vurderingsresultater af fast ejendom i Khanty-Mansi Autonome Okrug.

Den praktiske del præsenteres i form af trin. Al rengøring blev udført i Excel, da det mest almindelige værktøj og de beskrevne operationer kan gentages af de fleste specialister, der kender Excel. Og ganske velegnet til hånd-til-hånd arbejde.

Nulstadiet vil være arbejdet med at starte og gemme filen, da den er 100 MB i størrelse, så med antallet af disse operationer på ti og hundreder, tager de betydelig tid.
Åbning er i gennemsnit 30 sekunder.
Besparelse – 22 sek.

Den første fase begynder med at bestemme datasættets statistiske indikatorer.

Tabel 1. Statistiske indikatorer for datasættet
Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk

Teknologi 2.1.

Vi opretter et hjælpefelt, jeg har det under nummeret - AY. For hver indtastning danner vi formlen "=LENGTH(F365502)+LENGTH(G365502)+...+LENGTH(AW365502)"

Samlet tid brugt på scene 2.1 (for Schumann formel) t21 = 1 time.
Antal fejl fundet i trin 2.1 (for Schumann formel) n21 = 0 stk.

Den anden fase.
Kontrol af datasættets komponenter.
2.2. Alle værdier i poster er dannet ved hjælp af standardsymboler. Lad os derfor spore statistikken efter symboler.

Tabel 2. Statistiske indikatorer for tegn i datasættet med foreløbig analyse af resultaterne.Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk

Teknologi 2.2.1.

Vi opretter et hjælpefelt - "alpha1". For hver post danner vi formlen "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Vi skaber en fast Omega-1 celle. Vi vil skiftevis indtaste tegnkoder i henhold til Windows-1251 fra 32 til 255 i denne celle.
Vi opretter et hjælpefelt - "alpha2". Med formlen "=FIND(SYMBOL(Omega,1); "alpha1",N)".
Vi opretter et hjælpefelt - "alpha3". Med formlen "=HVIS(ISNUMBER("alpha2",N),1)"
Opret en fast celle "Omega-2" med formlen "=SUM("alpha3"N1: "alpha3"N365498)"

Tabel 3. Resultater af foreløbig analyse af resultaterOprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk

Tabel 4. Fejl registreret på dette stadiumOprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk

Samlet tid brugt på scene 2.2.1 (for Schumann formel) t221 = 8 time.
Antal korrigerede fejl på trin 2.2.1 (for Schumann-formel) n221 = 0 stk.

Trin 3.
Det tredje trin er at registrere datasættets tilstand. Ved at tildele hver post et unikt nummer (ID) og hvert felt. Dette er nødvendigt for at sammenligne det konverterede datasæt med det originale. Dette er også nødvendigt for at drage fuld fordel af grupperings- og filtreringsmulighederne. Her vender vi igen til tabel 2.2.2 og vælger et symbol, der ikke bruges i datasættet. Vi får, hvad der er vist i figur 10.

Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Fig. 10. Tildeling af identifikatorer.

Samlet tid brugt på scene 3 (for Schumann formel) t3 = 0,75 time.
Antal fejl fundet i trin 3 (for Schumann formel) n3 = 0 stk.

Da Schumann-formlen kræver, at etapen afsluttes ved at rette fejl. Lad os vende tilbage til fase 2.

Trin 2.2.2.
I dette trin vil vi også rette dobbelte og tredobbelte mellemrum.
Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Fig. 11. Antal dobbeltrum.

Korrektion af fejl identificeret i tabel 2.2.4.

Tabel 5. FejlretningstrinOprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk

Et eksempel på, hvorfor et sådant aspekt som brugen af ​​bogstaverne "e" eller "e" er signifikant er præsenteret i figur 12.

Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Fig. 12. Uoverensstemmelse i bogstavet "e".

Samlet tid brugt i trin 2.2.2 t222 = 4 timer.
Antal fejl fundet i trin 2.2.2 (for Schumann formel) n222 = 583 stk.

Fjerde etape.
Kontrol af feltredundans passer godt ind i denne fase. Af de 44 felter, 6 felter:
7 - Formålet med strukturen
16 — Antal underjordiske etager
17 - Overordnet objekt
21 - Landsbyråd
38 — Strukturparametre (beskrivelse)
40 – Kulturarv

De har ingen poster. Det vil sige, at de er overflødige.
Felt "22 – By" har en enkelt indtastning, figur 13.

Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Fig. 13. Den eneste post er Z_348653 i feltet "By".

Felt "34 - Bygningsnavn" indeholder poster, der tydeligvis ikke svarer til formålet med feltet, figur 14.

Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Fig. 14. Et eksempel på en ikke-kompatibel post.

Vi udelukker disse felter fra datasættet. Og vi registrerer ændringen i 214 poster.

Samlet tid brugt på scene 4 (for Schumann formel) t4 = 2,5 time.
Antal fejl fundet i trin 4 (for Schumann formel) n4 = 222 stk.

Tabel 6. Analyse af datasætindikatorer efter 4. trin

Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk

Generelt kan vi ved at analysere ændringer i indikatorer (tabel 6) sige, at:
1) Forholdet mellem det gennemsnitlige antal symboler og standardafvigelsesarmen er tæt på 3, det vil sige, at der er tegn på en normalfordeling (six sigma-regel).
2) En betydelig afvigelse af minimums- og maksimumshåndtagene fra gennemsnitshåndtaget tyder på, at undersøgelsen af ​​haler er en lovende retning, når man søger efter fejl.

Lad os undersøge resultaterne af at finde fejl ved hjælp af Schumanns metode.

Tomme stadier

2.1. Samlet tid brugt på scene 2.1 (for Schumann formel) t21 = 1 time.
Antal fejl fundet i trin 2.1 (for Schumann formel) n21 = 0 stk.

3. Samlet tid brugt på scene 3 (for Schumann formel) t3 = 0,75 time.
Antal fejl fundet i trin 3 (for Schumann formel) n3 = 0 stk.

Effektive stadier
2.2. Samlet tid brugt på scene 2.2.1 (for Schumann formel) t221 = 8 time.
Antal korrigerede fejl på trin 2.2.1 (for Schumann-formel) n221 = 0 stk.
Samlet tid brugt i trin 2.2.2 t222 = 4 timer.
Antal fejl fundet i trin 2.2.2 (for Schumann formel) n222 = 583 stk.

Samlet tid brugt i trin 2.2 t22 = 8 + 4 = 12 timer.
Antal fejl fundet i trin 2.2.2 (for Schumann formel) n222 = 583 stk.

4. Samlet tid brugt på scene 4 (for Schumann formel) t4 = 2,5 time.
Antal fejl fundet i trin 4 (for Schumann formel) n4 = 222 stk.

Da der er nul stadier, der skal inkluderes i den første fase af Schumann-modellen, og på den anden side er stadier 2.2 og 4 i sagens natur uafhængige, så givet at Schumann-modellen antager, at ved at øge varigheden af ​​kontrollen, er sandsynligheden ved at detektere en fejl falder, det vil sige, at flowet mindsker fejl, så ved at undersøge dette flow vil vi bestemme hvilket trin vi skal sætte først, ifølge reglen, hvor fejltætheden er hyppigere, vil vi sætte det trin først.

Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Fig. 15.

Af formlen i figur 15 følger, at det er at foretrække at placere det fjerde trin før trin 2.2 i beregningerne.

Ved hjælp af Schumanns formel bestemmer vi det estimerede initiale antal fejl:

Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Fig. 16.

Fra resultaterne i figur 16 kan det ses, at det forudsagte antal fejl er N2 = 3167, hvilket er mere end minimumskriteriet på 1459.

Som et resultat af rettelsen rettede vi 805 fejl, og det forudsagte antal er 3167 – 805 = 2362, hvilket stadig er mere end den minimumstærskel, vi accepterede.

Vi definerer parameter C, lambda og pålidelighedsfunktion:

Oprydning af data som Rock, Paper, Saks. Er det et spil med eller uden afslutning? Del 2. Praktisk
Fig. 17.

I det væsentlige er lambda en faktisk indikator for den intensitet, hvormed fejl detekteres på hvert trin. Hvis du ser ovenfor, var det tidligere estimat af denne indikator 42,4 fejl i timen, hvilket er ret sammenligneligt med Schumann-indikatoren. Med hensyn til den første del af dette materiale blev det bestemt, at den hastighed, hvormed en udvikler finder fejl, ikke bør være lavere end 1 fejl pr. 250,4 poster, når der kontrolleres 1 post pr. minut. Derfor den kritiske værdi af lambda for Schumann-modellen:
60 / 250,4 = 0,239617.

Det vil sige, at behovet for at udføre procedurerne for at finde fejl skal udføres, indtil lambdaen, fra de tilgængelige 38,964, falder til 0,239617.

Eller indtil indikatoren N (potentielt antal fejl) minus n (korrigeret antal fejl) falder under den tærskel, vi accepterede (i første del) - 1459 stk.

Del 1. Teoretisk.

Kilde: www.habr.com

Tilføj en kommentar