Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt

В del ett det beskrevs att denna publikation gjordes på grundval av en datauppsättning av matrikelvärderingsresultat av fastigheter i Khanty-Mansi autonoma Okrug.

Den praktiska delen presenteras i form av steg. All rengöring gjordes i Excel, eftersom det vanligaste verktyget och de beskrivna operationerna kan upprepas av de flesta specialister som kan Excel. Och ganska väl lämpad för hand-to-hand arbete.

Nollsteget kommer att vara arbetet med att starta och spara filen, eftersom den är 100 MB i storlek, då antalet av dessa operationer är tiotals och hundratals tar de betydande tid.
Öppningen är i genomsnitt 30 sekunder.
Spara – 22 sek.

Det första steget börjar med att fastställa de statistiska indikatorerna för datasetet.

Tabell 1. Statistiska indikatorer för datamängden
Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt

Teknik 2.1.

Vi skapar ett hjälpfält, jag har det under numret - AY. För varje post bildar vi formeln "=LENGTH(F365502)+LENGTH(G365502)+...+LENGTH(AW365502)"

Total tid på scen 2.1 (för Schumanns formel) t21 = 1 timme.
Antal fel hittade i steg 2.1 (för Schumann-formel) n21 = 0 st.

Det andra steget.
Kontrollera komponenterna i datamängden.
2.2. Alla värden i poster bildas med standardsymboler. Låt oss därför spåra statistiken efter symboler.

Tabell 2. Statistiska indikatorer för tecken i datasetet med preliminär analys av resultaten.Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt

Teknik 2.2.1.

Vi skapar ett hjälpfält - "alpha1". För varje post bildar vi formeln "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Vi skapar en fast Omega-1-cell. Vi kommer växelvis att ange teckenkoder enligt Windows-1251 från 32 till 255 i denna cell.
Vi skapar ett hjälpfält - "alpha2". Med formeln "=FIND(SYMBOL(Omega,1); "alfa1",N)".
Vi skapar ett hjälpfält - "alpha3". Med formeln "=OM(ISNUMBER("alfa2",N),1)"
Skapa en fast cell "Omega-2", med formeln "=SUMMA("alpha3"N1: "alpha3"N365498)"

Tabell 3. Resultat av preliminär analys av resultatRensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt

Tabell 4. Fel registrerade i detta skedeRensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt

Total tid på scen 2.2.1 (för Schumanns formel) t221 = 8 timme.
Antal korrigerade fel vid steg 2.2.1 (för Schumann-formel) n221 = 0 st.

Steg 3.
Det tredje steget är att registrera datauppsättningens tillstånd. Genom att tilldela varje post ett unikt nummer (ID) och varje fält. Detta är nödvändigt för att jämföra den konverterade datamängden med den ursprungliga. Detta är också nödvändigt för att dra full nytta av grupperings- och filtreringsmöjligheterna. Här går vi åter till tabell 2.2.2 och väljer en symbol som inte används i datamängden. Vi får vad som visas i figur 10.

Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Fig. 10. Tilldela identifierare.

Total tid på scen 3 (för Schumanns formel) t3 = 0,75 timme.
Antal fel hittade i steg 3 (för Schumann-formel) n3 = 0 st.

Eftersom Schumann-formeln kräver att steget avslutas genom att korrigera fel. Låt oss återgå till steg 2.

Steg 2.2.2.
I det här steget kommer vi också att korrigera dubbla och trippelmellanslag.
Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Fig. 11. Antal dubbelrum.

Korrigering av fel som identifierats i tabell 2.2.4.

Tabell 5. FelkorrigeringsstadiumRensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt

Ett exempel på varför en sådan aspekt som användningen av bokstäverna "e" eller "e" är betydelsefull presenteras i figur 12.

Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Fig. 12. Diskrepans i bokstaven "e".

Total tid spenderad i steg 2.2.2 t222 = 4 timmar.
Antal fel hittade i steg 2.2.2 (för Schumann-formel) n222 = 583 st.

Den fjärde etappen.
Att leta efter fältredundans passar väl in i detta skede. Av de 44 fälten, 6 fält:
7 - Syftet med strukturen
16 — Antal underjordiska våningar
17 - Föräldraobjekt
21 - Byråd
38 — Strukturparametrar (beskrivning)
40 – Kulturarv

De har inga poster. Det vill säga att de är överflödiga.
Fält "22 – Stad" har en enda post, figur 13.

Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Fig. 13. Den enda posten är Z_348653 i fältet "Stad".

Fält "34 - Byggnadsnamn" innehåller poster som uppenbarligen inte motsvarar syftet med fältet, figur 14.

Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Fig. 14. Ett exempel på en post som inte uppfyller kraven.

Vi exkluderar dessa fält från datamängden. Och vi registrerar förändringen i 214 poster.

Total tid på scen 4 (för Schumanns formel) t4 = 2,5 timme.
Antal fel hittade i steg 4 (för Schumann-formel) n4 = 222 st.

Tabell 6. Analys av datamängdsindikatorer efter 4:e etappen

Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt

När vi analyserar förändringar i indikatorer (tabell 6) kan vi generellt säga att:
1) Förhållandet mellan det genomsnittliga antalet symboler och standardavvikelsens spak är nära 3, det vill säga det finns tecken på en normalfördelning (six sigma-regeln).
2) En betydande avvikelse mellan minimi- och maximalspakarna från medelspaken tyder på att studiet av svansar är en lovande riktning när man letar efter fel.

Låt oss undersöka resultaten av att hitta fel med Schumanns metodik.

Tomgångssteg

2.1. Total tid på scen 2.1 (för Schumanns formel) t21 = 1 timme.
Antal fel hittade i steg 2.1 (för Schumann-formel) n21 = 0 st.

3. Total tid på scen 3 (för Schumanns formel) t3 = 0,75 timme.
Antal fel hittade i steg 3 (för Schumann-formel) n3 = 0 st.

Effektiva stadier
2.2. Total tid på scen 2.2.1 (för Schumanns formel) t221 = 8 timme.
Antal korrigerade fel vid steg 2.2.1 (för Schumann-formel) n221 = 0 st.
Total tid spenderad i steg 2.2.2 t222 = 4 timmar.
Antal fel hittade i steg 2.2.2 (för Schumann-formel) n222 = 583 st.

Total tid i steg 2.2 t22 = 8 + 4 = 12 timmar.
Antal fel hittade i steg 2.2.2 (för Schumann-formel) n222 = 583 st.

4. Total tid på scen 4 (för Schumanns formel) t4 = 2,5 timme.
Antal fel hittade i steg 4 (för Schumann-formel) n4 = 222 st.

Eftersom det finns noll stadier som måste inkluderas i det första steget av Schumann-modellen, och å andra sidan, steg 2.2 och 4 är i sig oberoende, då med tanke på att Schumann-modellen antar att genom att öka kontrollens varaktighet, är sannolikheten för att upptäcka ett fel minskar, det vill säga flödet minskar fel, sedan genom att undersöka detta flöde kommer vi att bestämma vilket steg vi ska sätta först, enligt regeln, där feltätheten är mer frekvent, kommer vi att sätta det steget först.

Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Fig. 15.

Av formeln i figur 15 följer att det är att föredra att placera det fjärde steget före steg 2.2 i beräkningarna.

Med Schumanns formel bestämmer vi det uppskattade initiala antalet fel:

Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Fig. 16.

Av resultaten i figur 16 kan man se att det förutsagda antalet fel är N2 = 3167, vilket är mer än minimikriteriet på 1459.

Som ett resultat av korrigeringen korrigerade vi 805 fel, och det förutsagda antalet är 3167 – 805 = 2362, vilket fortfarande är mer än det lägsta tröskelvärdet vi accepterade.

Vi definierar parameter C, lambda och tillförlitlighetsfunktion:

Rensa upp data som en omgång Rock, Paper, Scissors. Är detta ett spel med eller utan ett slut? Del 2. Praktiskt
Fig. 17.

I huvudsak är lambda en faktisk indikator på intensiteten med vilken fel detekteras i varje steg. Om du tittar ovan var den tidigare uppskattningen av denna indikator 42,4 fel per timme, vilket är ganska jämförbart med Schumann-indikatorn. När vi vänder oss till den första delen av det här materialet, fastställdes det att hastigheten med vilken en utvecklare hittar fel inte bör vara lägre än 1 fel per 250,4 poster vid kontroll av 1 post per minut. Därav det kritiska värdet av lambda för Schumann-modellen:
60 / 250,4 = 0,239617.

Det vill säga behovet av att utföra feldetekteringsprocedurer måste utföras tills lambda, från den befintliga 38,964, minskar till 0,239617.

Eller tills indikatorn N (potentiellt antal fel) minus n (korrigerat antal fel) sjunker under tröskeln vi accepterade (i första delen) - 1459 st.

Del 1. Teoretisk.

Källa: will.com

Lägg en kommentar