В
Den praktiska delen presenteras i form av steg. All rengöring gjordes i Excel, eftersom det vanligaste verktyget och de beskrivna operationerna kan upprepas av de flesta specialister som kan Excel. Och ganska väl lämpad för hand-to-hand arbete.
Nollsteget kommer att vara arbetet med att starta och spara filen, eftersom den är 100 MB i storlek, då antalet av dessa operationer är tiotals och hundratals tar de betydande tid.
Öppningen är i genomsnitt 30 sekunder.
Spara – 22 sek.
Det första steget börjar med att fastställa de statistiska indikatorerna för datasetet.
Tabell 1. Statistiska indikatorer för datamängden
Teknik 2.1.
Vi skapar ett hjälpfält, jag har det under numret - AY. För varje post bildar vi formeln "=LENGTH(F365502)+LENGTH(G365502)+...+LENGTH(AW365502)"
Total tid på scen 2.1 (för Schumanns formel) t21 = 1 timme.
Antal fel hittade i steg 2.1 (för Schumann-formel) n21 = 0 st.
Det andra steget.
Kontrollera komponenterna i datamängden.
2.2. Alla värden i poster bildas med standardsymboler. Låt oss därför spåra statistiken efter symboler.
Tabell 2. Statistiska indikatorer för tecken i datasetet med preliminär analys av resultaten.
Teknik 2.2.1.
Vi skapar ett hjälpfält - "alpha1". För varje post bildar vi formeln "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Vi skapar en fast Omega-1-cell. Vi kommer växelvis att ange teckenkoder enligt Windows-1251 från 32 till 255 i denna cell.
Vi skapar ett hjälpfält - "alpha2". Med formeln "=FIND(SYMBOL(Omega,1); "alfa1",N)".
Vi skapar ett hjälpfält - "alpha3". Med formeln "=OM(ISNUMBER("alfa2",N),1)"
Skapa en fast cell "Omega-2", med formeln "=SUMMA("alpha3"N1: "alpha3"N365498)"
Tabell 3. Resultat av preliminär analys av resultat
Tabell 4. Fel registrerade i detta skede
Total tid på scen 2.2.1 (för Schumanns formel) t221 = 8 timme.
Antal korrigerade fel vid steg 2.2.1 (för Schumann-formel) n221 = 0 st.
Steg 3.
Det tredje steget är att registrera datauppsättningens tillstånd. Genom att tilldela varje post ett unikt nummer (ID) och varje fält. Detta är nödvändigt för att jämföra den konverterade datamängden med den ursprungliga. Detta är också nödvändigt för att dra full nytta av grupperings- och filtreringsmöjligheterna. Här går vi åter till tabell 2.2.2 och väljer en symbol som inte används i datamängden. Vi får vad som visas i figur 10.
Fig. 10. Tilldela identifierare.
Total tid på scen 3 (för Schumanns formel) t3 = 0,75 timme.
Antal fel hittade i steg 3 (för Schumann-formel) n3 = 0 st.
Eftersom Schumann-formeln kräver att steget avslutas genom att korrigera fel. Låt oss återgå till steg 2.
Steg 2.2.2.
I det här steget kommer vi också att korrigera dubbla och trippelmellanslag.
Fig. 11. Antal dubbelrum.
Korrigering av fel som identifierats i tabell 2.2.4.
Tabell 5. Felkorrigeringsstadium
Ett exempel på varför en sådan aspekt som användningen av bokstäverna "e" eller "e" är betydelsefull presenteras i figur 12.
Fig. 12. Diskrepans i bokstaven "e".
Total tid spenderad i steg 2.2.2 t222 = 4 timmar.
Antal fel hittade i steg 2.2.2 (för Schumann-formel) n222 = 583 st.
Den fjärde etappen.
Att leta efter fältredundans passar väl in i detta skede. Av de 44 fälten, 6 fält:
7 - Syftet med strukturen
16 — Antal underjordiska våningar
17 - Föräldraobjekt
21 - Byråd
38 — Strukturparametrar (beskrivning)
40 – Kulturarv
De har inga poster. Det vill säga att de är överflödiga.
Fält "22 – Stad" har en enda post, figur 13.
Fig. 13. Den enda posten är Z_348653 i fältet "Stad".
Fält "34 - Byggnadsnamn" innehåller poster som uppenbarligen inte motsvarar syftet med fältet, figur 14.
Fig. 14. Ett exempel på en post som inte uppfyller kraven.
Vi exkluderar dessa fält från datamängden. Och vi registrerar förändringen i 214 poster.
Total tid på scen 4 (för Schumanns formel) t4 = 2,5 timme.
Antal fel hittade i steg 4 (för Schumann-formel) n4 = 222 st.
Tabell 6. Analys av datamängdsindikatorer efter 4:e etappen
När vi analyserar förändringar i indikatorer (tabell 6) kan vi generellt säga att:
1) Förhållandet mellan det genomsnittliga antalet symboler och standardavvikelsens spak är nära 3, det vill säga det finns tecken på en normalfördelning (six sigma-regeln).
2) En betydande avvikelse mellan minimi- och maximalspakarna från medelspaken tyder på att studiet av svansar är en lovande riktning när man letar efter fel.
Låt oss undersöka resultaten av att hitta fel med Schumanns metodik.
Tomgångssteg
2.1. Total tid på scen 2.1 (för Schumanns formel) t21 = 1 timme.
Antal fel hittade i steg 2.1 (för Schumann-formel) n21 = 0 st.
3. Total tid på scen 3 (för Schumanns formel) t3 = 0,75 timme.
Antal fel hittade i steg 3 (för Schumann-formel) n3 = 0 st.
Effektiva stadier
2.2. Total tid på scen 2.2.1 (för Schumanns formel) t221 = 8 timme.
Antal korrigerade fel vid steg 2.2.1 (för Schumann-formel) n221 = 0 st.
Total tid spenderad i steg 2.2.2 t222 = 4 timmar.
Antal fel hittade i steg 2.2.2 (för Schumann-formel) n222 = 583 st.
Total tid i steg 2.2 t22 = 8 + 4 = 12 timmar.
Antal fel hittade i steg 2.2.2 (för Schumann-formel) n222 = 583 st.
4. Total tid på scen 4 (för Schumanns formel) t4 = 2,5 timme.
Antal fel hittade i steg 4 (för Schumann-formel) n4 = 222 st.
Eftersom det finns noll stadier som måste inkluderas i det första steget av Schumann-modellen, och å andra sidan, steg 2.2 och 4 är i sig oberoende, då med tanke på att Schumann-modellen antar att genom att öka kontrollens varaktighet, är sannolikheten för att upptäcka ett fel minskar, det vill säga flödet minskar fel, sedan genom att undersöka detta flöde kommer vi att bestämma vilket steg vi ska sätta först, enligt regeln, där feltätheten är mer frekvent, kommer vi att sätta det steget först.
Fig. 15.
Av formeln i figur 15 följer att det är att föredra att placera det fjärde steget före steg 2.2 i beräkningarna.
Med Schumanns formel bestämmer vi det uppskattade initiala antalet fel:
Fig. 16.
Av resultaten i figur 16 kan man se att det förutsagda antalet fel är N2 = 3167, vilket är mer än minimikriteriet på 1459.
Som ett resultat av korrigeringen korrigerade vi 805 fel, och det förutsagda antalet är 3167 – 805 = 2362, vilket fortfarande är mer än det lägsta tröskelvärdet vi accepterade.
Vi definierar parameter C, lambda och tillförlitlighetsfunktion:
Fig. 17.
I huvudsak är lambda en faktisk indikator på intensiteten med vilken fel detekteras i varje steg. Om du tittar ovan var den tidigare uppskattningen av denna indikator 42,4 fel per timme, vilket är ganska jämförbart med Schumann-indikatorn. När vi vänder oss till den första delen av det här materialet, fastställdes det att hastigheten med vilken en utvecklare hittar fel inte bör vara lägre än 1 fel per 250,4 poster vid kontroll av 1 post per minut. Därav det kritiska värdet av lambda för Schumann-modellen:
60 / 250,4 = 0,239617.
Det vill säga behovet av att utföra feldetekteringsprocedurer måste utföras tills lambda, från den befintliga 38,964, minskar till 0,239617.
Eller tills indikatorn N (potentiellt antal fel) minus n (korrigerat antal fel) sjunker under tröskeln vi accepterade (i första delen) - 1459 st.
Källa: will.com