В
Den praktiske delen presenteres i form av trinn. All rengjøring ble gjort i Excel, siden det vanligste verktøyet og de beskrevne operasjonene kan gjentas av de fleste spesialister som kan Excel. Og ganske godt egnet for hånd-til-hånd arbeid.
Nullstadiet vil være arbeidet med å starte og lagre filen, siden den er 100 MB i størrelse, og med antallet av disse operasjonene som er titalls og hundrevis, tar de betydelig tid.
Åpning er i gjennomsnitt 30 sekunder.
Sparing – 22 sek.
Det første trinnet begynner med å bestemme de statistiske indikatorene for datasettet.
Tabell 1. Statistiske indikatorer for datasettet
Teknologi 2.1.
Vi oppretter et hjelpefelt, jeg har det under nummeret - AY. For hver oppføring danner vi formelen "=LENGTH(F365502)+LENGTH(G365502)+...+LENGTH(AW365502)"
Total tid brukt på scene 2.1 (for Schumann-formel) t21 = 1 time.
Antall feil funnet på trinn 2.1 (for Schumann-formel) n21 = 0 stk.
Det andre trinn.
Kontrollerer komponentene i datasettet.
2.2. Alle verdier i poster dannes ved hjelp av standardsymboler. La oss derfor spore statistikken etter symboler.
Tabell 2. Statistiske indikatorer på tegn i datasettet med foreløpig analyse av resultatene.
Teknologi 2.2.1.
Vi oppretter et hjelpefelt - "alpha1". For hver post danner vi formelen "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Vi lager en fast Omega-1-celle. Vi vil vekselvis legge inn tegnkoder i henhold til Windows-1251 fra 32 til 255 i denne cellen.
Vi oppretter et hjelpefelt - "alpha2". Med formelen "=FINN(SYMBOL(Omega,1); "alfa1",N)".
Vi oppretter et hjelpefelt - "alpha3". Med formelen "=HVIS(ISNUMBER("alfa2",N),1)"
Lag en fast celle "Omega-2", med formelen "=SUM("alpha3"N1: "alpha3"N365498)"
Tabell 3. Resultater av foreløpig analyse av resultater
Tabell 4. Feil registrert på dette stadiet
Total tid brukt på scene 2.2.1 (for Schumann-formel) t221 = 8 time.
Antall korrigerte feil på trinn 2.2.1 (for Schumann-formel) n221 = 0 stk.
Trinn 3.
Det tredje trinnet er å registrere tilstanden til datasettet. Ved å tildele hver post et unikt nummer (ID) og hvert felt. Dette er nødvendig for å sammenligne det konverterte datasettet med det opprinnelige. Dette er også nødvendig for å dra full nytte av grupperings- og filtreringsmulighetene. Her går vi igjen til tabell 2.2.2 og velger et symbol som ikke brukes i datasettet. Vi får det som er vist i figur 10.
Fig. 10. Tilordning av identifikatorer.
Total tid brukt på scene 3 (for Schumann-formel) t3 = 0,75 time.
Antall feil funnet på trinn 3 (for Schumann-formel) n3 = 0 stk.
Siden Schumann-formelen krever at etappen fullføres ved å rette feil. La oss gå tilbake til trinn 2.
Trinn 2.2.2.
I dette trinnet vil vi også korrigere dobbelt- og trippelrom.
Fig. 11. Antall dobbeltrom.
Retting av feil identifisert i tabell 2.2.4.
Tabell 5. Feilrettingsstadium
Et eksempel på hvorfor et slikt aspekt som bruken av bokstavene "e" eller "e" er viktig er presentert i figur 12.
Fig. 12. Avvik i bokstaven "e".
Total tid brukt i trinn 2.2.2 t222 = 4 timer.
Antall feil funnet på trinn 2.2.2 (for Schumann-formel) n222 = 583 stk.
Fjerde trinn.
Å se etter feltredundans passer godt inn i dette stadiet. Av de 44 feltene, 6 felter:
7 - Formålet med strukturen
16 — Antall underjordiske etasjer
17 - Overordnet objekt
21 - Bygderåd
38 — Strukturparametere (beskrivelse)
40 – Kulturarv
De har ingen oppføringer. Det vil si at de er overflødige.
Felt "22 – City" har én enkelt oppføring, figur 13.
Fig. 13. Den eneste oppføringen er Z_348653 i "By"-feltet.
Felt "34 - Bygningsnavn" inneholder oppføringer som tydeligvis ikke samsvarer med formålet med feltet, figur 14.
Fig. 14. Et eksempel på en ikke-kompatibel oppføring.
Vi ekskluderer disse feltene fra datasettet. Og vi registrerer endringen i 214 poster.
Total tid brukt på scene 4 (for Schumann-formel) t4 = 2,5 time.
Antall feil funnet på trinn 4 (for Schumann-formel) n4 = 222 stk.
Tabell 6. Analyse av datasettindikatorer etter 4. trinn
Generelt, ved å analysere endringer i indikatorer (tabell 6), kan vi si at:
1) Forholdet mellom gjennomsnittlig antall symboler og standardavviksspaken er nær 3, det vil si at det er tegn på normalfordeling (six sigma-regelen).
2) Et betydelig avvik mellom minimums- og maksimumsspakene fra gjennomsnittsspaken antyder at studiet av haler er en lovende retning når man søker etter feil.
La oss undersøke resultatene av å finne feil ved å bruke Schumanns metodikk.
Tomgangsetapper
2.1. Total tid brukt på scene 2.1 (for Schumann-formel) t21 = 1 time.
Antall feil funnet på trinn 2.1 (for Schumann-formel) n21 = 0 stk.
3. Total tid brukt på scene 3 (for Schumann-formel) t3 = 0,75 time.
Antall feil funnet på trinn 3 (for Schumann-formel) n3 = 0 stk.
Effektive stadier
2.2. Total tid brukt på scene 2.2.1 (for Schumann-formel) t221 = 8 time.
Antall korrigerte feil på trinn 2.2.1 (for Schumann-formel) n221 = 0 stk.
Total tid brukt i trinn 2.2.2 t222 = 4 timer.
Antall feil funnet på trinn 2.2.2 (for Schumann-formel) n222 = 583 stk.
Total tid brukt i trinn 2.2 t22 = 8 + 4 = 12 timer.
Antall feil funnet på trinn 2.2.2 (for Schumann-formel) n222 = 583 stk.
4. Total tid brukt på scene 4 (for Schumann-formel) t4 = 2,5 time.
Antall feil funnet på trinn 4 (for Schumann-formel) n4 = 222 stk.
Siden det er null stadier som må inkluderes i den første fasen av Schumann-modellen, og på den annen side, trinn 2.2 og 4 er iboende uavhengige, så gitt at Schumann-modellen antar at ved å øke varigheten av kontrollen, er sannsynligheten for å oppdage en feil reduseres, det vil si at strømmen reduserer feil, så ved å undersøke denne strømmen vil vi bestemme hvilket trinn vi skal sette først, i henhold til regelen, hvor feiltettheten er hyppigere, vil vi sette det stadiet først.
Fig. 15.
Av formelen i figur 15 følger det at det er å foretrekke å plassere fjerde trinn før trinn 2.2 i beregningene.
Ved å bruke Schumanns formel bestemmer vi det estimerte antallet feil:
Fig. 16.
Fra resultatene i figur 16 kan man se at det predikerte antall feil er N2 = 3167, som er mer enn minimumskriteriet på 1459.
Som et resultat av korrigeringen korrigerte vi 805 feil, og det anslåtte antallet er 3167 – 805 = 2362, som fortsatt er mer enn minimumsterskelen vi godtok.
Vi definerer parameter C, lambda og pålitelighetsfunksjon:
Fig. 17.
I hovedsak er lambda en faktisk indikator på intensiteten som feil oppdages i hvert trinn. Hvis du ser ovenfor, var det forrige anslaget for denne indikatoren 42,4 feil per time, noe som er ganske sammenlignbart med Schumann-indikatoren. Når vi ser på den første delen av dette materialet, ble det bestemt at hastigheten som en utvikler finner feil med, ikke bør være lavere enn 1 feil per 250,4 poster, når du sjekker 1 post per minutt. Derfor den kritiske verdien av lambda for Schumann-modellen:
60 / 250,4 = 0,239617.
Det vil si at behovet for å utføre feildeteksjonsprosedyrer må utføres til lambda, fra eksisterende 38,964, reduseres til 0,239617.
Eller til indikatoren N (potensielt antall feil) minus n (korrigert antall feil) synker under terskelen vi aksepterte (i første del) - 1459 stk.
Kilde: www.habr.com