В
Käytännön osa esitetään vaiheiden muodossa. Kaikki puhdistus tehtiin Excelissä, koska useimmat Excelin tuntevat asiantuntijat voivat toistaa yleisimmän työkalun ja kuvatut toiminnot. Ja sopii varsin hyvin kädestä käteen -työhön.
Nollavaihe tulee olemaan tiedoston käynnistäminen ja tallentaminen, koska se on kooltaan 100 MB, jolloin näiden toimien lukumäärä on kymmeniä ja satoja, ne vievät huomattavasti aikaa.
Avautuminen on keskimäärin 30 sekuntia.
Säästö – 22 s.
Ensimmäinen vaihe alkaa aineiston tilastollisten indikaattoreiden määrittämisellä.
Taulukko 1. Aineiston tilastolliset indikaattorit
Tekniikka 2.1.
Luomme apukentän, minulla on se numerolla - AY. Jokaiselle merkinnälle muodostamme kaavan "=PITUUS(F365502)+PITUUS(G365502)+…+PITUUS(AW365502)"
Kokonaisaika vaiheessa 2.1 (Schumannin kaavalle) t21 = 1 tunti.
Vaiheessa 2.1 löydettyjen virheiden lukumäärä (Schumannin kaavalle) n21 = 0 kpl.
Toisessa vaiheessa.
Tietojoukon komponenttien tarkistaminen.
2.2. Kaikki tietueiden arvot muodostetaan vakiosymboleilla. Seurataan siis tilastoja symboleilla.
Taulukko 2. Aineiston merkkien tilastolliset indikaattorit tulosten alustavalla analyysillä.
Tekniikka 2.2.1.
Luomme apukentän - "alpha1". Muodostamme jokaiselle tietueelle kaavan "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)"
Luomme kiinteän Omega-1-solun. Kirjoitamme tähän soluun vuorotellen Windows-1251:n mukaisia merkkikoodeja väliltä 32 - 255.
Luomme apukentän - "alpha2". Kaavalla "=FIND(SYMBOL(Omega,1); "alpha1",N)".
Luomme apukentän - "alpha3". Kaavalla "=JOS(ISNUMERO("alfa2",N),1)"
Luo kiinteä solu "Omega-2" kaavalla "=SUM("alpha3"N1: "alpha3"N365498)"
Taulukko 3. Tulosten alustavan analyysin tulokset
Taulukko 4. Tässä vaiheessa kirjatut virheet
Kokonaisaika vaiheessa 2.2.1 (Schumannin kaavalle) t221 = 8 tunti.
Korjattujen virheiden määrä vaiheessa 2.2.1 (Schumannin kaavalle) n221 = 0 kpl.
Vaihe 3.
Kolmas vaihe on tallentaa tietojoukon tila. Määrittämällä jokaiselle tietueelle yksilöllinen numero (ID) ja jokaiselle kentälle. Tämä on tarpeen muunnetun tietojoukon vertaamiseksi alkuperäiseen. Tämä on myös tarpeen ryhmittely- ja suodatusominaisuuksien täysimääräiseksi hyödyntämiseksi. Tässä taas siirrytään taulukkoon 2.2.2 ja valitaan symboli, jota ei käytetä tietojoukossa. Saamme sen, mikä on esitetty kuvassa 10.
Kuva 10. Tunnisteiden määrittäminen.
Kokonaisaika vaiheessa 3 (Schumannin kaavalle) t3 = 0,75 tunti.
Vaiheessa 3 löydettyjen virheiden lukumäärä (Schumannin kaavalle) n3 = 0 kpl.
Koska Schumannin kaava edellyttää, että vaihe on suoritettava virheet korjaamalla. Palataan vaiheeseen 2.
Vaihe 2.2.2.
Tässä vaiheessa korjaamme myös kaksois- ja kolmoisvälit.
Kuva 11. Tuplavälien määrä.
Taulukossa 2.2.4 havaittujen virheiden korjaus.
Taulukko 5. Virheenkorjausvaihe
Esimerkki siitä, miksi sellainen näkökohta kuin kirjainten ”e” tai ”e” käyttö on merkittävää, on esitetty kuvassa 12.
Kuva 12. Poikkeama kirjaimessa "e".
Vaiheessa 2.2.2 käytetty kokonaisaika t222 = 4 tuntia.
Vaiheessa 2.2.2 löydettyjen virheiden lukumäärä (Schumannin kaavalle) n222 = 583 kpl.
Neljäs vaihe
Kentän redundanssin tarkistaminen sopii hyvin tähän vaiheeseen. 44 kentästä 6 kenttää:
7 - Rakenteen tarkoitus
16 — Maanalaisten kerrosten lukumäärä
17 - Vanhemman esine
21 - Kyläneuvosto
38 – Rakenneparametrit (kuvaus)
40 – Kulttuuriperintö
Heillä ei ole merkintöjä. Eli ne ovat tarpeettomia.
Kentässä ”22 – Kaupunki” on yksi merkintä, kuva 13.
Kuva 13. Ainoa merkintä on Z_348653 Kaupunki-kentässä.
Kentässä "34 - Rakennuksen nimi" on merkintöjä, jotka eivät selvästikään vastaa kentän tarkoitusta, kuva 14.
Kuva 14. Esimerkki vaatimustenvastaisesta merkinnästä.
Jätämme nämä kentät pois tietojoukosta. Ja tallennamme muutoksen 214 tietueeseen.
Kokonaisaika vaiheessa 4 (Schumannin kaavalle) t4 = 2,5 tunti.
Vaiheessa 4 löydettyjen virheiden lukumäärä (Schumannin kaavalle) n4 = 222 kpl.
Taulukko 6. Aineistoindikaattoreiden analyysi neljännen vaiheen jälkeen
Yleisesti ottaen indikaattoreiden muutoksia analysoimalla (taulukko 6) voidaan sanoa, että:
1) Symbolien keskimääräisen lukumäärän suhde keskihajontavipuun on lähellä 3:a eli normaalijakauman merkkejä (kuuden sigman sääntö) on olemassa.
2) Minimi- ja maksimivipujen merkittävä poikkeama keskimääräisestä vivusta viittaa siihen, että hännän tutkiminen on lupaava suunta virheiden etsimisessä.
Tarkastellaan virheiden löytämisen tuloksia Schumannin metodologialla.
Tyhjäkäyntivaiheet
2.1. Kokonaisaika vaiheessa 2.1 (Schumannin kaavalle) t21 = 1 tunti.
Vaiheessa 2.1 löydettyjen virheiden lukumäärä (Schumannin kaavalle) n21 = 0 kpl.
3. Kokonaisaika vaiheessa 3 (Schumannin kaavalle) t3 = 0,75 tunti.
Vaiheessa 3 löydettyjen virheiden lukumäärä (Schumannin kaavalle) n3 = 0 kpl.
Tehokkaat vaiheet
2.2. Kokonaisaika vaiheessa 2.2.1 (Schumannin kaavalle) t221 = 8 tunti.
Korjattujen virheiden määrä vaiheessa 2.2.1 (Schumannin kaavalle) n221 = 0 kpl.
Vaiheessa 2.2.2 käytetty kokonaisaika t222 = 4 tuntia.
Vaiheessa 2.2.2 löydettyjen virheiden lukumäärä (Schumannin kaavalle) n222 = 583 kpl.
Vaiheessa 2.2 käytetty kokonaisaika t22 = 8 + 4 = 12 tuntia.
Vaiheessa 2.2.2 löydettyjen virheiden lukumäärä (Schumannin kaavalle) n222 = 583 kpl.
4. Kokonaisaika vaiheessa 4 (Schumannin kaavalle) t4 = 2,5 tunti.
Vaiheessa 4 löydettyjen virheiden lukumäärä (Schumannin kaavalle) n4 = 222 kpl.
Koska Schumannin mallin ensimmäiseen vaiheeseen on sisällytettävä nollavaiheita, ja toisaalta vaiheet 2.2 ja 4 ovat luonnostaan riippumattomia, niin ottaen huomioon, että Schumannin malli olettaa, että tarkistuksen kestoa lisäämällä todennäköisyys kasvaa. Virheen havaitseminen pienenee, eli virtaus vähentää vikoja, niin tätä virtausta tutkimalla määritetään mikä vaihe asetetaan ensin, säännön mukaan, missä vikatiheys on yleisempi, laitamme sen vaiheen ensimmäiseksi.
Kuva 15.
Kuvan 15 kaavasta seuraa, että neljäs vaihe on parempi sijoittaa laskelmissa ennen vaihetta 2.2.
Schumannin kaavan avulla määritämme virheiden arvioidun alkuperäisen määrän:
Kuva 16.
Kuvan 16 tuloksista voidaan nähdä, että ennustettu virhemäärä on N2 = 3167, mikä on enemmän kuin minimikriteeri 1459.
Korjauksen tuloksena korjasimme 805 virhettä ja ennustettu luku on 3167 – 805 = 2362, mikä on silti enemmän kuin hyväksymämme vähimmäiskynnys.
Määrittelemme parametrin C, lambda ja luotettavuusfunktion:
Kuva 17.
Pohjimmiltaan lambda on todellinen indikaattori intensiteetistä, jolla virheet havaitaan kussakin vaiheessa. Jos katsot yllä, tämän indikaattorin edellinen arvio oli 42,4 virhettä tunnissa, mikä on melko verrattavissa Schumannin indikaattoriin. Tämän materiaalin ensimmäiseen osaan liittyen päätettiin, että nopeuden, jolla kehittäjä löytää virheitä, ei pitäisi olla pienempi kuin 1 virhe 250,4 tietuetta kohden, kun tarkistetaan 1 tietue minuutissa. Tästä johtuu lambdan kriittinen arvo Schumannin mallille:
60 / 250,4 = 0,239617.
Toisin sanoen virheiden havaitsemismenettelyjä on suoritettava, kunnes lambda, nykyisestä 38,964:stä, laskee arvoon 0,239617.
Tai kunnes indikaattori N (potentiaalinen virheiden määrä) miinus n (korjattu virheiden määrä) laskee alle hyväksymämme kynnyksen (ensimmäisessä osassa) - 1459 kpl.
Lähde: will.com