В Kuvailtiin, että tämä julkaisu tehtiin Hanti-Mansin autonomisen piirikunnan kiinteistökohteiden kiinteistörekisteriarvon määrityksen tulosten tietoaineiston perusteella.
Käytännön osuus esitetään vaiheittain. Kaikki siivous tehtiin Excelissä, koska se on yleisin työkalu ja useimmat Excelin tuntevat ammattilaiset voivat toistaa kuvatut toiminnot. Se sopii myös varsin hyvin käytännön työhön.
Asetan tiedoston käynnistämisen ja tallentamisen nollavaiheeksi, koska se on kooltaan 100 Mt ja kymmenien ja satojen näiden toimintojen vuoksi ne vievät huomattavasti aikaa.
Avautumisaika on keskimäärin 30 sekuntia.
Säästöaika: 22 sekuntia.
Ensimmäinen vaihe alkaa aineiston tilastollisten indikaattoreiden määrittelyllä.
Taulukko 1. Aineistoa kuvaavat tilastolliset indikaattorit

Teknologia 2.1.
Luo apukenttä; kutsun sitä AY:ksi. Luo jokaiselle tietueelle kaava "=LEN(F365502)+LEN(G365502)+…+LEN(AW365502)".
Kokonaisvaiheessa 2.1 käytetty aika (Schumannin kaavalla) t21 = 1 tunti.
Vaiheessa 2.1 (Schumannin kaavassa) löydettyjen virheiden lukumäärä n21 = 0 kpl.
Toisessa vaiheessa.
Tietojoukon osien tarkistaminen.
2.2. Kaikki tietueiden arvot muodostetaan standardisymboleilla. Seurataanpa siis tilastoja symbolien mukaan.
Taulukko 2. Symbolien tilastolliset indikaattorit aineistossa ja tulosten alustava analyysi.




Teknologia 2.2.1.
Luomme apukentän – ”alpha1”. Jokaista tietuetta varten luomme kaavan ”=CONCATENATE(Taulukko1!B9;…Taulukko1!AQ9)”.
Luomme kiinteän solun nimeltä "Omega-1". Kirjoitamme tähän soluun Windows-1251-merkkikoodit väliltä 32–255 yksi kerrallaan.
Luomme apukentän – ”alpha2”. Käytämme kaavaa ”=FIND(CHAR(Omega;1); “alpha1”;N)”.
Luomme apukentän – ”alpha3”. Kaavalla ”=JOS(ONNUMBER(“alpha2”;N);1;0)”
Luo kiinteä solu "Omega-2" kaavalla "=SUMMA("alpha3"N1:"alpha3"N365498)"
Taulukko 3. Tulosten alustavan analyysin tulokset
Taulukko 4. Tässä vaiheessa kirjatut virheet
Kokonaisvaiheessa 2.2.1 käytetty aika (Schumannin kaavalla) t221 = 8 tunti.
Vaiheessa 2.2.1 korjattujen virheiden lukumäärä (Schumannin kaavalla) n221 = 0 kpl.
Vaihe 3.
Kolmas vaihe on datasetin tilan tallentaminen. Annamme jokaiselle tietueelle ja jokaiselle kentälle yksilöllisen numeron (ID). Tämä on tarpeen muunnetun datasetin vertaamiseksi alkuperäiseen. On myös tarpeen hyödyntää täysimääräisesti ryhmittely- ja suodatusominaisuuksia. Tässä viittaamme jälleen taulukkoon 2.2.2 ja valitsemme symbolin, jota ei käytetä datasetissä. Tulos on esitetty kuvassa 10.

Kuva 10. Tunnisteiden määrittäminen.
Kokonaisvaiheessa 3 käytetty aika (Schumannin kaavalla) t3 = 0,75 tunti.
Vaiheessa 3 (Schumannin kaavassa) löydettyjen virheiden lukumäärä n3 = 0 kpl.
Koska Schumannin kaava vaatii, että tämä vaihe suoritetaan virheiden korjauksen kera, palaamme vaiheeseen 2.
Vaihe 2.2.2.
Tässä vaiheessa korjaamme myös kaksois- ja kolmoisvälit.

Kuva 11. Tuplavälien lukumäärä.
Taulukossa 2.2.4 havaittujen virheiden korjaus.
Taulukko 5. Virheenkorjausvaihe

Kuvassa 12 on esimerkki siitä, miksi kirjainten "e" tai "yo" käyttö on tärkeää.

Kuva 12. Epäjohdonmukaisuus kirjaimessa "ё".
Kokonaisaika vaiheessa 2.2.2 t222 = 4 tuntia.
Vaiheessa 2.2.2 (Schumannin kaavassa) löydettyjen virheiden lukumäärä n222 = 583 kpl.
Neljäs vaihe
Kenttien redundanssin tarkistaminen sopii hyvin tähän vaiheeseen. 44 kentästä 6 on:
7 — Rakenteen tarkoitus
16 - Maanalaisissa kerroksissa olevien kerrosten lukumäärä
17 — Pääobjekti
21 — Kyläneuvosto
38 — Rakenneparametrit (kuvaus)
40 - Kulttuuriperintö
Niillä ei ole yhtäkään merkintää. Eli ne ovat tarpeettomia.
Kentässä "22 - Kaupunki" on yksi ainoa merkintä, kuva 13.

Kuva 13. Ainoa merkintä Z_348653 ”Kaupunki”-kentässä.
Kenttä ”34 — Rakennuksen nimi” sisältää merkintöjä, jotka eivät selvästikään vastaa kentän tarkoitusta, kuva 14.

Kuva 14. Esimerkki vaatimustenvastaisesta merkinnästä.
Poistamme nämä kentät tietojoukosta ja kirjaamme muutokset 214 tietueeseen.
Kokonaisvaiheessa 4 käytetty aika (Schumannin kaavalla) t4 = 2,5 tunti.
Vaiheessa 4 (Schumannin kaavassa) löydettyjen virheiden lukumäärä n4 = 222 kpl.
Taulukko 6. Aineistoindikaattoreiden analyysi 4. vaiheen jälkeen

Yleisesti ottaen indikaattoreiden muutoksia (taulukko 6) analysoimalla voimme sanoa, että:
1) Keskimääräisen symbolien lukumäärän suhde keskihajontavipuun on lähellä kolmea, mikä tarkoittaa, että on merkkejä normaalijakaumasta (six sigma -sääntö).
2) Minimi- ja maksimivipujen merkittävä poikkeama keskimääräisestä vipuarvosta viittaa siihen, että pyrstöjen tutkiminen on lupaava suunta virheiden etsinnässä.
Tarkastelemme virheiden löytämisen tuloksia Schumannin menetelmää käyttäen.
Lepotilavaiheet
2.1. Vaiheessa 2.1 käytetty kokonaisaika (Schumannin kaavalla) t21 = 1 tunti.
Vaiheessa 2.1 (Schumannin kaavassa) löydettyjen virheiden lukumäärä n21 = 0 kpl.
3. Vaiheessa 3 käytetty kokonaisaika (Schumannin kaavalla) t3 = 0,75 tunti.
Vaiheessa 3 (Schumannin kaavassa) löydettyjen virheiden lukumäärä n3 = 0 kpl.
Tehokkaat vaiheet
2.2. Vaiheessa 2.2.1 käytetty kokonaisaika (Schumannin kaavalla) t221 = 8 tunti.
Vaiheessa 2.2.1 korjattujen virheiden lukumäärä (Schumannin kaavalla) n221 = 0 kpl.
Kokonaisaika vaiheessa 2.2.2 t222 = 4 tuntia.
Vaiheessa 2.2.2 (Schumannin kaavassa) löydettyjen virheiden lukumäärä n222 = 583 kpl.
Kokonaisaika vaiheessa 2.2 t22 = 8 + 4 = 12 tuntia.
Vaiheessa 2.2.2 (Schumannin kaavassa) löydettyjen virheiden lukumäärä n222 = 583 kpl.
4. Vaiheessa 4 käytetty kokonaisaika (Schumannin kaavalla) t4 = 2,5 tunti.
Vaiheessa 4 (Schumannin kaavassa) löydettyjen virheiden lukumäärä n4 = 222 kpl.
Koska Schumannin mallin ensimmäiseen vaiheeseen ei ole sisällytettävä vaiheita, ja toisaalta vaiheet 2.2 ja 4 ovat olennaisesti riippumattomia, ottaen huomioon, että Schumannin malli olettaa, että testauksen keston kasvaessa virheen havaitsemisen todennäköisyys pienenee eli vikojen virtaus pienenee, tutkimalla tätä virtausta määritämme, mitkä vaiheista asetetaan ensimmäiseksi säännön mukaan, jossa vikojen tiheys on suurempi, se vaihe asetetaan ensimmäiseksi.
![]()
Kuva 15.
Kuvassa 15 olevasta kaavasta seuraa, että neljäs vaihe on laskelmissa edullista sijoittaa ennen vaihetta 2.2.
Schumannin kaavaa käyttämällä määritämme arvioidun alkuperäisen virheiden lukumäärän:

Kuva 16.
Kuvan 16 tuloksista voidaan nähdä, että ennustettu virheiden lukumäärä N2 = 3167, mikä on suurempi kuin vähimmäiskriteeri 1459.
Korjauksen seurauksena korjasimme 805 virhettä, ja ennustettu luku on 3167 - 805 = 2362, mikä on edelleen enemmän kuin käyttämämme vähimmäiskynnys.
Määrittelemme parametrin C, lambdan ja luotettavuusfunktion:

Kuva 17.
Pohjimmiltaan lambda on todellinen indikaattori siitä, kuinka nopeasti virheitä havaitaan kussakin vaiheessa. Edellisen arvion perusteella tämä indikaattori oli 42,4 virhettä tunnissa, mikä on melko verrattavissa Schumannin indikaattoriin. Viitaten tämän materiaalin ensimmäiseen osaan, määritettiin, että kehittäjän virheiden havaitsemisnopeuden tulisi olla vähintään 1 virhe 250,4 tietuetta kohden, ja yksi tietue tarkistetaan minuutissa. Näin ollen Schumannin mallin kriittinen lambda-arvo on:
60/250,4 = 0,239617.
Toisin sanoen virheentunnistustoimenpiteiden suorittaminen on tarpeen, kunnes lambda nykyisestä 38,964:stä laskee arvoon 0,239617.
Tai kunnes indikaattori N (virheiden mahdollinen määrä) miinus n (korjattu virheiden määrä) laskee alle (ensimmäisessä osassa) käyttämämme kynnysarvon – 1459 kpl.
Lähde: will.com
