Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol

В rhan un disgrifiwyd bod y cyhoeddiad hwn wedi'i wneud ar sail set ddata o ganlyniadau prisio stentaidd eiddo tiriog yn Okrug Ymreolaethol Khanty-Mansi.

Cyflwynir y rhan ymarferol ar ffurf camau. Gwnaed yr holl lanhau yn Excel, gan y gall y rhan fwyaf o arbenigwyr sy'n adnabod Excel ailadrodd yr offeryn mwyaf cyffredin a'r gweithrediadau a ddisgrifir. Ac yn eithaf addas ar gyfer gwaith llaw-i-law.

Y cam sero fydd y gwaith o lansio ac arbed y ffeil, gan ei fod yn 100 MB o faint, yna gyda nifer y gweithrediadau hyn yn ddegau a channoedd, maent yn cymryd amser sylweddol.
Mae agor, ar gyfartaledd, yn 30 eiliad.
Arbed - 22 eiliad.

Mae'r cam cyntaf yn dechrau gyda phennu dangosyddion ystadegol y set ddata.

Tabl 1. Dangosyddion ystadegol y set ddata
Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol

Technoleg 2.1.

Rydym yn creu maes cynorthwyol, mae gen i o dan y rhif - AY. Ar gyfer pob cofnod, rydym yn ffurfio'r fformiwla “=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”

Cyfanswm yr amser a dreuliwyd ar lwyfan 2.1 (ar gyfer fformiwla Schumann) t21 = 1 awr.
Nifer y gwallau a ddarganfuwyd yng ngham 2.1 (ar gyfer fformiwla Schumann) n21 = 0 pcs.

Ail gam.
Gwirio cydrannau'r set ddata.
2.2. Mae'r holl werthoedd mewn cofnodion yn cael eu ffurfio gan ddefnyddio symbolau safonol. Felly, gadewch i ni olrhain yr ystadegau yn ôl symbolau.

Tabl 2. Dangosyddion ystadegol nodau yn y set ddata gyda dadansoddiad rhagarweiniol o'r canlyniadau.Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol

Technoleg 2.2.1.

Rydym yn creu maes ategol - “alpha1”. Ar gyfer pob cofnod, rydym yn ffurfio'r fformiwla “=CONCATENATE(Taflen1!B9;...Taflen1!AQ9)”
Rydyn ni'n creu cell Omega-1 sefydlog. Byddwn bob yn ail yn nodi codau cymeriad yn ôl Windows-1251 o 32 i 255 i'r gell hon.
Rydym yn creu maes ategol - “alpha2”. Gyda'r fformiwla “=FIND(SYMBOL(Omega,1); “alpha1”, N)”.
Rydym yn creu maes ategol - “alpha3”. Gyda'r fformiwla "=IF(ISNUMBER("alpha2",N),1)"
Creu cell sefydlog “Omega-2”, gyda'r fformiwla “= SUM (“alpha3” N1: “alpha3”N365498)”

Tabl 3. Canlyniadau dadansoddiad rhagarweiniol o'r canlyniadauGlanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol

Tabl 4. Gwallau a gofnodwyd ar y cam hwnGlanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol

Cyfanswm yr amser a dreuliwyd ar lwyfan 2.2.1 (ar gyfer fformiwla Schumann) t221 = 8 awr.
Nifer y gwallau wedi'u cywiro ar gam 2.2.1 (ar gyfer fformiwla Schumann) n221 = 0 pcs.

Cam 3.
Y trydydd cam yw cofnodi cyflwr y set ddata. Trwy neilltuo rhif unigryw (ID) a phob maes i bob cofnod. Mae hyn yn angenrheidiol i gymharu'r set ddata a droswyd gyda'r un wreiddiol. Mae hyn hefyd yn angenrheidiol i fanteisio'n llawn ar y galluoedd grwpio a hidlo. Yma eto trown at dabl 2.2.2 a dewis symbol nad yw'n cael ei ddefnyddio yn y set ddata. Rydym yn cael yr hyn a ddangosir yn Ffigur 10.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Ffig. 10. Aseinio dynodwyr.

Cyfanswm yr amser a dreuliwyd ar lwyfan 3 (ar gyfer fformiwla Schumann) t3 = 0,75 awr.
Nifer y gwallau a ddarganfuwyd yng ngham 3 (ar gyfer fformiwla Schumann) n3 = 0 pcs.

Gan fod fformiwla Schumann yn mynnu bod y cam yn cael ei gwblhau trwy gywiro gwallau. Dychwelwn i gam 2.

Cam 2.2.2.
Yn y cam hwn byddwn hefyd yn cywiro bylchau dwbl a thriphlyg.
Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Ffig. 11 . Nifer y bylchau dwbl.

Cywiro gwallau a nodwyd yn nhabl 2.2.4.

Tabl 5. Cam cywiro gwallGlanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol

Mae enghraifft o pam mae agwedd fel y defnydd o’r llythrennau “e” neu “e” yn arwyddocaol wedi’i chyflwyno yn Ffigur 12.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Ffig. 12. Anghysondeb yn y llythyren "e".

Cyfanswm yr amser a dreuliwyd yng ngham 2.2.2 t222 = 4 awr.
Nifer y gwallau a ddarganfuwyd yng ngham 2.2.2 (ar gyfer fformiwla Schumann) n222 = 583 pcs.

Pedwerydd cam.
Mae gwirio am ddileu swyddi yn y maes yn cyd-fynd yn dda â'r cam hwn. O'r 44 maes, 6 maes:
7 - Pwrpas y strwythur
16 — Nifer y lloriau tanddaearol
17 - Rhiant yn gwrthwynebu
21 - Cyngor Pentref
38 — Paramedrau strwythur (disgrifiad)
40 – Treftadaeth ddiwylliannol

Nid oes ganddynt unrhyw gofnodion. Hynny yw, maent yn ddiangen.
Mae gan faes “22 – Dinas” un cofnod sengl, Ffigur 13.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Ffig. 13. Yr unig gofnod yw Z_348653 yn y maes “City”.

Mae maes “34 - Enw’r adeilad” yn cynnwys cofnodion sy’n amlwg ddim yn cyfateb i ddiben y cae, Ffigur 14.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Ffig. 14. Enghraifft o gofnod nad yw'n cydymffurfio.

Rydym yn eithrio'r meysydd hyn o'r set ddata. Ac rydym yn cofnodi'r newid mewn 214 o gofnodion.

Cyfanswm yr amser a dreuliwyd ar lwyfan 4 (ar gyfer fformiwla Schumann) t4 = 2,5 awr.
Nifer y gwallau a ddarganfuwyd yng ngham 4 (ar gyfer fformiwla Schumann) n4 = 222 pcs.

Tabl 6. Dadansoddiad o ddangosyddion set ddata ar ôl y 4ydd cam

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol

Yn gyffredinol, wrth ddadansoddi newidiadau mewn dangosyddion (Tabl 6) gallwn ddweud:
1) Mae cymhareb nifer cyfartalog y symbolau i'r lifer gwyriad safonol yn agos at 3, hynny yw, mae arwyddion o ddosbarthiad arferol (rheol chwe sigma).
2) Mae gwyriad sylweddol o'r liferi lleiaf ac uchaf o'r lifer cyfartalog yn awgrymu bod astudio cynffonau yn gyfeiriad addawol wrth chwilio am wallau.

Gadewch i ni archwilio canlyniadau darganfod gwallau gan ddefnyddio methodoleg Schumann.

Camau segur

2.1. Cyfanswm yr amser a dreuliwyd ar lwyfan 2.1 (ar gyfer fformiwla Schumann) t21 = 1 awr.
Nifer y gwallau a ddarganfuwyd yng ngham 2.1 (ar gyfer fformiwla Schumann) n21 = 0 pcs.

3. Cyfanswm yr amser a dreuliwyd ar lwyfan 3 (ar gyfer fformiwla Schumann) t3 = 0,75 awr.
Nifer y gwallau a ddarganfuwyd yng ngham 3 (ar gyfer fformiwla Schumann) n3 = 0 pcs.

Camau effeithiol
2.2. Cyfanswm yr amser a dreuliwyd ar lwyfan 2.2.1 (ar gyfer fformiwla Schumann) t221 = 8 awr.
Nifer y gwallau wedi'u cywiro ar gam 2.2.1 (ar gyfer fformiwla Schumann) n221 = 0 pcs.
Cyfanswm yr amser a dreuliwyd yng ngham 2.2.2 t222 = 4 awr.
Nifer y gwallau a ddarganfuwyd yng ngham 2.2.2 (ar gyfer fformiwla Schumann) n222 = 583 pcs.

Cyfanswm yr amser a dreuliwyd yng ngham 2.2 t22 = 8 + 4 = 12 awr.
Nifer y gwallau a ddarganfuwyd yng ngham 2.2.2 (ar gyfer fformiwla Schumann) n222 = 583 pcs.

4. Cyfanswm yr amser a dreuliwyd ar lwyfan 4 (ar gyfer fformiwla Schumann) t4 = 2,5 awr.
Nifer y gwallau a ddarganfuwyd yng ngham 4 (ar gyfer fformiwla Schumann) n4 = 222 pcs.

Gan nad oes unrhyw gamau y mae'n rhaid eu cynnwys yng ngham cyntaf model Schumann, ac ar y llaw arall, mae camau 2.2 a 4 yn gynhenid ​​annibynnol, yna o ystyried bod model Schumann yn tybio, trwy gynyddu hyd y siec, y tebygolrwydd o ganfod gwall yn gostwng, hynny yw, mae'r llif yn lleihau methiannau, yna trwy archwilio'r llif hwn byddwn yn penderfynu pa gam i'w roi yn gyntaf, yn ôl y rheol, lle mae'r dwysedd methiant yn amlach, byddwn yn rhoi'r cam hwnnw yn gyntaf.

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Ffig. 15.

O'r fformiwla yn Ffigur 15 mae'n dilyn ei bod yn well gosod y pedwerydd cam cyn cam 2.2 yn y cyfrifiadau.

Gan ddefnyddio fformiwla Schumann, rydym yn pennu nifer cychwynnol amcangyfrifedig y gwallau:

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Ffig. 16.

O’r canlyniadau yn Ffigur 16 gellir gweld mai’r nifer rhagfynegedig o wallau yw N2 = 3167, sy’n fwy na’r maen prawf lleiaf, sef 1459.

O ganlyniad i’r cywiriad, cywirwyd 805 o wallau, a’r nifer a ragfynegwyd yw 3167 – 805 = 2362, sy’n dal yn uwch na’r trothwy isaf a dderbyniasom.

Rydym yn diffinio paramedr C, lambda a swyddogaeth dibynadwyedd:

Glanhau data fel gêm o Roc, Papur, Siswrn. Ai gêm gyda neu heb ddiweddglo yw hon? Rhan 2. Ymarferol
Ffig. 17.

Yn y bôn, mae lambda yn ddangosydd gwirioneddol o ba mor ddwys y canfyddir gwallau ym mhob cam. Os edrychwch uchod, amcangyfrif blaenorol y dangosydd hwn oedd 42,4 gwall yr awr, sy'n eithaf tebyg i ddangosydd Schumann. Gan droi at ran gyntaf y deunydd hwn, penderfynwyd na ddylai'r gyfradd y mae datblygwr yn canfod gwallau fod yn is nag 1 gwall fesul 250,4 cofnod, wrth wirio 1 cofnod y funud. Felly gwerth hollbwysig lambda ar gyfer model Schumann:
60/250,4 = 0,239617 .

Hynny yw, rhaid cynnal yr angen i gynnal gweithdrefnau canfod gwallau nes bod lambda, o'r 38,964 presennol, yn gostwng i 0,239617.

Neu nes bod y dangosydd N (nifer posibl y gwallau) minws n (nifer cywir o wallau) yn gostwng o dan y trothwy a dderbyniwyd gennym (yn y rhan gyntaf) - 1459 pcs.

Rhan 1. Damcaniaethol.

Ffynhonnell: hab.com

Ychwanegu sylw