Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական

В Մաս մեկ Նկարագրվել է, որ այս հրապարակումը կատարվել է Խանտի-Մանսիյսկի ինքնավար շրջանի անշարժ գույքի կադաստրային գնահատման արդյունքների տվյալների բազայի հիման վրա։

Գործնական մասը ներկայացված է քայլերի տեսքով։ Բոլոր մաքրումները կատարվել են Excel-ում, քանի որ այն ամենատարածված գործիքն է, և նկարագրված գործողությունները կարող են կրկնվել Excel-ը իմացող մասնագետների մեծ մասի կողմից։ Եվ դա բավականին հարմար է ձեռնամարտի համար։

Ես ֆայլը գործարկելու և պահպանելու աշխատանքը կդնեմ զրոյական փուլ, քանի որ այն 100 ՄԲ չափի է, ապա այս գործողությունների տասնյակներով և հարյուրներով դրանք զգալի ժամանակ են պահանջում։
Բացման ժամանակը, միջինում, 30 վայրկյան է։
Խնայողություն - 22 վայրկյան

Առաջին փուլը սկսվում է տվյալների բազմության վիճակագրական ցուցանիշների սահմանմամբ։

Աղյուսակ 1. Տվյալների բազմության վիճակագրական ցուցանիշները
Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական

Տեխնոլոգիա 2.1.

Մենք ստեղծում ենք օժանդակ դաշտ, ես այն ունեմ համարի տակ՝ AY: Յուրաքանչյուր գրառման համար մենք կազմում ենք «=LEN(F365502)+LEN(G365502)+…+LEN(AW365502)» բանաձևը։

2.1 փուլի վրա ծախսված ընդհանուր ժամանակը (Շումանի բանաձևի համար) t21 = 1 ժամ։
2.1 փուլում հայտնաբերված սխալների քանակը (Շումանի բանաձևի համար)՝ n21 = 0 հատ։

Երկրորդ փուլ.
Տվյալների հավաքածուի բաղադրիչների ստուգում։
2.2. Գրառումների բոլոր արժեքները ձևավորվում են ստանդարտ խորհրդանիշներով։ Հետևաբար, եկեք հետևենք վիճակագրությանը խորհրդանիշներով։

Աղյուսակ 2. Տվյալների հավաքածուի խորհրդանիշների վիճակագրական ցուցանիշները՝ արդյունքների նախնական վերլուծությամբ։Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական

Տեխնոլոգիա 2.2.1.

Մենք ստեղծում ենք օժանդակ դաշտ՝ «ալֆա1»։ Յուրաքանչյուր գրառման համար մենք կազմում ենք “=CONCATENATE(Sheet1!B9;…Sheet1!AQ9)” բանաձևը։
Մենք ստեղծում ենք ֆիքսված Օմեգա-1 բջիջ։ Այս խցում մենք մեկ առ մեկ կմուտքագրենք նիշերի կոդերը՝ համաձայն Windows-1251-ի՝ 32-ից մինչև 255:
Մենք ստեղծում ենք օժանդակ դաշտ՝ «ալֆա2»։ "=FIND(CHAR(Omega;1); "alpha1";N)" բանաձևով։
Մենք ստեղծում ենք օժանդակ դաշտ՝ «ալֆա3»։ "=IF(ISNUMBER("alpha2";N);1;0)" բանաձևով
Ստեղծեք «Օմեգա-2» ֆիքսված բջիջ՝ «=SUM("ալֆա3"N1:"ալֆա3"N365498)" բանաձևով։

Աղյուսակ 3. Արդյունքների նախնական վերլուծության արդյունքներըՄաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական

Աղյուսակ 4. Այս փուլում գրանցված սխալներըՄաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական

2.2.1 փուլի վրա ծախսված ընդհանուր ժամանակը (Շումանի բանաձևի համար) t221 = 8 ժամ։
2.2.1 փուլում (Շումանի բանաձևի համար) շտկված սխալների քանակը՝ n221 = 0 հատ։

Քայլ 3.
Երրորդ քայլը տվյալների բազայի վիճակի գրանցումն է։ Յուրաքանչյուր գրառմանը և յուրաքանչյուր դաշտին վերագրելով եզակի համար (ID): Սա անհրաժեշտ է վերափոխված տվյալների հավաքածուն սկզբնականի հետ համեմատելու համար։ Սա նաև անհրաժեշտ է խմբավորման և զտման հնարավորությունները լիարժեք օգտագործելու համար։ Այստեղ մենք կրկին դիմում ենք 2.2.2 աղյուսակին և ընտրում ենք մի սիմվոլ, որը չի օգտագործվում տվյալների բազմությունում։ Մենք ստանում ենք այն, ինչ ցույց է տրված Նկար 10-ում։

Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Նկ. 10։ Նույնականացուցիչների նշանակումը։

3 փուլի վրա ծախսված ընդհանուր ժամանակը (Շումանի բանաձևի համար) t3 = 0,75 ժամ։
3 փուլում հայտնաբերված սխալների քանակը (Շումանի բանաձևի համար)՝ n3 = 0 հատ։

Քանի որ Շումանի բանաձևը պահանջում է, որ փուլն ավարտվի սխալի ուղղմամբ։ Եկեք վերադառնանք 2-րդ փուլ։

Քայլ 2.2.2.
Այս փուլում մենք նաև կուղղենք կրկնակի և եռակի բացատները։
Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Նկ. 11։ Կրկնակի բացատների քանակը։

2.2.4 աղյուսակում նշված սխալների ուղղում։

Աղյուսակ 5. Սխալի ուղղման փուլՄաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական

«e» կամ «yo» տառերի օգտագործման նման ասպեկտի կարևորության օրինակը ներկայացված է նկար 12-ում։

Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Նկ. 12։ «ё» տառի անհամապատասխանություն։

2.2.2 բեմի վրա ծախսված ընդհանուր ժամանակը t222 = 4 ժամ է։
2.2.2 փուլում հայտնաբերված սխալների քանակը (Շումանի բանաձևի համար)՝ n222 = 583 հատ։

Չորրորդ փուլ.
Դաշտերի ավելորդության ստուգումը լավ տեղավորվում է այս փուլում։ 44 դաշտերից 6-ը հետևյալն են՝
7 — Կառուցվածքի նպատակը
16 - Ստորգետնյա հարկերի քանակը
17 — Ծնող օբյեկտ
21 — Գյուղական խորհուրդ
38 — Կառուցվածքի պարամետրերը (նկարագրություն)
40 - Մշակութային ժառանգություն

Նրանք որևէ արձանագրություն չունեն։ Այսինքն՝ դրանք ավելորդ են։
«22 - Քաղաք» դաշտում կա մեկ գրառում՝ Նկար 13:

Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Նկ. 13։ Քաղաք դաշտում միակ գրառումը Z_348653-ն է։

«34 – Շենքի անվանում» դաշտը պարունակում է գրառումներ, որոնք ակնհայտորեն չեն համապատասխանում դաշտի նպատակին, ինչպես ցույց է տրված նկար 14-ում։

Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Նկ. 14։ Անհամապատասխան գրառման օրինակ։

Մենք այս դաշտերը բացառում ենք տվյալների բազմությունից։ Եվ մենք գրանցում ենք 214 գրառումների փոփոխություն։

4 փուլի վրա ծախսված ընդհանուր ժամանակը (Շումանի բանաձևի համար) t4 = 2,5 ժամ։
4 փուլում հայտնաբերված սխալների քանակը (Շումանի բանաձևի համար)՝ n4 = 222 հատ։

Աղյուսակ 6. Տվյալների բազմության ցուցանիշների վերլուծություն 4-րդ փուլից հետո

Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական

Ընդհանուր առմամբ, վերլուծելով ցուցանիշների փոփոխությունները (աղյուսակ 6), կարող ենք ասել, որ՝
1) Սիմվոլների միջին թվի լծակների և ստանդարտ շեղման լծակի հարաբերակցությունը մոտ է 3-ի, այսինքն՝ կան նորմալ բաշխման նշաններ (վեց սիգմայի կանոն):
2) Նվազագույն և առավելագույն լծակների միջին լծակից զգալի շեղումը ենթադրում է, որ պոչերի ուսումնասիրությունը խոստումնալից ուղղություն է սխալների որոնման մեջ։

Մենք կուսումնասիրենք Շումանի մեթոդաբանության միջոցով սխալներ գտնելու արդյունքները։

Անգործուն փուլեր

2.1. 2.1 փուլի վրա ծախսված ընդհանուր ժամանակը (Շումանի բանաձևի համար) t21 = 1 ժամ։
2.1 փուլում հայտնաբերված սխալների քանակը (Շումանի բանաձևի համար)՝ n21 = 0 հատ։

3. 3 փուլի վրա ծախսված ընդհանուր ժամանակը (Շումանի բանաձևի համար) t3 = 0,75 ժամ։
3 փուլում հայտնաբերված սխալների քանակը (Շումանի բանաձևի համար)՝ n3 = 0 հատ։

Արդյունքների փուլեր
2.2. 2.2.1 փուլի վրա ծախսված ընդհանուր ժամանակը (Շումանի բանաձևի համար) t221 = 8 ժամ։
2.2.1 փուլում (Շումանի բանաձևի համար) շտկված սխալների քանակը՝ n221 = 0 հատ։
2.2.2 բեմի վրա ծախսված ընդհանուր ժամանակը t222 = 4 ժամ է։
2.2.2 փուլում հայտնաբերված սխալների քանակը (Շումանի բանաձևի համար)՝ n222 = 583 հատ։

2.2 փուլի վրա ծախսված ընդհանուր ժամանակը t22 = 8 + 4 = 12 ժամ է։
2.2.2 փուլում հայտնաբերված սխալների քանակը (Շումանի բանաձևի համար)՝ n222 = 583 հատ։

4. 4 փուլի վրա ծախսված ընդհանուր ժամանակը (Շումանի բանաձևի համար) t4 = 2,5 ժամ։
4 փուլում հայտնաբերված սխալների քանակը (Շումանի բանաձևի համար)՝ n4 = 222 հատ։

Քանի որ Շումանի մոդելի առաջին փուլում պետք է ներառվեն զրո փուլեր, իսկ մյուս կողմից՝ 2.2 և 4 փուլերը էապես անկախ են, ապա հաշվի առնելով, որ Շումանի մոդելը ենթադրում է, որ թեստի տևողության մեծացման հետ մեկտեղ սխալ հայտնաբերելու հավանականությունը նվազում է, այսինքն՝ ձախողումների հոսքը նվազում է, ապա այս հոսքն ուսումնասիրելով՝ մենք կորոշենք, թե փուլերից որն ենք առաջինը դնելու՝ համաձայն այն կանոնի, որտեղ ձախողումների խտությունն ավելի հաճախ է լինում, այդ փուլը դրվում է առաջինը։

Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Նկար 15.

Նկար 15-ում ներկայացված բանաձևից հետևում է, որ հաշվարկներում նախընտրելի է չորրորդ փուլը տեղադրել 2.2 փուլից առաջ։

Շումանի բանաձևն օգտագործելով՝ մենք որոշում ենք սխալների գնահատված սկզբնական քանակը.

Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Նկար 16.

Նկար 16-ի արդյունքներից կարելի է տեսնել, որ կանխատեսված սխալների թիվը՝ N2 = 3167, որը մեծ է 1459 նվազագույն չափանիշից։

Ուղղման արդյունքում մենք ուղղեցինք 805 սխալ, և կանխատեսված թիվը կազմում է 3167 - 805 = 2362, որը դեռևս ավելին է, քան մեր կողմից ընդունված նվազագույն շեմը։

Մենք սահմանում ենք C պարամետրը, լամբդան և հուսալիության ֆունկցիան՝

Մաքրել տվյալները, ինչպես ռոք, թուղթ, մկրատ խաղ: Սա խաղ է ավարտով, թե առանց ավարտի: Մաս 2. Գործնական
Նկար 17.

Ըստ էության, լամբդան յուրաքանչյուր փուլում սխալների հայտնաբերման ինտենսիվության իրական ցուցիչ է։ Եթե ​​վերևում նայեք, այս ցուցանիշի նախորդ գնահատականը ժամում 42,4 սխալ էր, որը բավականին համեմատելի է Շումանի ցուցանիշի հետ։ Այս նյութի առաջին մասին անդրադառնալով՝ որոշվեց, որ մշակողի կողմից սխալների հայտնաբերման ինտենսիվությունը պետք է լինի ոչ պակաս, քան 1 սխալ յուրաքանչյուր 250,4 գրառման համար, երբ ստուգվում է 1 գրառում մեկ րոպեում։ Հետևաբար, Շումանի մոդելի համար լամբդայի կրիտիկական արժեքը՝
60 / 250,4 = 0,239617:

Այսինքն՝ սխալների հայտնաբերման ընթացակարգեր իրականացնելու անհրաժեշտությունը պետք է իրականացվի մինչև լամբդան՝ առկա 38,964-ից, նվազի մինչև 0,239617։

Կամ մինչև N (սխալների պոտենցիալ քանակը) մինուս n (սխալների ուղղված քանակը) ցուցանիշը չնվազի մեր կողմից (առաջին մասում) ընդունված շեմից՝ 1459 հատից։

Մաս 1. Տեսական։

Source: www.habr.com

Добавить комментарий