Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная

В часткі першай апісвалася, што дадзеная публікацыя зроблена на аснове датасета вынікаў кадастравай ацэнкі аб'ектаў нерухомасці ў Ханты-Мансійскім АТ.

Практычная частка прадстаўлена ў выглядзе крокаў. Праводзілася ўся ачыстка ў Excel, бо самая распаўсюджаная прылада і апісаныя аперацыі можа паўтарыць большасць адмыслоўцаў дасведчаных Excel. І досыць нядрэнна падыходзіць для працы ў «рукапашную».

Нулявым этапам пастаўлю працы па запуску, захаванню файла, бо ён памерам 100 мб, то пры колькасці гэтых аперацый дзясяткі і сотні на іх сыходзіць істотны час.
Адкрыццё, у сярэднім, - 30 сек.
Захаванне - 22 сек.

Першы этап пачынаецца з вызначэння статыстычных паказчыкаў датасета.

Табліца 1. Статпаказчыкі датасета
Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная

Тэхналогія 2.1.

Ствараем дапаможнае поле, у мяне яно пад нумарам - AY. Для кожнага запісу фарміруем формулу «=ДЛСТР(F365502)+ДЛСТР(G365502)+…+ДЛСТР(AW365502)»

Агульны час, затрачаны на этап 2.1 (для формулы Шумана) t21 = 1 гадзіну.
Колькасць знойдзеных памылак на этапе 2.1 (для формулы Шумана) n21 = 0 шт.

Другі этап.
Праверка камплектуючых датасета.
2.2. Усе значэнні ў запісах фармуюцца стандартнымі знакамі. Таму адсочым статыстыку па сімвалах.

Табліца 2. Статпаказчыкі сімвалаў у датасеце з папярэднім аналізам вынікаў.Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная

Тэхналогія 2.2.1.

Ствараем дапаможнае поле - "альфа1". Для кожнага запісу фарміруем формулу «=СЦЯПІЦЬ(Ліст1!B9;…Ліст1!AQ9)»
Ствараем фіксаваную вочка «Амега-1». У гэтае вочка па чарзе будзем уносіць коды знакаў па Windows-1251 ад 32 да 255.
Ствараем дапаможнае поле - "альфа2". З формулай «=ЗНАЙСЦІ(СІМВАЛ(Амега;1); «альфа1»;N)».
Ствараем дапаможнае поле - "альфа3". З формулай «=КАЛІ(ЛІКАРСТ(«альфа2»;N);1;0)»
Ствараем фіксаваную вочка «Амега-2», з формулай «=СУМ(«альфа3»N1: «альфа3»N365498)»

Табліца 3. Вынікі папярэднім аналізам вынікаўАчыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная

Табліца 4. Зафіксаваныя памылкі на дадзеным этапеАчыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная

Агульны час, затрачаны на этап 2.2.1 (для формулы Шумана) t221 = 8 гадзіну.
Колькасць выпраўленых памылак на этапе 2.2.1 (для формулы Шумана) n221 = 0 шт.

Этап 3.
Трэцім этапам зафіксуем стан датасета. Шляхам прысвойвання кожнага запісу ўнікальнага нумара (ID) і кожнаму полю. Гэта неабходна для супастаўлення пераўтворанага датасета з першапачатковым. Таксама гэта неабходна, каб у поўным аб'ёме выкарыстоўвацца магчымасці груповак і фільтраванні. Тут зноў звяртаемся да табліцы 2.2.2 і выбіраем сімвал, які ў датасеце не выкарыстоўваецца. Атрымліваем паказанае на рысунку 10.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Мал.10. Прысвойванне ідэнтыфікатараў.

Агульны час, затрачаны на этап 3 (для формулы Шумана) t3 = 0,75 гадзіну.
Колькасць знойдзеных памылак на этапе 3 (для формулы Шумана) n3 = 0 шт.

Бо для формулы Шумана неабходна, каб этап быў завершаны выпраўленнем памылак. Вяртаемся да этапу 2.

Этап 2.2.2.
У гэтым этапе выправім таксама падвойныя і патройныя прабелы.
Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Мал.11. Колькасць падвойных прабелаў.

Выпраўленне вызначаных у табліцы 2.2.4 памылак.

Табліца 5. Этап выпраўлення памылакАчыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная

Прыклад таго чаму такі аспект як выкарыстанне літар "е" або "ё" істотны прадстаўлены на малюнку 12.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Мал.12. Разнабой па літары "ё".

Агульны час, выдаткаваны на этапе 2.2.2 t222 = 4 гадзіны.
Колькасць знойдзеных памылак на этапе 2.2.2 (для формулы Шумана) n222 = 583 шт.

Чацвёрты этап.
У дадзены этап добра ўпісваецца праверка на надмернасць палёў. З 44 палёў 6 палёў:
7 — Прызначэнне збудавання
16 - Колькасць падземных паверхаў
17 - Бацькоўскі аб'ект
21 — Сельсавет
38 — Параметры збудавання (апісанне)
40 — Культурная спадчына

Не маюць ніводнага запісу. Гэта значыць залішнія.
Поле «22 – Горад» мае адзіны запіс, малюнак 13.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Мал.13. Адзіны запіс Z_348653 у полі "Горад".

Поле «34 — Найменне будынка» нясуць запісы, якія відавочна не адпавядаюць прызначэнню поля, малюнак 14.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Мал.14. Прыклад неадпаведнага запісу.

Выключаем гэтыя палі з датасета. І фіксуем змену 214 запісаў.

Агульны час, затрачаны на этап 4 (для формулы Шумана) t4 = 2,5 гадзіну.
Колькасць знойдзеных памылак на этапе 4 (для формулы Шумана) n4 = 222 шт.

Табліца 6. Аналіз паказчыкаў датасета пасля правядзення 4-га этапу

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная

У цэлым аналізуючы змены паказчыкаў (табліца 6) можна сказаць, што:
1) Суадносіны рычагоў сярэдняй колькасці знакаў да рычага стандартнага адхіленні блізка да 3, гэта значыць прысутнічаюць прыкметы звычайнага размеркавання (правіла шасці сігмаў).
2) Істотнае адхіленне рычагоў мінімуму і максімуму ад рычага сярэдняга мяркуе, што даследаванне хвастоў з'яўляецца перспектыўным кірункам пры пошуку памылак.

Даследуем вынікі знаходжання памылак па метадалогіі Шумана.

Халастыя этапы

2.1. Агульны час, затрачаны на этап 2.1 (для формулы Шумана) t21 = 1 гадзіну.
Колькасць знойдзеных памылак на этапе 2.1 (для формулы Шумана) n21 = 0 шт.

3. Агульны час, затрачаны на этап 3 (для формулы Шумана) t3 = 0,75 гадзіну.
Колькасць знойдзеных памылак на этапе 3 (для формулы Шумана) n3 = 0 шт.

Рэзультатыўныя этапы
2.2. Агульны час, затрачаны на этап 2.2.1 (для формулы Шумана) t221 = 8 гадзіну.
Колькасць выпраўленых памылак на этапе 2.2.1 (для формулы Шумана) n221 = 0 шт.
Агульны час, выдаткаваны на этапе 2.2.2 t222 = 4 гадзіны.
Колькасць знойдзеных памылак на этапе 2.2.2 (для формулы Шумана) n222 = 583 шт.

Агульны час, затрачаны на этапе 2.2 t22 = 8 + 4 = 12 гадзіны.
Колькасць знойдзеных памылак на этапе 2.2.2 (для формулы Шумана) n222 = 583 шт.

4. Агульны час, затрачаны на этап 4 (для формулы Шумана) t4 = 2,5 гадзіну.
Колькасць знойдзеных памылак на этапе 4 (для формулы Шумана) n4 = 222 шт.

Бо маюцца нулявыя этапы якія павінны быць уключаны ў першы этап мадэлі Шумана, а з іншага боку этап 2.2 і 4 па сваёй сутнасці незалежныя, то улічваючы, што мадэль Шумана мяркуе, што ростам працягласці праверкі, верагоднасць выяўлення памылкі змяншаецца, гэта значыць змяншаецца струмень адмоваў, то даследуючы гэты струмень вызначым які з этапаў ставіць першым, па правіле, дзе шчыльнасць адмовы гушчару, той з этапаў і ставім першым.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Рыс.15.

З формулы на малюнку 15 вынікае, што пераважней ставіць чацвёрты этап перад этапам 2.2 у разліках.

Па формуле Шумана вызначаем меркаваную першапачатковую колькасць памылак:

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Рыс.16.

З вынікаў на малюнку 16 бачна, што прагназуемая колькасць памылак N2 = 3167, што больш чым мінімальны крытэрый 1459.

Мы ў выніку праведзенага выпраўлення выправілі 805 памылак, і прагназуемая колькасць складае 3167 - 805 = 2362, што ўсё роўна больш мінімальнага парога прынятага намі.

Вызначаем параметр З, лямбду і функцыю надзейнасці:

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 2. Практычная
Рыс.17.

Па сутнасці, лямбда - гэта фактычны паказчык з якой інтэнсіўнасцю на кожным этапе выяўляюцца памылкі. Калі паглядзець вышэй, то ацэнка гэтага паказчыка раней, складала 42,4 памылкі ў гадзіну, што, дастаткова, параўнальна з паказчыкам Шумана. Звяртаючыся да першай часткі дадзенага матэрыялу, было вызначана, што інтэнсіўнасць знаходжання памылак распрацоўшчыкам павінна быць не ніжэй за 1 памылку на 250,4 запісаў, пры праверцы 1 запісы ў хвіліну. Адсюль крытычнае значэнне лямбда для мадэлі Шумана:
60 / 250,4 = 0,239617.

Гэта значыць неабходнасць правядзення працэдур знаходжання памылак трэба праводзіць датуль, пакуль лямбда, з наяўных 38,964, не зменшыцца да 0,239617.

Або пакуль паказчык N (патэнцыйная колькасць памылак) мінус n (выпраўленая колькасць памылак) не знізіцца менш за прыняты намі парога (у першай частцы) - 1459 шт.

Частка 1. Тэарэтычная.

Крыніца: habr.com

Дадаць каментар