Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични

В први део описано је да је ова публикација направљена на основу скупа података резултата катастарске процене непокретности у Ханти-Мансијском аутономном округу.

Практични део је представљен у виду корака. Чишћење је урађено у Екцел-у, пошто најчешћи алат и описане операције може да понови већина стручњака који познају Екцел. И прилично погодан за ручни рад.

Нулта фаза ће бити рад на покретању и чувању датотеке, пошто је величине 100 МБ, а са бројем ових операција на десетине и стотине, оне одузимају значајно време.
Отварање је, у просеку, 30 секунди.
Уштеда – 22 сек.

Прва фаза почиње одређивањем статистичких индикатора скупа података.

Табела 1. Статистички индикатори скупа података
Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични

Технологија 2.1.

Направимо помоћно поље, имам га под бројем - АИ. За сваки унос формирамо формулу „=ДУЖИНА(Ф365502)+ДУЖИНА(Г365502)+…+ДУЖИНА(АВ365502)“

Укупно време проведено на фази 2.1 (за Шуманову формулу) т21 = 1 сат.
Број пронађених грешака у фази 2.1 (за Шуманову формулу) н21 = 0 ком.

Друга фаза.
Провера компоненти скупа података.
2.2. Све вредности у записима се формирају помоћу стандардних симбола. Стога, хајде да пратимо статистику по симболима.

Табела 2. Статистички показатељи карактера у скупу података са прелиминарном анализом резултата.Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични

Технологија 2.2.1.

Креирамо помоћно поље - „алфа1“. За сваки запис формирамо формулу „=ЦОНЦАТЕНАТЕ(Схеет1!Б9;...Схеет1!АК9)“
Стварамо фиксну Омега-1 ћелију. У ову ћелију ћемо наизменично уносити кодове знакова према Виндовс-1251 од 32 до 255.
Креирамо помоћно поље - „алфа2“. Са формулом „= ПРОНАЂИ(СИМБОЛ(Омега,1); „алфа1”,Н)”.
Креирамо помоћно поље - „алпха3“. Са формулом „=ИФ(ИСБРОЈ(“алфа2”,Н),1)”
Направите фиксну ћелију „Омега-2“, са формулом „=СУМ(“алпха3”Н1: “алпха3”Н365498)”

Табела 3. Резултати прелиминарне анализе резултатаОчистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични

Табела 4. Грешке забележене у овој фазиОчистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични

Укупно време проведено на фази 2.2.1 (за Шуманову формулу) т221 = 8 сат.
Број исправљених грешака у фази 2.2.1 (за Шуманову формулу) н221 = 0 ком.

Корак КСНУМКС.
Трећи корак је снимање стања скупа података. Додељивањем сваком запису јединственог броја (ИД) и сваког поља. Ово је неопходно за упоређивање конвертованог скупа података са оригиналним. Ово је такође неопходно да би се у потпуности искористиле могућности груписања и филтрирања. Овде поново прелазимо на табелу 2.2.2 и бирамо симбол који се не користи у скупу података. Добијамо оно што је приказано на слици 10.

Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Слика 10. Додељивање идентификатора.

Укупно време проведено на фази 3 (за Шуманову формулу) т3 = 0,75 сат.
Број пронађених грешака у фази 3 (за Шуманову формулу) н3 = 0 ком.

Пошто Шуманова формула захтева да се фаза заврши исправљањем грешака. Вратимо се на фазу 2.

Корак КСНУМКС.
У овом кораку ћемо такође исправити двоструке и троструке размаке.
Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Слика 11. Број дуплих размака.

Исправка грешака идентификованих у табели 2.2.4.

Табела 5. Фаза исправљања грешкеОчистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични

Пример зашто је такав аспект као што је употреба слова „е“ или „е“ значајан приказан је на слици 12.

Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Слика 12. Неслагање у слову "е".

Укупно време проведено у кораку 2.2.2 т222 = 4 сата.
Број пронађених грешака у фази 2.2.2 (за Шуманову формулу) н222 = 583 ком.

Четврта фаза.
Провера залиха поља добро се уклапа у ову фазу. Од 44 поља, 6 поља:
7 - Намена структуре
16 — Број подземних спратова
17 - Родитељски објекат
21 – Сеоски савет
38 — Параметри структуре (опис)
40 – Културно наслеђе

Немају ниједан унос. То јест, они су сувишни.
Поље „22 – Град“ има један једини унос, слика 13.

Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Слика 13. Једини унос је З_348653 у пољу „Град“.

Поље „34 – Назив зграде“ садржи уносе који очигледно не одговарају намени поља, слика 14.

Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Слика 14. Пример уноса који није усклађен.

Изузимамо ова поља из скупа података. А промену бележимо у 214 записа.

Укупно време проведено на фази 4 (за Шуманову формулу) т4 = 2,5 сат.
Број пронађених грешака у фази 4 (за Шуманову формулу) н4 = 222 ком.

Табела 6. Анализа индикатора скупа података након 4. фазе

Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични

Генерално, анализирајући промене индикатора (Табела 6) можемо рећи да:
1) Однос просечног броја симбола и полуге стандардне девијације је близу 3, односно постоје знаци нормалне дистрибуције (правило шест сигма).
2) Значајно одступање минималне и максималне полуге од просечне полуге сугерише да је проучавање репова обећавајући правац при тражењу грешака.

Хајде да испитамо резултате проналажења грешака применом Шуманове методологије.

Идле стагес

2.1. Укупно време проведено на фази 2.1 (за Шуманову формулу) т21 = 1 сат.
Број пронађених грешака у фази 2.1 (за Шуманову формулу) н21 = 0 ком.

3. Укупно време проведено на фази 3 (за Шуманову формулу) т3 = 0,75 сат.
Број пронађених грешака у фази 3 (за Шуманову формулу) н3 = 0 ком.

Ефективне фазе
2.2. Укупно време проведено на фази 2.2.1 (за Шуманову формулу) т221 = 8 сат.
Број исправљених грешака у фази 2.2.1 (за Шуманову формулу) н221 = 0 ком.
Укупно време проведено у кораку 2.2.2 т222 = 4 сата.
Број пронађених грешака у фази 2.2.2 (за Шуманову формулу) н222 = 583 ком.

Укупно време проведено у кораку 2.2 т22 = 8 + 4 = 12 сати.
Број пронађених грешака у фази 2.2.2 (за Шуманову формулу) н222 = 583 ком.

4. Укупно време проведено на фази 4 (за Шуманову формулу) т4 = 2,5 сат.
Број пронађених грешака у фази 4 (за Шуманову формулу) н4 = 222 ком.

Пошто постоје нулте фазе које морају бити укључене у прву фазу Шумановог модела, а са друге стране, етапе 2.2 и 4 су инхерентно независне, онда с обзиром на то да Шуманов модел претпоставља да повећањем трајања провере, вероватноћа детекције грешке се смањује, односно ток смањује кварове, онда ћемо испитивањем овог тока одредити који степен да ставимо први, по правилу, где је густина отказа чешћа, ту фазу ћемо ставити на прво место.

Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Слика 15.

Из формуле на слици 15 произилази да је боље ставити четврти степен пре фазе 2.2 у прорачунима.

Користећи Шуманову формулу, одређујемо процењени почетни број грешака:

Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Слика 16.

Из резултата на слици 16 се види да је предвиђени број грешака Н2 = 3167, што је више од минималног критеријума од 1459.

Као резултат исправке, исправили смо 805 грешака, а предвиђени број је 3167 – 805 = 2362, што је и даље више од минималног прага који смо прихватили.

Дефинишемо параметар Ц, ламбда и функцију поузданости:

Очистите податке попут игре камена, папира, маказа. Да ли је ово игра са или без краја? Део 2. Практични
Слика 17.

У суштини, ламбда је стварни индикатор интензитета са којим се грешке откривају у свакој фази. Ако погледате горе, претходна процена овог индикатора је била 42,4 грешке на сат, што је прилично упоредиво са Шумановом индикатором. Осврћући се на први део овог материјала, утврђено је да брзина којом програмер проналази грешке не треба да буде нижа од 1 грешке на 250,4 записа, када се проверава 1 запис у минути. Отуда критична вредност ламбда за Шуманов модел:
60 / 250,4 = 0,239617.

Односно, потреба за спровођењем процедура детекције грешака мора да се спроводи све док се ламбда, са постојећих 38,964, не смањи на 0,239617.

Или док индикатор Н (потенцијални број грешака) минус н (исправљени број грешака) не падне испод прага који смо прихватили (у првом делу) - 1459 ком.

Део 1. Теоријски.

Извор: ввв.хабр.цом

Додај коментар