Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично

В дел Еден беше опишано дека оваа публикација е направена врз основа на базата на податоци за резултатите од катастарското вреднување на недвижен имот во автономниот округ Ханти-Манси.

Практичниот дел е претставен во форма на чекори. Целото чистење беше направено во Excel, бидејќи најчестата алатка и опишаните операции може да се повторат од повеќето специјалисти кои го познаваат Excel. И доста добро прилагоден за работа од рака на рака.

Нултата фаза ќе биде работа на лансирање и зачувување на датотеката, бидејќи таа е со големина од 100 MB, а со тоа што бројот на овие операции е десетици и стотици, тие бараат значително време.
Отворањето, во просек, е 30 секунди.
Заштеда – 22 сек.

Првата фаза започнува со определување на статистичките показатели на базата на податоци.

Табела 1. Статистички показатели на сетот
Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично

Технологија 2.1.

Создаваме помошно поле, го имам под бројот - AY. За секој запис, ја формираме формулата „=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)“

Вкупно време поминато на етапата 2.1 (за Шуманова формула) t21 = 1 час.
Број на грешки пронајдени во фаза 2.1 (за Шуманова формула) n21 = 0 парчиња.

Втората фаза.
Проверка на компонентите на сетот.
2.2. Сите вредности во записите се формираат со користење на стандардни симболи. Затоа, да ја следиме статистиката по симболи.

Табела 2. Статистички показатели на знаци во збирката податоци со прелиминарна анализа на резултатите.Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично

Технологија 2.2.1.

Ние создаваме помошно поле - „алфа1“. За секој запис, ја формираме формулата „=CONCATENATE(Sheet1!B9;... Sheet1!AQ9)“
Ние создаваме фиксна клетка Омега-1. Во оваа ќелија наизменично ќе внесуваме шифри на знаци според Windows-1251 од 32 до 255.
Создаваме помошно поле - „алфа2“. Со формулата „=FIND(SYMBOL(Omega,1); „alpha1“,N)“.
Создаваме помошно поле - „алфа3“. Со формулата „=IF(ISNUMBER(„алфа2“, N),1)“
Создадете фиксна ќелија „Омега-2“, со формулата „=SUM(„алфа3“N1: „алфа3“N365498)“

Табела 3. Резултати од прелиминарната анализа на резултатитеИсчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично

Табела 4. Евидентирани грешки во оваа фазаИсчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично

Вкупно време поминато на етапата 2.2.1 (за Шуманова формула) t221 = 8 час.
Број на поправени грешки во фаза 2.2.1 (за Шуманова формула) n221 = 0 ЕЕЗ.

Чекор 3.
Третиот чекор е да се запише состојбата на збирката податоци. Со доделување на секој запис единствен број (ID) и секое поле. Ова е неопходно за да се спореди конвертираната база на податоци со оригиналната. Ова е исто така неопходно за целосно искористување на можностите за групирање и филтрирање. Овде повторно се свртуваме кон табелата 2.2.2 и избираме симбол што не се користи во базата на податоци. Го добиваме она што е прикажано на Слика 10.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Сл. 10. Доделување идентификатори.

Вкупно време поминато на етапата 3 (за Шуманова формула) t3 = 0,75 час.
Број на грешки пронајдени во фаза 3 (за Шуманова формула) n3 = 0 парчиња.

Бидејќи формулата на Шуман бара фазата да се заврши со исправување на грешките. Да се ​​вратиме на етапата 2.

Чекор 2.2.2.
Во овој чекор ќе ги поправиме и двојните и тројните празни места.
Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Сл. 11. Број на двојни простори.

Исправка на грешките идентификувани во табела 2.2.4.

Табела 5. Фаза на корекција на грешкаИсчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично

Пример зошто таков аспект како употребата на буквите „е“ или „е“ е значаен е претставен на Слика 12.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Сл. 12. Несовпаѓање во буквата „д“.

Вкупно време поминато во чекор 2.2.2 t222 = 4 часа.
Број на грешки пронајдени во фаза 2.2.2 (за Шуманова формула) n222 = 583 парчиња.

Четврта фаза.
Проверката за вишок на терен добро се вклопува во оваа фаза. Од 44 полиња, 6 полиња:
7 - Цел на структурата
16 — Број на подземни катови
17 - родителски објект
21 - Селски совет
38 — Структурни параметри (опис)
40 – Културно наследство

Тие немаат никакви записи. Тоа е, тие се вишок.
Полето „22 – Град“ има еден единствен запис, Слика 13.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Сл. 13. Единствениот запис е Z_348653 во полето „Град“.

Полето „34 - Име на зграда“ содржи записи кои очигледно не одговараат на целта на полето, Слика 14.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Сл. 14. Пример за неусогласен запис.

Ние ги исклучуваме овие полиња од базата на податоци. А промената ја евидентираме во 214 записи.

Вкупно време поминато на етапата 4 (за Шуманова формула) t4 = 2,5 час.
Број на грешки пронајдени во фаза 4 (за Шуманова формула) n4 = 222 парчиња.

Табела 6. Анализа на индикатори на збир на податоци по 4-та фаза

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично

Генерално, анализирајќи ги промените во индикаторите (Табела 6) можеме да кажеме дека:
1) Односот на просечниот број на симболи до рачката за стандардно отстапување е близу до 3, односно има знаци на нормална дистрибуција (правило шест сигма).
2) Значително отстапување на минималните и максималните лостови од просечната лост сугерира дека проучувањето на опашките е ветувачка насока при пребарување на грешки.

Ајде да ги испитаме резултатите од наоѓањето грешки користејќи ја методологијата на Шуман.

Фази на мирување

2.1. Вкупно време поминато на етапата 2.1 (за Шуманова формула) t21 = 1 час.
Број на грешки пронајдени во фаза 2.1 (за Шуманова формула) n21 = 0 парчиња.

3. Вкупно време поминато на етапата 3 (за Шуманова формула) t3 = 0,75 час.
Број на грешки пронајдени во фаза 3 (за Шуманова формула) n3 = 0 парчиња.

Ефективни фази
2.2. Вкупно време поминато на етапата 2.2.1 (за Шуманова формула) t221 = 8 час.
Број на поправени грешки во фаза 2.2.1 (за Шуманова формула) n221 = 0 ЕЕЗ.
Вкупно време поминато во чекор 2.2.2 t222 = 4 часа.
Број на грешки пронајдени во фаза 2.2.2 (за Шуманова формула) n222 = 583 парчиња.

Вкупно време поминато во чекор 2.2 t22 = 8 + 4 = 12 часа.
Број на грешки пронајдени во фаза 2.2.2 (за Шуманова формула) n222 = 583 парчиња.

4. Вкупно време поминато на етапата 4 (за Шуманова формула) t4 = 2,5 час.
Број на грешки пронајдени во фаза 4 (за Шуманова формула) n4 = 222 парчиња.

Бидејќи има нула фази кои мора да бидат вклучени во првата фаза на Шумановиот модел, а од друга страна, фазите 2.2 и 4 се инхерентно независни, тогаш имајќи предвид дека Шумановиот модел претпоставува дека со зголемување на времетраењето на проверката, веројатноста на откривање грешка се намалува, односно протокот ги намалува неуспесите, потоа со испитување на овој тек ќе одредиме која етапа да ја ставиме прва, според правилото каде што густината на неуспехот е почеста, прво ќе ја ставиме таа фаза.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Сл. 15

Од формулата на Слика 15 произлегува дека е подобро да се постави четвртата фаза пред фаза 2.2 во пресметките.

Користејќи ја формулата на Шуман, го одредуваме проценетиот почетен број на грешки:

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Сл. 16

Од резултатите на слика 16 може да се види дека предвидениот број на грешки е N2 = 3167, што е повеќе од минималниот критериум од 1459.

Како резултат на исправката, коригиравме 805 грешки, а предвидениот број е 3167 – 805 = 2362, што е сепак повеќе од минималниот праг што го прифативме.

Го дефинираме параметарот C, ламбда и функцијата на доверливост:

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 2. Практично
Сл. 17

Во суштина, ламбда е вистински показател за интензитетот со кој се откриваат грешките во секоја фаза. Ако погледнете погоре, претходната проценка на овој индикатор беше 42,4 грешки на час, што е сосема споредливо со индикаторот Шуман. Осврнувајќи се на првиот дел од овој материјал, беше утврдено дека стапката со која програмерот наоѓа грешки не треба да биде помала од 1 грешка на 250,4 записи, при проверка на 1 запис во минута. Оттука и критичната вредност на ламбда за моделот Шуман:
60 / 250,4 = 0,239617.

Односно, потребата да се спроведат процедури за откривање грешки мора да се спроведуваат додека ламбда, од постојните 38,964, не се намали на 0,239617.

Или додека индикаторот N (потенцијален број на грешки) минус n (поправен број на грешки) не се намали под прагот што го прифативме (во првиот дел) - 1459 парчиња.

Дел 1. Теоретски.

Извор: www.habr.com

Додадете коментар