Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична

В частини першої описувалося, що ця публікація зроблена на основі датасету результатів кадастрової оцінки об'єктів нерухомості в Ханти-Мансійському АТ.

Практична частина представлена ​​у вигляді кроків. Проводилося все очищення в Excel, оскільки найпоширеніший інструмент та описані операції може повторити більшість фахівців знаючих Excel. І досить непогано підходить для роботи в «рукопашну».

Нульовим етапом поставлю роботи із запуску, збереження файлу, оскільки він розміром 100 мб, то за кількості цих операцій десятки і сотні ними йде значний час.
Відкриття, в середньому, – 30 сек.
Збереження – 22 сек.

Перший етап починається з визначення статистичних показників датасету.

Таблиця 1. Статпоказники датасету
Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична

Технологія 2.1.

Створюємо допоміжне поле, у мене під номером — AY. Для кожного запису формуємо формулу «=ДЛСТР(F365502)+ДЛСТР(G365502)+…+ДЛСТР(AW365502)»

Загальний час, витрачений етап 2.1 (для формули Шумана) t21 = 1 год.
Кількість знайдених помилок на етапі 2.1 (для формули Шумана) n21 = 0 прим.

Другий етап.
Перевірка комплектуючих датасету.
2.2. Усі значення у записах формуються стандартними символами. Тому відстежимо статистику за символами.

Таблиця 2. Статпоказники символів у датасеті з попереднім аналізом результатів.Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична

Технологія 2.2.1.

Створюємо допоміжне поле - "Альфа1". Для кожного запису формуємо формулу «=ЗЧЕПИТИ(Лист1!B9;…Лист1!AQ9)»
Створюємо фіксовану комірку «Омега-1». У цей осередок по черзі вноситимемо коди символів по Windows-1251 від 32 до 255.
Створюємо допоміжне поле - "альфа2". З формулою «ЗНАЙТИ(СИМВОЛ(Омега;1); «альфа1»;N)».
Створюємо допоміжне поле - "Альфа3". З формулою «=ЯКЩО(ЄЧИСЛО(«альфа2»;N);1;0)»
Створюємо фіксовану комірку "Омега-2", з формулою "=СУМ("альфа3"N1: "альфа3"N365498)"

Таблиця 3. Результати попереднім аналізом результатівОчищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична

Таблиця 4. Зафіксовані помилки на цьому етапіОчищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична

Загальний час, витрачений етап 2.2.1 (для формули Шумана) t221 = 8 год.
Кількість виправлених помилок на етапі 2.2.1 (для формули Шумана) n221 = 0 прим.

Етап 3.
Третім етапом зафіксуємо стан датасету. Шляхом надання кожного запису унікального номера (ID) та кожному полю. Це потрібно для порівняння перетвореного датасета з початковим. Також це необхідно, щоб у повному обсязі використовуватися можливості угруповань та фільтрації. Тут знову звертаємося до таблиці 2.2.2 та вибираємо символ, який у датасеті не використовується. Отримуємо показане малюнку 10.

Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Рис.10. Надання ідентифікаторів.

Загальний час, витрачений етап 3 (для формули Шумана) t3 = 0,75 год.
Кількість знайдених помилок на етапі 3 (для формули Шумана) n3 = 0 прим.

Тому що для формули Шумана необхідно, щоб етап був завершений виправленням помилок. Повертаємось до етапу 2.

Етап 2.2.2.
У цьому етапі виправимо також подвійні та потрійні прогалини.
Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Рис.11. Кількість подвійних прогалин.

Виправлення визначених у таблиці 2.2.4 помилок.

Таблиця 5. Етап виправлення помилокОчищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична

Приклад того чому такий аспект як використання букв «е» або «е» істотно представлений на малюнку 12.

Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Рис.12. Розбій по літері «е».

Загальний час, витрачений на етапі 2.2.2 t222 = 4:XNUMX.
Кількість знайдених помилок на етапі 2.2.2 (для формули Шумана) n222 = 583 прим.

Четвертий етап.
На даний етап добре вписується перевірка на надмірність полів. З 44 полів 6 полів:
7 - Призначення споруди
16 - Кількість підземних поверхів
17 - Батьківський об'єкт
21 - Сільрада
38 - Параметри споруди (опис)
40 - Культурна спадщина

Не мають жодного запису. Тобто надмірні.
Поле «22 – Місто» має один єдиний запис, рисунок 13.

Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Рис.13. Єдиний запис Z_348653 у полі «Місто».

Поле «34 — Найменування будівлі» несуть записи, які явно не відповідають призначенню поля, рисунок 14.

Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Рис.14. Приклад невідповідного запису.

Виключаємо ці поля із датасету. І фіксуємо зміну 214 записів.

Загальний час, витрачений етап 4 (для формули Шумана) t4 = 2,5 год.
Кількість знайдених помилок на етапі 4 (для формули Шумана) n4 = 222 прим.

Таблиця 6. Аналіз показників датасету після проведення 4-го етапу

Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична

Загалом аналізуючи зміни показників (таблиця 6) можна сказати, що:
1) Співвідношення важелів середньої кількості символів до важеля стандартного відхилення близько до 3, тобто є ознаки нормального розподілу (правило шести сигм).
2) Істотне відхилення важелів мінімуму та максимуму від важеля середнього передбачає, що дослідження хвостів є перспективним напрямом при пошуку помилок.

Досліджуємо результати знаходження помилок методологією Шумана.

Холості етапи

2.1. Загальний час, витрачений етап 2.1 (для формули Шумана) t21 = 1 год.
Кількість знайдених помилок на етапі 2.1 (для формули Шумана) n21 = 0 прим.

3. Загальний час, витрачений етап 3 (для формули Шумана) t3 = 0,75 год.
Кількість знайдених помилок на етапі 3 (для формули Шумана) n3 = 0 прим.

Результативні етапи
2.2. Загальний час, витрачений етап 2.2.1 (для формули Шумана) t221 = 8 год.
Кількість виправлених помилок на етапі 2.2.1 (для формули Шумана) n221 = 0 прим.
Загальний час, витрачений на етапі 2.2.2 t222 = 4:XNUMX.
Кількість знайдених помилок на етапі 2.2.2 (для формули Шумана) n222 = 583 прим.

Загальний час, витрачений етапі 2.2 t22 = 8 + 4 = 12 години.
Кількість знайдених помилок на етапі 2.2.2 (для формули Шумана) n222 = 583 прим.

4. Загальний час, витрачений етап 4 (для формули Шумана) t4 = 2,5 год.
Кількість знайдених помилок на етапі 4 (для формули Шумана) n4 = 222 прим.

Так як є нульові етапи, які повинні бути включені в перший етап моделі Шумана, а з іншого боку етап 2.2 і 4 по своїй суті незалежні, то враховуючи, що модель Шумана передбачає, що зростанням тривалості перевірки, ймовірність виявлення помилки знижується, тобто знижується потік відмов, то досліджуючи цей потік визначимо який із етапів ставити першим, за правилом, де щільність відмови частіше, той із етапів і ставимо першим.

Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Ріс.15.

З формули малюнку 15 слід, що краще ставити четвертий етап перед етапом 2.2 у розрахунках.

За формулою Шумана визначаємо ймовірну початкову кількість помилок:

Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Ріс.16.

З результатів малюнку 16 видно, що прогнозоване кількість помилок N2 = 3167, що більше мінімальний критерій 1459.

Ми в результаті проведеного виправлення виправили 805 помилок, і прогнозована кількість становить 3167 – 805 = 2362, що все одно більше за мінімальний поріг прийнятого нами.

Визначаємо параметр С, лямбду та функцію надійності:

Очищення даних, як гра «Камінь, Ножиці, Папір». Це гра з фінішем чи без? Частина 2. Практична
Ріс.17.

По суті, лямбда - це фактичний показник, з якою інтенсивністю на кожному етапі виявляються помилки. Якщо подивитися вище, то оцінка цього показника раніше становила 42,4 помилки на годину, що досить порівняно з показником Шумана. Звертаючись до першої частини даного матеріалу, було визначено, що інтенсивність знаходження помилок розробником повинна бути не нижче ніж 1 помилка на 250,4 записів при перевірці 1 запису на хвилину. Звідси критичне значення лямбда для моделі Шумана:
60 / 250,4 = 0,239617.

Тобто необхідність проведення процедур знаходження помилок потрібно проводити доти, доки лямбда з наявних 38,964 не знизиться до 0,239617.

Або поки показник N (потенційна кількість помилок) мінус n (виправлена ​​кількість помилок) не знизиться менше за прийнятий нами поріг (у першій частині) – 1459 шт.

Частина 1. Теоретична.

Джерело: habr.com

Додати коментар або відгук