Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски

1. Почетни податоци

Чистењето на податоците е еден од предизвиците со кои се соочуваат задачите за анализа на податоци. Овој материјал ги одразуваше случувањата и решенијата што произлегоа како резултат на решавање на практичен проблем за анализа на базата на податоци при формирањето на катастарската вредност. Извори овде „ИЗВЕШТАЈ бр. 01/ОКС-2019 за резултатите од државната катастарска проценка на сите видови недвижен имот (освен за парцели) на територијата на автономниот округ Ханти-Мансијск - Угра“.

Разгледана е датотеката „Компаративен модел вкупно.одс“ во „Прилог Б. Резултати од утврдување на КС 5. Информации за начинот на утврдување на катастарска вредност 5.1 Компаративен пристап“.

Табела 1. Статистички показатели на збирката податоци во датотеката „Компаративен модел вкупно.ods“
Вкупен број на полиња, ЕЕЗ. — 44
Вкупен број на записи, ЕЕЗ. — 365 490
Вкупен број на знаци, ЕЕЗ. — 101 714 693
Просечен број на знаци во записот, ЕЕЗ. — 278,297
Стандардна девијација на знаци во запис, ЕЕЗ. — 15,510
Минимален број на знаци во записот, ЕЕЗ. - 198
Максимален број на знаци во записот, ЕЕЗ. - 363

2. Воведен дел. Основни стандарди

При анализата на наведената база на податоци, формирана е задача да се прецизираат барањата за степенот на прочистување, бидејќи, како што на сите им е јасно, наведената база создава правни и економски последици за корисниците. За време на работата, се покажа дека нема специфични барања за степенот на чистење на големи податоци. Анализирајќи ги правните норми во оваа работа, дојдов до заклучок дека сите тие се формирани од можности. Односно, се појави одредена задача, за задачата се составуваат извори на информации, потоа се формира база на податоци и врз основа на креираната база на податоци, алатки за решавање на проблемот. Добиените решенија се референтни точки при изборот од алтернативи. Го претставив ова на слика 1.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски

Бидејќи, во однос на одредувањето на какви било стандарди, се претпочита да се потпреме на докажани технологии, ги избрав барањата наведени во „Дефиниции за интегритет на податоци на MHRA GxP и насоки за индустријата“, бидејќи овој документ го сметав за најсеопфатен за ова прашање. Конкретно, во овој документ делот вели „Треба да се забележи дека барањата за интегритет на податоците подеднакво важат за рачни (хартија) и електронски податоци“. (превод: „...барањата за интегритет на податоците подеднакво важат за рачни (хартија) и електронски податоци“). Оваа формулација е сосема конкретно поврзана со концептот на „писмени докази“, во одредбите на член 71 од Законот за парнична постапка, чл. 70 CAS, член 75 APC, „во писмена форма“ чл. 84 Законик за парнична постапка.

На слика 2 е претставен дијаграм на формирање на пристапи кон видовите информации во правната практика.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски
Ориз. 2. Извор тука.

Слика 3 го прикажува механизмот на Слика 1, за задачите од горенаведеното „Водич“. Лесно е, со правење споредба, да се види дека пристапите што се користат при исполнување на барањата за интегритет на информации во современите стандарди за информациски системи се значително ограничени во споредба со правниот концепт на информации.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски
Сл. 3

Во наведениот документ (Упатство), поврзаноста со техничкиот дел, можностите за обработка и складирање на податоци, е добро потврдена со цитат од Поглавје 18.2. Релациона база на податоци: „Оваа структура на датотеки е инхерентно побезбедна, бидејќи податоците се чуваат во голем формат на датотека што ја зачувува врската помеѓу податоците и метаподатоците“.

Всушност, во овој пристап - од постојните технички можности, нема ништо ненормално и, само по себе, ова е природен процес, бидејќи проширувањето на концептите доаѓа од најпроучуваната активност - дизајнот на бази на податоци. Но, од друга страна, се појавуваат правни норми кои не предвидуваат попусти на техничките можности на постоечките системи, на пример: GDPR - Општа регулатива за заштита на податоци.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски
Ориз. 4. Инка на технички способности (Извор).

Во овие аспекти, станува јасно дека оригиналната база на податоци (сл. 1) ќе мора, пред сè, да се зачува, и второ, да биде основа за извлекување дополнителни информации од него. Па, како пример: камерите што снимаат сообраќајни правила се сеприсутни, системите за обработка на информации ги отстрануваат прекршителите, но други информации може да им се понудат и на други потрошувачи, на пример, како маркетинг следење на структурата на протокот на клиенти до трговски центар. И ова е извор на дополнителна додадена вредност кога се користи BigDat. Сосема е можно збирките на податоци што се собираат сега, некаде во иднина, да имаат вредност според механизам сличен на вредноста на ретките изданија од 1700 во сегашно време. На крајот на краиштата, всушност, привремените збирки на податоци се единствени и веројатно нема да се повторат во иднина.

3. Воведен дел. Критериум за оценување

Во текот на процесот на обработка, беше развиена следната класификација на грешки.

1. Класа на грешки (врз основа на ГОСТ Р 8.736-2011): а) систематски грешки; б) случајни грешки; в) грешка.

2. По мноштво: а) моно дисторзија; б) мулти-дисторзија.

3. Според критичноста на последиците: а) критични; б) не е критично.

4. По извор на појава:

А) Технички – грешки кои настануваат при работа на опремата. Прилично релевантна грешка за IoT системи, системи со значителен степен на влијание врз квалитетот на комуникацијата, опремата (хардверот).

Б) Грешки на операторот - грешки во широк опсег од печатни грешки на операторот при внесување до грешки во техничките спецификации за дизајнирање на базата на податоци.

В) Кориснички грешки - тука се корисничките грешки во целиот опсег од „заборавив да го префрлам распоредот“ до погрешно мерење за нозе.

5. Поделени во посебна класа:

а) „задачата на сепараторот“, односно просторот и „:“ (во нашиот случај) кога беше дупликат;
б) зборови напишани заедно;
в) нема празно место после сервисни знаци
г) симетрично повеќе симболи: (), "", "...".

Земени заедно, со систематизацијата на грешките во базата на податоци претставени на Слика 5, се формира прилично ефективен координатен систем за пребарување на грешки и развој на алгоритам за чистење на податоците за овој пример.

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски
Ориз. 5. Типични грешки што одговараат на структурните единици на базата на податоци (Извор: Орешков В.И., Паклин Н.Б. „Клучни концепти на консолидација на податоци“).

Точност, интегритет на доменот, тип на податоци, конзистентност, вишок, комплетност, дуплирање, усогласеност со деловните правила, структурна дефинитивност, аномалија на податоци, јасност, навремено, почитување на правилата за интегритет на податоците. (Стр. 334. Основи за складирање податоци за ИТ професионалци / Paulraj Ponniah. - второ издание.)

Презентирана англиска формулација и руски машински превод во заграда.

Точност. Вредноста зачувана во системот за податочен елемент е вистинската вредност за таа појава на податочниот елемент. Ако имате име на клиент и адреса зачувана во запис, тогаш адресата е точната адреса за клиентот со тоа име. Доколку нарачаното количество го најдете 1000 единици во записникот за нарачка број 12345678, тогаш таа количина е точната количина за таа нарачка.
[Точност. Вредноста зачувана во системот за податочен елемент е точната вредност за таа појава на податочниот елемент. Ако имате име на клиент и адреса зачувани во запис, тогаш адресата е точната адреса за клиентот со тоа име. Ако ја најдете нарачаната количина како 1000 единици во записникот за нарачка број 12345678, тогаш таа количина е точната количина за таа нарачка.]

Интегритет на доменот. Податочната вредност на атрибутот паѓа во опсегот на дозволени, дефинирани вредности. Вообичаен пример е дозволените вредности „машки“ и „женски“ за елементот за родови податоци.
[Интегритет на домен. Вредноста на податоците за атрибутот спаѓа во опсегот на валидни, дефинирани вредности. Општ пример се валидните вредности „машки“ и „женски“ за елемент на податок за пол.]

Тип на податоци. Вредноста за атрибут на податоци всушност се чува како тип на податок дефиниран за тој атрибут. Кога типот на податоци на полето за име на продавницата е дефиниран како „текст“, сите примероци на тоа поле го содржат името на продавницата прикажано во текстуален формат, а не нумерички кодови.
[Тип на податоци. Вредноста на податочниот атрибут всушност се складира како тип на податок дефиниран за тој атрибут. Ако типот на податоци на полето за име на продавницата е дефиниран како „текст“, сите примероци на ова поле го содржат името на продавницата прикажано во текстуален формат наместо нумерички кодови.]

Конзистентност. Формата и содржината на полето за податоци се исти кај повеќе извори на системи. Ако кодот на производот за производот ABC во еден систем е 1234, тогаш шифрата за овој производ е 1234 во секој изворен систем.
[Конзистентност. Формата и содржината на полето за податоци се исти во различни изворни системи. Ако кодот на производот за производот ABC на еден систем е 1234, тогаш шифрата за тој производ е 1234 на секој изворен систем.]

Вишок. Истите податоци не смеат да се чуваат на повеќе од едно место во системот. Ако, од причини за ефикасност, податочниот елемент е намерно складиран на повеќе места во системот, тогаш вишокот мора јасно да се идентификува и да се потврди.
[Вишок. Истите податоци не треба да се чуваат на повеќе од едно место во системот. Ако, од причини за ефикасност, податочниот елемент е намерно складиран на повеќе локации во системот, тогаш вишокот мора да биде јасно дефиниран и потврден.]

Комплетност. Не недостасуваат вредности за даден атрибут во системот. На пример, во датотека со клиент, мора да има валидна вредност за полето „состојба“ за секој клиент. Во датотеката за детали за нарачката, секој детален запис за нарачка мора да биде целосно пополнет.
[Комплетност. Не недостасуваат вредности во системот за овој атрибут. На пример, датотеката со клиентот мора да има валидна вредност за полето „статус“ за секој клиент. Во датотеката со детали за нарачката, секој запис со детали за нарачката мора да биде целосно пополнет.]

Умножување. Умножувањето на записите во системот е целосно решено. Ако се знае дека датотеката на производот има дупликат записи, тогаш се идентификуваат сите дупликати записи за секој производ и се креира вкрстена референца.
[Дупликат. Умножувањето на записите во системот е целосно елиминирано. Ако се знае дека датотеката на производот содржи дупликат записи, тогаш се идентификуваат сите дупликати записи за секој производ и се создава вкрстена референца.]

Усогласеност со деловните правила. Вредностите на секоја податочна ставка се придржуваат до пропишаните деловни правила. Во системот на аукција, чеканот или продажната цена не може да биде помала од резервната цена. Во системот на банкарски заеми, салдото на кредитот секогаш мора да биде позитивно или нула.
[Усогласеност со деловните правила. Вредностите на секој податочен елемент се во согласност со воспоставените деловни правила. Во системот на аукција, чеканот или продажната цена не може да биде помала од резервната цена. Во банкарски кредитен систем, салдото на заемот секогаш мора да биде позитивно или нула.]

Структурна дефинитност. Секаде каде што податочната ставка природно може да се структурира во поединечни компоненти, ставката мора да ја содржи оваа добро дефинирана структура. На пример, името на поединецот природно се дели на име, среден иницијал и презиме. Вредностите за имињата на поединците мора да се чуваат како име, среден иницијал и презиме. Оваа карактеристика на квалитетот на податоците го поедноставува спроведувањето на стандардите и ги намалува вредностите што недостасуваат.
[Структурна сигурност. Кога податочниот елемент може природно да се структурира во поединечни компоненти, елементот мора да ја содржи оваа добро дефинирана структура. На пример, името на лицето природно е поделено на име, среден иницијал и презиме. Вредностите за поединечни имиња треба да се чуваат како име, среден иницијал и презиме. Оваа карактеристика на квалитетот на податоците ја поедноставува примената на стандардите и ги намалува вредностите што недостасуваат.]

Аномалија на податоци. Полето мора да се користи само за целта за која е дефинирано. Ако полето Address-3 е дефинирано за која било можна трета линија на адреса за долги адреси, тогаш ова поле мора да се користи само за снимање на третата линија на адреса. Не смее да се користи за внесување телефонски или факс број за клиентот.
[Аномалија на податоци. Полето мора да се користи само за целта за која е дефинирано. Ако полето Address-3 е дефинирано за која било можна трета адресна линија за долги адреси, тогаш ова поле ќе се користи само за снимање на третата адресна линија. Не треба да се користи за внесување телефонски или факс број за клиент.]

Јасност. Елементот на податоци може да ги поседува сите други карактеристики на квалитетни податоци, но ако корисниците не го разбираат јасно неговото значење, тогаш податочниот елемент нема никаква вредност за корисниците. Правилните конвенции за именување помагаат корисниците да ги разберат податочните елементи.
[Јаснотија. Елементот на податоци може да ги има сите други карактеристики на добри податоци, но ако корисниците не го разбираат јасно неговото значење, тогаш податочниот елемент нема никаква вредност за корисниците. Правилните конвенции за именување помагаат корисниците да ги разберат податочните елементи.]

Навремено. Корисниците ја одредуваат навременоста на податоците. Доколку корисниците очекуваат податоците за димензијата на клиентите да не бидат постари од еден ден, промените на податоците за клиентите во изворните системи мора да се применуваат секојдневно во складиштето на податоци.
[Навремено. Корисниците ја одредуваат навременоста на податоците. Ако корисниците очекуваат дека податоците за димензијата на клиентите не се стари повеќе од еден ден, промените во податоците за клиентите во изворните системи треба да се применуваат во складиштето на податоци на дневна основа.]

Корисност. Секој податочен елемент во складиштето на податоци мора да задоволува некои барања од колекцијата на корисници. Елементот на податоци може да биде точен и со висок квалитет, но ако нема никаква вредност за корисниците, тогаш е тотално непотребно тој податочен елемент да се наоѓа во складиштето на податоци.
[Алатка. Секоја податочна ставка во складиштето на податоци мора да задоволува некои барања од колекцијата на корисникот. Елементот на податоци може да биде точен и со висок квалитет, но ако не им дава вредност на корисниците, тогаш не е неопходно тој податочен елемент да биде во складиштето на податоци.]

Почитување на правилата за интегритет на податоците. Податоците зачувани во релационите бази на податоци на системите на изворот мора да се придржуваат до правилата за интегритет на ентитетите и референцијалниот интегритет. Секоја табела што дозволува null како примарен клуч нема интегритет на ентитет. Референтниот интегритет го принудува правилното воспоставување на односите родител-дете. Во однос на клиент до нарачка, референцијалниот интегритет обезбедува постоење на клиент за секоја нарачка во базата на податоци.
[Усогласеност со правилата за интегритет на податоците. Податоците зачувани во релациони бази на податоци на изворните системи мора да се усогласат со правилата за интегритет на ентитетите и референцискиот интегритет. Секоја табела што дозволува null како примарен клуч нема интегритет на ентитет. Референтниот интегритет принудува односот меѓу родителите и децата да се воспостави правилно. Во односот клиент-нарачка, референцијалниот интегритет осигурува дека постои клиент за секоја нарачка во базата на податоци.]

4. Квалитет на чистење на податоците

Квалитетот на чистењето на податоците е прилично проблематично прашање во bigdata. Одговорот на прашањето кој степен на чистење на податоците е неопходно за да се заврши задачата е од фундаментално значење за секој аналитичар на податоци. Во повеќето актуелни проблеми, секој аналитичар сам го одредува ова и малку е веројатно дека некој однадвор може да го оцени овој аспект во неговото решение. Но, за задачата во овој случај, ова прашање беше исклучително важно, бидејќи веродостојноста на правните податоци треба да се стреми кон една.

Разгледување на технологии за тестирање на софтвер за да се одреди оперативната сигурност. Денес има повеќе од овие модели 200. Многу од моделите користат модел за сервисирање на штети:

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски
Сл. 6

Размислувајќи на следниов начин: „Ако пронајдената грешка е настан сличен на настанот на неуспех во овој модел, тогаш како да се најде аналог на параметарот t?“ И го составив следниов модел: Да замислиме дека времето што му треба на тестерот за да провери еден запис е 1 минута (за предметната база на податоци), потоа за да ги пронајде сите грешки ќе му требаат 365 минути, што е приближно 494 години и 3 месеци работно време. Како што разбираме, ова е многу голема количина на работа и трошоците за проверка на базата на податоци ќе бидат огромни за компајлерот на оваа база на податоци. Во оваа рефлексија се појавува економскиот концепт на трошоци и по анализа дојдов до заклучок дека ова е прилично ефективна алатка. Врз основа на законот на економијата: „Волуменот на производство (во единици) при кој се постигнува максималниот профит на фирмата се наоѓа на местото каде што маргиналните трошоци за производство на нова единица производ се споредуваат со цената што оваа фирма може да ја добие. за нова единица“. Врз основа на постулатот дека наоѓањето на секоја следна грешка бара се повеќе и повеќе проверка на записите, ова е фактор на трошоци. Односно, постулатот усвоен во моделите за тестирање добива физичко значење во следнава шема: ако за да се најде i-тата грешка беше потребно да се проверат n записи, тогаш за да се најде следната (i+3) грешка ќе биде потребно да се проверат m записи и во исто време n

  1. Кога бројот на проверени записи пред да се најде нова грешка се стабилизира;
  2. Кога ќе се зголеми бројот на проверени записи пред да се најде следната грешка.

За да ја одредам критичната вредност, се свртев кон концептот на економска изводливост, кој во овој случај, користејќи го концептот на социјалните трошоци, може да се формулира на следниов начин: „Трошоците за корекција на грешката треба да ги сноси економскиот субјект кој може да направи тоа по најниска цена“. Имаме еден агент - тестер кој троши 1 минута проверувајќи еден запис. Во парична смисла, ако заработувате 6000 рубли/ден, тоа ќе биде 12,2 рубли. (приближно денес). Останува да се утврди втората страна на рамнотежата во економското право. Јас вака резонирав. Постоечката грешка ќе бара од засегнатото лице да вложи напори за да ја исправи, односно сопственикот на имотот. Да речеме дека ова бара 1 ден акција (поднесете апликација, добијте коригиран документ). Тогаш, од социјален аспект, неговите трошоци ќе бидат еднакви на просечната плата на ден. Просечна пресметана плата во автономниот округ Ханти-Манси „Резултати од социо-економскиот развој на автономниот округ Ханти-Мансијск - Угра за јануари-септември 2019 година“ 73285 руб. или 3053,542 рубли/ден. Според тоа, добиваме критична вредност еднаква на:
3053,542: 12,2 = 250,4 единици записи.

Ова значи, од социјална гледна точка, ако тестерот провери 251 записи и најде една грешка, тоа е еквивалентно на самиот корисник да ја поправи оваа грешка. Соодветно на тоа, ако тестерот потроши време еднакво на проверка на 252 записи за да ја пронајде следната грешка, тогаш во овој случај подобро е да ги префрлите трошоците за корекција на корисникот.

Овде е претставен поедноставен пристап, бидејќи од социјална гледна точка е неопходно да се земе предвид целата дополнителна вредност што ја генерира секој специјалист, односно трошоците земајќи ги предвид даноците и социјалните плаќања, но моделот е јасен. Последица на овој однос е следното барање за специјалисти: специјалист од ИТ индустријата мора да има плата поголема од националниот просек. Ако неговата плата е помала од просечната плата на потенцијалните корисници на базата на податоци, тогаш тој самиот мора да ја провери целата база на податоци од рака на рака.

При користење на опишаниот критериум, се формира првиот услов за квалитетот на базата на податоци:
I(tr). Уделот на критичните грешки не треба да надминува 1/250,4 = 0,39938%. Малку помалку од рафинирање злато во индустријата. И во физичка смисла нема повеќе од 1459 записи со грешки.

Економско повлекување.

Всушност, правејќи толкав број на грешки во евиденцијата, општеството се согласува на економски загуби во износ од:

1459*3053,542 = 4 рубли.

Оваа сума е одредена од фактот што општеството нема алатки за намалување на овие трошоци. Следи дека ако некој има технологија што му овозможува да го намали бројот на записи со грешки на, на пример, 259, тогаш ова ќе му овозможи на општеството да заштеди:
1200*3053,542 = 3 рубли.

Но, во исто време, тој може да го побара својот талент и работа, добро, да речеме - 1 милион рубли.
Односно, социјалните трошоци се намалуваат за:

3 - 664 = 250 рубли.

Во суштина, овој ефект е додадена вредност од употребата на BigDat технологиите.

Но, тука треба да се земе предвид дека ова е социјален ефект, а сопственик на базата се општинските власти, нивниот приход од користењето на имотот евидентиран во оваа база на податоци, по стапка од 0,3%, е: 2,778 милијарди рубли/ година. И овие трошоци (4 рубли) не му пречат многу, бидејќи се префрлени на сопствениците на имотот. И, во овој аспект, развивачот на повеќе технологии за рафинирање во Bigdata ќе мора да покаже способност да го убеди сопственикот на оваа база на податоци, а такви работи бараат значителен талент.

Во овој пример, алгоритмот за проценка на грешки е избран врз основа на Шумановиот модел [2] за верификација на софтверот за време на тестирањето на доверливоста. Поради неговата распространетост на Интернет и можноста да се добијат потребните статистички показатели. Методологијата е преземена од Монахов Ју.М. „Функционална стабилност на информациските системи“, видете под спојлерот на сл. 7-9.

Ориз. 7 – 9 Методологија на Шумановиот моделИсчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски

Во вториот дел од овој материјал е претставен пример за чистење на податоци, во кој се добиени резултатите од користењето на Шумановиот модел.
Дозволете ми да ги претставам добиените резултати:
Проценет број на грешки N = 3167 n.
Параметар C, ламбда и функција на доверливост:

Исчистете ги податоците како игра со карпа, хартија, ножици. Дали е ова игра со или без крај? Дел 1. Теоретски
Сл. 17

Во суштина, ламбда е вистински показател за интензитетот со кој се откриваат грешките во секоја фаза. Ако го погледнете вториот дел, проценката за овој индикатор беше 42,4 грешки на час, што е сосема споредливо со индикаторот Шуман. Погоре, беше утврдено дека стапката со која програмерите наоѓаат грешки не треба да биде помала од 1 грешка на 250,4 записи, при проверка на 1 запис во минута. Оттука и критичната вредност на ламбда за моделот Шуман:

60 / 250,4 = 0,239617.

Односно, потребата да се спроведат процедури за откривање грешки мора да се спроведуваат додека ламбда, од постојните 38,964, не се намали на 0,239617.

Или додека индикаторот N (потенцијален број на грешки) минус n (поправен број на грешки) не се намали под нашиот прифатен праг - 1459 парчиња.

Литература

  1. Монахов, Ју М. Функционална стабилност на информациските системи. За 3 часа Дел 1. Доверливост на софтверот: учебник. додаток / Ју М. Монахов; Владим. држава уни. – Владимир: Изво Владим. држава Универзитет, 2011. – 60 стр. – ISBN 978-5-9984-0189-3.
  2. Мартин Л. Шумен, „Веројатни модели за предвидување на доверливоста на софтверот“.
  3. Основи за складирање податоци за ИТ професионалци / Paulraj Ponniah.-2nd ed.

Втор дел. Теоретски

Извор: www.habr.com

Додадете коментар