Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная

1. Зыходныя дадзеныя

Ачыстка дадзеных - гэта адна з праблем якія стаяць перад задачамі аналізу дадзеных. У гэтым матэрыяле адлюстраваў напрацоўкі, рашэнні, якія ўзніклі ў выніку рашэння практычнай задачы па аналізе БД пры фарміраванні кадастравага кошту. Зыходнікі тут «СПРАВАЗДАЧА № 01/ОКС-2019 аб выніках дзяржаўнай кадастравай ацэнкі ўсіх відаў аб'ектаў нерухомасці (за выключэннем зямельных участкаў) на тэрыторыі Ханты-Мансійскай аўтаномнай акругі - Югры».

Разглядаўся файл "Параўнальны мадэль вынік.ods" у "Дадатак Б. Вынікі вызначэння КС 5. Звесткі аб спосабе вызначэння кадастравага кошту 5.1 Параўнальны падыход".

Табліца 1. Статпаказчыкі датасета ў файле «Параўнальны мадэль вынік.ods»
Агульная колькасць палёў, шт. - 44
Агульная колькасць запісаў, шт. - 365 490
Агульная колькасць сімвалаў, шт. - 101 714 693
Сярэдняя колькасць сімвалаў у запісе, шт. - 278,297
Стандартнае адхіленне сімвалаў у запісе, шт. - 15,510
Мінімальная колькасць сімвалаў у запісе, шт. - 198
Максімальная колькасць сімвалаў у запісе, шт. - 363

2. Уступная частка. Базавыя нормы

Займаючыся аналізам названай БД сфармавалася задача па канкрэтызацыі патрабаванняў да ступені ачысткі, бо, гэта зразумела ўсім, названая БД фарміруе прававыя і эканамічныя наступствы для карыстальнікаў. У працэсе працы аказалася, што асабліва ніякіх патрабаванняў да ступені ачысткі вялікіх дадзеных не сфарміравана. Аналізуючы прававыя нормы ў гэтым пытанні прыйшоў да высновы, што ўсе яны сфарміраваны ад магчымасцей. Гэта значыць з'явілася вызначаная задача, пад задачу камплектуюцца крыніцы інфармацыі, далей фармуецца датасет і, на аснове стваранага датасета, прылады для рашэння задачы. Атрыманыя рашэнні з'яўляюцца рэпернымі кропкамі ў выбары з альтэрнатыў. Прадставіў гэта на малюнку 1.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная

Так як, у пытаннях вызначэння якіх-небудзь норм, пераважна абапірацца на правераныя тэхналогіі, то абраў за аснову крытэрыяў аналізу, патрабаванні выкладзеныя ў "MHRA GxP Data Integrity Definitions and Guidance for Industry", таму што палічыў гэты дакумент найбольш цэласным для гэтага пытання. У прыватнасці ў гэтым дакуменце раздзел напісана "It should be noted that data integrity requirements apply equally to manual (paper) and electronic data." (зав. "… патрабаванні да цэласнасці дадзеных распаўсюджваюцца ў роўнай ступені на ручныя (папяровыя) і электронныя дадзеныя"). Такая фармулёўка дастаткова канкрэтна звязваецца з паняццем "пісьмовы доказ", у нормах арт.71 ГПК, арт. 70 КАС, арт.75 АПК, "пісьмовым выглядзе" арт. 84 ГПК.

На малюнку 2 прадставіў схему фармавання падыходаў да відаў інфармацыі ў юрыспрудэнцыі.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная
Мал. 2. Крыніца тут.

На рысунку 3 паказаны механізм рысунка 1, для задач вышэйназванага «Guidance». Нескладана, праводзячы супастаўленне, убачыць, што выкарыстоўваемыя падыходы, пры выкананні патрабаванняў да цэласнасці інфармацыі, у сучасных нормах да інфармацыйных сістэм, істотна абмежаваны, у параўнанні з прававым паняццем інфармацыі.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная
мал.3

У паказаным дакуменце (Guidance) прывязка да тэхнічнай часткі, магчымасцяў па апрацоўцы і захоўванню дадзеных, добра пацвярджаецца цытатай з раздзела 18.2. Адносная databázа: «Такая структура файла з'яўляецца не менш бяспечнай, як файл з'яўляецца большай часткай файла format, які выкарыстоўвае relationship паміж data and metadata».

Па сутнасці, у такім падыходзе - ад існуючых тэхнічных магчымасцяў, няма нічога не нармальнага і, сам па сабе, гэта натуральны працэс, бо пашырэнне паняццяў паходзіць ад найбольш вывучанай дзейнасці - праектаванне баз дадзеных. Але, з іншага боку, з'яўляюцца прававыя нормы, у якіх не прадугледжана скідкі на тэхнічныя магчымасці наяўных сістэм, напрыклад: GDPR - General Data Protection Regulation.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная
Мал. 4. Варонка тэхнічных магчымасцяў (Крыніца).

У названых аспектах становіцца зразумелым, што першапачатковы датасет (мал. 1) павінен будзе, у першую чаргу, захоўвацца, а ў другую чаргу быць базай для вымання з яго дадатковай інфармацыі. Ну як прыклад: паўсюдна распаўсюджаныя камеры фіксацыі ПДР, сістэмы інфармацыйнай апрацоўкі адсяваюць парушальнікаў, але астатняя інфармацыя таксама можа быць прапанавана іншым спажыўцам, дапусцім як маркетынгавы маніторынг структуры патоку пакупнікоў да гандлёвага цэнтра. А гэта крыніца дадатковага дабаўленага кошту пры выкарыстанні Бігдата. Цалкам можна дапусціць, што датасеты, якія збіраюцца зараз, дзесьці ў будучыні, будуць мець каштоўнасць па механізме аналагічнаму каштоўнасці рарытэтных выданняў 1700 гадоў у цяперашні час. Бо, па сутнасці, часовыя датасеты ўнікальныя і малаверагодна, што паўтарацца ў будучыні.

3. Уступная частка. Крытэры адзнак

У працэсе апрацоўкі была выпрацавана наступная класіфікацыя памылак.

1. Клас памылкі (за аснову ўзяты ДАСТ Р 8.736-2011): а) сістэматычныя памылкі; б) выпадковыя памылкі; в) грубая памылка.

2. Па множнасці: а) монаскажэнне; б) мультыіскажэнне.

3. Па крытычнасці наступстваў: а) крытычная; б) не крытычная.

4. Па крыніцы ўзнікнення:

А) Тэхнічная - памылкі якія ўзнікаюць у працэсе працы абсталявання. Досыць актуальная памылка для IoT-сістэм, сістэм са значнай ступенню ўплыву якасці сувязі, абсталяванні (жалеза).

Б) Аператарскія - памылкі ў шырокім дыяпазоне ад памылкі друку аператара пры ўводзе да памылак у тэхзаданні на праектаванне БД.

У) Карыстальніцкія - тут памылкі карыстальніка ва ўсім дыяпазоне ад "забыўся пераключыць раскладку" да таго што метры прыняў за футы.

5. Вылучыў у асобны клас:

а) "задачу падзельніка", гэта значыць прабелу і ":" (у нашым выпадку) калі яго прадублявалі;
б) разам напісаных слоў;
в) адсутнасці прабелу пасля службовых сімвалаў
г) сіметрычна-множныя сімвалы: (), «», «…».

У сукупнасці, з сістэматызацыяй памылак БД прадстаўленых на малюнку 5, складаецца дастаткова эфектыўная сістэма каардынат для пошуку памылак і выпрацоўкі алгарытму ачысткі дадзеных, для гэтага прыкладу.

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная
Мал. 5. Тыповыя памылкі, якія адпавядаюць структурным адзінкам БД (Крыніца: Арэшкаў В.І., Паклін Н.Б. "Ключавыя паняцці кансалідацыі дадзеных").

Accuracy (Дакладнасць), Domain Integrity (Цэласнасць), Data Type (Тып дадзеных), Consistency (Кансістэнцыя), Redundancy (Надмернасць), Completeness (Паўната), Duplication (Дубліраванне), Conformance to Business Rules (Выкананне бізнес-правілаў), Structure Definiteness (Структурная Пэўнасць), Data Anomaly (Анамалія Дадзеных), Clarity (Яснасць), Timely (Своечасовасць), Adherence to Data Integrity Rules (Выкананне правілаў цэласнасці дадзеных). (Стор. 334. Data warehousing fundamentals for IT professionals / Paulraj Ponniah.-2nd ed.)

Прадставіў англійскія фармулёўкі і ў дужках рускі машынны пераклад.

Accuracy. Value stored in the system for data element is the right value for that occurrence of the data element. Калі вы маеце адрас электроннай пошты і адрас электроннай пошты, захаваны ў спісе, то адрас электроннай пошты з'яўляецца значным адрасам для камунікатара з тым, які імя. Калі вы вызначыце колькасць, складзеная як 1000 членаў у запісу для нумара 12345678, таму, што колькасць з'яўляецца ацэненай колькасцю для тых, хто.
[Дакладнасць. Значэнне, захаванае ў сістэме для элемента дадзеных, з'яўляецца правільным значэннем для гэтага ўваходжання элемента дадзеных. Калі ў вас ёсць імя кліента і адрас, захаваныя ў запісе, то адрас з'яўляецца правільным адрасам для кліента з гэтым імем. Калі вы знойдзеце колькасць, заказаную як 1000 адзінак у запісе для замовы нумар 12345678, то гэтая колькасць з'яўляецца дакладнай колькасцю для гэтай замовы.]

Domain Integrity. Згаданыя тэрміны з уласцівасцямі ў памеры адключаных, акрэсленых коштаў. Адзіны прыклад з'яўляецца адпавядаючым значэннем, якія маюць “малы” і “female” для сярэдняга data element.
[Цэласнасць Дамена. Значэнне дадзеных атрыбуту пападае ў дыяпазон дапушчальных, вызначаных значэнняў. Агульны прыклад-дапушчальныя значэнні "мужчынскі" і "жаночы" для элемента гендэрных дадзеных.]

Data Type. Value for data atribut is actually stored as the data type defined for that attribute. У той час як тып дзяўчаты name fields Defined is “text,” all instances of this field contain the store name shown in textual format and no numeric codes.
[Тып дадзеных. Значэнне атрыбуту даных фактычна захоўваецца як тып даных, вызначаны для гэтага атрыбута. Калі тып дадзеных поля імя крамы вызначаны як „тэкст“, усе асобнікі гэтага поля ўтрымоўваюць імя крамы, якое адлюстроўваецца ў тэкставым фармаце, а не ў лікавых кодах.]

Consistency. Форма і content of data field is ame across multiple source systems. Калі прадукт кода для прадукцыі ABC у адным сістэме - 1234, то код дадзенага прадукта - 1234 у цэлую крыніцу сістэмы.
[Кансістэнцыя. Форма і змест поля даных аднолькавыя ў розных сістэмах-крыніцах. Калі код прадукта для прадукта ABC у адной сістэме роўны 1234, то код для гэтага прадукта роўны 1234 у кожнай зыходнай сістэме.]

Redundancy. Same data must no be stored in more than one place in a system. If, для вызначэння эфектыўнасці, элемент дзяўчаты з'яўляецца intentionally stored in more than one place in system, the redundancy must be clearly identified and verified.
[Надмернасць. Адны і тыя ж дадзеныя не павінны захоўвацца больш за ў адным месцы сістэмы. Калі па меркаваннях эфектыўнасці элемент дадзеных наўмысна захоўваецца ў некалькіх месцах сістэмы, то надмернасць павінна быць дакладна вызначана і праверана.]

Completeness. Там няма ніякіх значэнняў для грамадзян, якія атрымліваюцца ў сістэме. Для прыкладу, у сістэме файла, трэба быць значным значэннем для “Стат” філіяла для ўсіх кліентаў. У файле для ацэнак details, every detail record for order must be completely filled.
[Паўнота. У сістэме няма прапушчаных значэнняў для гэтага атрыбуту. Напрыклад, у файле кліента павінна быць дапушчальнае значэнне поля "стан" для кожнага кліента. У файле звестак аб замове кожны запіс звестак аб замове павінен быць цалкам запоўнены.]

Duplication. Зняволенне рэкордаў у сістэме з'яўляецца цалкам запэўненым. Калі таварны файл з'яўляецца вядомым, як duplicate records, то ўсе duplicate records для ўсіх прадуктаў, якія identified and cross-reference created.
[Дубляванне. Дубляванне запісаў у сістэме цалкам ухілена. Калі вядома, што файл прадукта ўтрымоўвае паўтаральныя запісы, то ўсе паўтаральныя запісы для кожнага прадукта ідэнтыфікуюцца і ствараецца крыжаваная спасылка.]

Conformance to Business Rules. Валюты ўсіх яе часу ўваходзяць у тыя, што prescribed business rules. У сістэме аукциона, гараж ці продаж цэн не можа быць без рэзервовага кошту. У банк банальнай сістэмы, банальны баланс павінны быць пазітыўны або cero.
[Выкананне бізнес-правілаў. Значэнні кожнага элемента даных адпавядаюць устаноўленым бізнес-правілам. У аўкцыённай сістэме кошт малатка ці продажу не можа быць меншым за рэзервовую цану. У банкаўскай крэдытнай сістэме баланс крэдыту заўсёды павінен быць станоўчым або нулявым.

Structural Definiteness. Wherever data item can naturally be structured into individual components, ittem must contain this well-defined structure. Для прыкладу, асобныя імёны натуральна divides ў першыя імёны, сярэдняга сярэдняга, і апошніх. Values ​​for names of individuals павінны být stored as first name, middle initial, and last name. Гэтыя характарыстыкі цэласнасці жыцця маюць значныя меры па зніжэнні стандартаў і памяншэння коштаў.
[Структурная Пэўнасць. Там, дзе элемент дадзеных можа быць натуральнай выявай структураваны на асобныя кампаненты, элемент павінен утрымоўваць гэтую выразна вызначаную структуру. Напрыклад, імя чалавека натуральным чынам падзяляецца на імя, сярэдні ініцыял і прозвішча. Значэнні для імён фізічных асоб павінны захоўвацца ў выглядзе імя, сярэдняга ініцыяла і прозвішча. Гэтая характарыстыка якасці дадзеных спрашчае ўжыванне стандартаў і памяншае якія адсутнічаюць значэнні.]

Data Anomaly. Абаронная плошчу трэба выкарыстоўваць толькі для прыналежнасці для якіх гэта вызначаецца. Калі філія-адрас-3 лічыцца для кожнага магчымага трохпавярховага адрасу для доўгіх адрасоў, то дадзеная філія павінна быць выкарыстана толькі для запісу гэтай лініі па адрасе. Гэта не павінна быць выкарыстана для прыцягнення тэлефона або fax нумар для пакупніка.
[Анамалія Даных. Поле павінна выкарыстоўвацца толькі для той мэты, для якой яно вызначана. Калі поле Address-3 вызначана для любога магчымага трэцяга радка адраса для доўгіх адрасоў, тое гэтае поле павінна выкарыстоўвацца толькі для запісу трэцяга радка адрасу. Ён не павінен выкарыстоўвацца для ўводу нумара тэлефона ці факса для кліента.]

Clarity. Data element не має значення для всіх аспектів quality data, але, калі карыстальнікі не маюць падразумевацца, яго кваліфікавана, калі гэты элемент не мае значэння для карыстальнікаў. Вялікія навінныя кансультацыі, якія дазваляюць выканаць элементы элемента, якія здольныя да карыстальнікаў.
[Яснасць. Элемент дадзеных можа валодаць усімі іншымі характарыстыкамі якасных дадзеных, але калі карыстачы не разумеюць яго значэння ясна, то элемент дадзеных не ўяўляе каштоўнасці для карыстачоў. Правільныя пагадненні аб назве дапамагаюць зрабіць элементы дадзеных добра зразумелымі карыстальнікам.]

Timely. Users determine the timeliness of the data. lf the users expect customer dimension data не мусяць быць усяго аднаго дня, змяняюцца да customer data у крыніцах сістэмы павінны быць прынятыя да data warehouse daily.
[Своечасова. Карыстальнікі вызначаюць своечасовасць дадзеных. калі карыстальнікі чакаюць, што дадзеныя вымярэння кліента не будуць старэйшыя за адзін дзень, змены дадзеных кліента ў зыходных сістэмах павінны прымяняцца да сховішча дадзеных штодня.]

Usefulness. Every data element in the data warehouse неадназначна некаторыя патрабаванні of the collection of users. Які элемент має бути актыўным і высокім якасцю, але калі ён не мае значэння для карыстачоў, то гэта цалкам неабходна для таго, каб гэты элемент быў бы ў data warehouse.
[Карыснасць. Кожны элемент дадзеных у сховішчы дадзеных павінен адпавядаць некаторым патрабаванням калекцыі карыстальнікаў. Элемент дадзеных можа быць дакладным і мець высокую якасць, але калі ён не ўяўляе каштоўнасці для карыстачоў, тое зусім неабавязкова, каб гэты элемент дадзеных знаходзіўся ў сховішчы дадзеных.

Adherence to Data Integrity Rules. Зносячыя дадзеныя ў relative databases of source systems must adhere to entity integrity and referential integrity rules. Any table that permits null as primary key does not have entity integrity. Рэфератыўная ўнутранасць мэтаў establishment of the parent–child relationships correctly. У customer-to-order relationship, парадактыя ўніверсітэты маюць патрэбу ў ажыццяўленні customer для кожнага order in the database.
[Выкананне правілаў цэласнасці даных. Дадзеныя, якія захоўваюцца ў рэляцыйных базах дадзеных зыходных сістэм, павінны адпавядаць правілам цэласнасці сутнасцяў і спасылкавай цэласнасці. Любая табліца, якая дапускае null у якасці першаснага ключа, не валодае цэласнасцю сутнасці. Спасылкавая цэласнасць прымушае правільна ўсталёўваць адносіны паміж бацькамі і дзецьмі. У адносінах кліент-заказ спасылачная цэласнасць забяспечвае існаванне кліента для кожнага замовы ў базе дадзеных.]

4. Якасць ачысткі дадзеных

Якасць ачысткі дадзеных дастаткова праблематычнае пытанне ў бігдата. Адказаць на пытанне якая ступень ачысткі дадзеных неабходна пры выкананні пастаўленай задачы, з'яўляецца асноўным для кожнага датаанлітыка. У большасці бягучых задач кожны аналітык усталёўвае гэта сам і ці наўрад хтосьці са боку здольны ацаніць гэты аспект у яго рашэнні. Але для пастаўленай задачы ў гэтым выпадку гэтае пытанне было вельмі важнае, бо дакладнасць прававых дадзеных павінна імкнуцца да адзінкі.

Разглядаючы тэхналогіі тэсціравання праграмнага забеспячэння па вызначэнні надзейнасці ў рабоце. Гэтых мадэляў на сённяшні дзень больш 200. Многія з мадэляў выкарыстоўваюць мадэль абслугоўвання заявак:

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная
Мал. 6

Разважаючы наступным чынам: «Калі знойдзеная памылка гэтая падзея аналагічная падзеі адмовы ў дадзенай мадэлі, то як знайсці аналог параметру t?» І склаў наступную мадэль: Уявім, што час які неабходна тэсціроўшчыку для праверкі аднаго запісу роўна 1 хвіліна (для разгляданай БД), тады каб адшукаць усе памылкі яму спатрэбіцца 365 494 хвілін, што прыблізна складае 3 гады і 3 месяцы працоўнага часу. Як мы разумеем гэта вельмі не малы аб'ём працы і выдаткі за праверку базы дадзеных будуць непад'ёмныя для складальніка гэтай БД. У дадзеным разважанні з'яўляецца эканамічнае паняцце выдаткі і пасля аналізу прыйшоў да высновы, што гэта дастаткова эфектыўны інструмент. Абапіраючыся на закон эканомікі: "Аб'ём вытворчасці (у адз.), пры якім дасягаецца максімальны прыбытак фірмы, знаходзіцца ў тым пункце дзе гранічныя выдаткі на выпуск новай адзінкі прадукцыі параўноўваюцца з коштам, якую гэтая фірма можа атрымаць за новую адзінку". Абапіраючыся на пастулат, што знаходжанне кожнай наступнай памылкі, патрабуе ўсё больш і больш праверкі запісаў, то гэта і ёсць фактар ​​??выдаткаў. Гэта значыць прыняты ў мадэлях тэставання пастулат прымае фізічна сэнс, у наступнай заканамернасці: калі для знаходжанне i-тай памылкі запатрабавалася праверыць n запісаў, то для знаходжання наступнай (i+1) памылкі ўжо запатрабуецца праверыць m запісаў і пры гэтым n

  1. Калі колькасць правераных запісаў да знаходжання новай памылкі стабілізуецца;
  2. Калі колькасць правераных запісаў да знаходжання наступнай памылкі будзе павялічвацца.

Для вызначэння крытычнага значэння звярнуўся да паняцця эканамічнай мэтазгоднасці, якое ў дадзеным выпадку, пры выкарыстанні паняцця грамадскіх выдаткаў можна сфармуляваць наступным чынам: "Выдаткі па выпраўленні памылкі павінен несці той эканамічны агент, які зможа гэта зрабіць з найменшымі выдаткамі". Аднаго агента мы маем - гэта тэстыравальнік, які марнуе на праверку аднаго запісу 1 хвіліну. У грашовым эквіваленце, пры заробку 6000 руб./дзень, гэта складзе 12,2 руб. (прыблізна на сённяшні дзень). Засталося вызначыць другі бок раўнавагі ў эканамічным законе. Разважаў так. Існуючая памылка запатрабуе ад таго, каго яна тычыцца выдаткаваць намаганні па яе выпраўленні, гэта значыць уладальніка нерухомасці. Дапушчальны для гэтага трэба 1 дзень дзеянняў (аднесці заяву, атрымаць выпраўлены дакумент). Тады з грамадскага пункта гледжання яго выдаткі будуць роўныя сярэдняй з/п за дзень. Сярэдняя налічаная з/п у ХМАА па «Вынікі сацыяльна-эканамічнага развіцця Ханты-Мансійскай аўтаномнай акругі - Югры за студзень-верасень 2019 года» 73285 руб. ці 3053,542 руб./дзень. Адпаведна атрымліваем крытычнае значэнне роўнае:
3053,542: 12,2 = 250,4 адз.запісаў.

Гэта азначае, з грамадскага пункта гледжання, калі тэсціроўшчык праверыў 251 запіс і знайшоў адну памылку гэта раўнацэнна таму, што карыстальнік выправіў гэтую памылку самастойна. Адпаведна калі тэсціроўшчык выдаткаваў на знаходжанне наступнай памылкі час роўнае праверцы 252 запісаў, то ў гэтым выпадку выдаткі на выпраўленне лепш перакласці на карыстача.

Тут прадстаўлены спрошчаны падыход, бо з грамадскага пункту гледжання неабходна ўлічваць увесь дадатковы кошт, які генеруецца кожным спецыялістам, гэта значыць затраты з улікам падаткаў і сацплацяжоў, але мадэль зразумелая. Следствам з гэтай узаемасувязі становіцца патрабаванне да адмыслоўцаў наступнае: адмысловец з IT галіны павінен мець з/п большую чым у сярэднім па краіне. Калі яго з/п менш, чым у сярэдняе значэнне з/п патэнцыйных карыстачоў БД, то ён сам павінен праверыць усю БД у рукапашную.

Пры выкарыстанні апісанага крытэра фармуецца першае патрабаванне да якасці БД:
I(тр). Доля крытычных памылак не павінна перавышаць велічыні 1/250,4 = 0,39938%. Крыху менш чым афінажная ачыстка золата ў прамысловасці. І ў натуральным вымярэнні не больш за 1459 запісаў з памылкамі.

Эканамічны адступ.

Па сутнасці, дапускаючы такую ​​колькасць памылак у запісах, грамадства згаджаецца на эканамічныя страты ў аб'ёме:

1459 * 3053,542 = 4 руб.

Дадзеная сума вызначаецца тым фактам, што ў грамадства адсутнічаюць інструменты, якія дазваляюць знізіць гэтыя выдаткі. Адсюль вынікае, калі ў кагосьці з'явіцца тэхналогія, якая дазваляе зменшыць колькасць запісаў з памылкамі да, напрыклад, 259, то гэта дазваляе грамадству эканоміць:
1200 * 3053,542 = 3 руб.

Але пры гэтым ён можа папрасіць за свой талент і працу, ну дапусцім - 1 млн. руб.
Гэта значыць грамадскія выдаткі скарачаюцца на:

3 - 664 250 1 = 000 руб.

Па сутнасці, гэты эфект з'яўляецца дабаўленай вартасцю, ад выкарыстання тэхналогій Бігдата.

Але тут варта ўлічваць, што гэта грамадскі эфект, а уладальнікам БД з'яўляюцца муніцыпальныя органы ўлады, іх даход ад выкарыстання маёмасці, зафіксаванага ў дадзенай БД, пры стаўцы 0,3% складае: 2,778 млрд. руб. / Год. А гэтыя выдаткі (4 руб.) Яго моцна не хвалююць, бо перакладзены на ўладальнікаў маёмасці. І, у гэтым аспекце, распрацоўшчык, больш афінажных тэхналогій у Бігдата, павінен будзе праявіць уменне пераканаць уладальніка гэтай БД, а на такія рэчы патрэбен немалы талент.

У дадзеным прыкладзе алгарытм адзнакі памылак быў абраны на аснове мадэль Шумана [2] праверкі ПЗ пры тэставанні на безадмоўнасць. Па прычыне яе распаўсюджанасці ў сетцы і магчымасці атрымаць неабходныя статыстычныя паказчыкі. Метадалогія ўзята з Манахаў Ю.М. "Функцыянальная ўстойлівасць інфармацыйных сістэм", глядзіце пад спойлерам на мал. 7-9.

Мал. 7 – 9 Метадалогія мадэлі ШуманаАчыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная

У другой частцы дадзенага матэрыялу прадстаўлены прыклад ачысткі дадзеных, у якім атрыманы вынікі выкарыстання мадэлі Шумана.
Прадстаўлю атрыманыя вынікі:
Меркаваная колькасць памылак N = 3167 шN.
Параметр С, лямбда і функцыя надзейнасці:

Ачыстка дадзеных, як гульня «Камень, Нажніцы, Папера». Гэта гульня з фінішам ці без? Частка 1. Тэарэтычная
мал.17

Па сутнасці, лямбда - гэта фактычны паказчык з якой інтэнсіўнасцю на кожным этапе выяўляюцца памылкі. Калі паглядзець, у другой частцы, то ацэнка гэтага паказчыка складала 42,4 памылкі ў гадзіну, што, дастаткова, параўнальна з паказчыкам Шумана. Вышэй, было вызначана, што інтэнсіўнасць знаходжання памылак распрацоўшчыкам павінна быць не ніжэй чым 1 памылка на 250,4 запісаў, пры праверцы 1 запісы ў хвіліну. Адсюль крытычнае значэнне лямбда для мадэлі Шумана:

60 / 250,4 = 0,239617.

Гэта значыць неабходнасць правядзення працэдур знаходжання памылак трэба праводзіць датуль, пакуль лямбда, з наяўных 38,964, не зменшыцца да 0,239617.

Або пакуль паказчык N (патэнцыйная колькасць памылак) мінус n (выпраўленая колькасць памылак) не знізіцца менш за прыняты намі парог – 1459 шт.

Літаратура

  1. Манахаў, Ю. М. Функцыянальная ўстойлівасць інфармацыйных сістэм. У 3 ч. Ч. 1. Надзейнасць праграмнага забеспячэння: вучэб. дапаможнік / Ю. М. Манахаў; Уладзім. дзярж. ун-т. - Уладзімір: Здво Уладзім. дзярж. ун-та, 2011. - 60 с. - ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Probabilistic models for software reliability prediction".
  3. Data warehousing fundamentals for IT professionals / Paulraj Ponniah.-2nd ed.

Частка другая. Тэарэтычная

Крыніца: habr.com

Дадаць каментар