Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық

1. Бастапқы деректер

Деректерді тазалау деректерді талдау тапсырмаларының алдында тұрған қиындықтардың бірі болып табылады. Бұл материалда кадастрлық құнды қалыптастыру кезінде деректер базасын талдаудың практикалық мәселесін шешу нәтижесінде пайда болған әзірлемелер мен шешімдер көрсетілді. Дереккөздер осында «Ханты-Мансийск автономиялық округі - Угра аумағындағы жылжымайтын мүліктің барлық түрлерін (жер учаскелерінен басқа) мемлекеттік кадастрлық бағалау нәтижелері туралы № 01/ОКС-2019 ЕСЕП».

«Салыстырмалы модель total.ods» файлы «Қосымша В. КС анықтау нәтижелері 5. Кадастрлық құнды анықтау әдісі туралы ақпарат 5.1 Салыстырмалы тәсіл» файлы қаралды.

Кесте 1. «Салыстырмалы модель total.ods» файлындағы деректер жиынының статистикалық көрсеткіштері
Өрістердің жалпы саны, дана. — 44
Жазбалардың жалпы саны, дана. — 365 490
Таңбалардың жалпы саны, дана. — 101 714 693
Жазбадағы таңбалардың орташа саны, дана. — 278,297 XNUMX
Жазбадағы таңбалардың стандартты ауытқуы, дана. — 15,510 XNUMX
Жазбадағы таңбалардың ең аз саны, дана. — 198
Жазбадағы таңбалардың ең көп саны, дана. — 363

2. Кіріспе бөлім. Негізгі стандарттар

Көрсетілген дерекқорды талдау кезінде тазарту дәрежесіне қойылатын талаптарды нақтылау бойынша тапсырма қалыптастырылды, өйткені барлығына түсінікті, көрсетілген деректер базасы пайдаланушылар үшін құқықтық және экономикалық зардаптарды тудырады. Жұмыс барысында үлкен деректерді тазалау дәрежесіне қатысты нақты талаптар жоқ екені белгілі болды. Бұл мәселедегі құқықтық нормаларды талдай келе, олардың барлығы мүмкіндіктерден құралған деген қорытындыға келдім. Яғни, белгілі бір тапсырма пайда болды, тапсырма үшін ақпарат көздері құрастырылады, содан кейін деректер жинағы қалыптасады және құрылған деректер жиынтығы негізінде мәселені шешуге арналған құралдар. Алынған шешімдер баламалардың ішінен таңдау кезінде анықтамалық нүктелер болып табылады. Мен мұны 1-суретте көрсеттім.

Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық

Кез келген стандарттарды анықтау мәселелерінде дәлелденген технологияларға сүйенген дұрыс болғандықтан, мен мына талаптарды таңдадым. «MHRA GxP деректер тұтастығы анықтамалары және салаға арналған нұсқаулық», өйткені мен бұл құжатты осы мәселе бойынша ең жан-жақты деп санадым. Атап айтқанда, бұл құжаттың бөлімінде «Деректердің тұтастығына қойылатын талаптар қолмен (қағаз) және электронды деректерге бірдей қолданылатынын атап өткен жөн. (аудармасы: «...деректердің тұтастығы талаптары қолмен (қағаз) және электрондық деректерге бірдей қолданылады»). Бұл тұжырым АІЖК-нің 71-бабының ережелеріндегі «жазбаша дәлелдеме» ұғымымен ерекше байланысты. 70 CAS, АПК 75-бап, «жазбаша» бап. 84 Азаматтық іс жүргізу кодексі ...

2-суретте заң ғылымындағы ақпарат түрлеріне көзқарастардың қалыптасу диаграммасы берілген.

Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық
Күріш. 2. Дереккөз осында.

3-суретте жоғарыдағы «Нұсқаулықтың» тапсырмалары үшін 1-суреттегі механизм көрсетілген. Салыстыру арқылы ақпараттық жүйелерге арналған заманауи стандарттарда ақпараттың тұтастығына қойылатын талаптарды қанағаттандыру кезінде қолданылатын тәсілдер ақпараттың құқықтық түсінігімен салыстырғанда айтарлықтай шектелгенін көру оңай.

Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық
3-сурет

Көрсетілген құжатта (Нұсқаулық) техникалық бөлікке қосылу, деректерді өңдеу және сақтау мүмкіндіктері 18.2 тараудан алынған дәйексөзмен жақсы расталған. Реляциялық дерекқор: «Бұл файл құрылымы өз алдына әлдеқайда қауіпсіз, өйткені деректер деректер мен метадеректер арасындағы қатынасты сақтайтын үлкен файл пішімінде сақталады.»

Шындығында, бұл тәсілде - бар техникалық мүмкіндіктерден қалыпты емес ештеңе жоқ және өз алдына, бұл табиғи процесс, өйткені ұғымдардың кеңеюі ең көп зерттелген әрекеттен - деректер базасын жобалаудан туындайды. Бірақ, екінші жағынан, қолданыстағы жүйелердің техникалық мүмкіндіктеріне жеңілдіктер қарастырылмаған құқықтық нормалар пайда болады, мысалы: GDPR - Деректерді қорғаудың жалпы ережесі.

Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық
Күріш. 4. Техникалық мүмкіндіктер шұңқыры (Көзі).

Бұл аспектілерде бастапқы деректер жинағы (1-сурет) біріншіден, сақталуы керек, екіншіден, одан қосымша ақпаратты алу үшін негіз болатыны белгілі болады. Мысал ретінде: жол қозғалысы ережелерін жазатын камералар барлық жерде бар, ақпаратты өңдеу жүйелері бұзушыларды жояды, бірақ басқа да ақпаратты басқа тұтынушыларға ұсынуға болады, мысалы, сауда орталығына тұтынушылар ағынының құрылымын маркетингтік бақылау ретінде. Және бұл BigDat пайдалану кезінде қосымша құнның көзі. Қазір, бір жерде болашақта жиналып жатқан деректер жинақтары қазіргі кездегі 1700 сирек басылымдарының құнына ұқсас механизм бойынша құндылыққа ие болуы әбден мүмкін. Өйткені, шын мәнінде, уақытша деректер жинақтары бірегей және болашақта қайталануы екіталай.

3. Кіріспе бөлім. Бағалау критерийлері

Өңдеу процесінде қателердің келесі классификациясы әзірленді.

1. Қате класы (ГОСТ Р 8.736-2011 негізінде): а) жүйелі қателер; б) кездейсоқ қателер; в) қателік.

2. Көптігі бойынша: а) моно бұрмалану; б) көп бұрмалану.

3. Салдарлардың сыншылдығы бойынша: а) сыни; б) сыни емес.

4. Пайда болу көзі бойынша:

A) Техникалық – жабдықты пайдалану кезінде пайда болатын қателер. IoT жүйелеріне, байланыс сапасына айтарлықтай әсер ететін жүйелерге, жабдыққа (аппараттық) қатысты жеткілікті қате.

B) Оператор қателері – енгізу кезіндегі оператордың қателерінен мәліметтер базасын жобалаудың техникалық спецификациясындағы қателерге дейін кең ауқымдағы қателер.

C) Пайдаланушы қателері - мұнда «орналастыруды ауыстыруды ұмытып кетуден» бастап метрлерді аяқпен қателесуге дейінгі барлық ауқымдағы пайдаланушы қателері.

5. Жеке сыныпқа бөлінген:

а) «бөлгіштің тапсырмасы», яғни бос орын және «:» (біздің жағдайда) ол қайталанған кезде;
ә) бірге жазылатын сөздер;
в) қызметтік таңбалардан кейін бос орын жоқ
г) симметриялы бірнеше символдар: (), «», «...».

5-суретте келтірілген деректер базасының қателерін жүйелеумен бірге қателерді іздеу және осы мысал үшін деректерді тазалау алгоритмін әзірлеу үшін жеткілікті тиімді координаттар жүйесі қалыптасады.

Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық
Күріш. 5. Мәліметтер қорының құрылымдық бөлімшелеріне сәйкес келетін типтік қателер (Дереккөз: Орешков В.И., Паклин Н.Б. «Деректерді консолидациялаудың негізгі тұжырымдамалары»).

Дәлдік, домен тұтастығы, деректер түрі, жүйелілік, артықшылық, толықтық, қайталану, бизнес ережелеріне сәйкестік, құрылымдық анықтық, деректер аномалиясы, анықтық, уақтылы, деректер тұтастығы ережелерін сақтау. (334-бет. АТ мамандарына арналған деректер қоймасының негіздері / Полрадж Понниах.—2-ші басылым.)

Ағылшын тіліндегі тұжырымдар мен орысша машина аудармасы жақшада берілген.

Дәлдік. Деректер элементі үшін жүйеде сақталған мән деректер элементінің осы пайда болуы үшін дұрыс мән болып табылады. Жазбада сақталған тұтынушы аты мен мекенжайы болса, мекенжай сол аты бар тұтынушы үшін дұрыс мекенжай болып табылады. Тапсырыс санын 1000 тапсырыс нөмірі бойынша жазбадан 12345678 бірлік ретінде тапсаңыз, онда бұл сан сол тапсырыстың дәл саны болып табылады.
[Дәлдік. Деректер элементі үшін жүйеде сақталған мән деректер элементінің осы орын алуы үшін дұрыс мән болып табылады. Жазбада сақталған тұтынушы аты мен мекенжайы болса, мекенжай сол атаудағы тұтынушы үшін дұрыс мекенжай болып табылады. Тапсырыс санын 1000 нөміріне арналған жазбадан 12345678 бірлік ретінде тапсаңыз, онда бұл сан сол тапсырыстың нақты саны болып табылады.]

Домен тұтастығы. Төлсипаттың деректер мәні рұқсат етілген, анықталған мәндер ауқымына түседі. Жалпы мысал ретінде гендерлік деректер элементі үшін рұқсат етілген мәндер «ер» және «әйел» болып табылады.
[Домен тұтастығы. Төлсипат деректерінің мәні жарамды, анықталған мәндер ауқымына түседі. Жалпы мысал гендерлік деректер элементі үшін жарамды "ер" және "әйел" мәндері болып табылады.]

Деректер түрі. Деректер төлсипатының мәні шын мәнінде сол төлсипат үшін анықталған деректер түрі ретінде сақталады. Дүкен атауы өрісінің деректер түрі «мәтін» ретінде анықталған кезде, сол өрістің барлық даналары сандық кодтарды емес, мәтіндік пішімде көрсетілген дүкен атауын қамтиды.
[Дерек түрі. Деректер төлсипатының мәні шын мәнінде сол төлсипат үшін анықталған деректер түрі ретінде сақталады. Дүкен атауы өрісінің деректер түрі «мәтін» ретінде анықталса, бұл өрістің барлық даналары сандық кодтардан гөрі мәтін пішімінде көрсетілетін дүкен атауын қамтиды.]

Жүйелілік. Деректер өрісінің пішіні мен мазмұны бірнеше бастапқы жүйелерде бірдей. Бір жүйедегі ABC өнімінің өнім коды 1234 болса, бұл өнімнің коды әрбір бастапқы жүйеде 1234 болады.
[Дәйектілік. Деректер өрісінің пішіні мен мазмұны әртүрлі бастапқы жүйелерде бірдей. Бір жүйедегі ABC өнімінің өнім коды 1234 болса, сол өнімнің коды әрбір бастапқы жүйеде 1234 болады.]

Артықшылық. Бірдей деректер жүйеде бірнеше жерде сақталмауы керек. Егер тиімділік себептері бойынша деректер элементі жүйеде бірнеше жерде әдейі сақталса, онда артықшылықты нақты анықтау және тексеру қажет.
[Қосымша. Бірдей деректер жүйеде бірнеше жерде сақталмауы керек. Егер тиімділік себептері бойынша деректер элементі жүйенің бірнеше орындарында әдейі сақталса, артықшылық анық анықталып, тексерілуі керек.]

Толықтық. Жүйеде берілген атрибут үшін жетіспейтін мәндер жоқ. Мысалы, тұтынушы файлында әрбір тұтынушы үшін «күй» өрісі үшін жарамды мән болуы керек. Тапсырыс мәліметтеріне арналған файлда тапсырыстың әрбір егжей-тегжейлі жазбасы толығымен толтырылуы керек.
[Толықтық. Бұл атрибут үшін жүйеде жетіспейтін мәндер жоқ. Мысалы, клиент файлында әрбір клиент үшін "күй" өрісі үшін жарамды мән болуы керек. Тапсырыстың егжей-тегжейлі файлында әрбір тапсырыс мәліметтерінің жазбасы толығымен толтырылуы керек.]

Көшіру. Жүйедегі жазбалардың қайталануы толығымен шешілді. Егер өнім файлында қайталанатын жазбалар бар екені белгілі болса, әрбір өнім үшін барлық қайталанатын жазбалар анықталады және айқас сілтеме жасалады.
[Көшірме. Жүйедегі жазбалардың қайталануы толығымен жойылды. Өнім файлында қайталанатын жазбалар бар екені белгілі болса, әрбір өнім үшін барлық қайталанатын жазбалар анықталады және айқас сілтеме жасалады.]

Іскерлік ережелерге сәйкестік. Әрбір деректер элементінің мәндері белгіленген бизнес ережелеріне сәйкес келеді. Аукцион жүйесінде балға немесе сату бағасы резервтік бағадан төмен бола алмайды. Банктік несие жүйесінде несие қалдығы әрқашан оң немесе нөлге тең болуы керек.
[Кәсіпкерлік ережелерді сақтау. Әрбір деректер элементінің мәндері белгіленген бизнес ережелеріне сәйкес келеді. Аукцион жүйесінде балға немесе сату бағасы резервтік бағадан төмен бола алмайды. Банктік несие жүйесінде несие қалдығы әрқашан оң немесе нөлге тең болуы керек.]

Құрылымдық анықтық. Деректер элементін табиғи түрде жеке құрамдастарға құрылымдауға болатын кез келген жерде, элементте осы жақсы анықталған құрылым болуы керек. Мысалы, жеке тұлғаның аты табиғи түрде аты, әкесінің аты және тегі болып бөлінеді. Жеке тұлғалардың аттары үшін мәндер аты, әкесінің аты және тегі ретінде сақталуы керек. Деректер сапасының бұл сипаттамасы стандарттарды орындауды жеңілдетеді және жетіспейтін мәндерді азайтады.
[Құрылымдық сенімділік. Деректер элементін табиғи түрде жеке құрамдастарға құрылымдауға болатын жерде, элементте осы жақсы анықталған құрылым болуы керек. Мысалы, адам есімі табиғи түрде аты, әкесінің аты, тегі болып бөлінеді. Жеке атауларға арналған мәндер аты, әкесінің аты және тегі ретінде сақталуы керек. Бұл деректер сапасының сипаттамасы стандарттарды қолдануды жеңілдетеді және жетіспейтін мәндерді азайтады.]

Деректер аномалиясы. Өріс тек ол анықталған мақсат үшін пайдаланылуы керек. Егер мекенжай-3 өрісі ұзын мекенжайлар үшін мекенжайдың кез келген ықтимал үшінші жолы үшін анықталған болса, онда бұл өріс мекенжайдың үшінші жолын жазу үшін ғана пайдаланылуы керек. Ол тұтынушы үшін телефон немесе факс нөмірін енгізу үшін пайдаланылмауы керек.
[Деректердің аномалиясы. Өріс тек ол анықталған мақсат үшін пайдаланылуы керек. Егер мекенжай-3 өрісі ұзын мекенжайлар үшін кез келген ықтимал үшінші мекенжай жолы үшін анықталған болса, онда бұл өріс тек үшінші мекенжай жолын жазу үшін пайдаланылады. Оны тұтынушы үшін телефон немесе факс нөмірін енгізу үшін пайдаланбау керек.]

Айқындық. Деректер элементі сапалы деректердің барлық басқа сипаттамаларына ие болуы мүмкін, бірақ егер пайдаланушылар оның мағынасын анық түсінбесе, онда деректер элементінің пайдаланушылар үшін маңызы болмайды. Дұрыс атау конвенциялары деректер элементтерін пайдаланушыларға жақсы түсінуге көмектеседі.
[Айқындық. Деректер элементі жақсы деректердің барлық басқа сипаттамаларына ие болуы мүмкін, бірақ егер пайдаланушылар оның мағынасын анық түсінбесе, онда деректер элементінің пайдаланушылар үшін ешқандай мәні болмайды. Дұрыс атау конвенциялары деректер элементтерін пайдаланушыларға жақсы түсінуге көмектеседі.]

Уақытылы. Пайдаланушылар деректердің уақытылылығын анықтайды. Пайдаланушылар тұтынушы өлшемі деректерінің бір күннен ескі емес болуын күтсе, бастапқы жүйелердегі тұтынушы деректеріне жасалған өзгертулер күн сайын деректер қоймасына қолданылуы керек.
[Уақтылы. Пайдаланушылар деректердің уақыттылығын анықтайды. Пайдаланушылар тұтынушы өлшемі деректерінің бір күннен артық емес болуын күтсе, бастапқы жүйелердегі тұтынушы деректеріне жасалған өзгертулер күн сайын деректер қоймасына қолданылуы керек.]

Пайдалылығы. Деректер қоймасындағы әрбір деректер элементі пайдаланушылар жинағының кейбір талаптарын қанағаттандыруы керек. Деректер элементі дәл және жоғары сапалы болуы мүмкін, бірақ ол пайдаланушылар үшін құнды болмаса, бұл деректер элементінің деректер қоймасында болуы мүлдем қажет емес.
[Утилита. Деректер қоймасындағы әрбір деректер элементі пайдаланушы жинағының кейбір талаптарын қанағаттандыруы керек. Деректер элементі дәл және жоғары сапалы болуы мүмкін, бірақ ол пайдаланушыларға мән бермесе, сол деректер элементінің деректер қоймасында болуы міндетті емес.]

Деректердің тұтастығы ережелерін сақтау. Бастапқы жүйелердің реляциялық дерекқорларында сақталған деректер нысан тұтастығы мен анықтамалық тұтастық ережелеріне сәйкес келуі керек. Бастапқы кілт ретінде нөлге рұқсат беретін кез келген кесте нысанның тұтастығына ие емес. Анықтамалық тұтастық ата-ана мен бала арасындағы қарым-қатынасты дұрыс орнатуға мәжбүр етеді. Тұтынушыдан тапсырысқа қарым-қатынаста анықтамалық тұтастық дерекқордағы әрбір тапсырыс үшін тұтынушының болуын қамтамасыз етеді.
[Деректердің тұтастығы ережелерін сақтау. Бастапқы жүйелердің реляциялық дерекқорларында сақталған деректер нысан тұтастығы мен анықтамалық тұтастық ережелеріне сәйкес болуы керек. Бастапқы кілт ретінде нөлге рұқсат беретін кез келген кесте нысанның тұтастығына ие емес. Анықтамалық тұтастық ата-аналар мен балалар арасындағы қарым-қатынасты дұрыс орнатуға мәжбүр етеді. Тұтынушы-тапсырыс қатынасында анықтамалық тұтастық дерекқордағы әрбір тапсырыс үшін тұтынушының бар болуын қамтамасыз етеді.]

4. Деректерді тазалау сапасы

Деректерді тазалау сапасы үлкен деректерде өте проблемалық мәселе болып табылады. Тапсырманы орындау үшін деректерді тазалаудың қандай дәрежесі қажет деген сұраққа жауап беру әрбір деректер талдаушысы үшін маңызды. Ағымдағы мәселелердің көпшілігінде мұны әрбір аналитик өзі анықтайды және оның шешіміне сырттан келген кез келген адам бұл аспектіні бағалай алуы екіталай. Бірақ бұл жағдайдағы тапсырма үшін бұл мәселе өте маңызды болды, өйткені заңды деректердің сенімділігі бір деңгейде болуы керек.

Жұмыс сенімділігін анықтау үшін бағдарламалық қамтамасыз етуді тестілеу технологияларын қарастыру. Бүгінгі күні бұл модельдер көп 200. Көптеген модельдер шағымға қызмет көрсету үлгісін пайдаланады:

Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық
Сурет. 6

Келесідей ойлау: «Егер табылған қате осы модельдегі сәтсіздік оқиғасына ұқсас оқиға болса, онда t параметрінің аналогын қалай табуға болады?» Мен келесі модельді құрастырдым: Бір жазбаны тексеру үшін тестілеушіге кететін уақыт 1 минут (қаралып отырған деректер қоры үшін) деп елестетіп көрейік, содан кейін барлық қателерді табу үшін оған 365 494 минут қажет болады, бұл шамамен 3 жыл және 3 уақытты құрайды. айлар жұмыс уақыты. Біздің түсінгеніміздей, бұл өте үлкен жұмыс көлемі және деректер базасын тексеруге кететін шығындар осы дерекқорды құрастырушы үшін тыйым салады. Бұл рефлексияда шығындардың экономикалық тұжырымдамасы пайда болады және талдаудан кейін мен бұл жеткілікті тиімді құрал деген қорытындыға келдім. Экономика заңына негізделген: «Фирманың максималды пайдасына қол жеткізілетін өндіріс көлемі (бірліктермен) өнімнің жаңа бірлігін өндіруге шекті шығындар осы фирма ала алатын бағамен салыстырылатын жерде орналасады. жаңа бірлік үшін». Әрбір келесі қатені табу жазбаларды көбірек тексеруді талап ететін постулатқа сүйене отырып, бұл шығын факторы болып табылады. Яғни тестілеу модельдерінде қабылданған постулат келесі үлгіде физикалық мағынаға ие болады: егер i-ші қатені табу үшін n жазбаны тексеру қажет болса, келесі (i+1) қатені табу үшін қажет болады. m жазбаларды тексеру және бір мезгілде n

  1. Жаңа қате табылмас бұрын тексерілген жазбалар саны тұрақтанады;
  2. Келесі қатені табу алдында тексерілген жазбалар саны артады.

Сыни мәнді анықтау үшін мен экономикалық орындылық тұжырымдамасына жүгіндім, бұл жағдайда әлеуметтік шығындар түсінігін пайдалана отырып, келесідей тұжырымдауға болады: «Қатені түзетуге жұмсалатын шығындарды жасай алатын экономикалық агент көтеруі керек. бұл ең төмен бағамен». Бізде бір агент бар - бір жазбаны тексеруге 1 минут жұмсайтын тестілеуші. Ақшалай түрде, егер сіз күніне 6000 рубль тапсаңыз, бұл 12,2 рубль болады. (шамамен бүгін). Экономикалық құқықтағы тепе-теңдіктің екінші жағын анықтау қалды. Мен осылай дәлелдедім. Бар қателік мүдделі тұлғадан оны түзету үшін күш жұмсауды талап етеді, яғни меншік иесі. Бұл 1 күндік әрекетті қажет етеді делік (өтініш беру, түзетілген құжатты алу). Сонда әлеуметтік тұрғыдан алғанда оның шығыны бір күндік орташа жалақыға тең болады. Ханты-Мансий автономиялық округіндегі орташа есептелген жалақы «Ханты-Мансийск автономиялық округі – Уграның 2019 жылдың қаңтар-қыркүйек айларындағы әлеуметтік-экономикалық дамуының қорытындылары» 73285 руб. немесе 3053,542 рубль/тәу. Сәйкесінше, біз мынаған тең критикалық мән аламыз:
3053,542: 12,2 = 250,4 жазба бірлігі.

Бұл әлеуметтік тұрғыдан алғанда, егер тестілеуші ​​251 жазбаны тексеріп, бір қатені тапса, бұл пайдаланушы осы қатені өзі түзететінмен тең. Тиісінше, егер тестілеуші ​​келесі қатені табу үшін 252 жазбаны тексеруге тең уақыт жұмсаса, онда бұл жағдайда түзету құнын пайдаланушыға ауыстырған дұрыс.

Мұнда оңайлатылған тәсіл ұсынылған, өйткені әлеуметтік тұрғыдан алғанда әрбір маман өндіретін барлық қосымша құнды, яғни салықтар мен әлеуметтік төлемдерді қоса алғанда, шығындарды ескеру қажет, бірақ үлгі түсінікті. Бұл қарым-қатынастың салдары мамандарға қойылатын келесі талап: IT саласы маманының орташа республикалық деңгейден жоғары жалақысы болуы керек. Егер оның жалақысы әлеуетті мәліметтер базасын пайдаланушылардың орташа жалақысынан аз болса, онда ол өзі бүкіл дерекқорды қолма-қол тексеруі керек.

Сипатталған критерийді пайдалану кезінде деректер қорының сапасына қойылатын бірінші талап қалыптасады:
I(tr). Критикалық қателердің үлесі 1/250,4 = 0,39938% аспауы керек. -дан сәл аз тазарту өнеркәсіптегі алтын. Ал физикалық тұрғыдан алғанда қателері бар 1459 жазбадан аспайды.

Экономикалық шегіну.

Іс жүзінде, жазбаларда осындай бірқатар қателер жібере отырып, қоғам мына көлемдегі экономикалық шығындарға келіседі:

1459*3053,542 = 4 455 118 рубль.

Бұл сома қоғамның осы шығындарды азайту құралдарының жоқтығымен анықталады. Бұдан шығатыны, егер біреуде қателері бар жазбалар санын, мысалы, 259-ға дейін азайтуға мүмкіндік беретін технология болса, бұл қоғамға үнемдеуге мүмкіндік береді:
1200*3053,542 = 3 664 250 рубль.

Бірақ сонымен бірге ол өзінің таланты мен жұмысын сұрай алады, айталық - 1 миллион рубль.
Яғни, әлеуметтік шығындар төмендейді:

3 664 250 – 1 000 000 = 2 664 250 рубль.

Негізінде, бұл әсер BigDat технологияларын пайдаланудың қосымша құны болып табылады.

Бірақ бұл жерде бұл әлеуметтік әсер екенін ескеру керек, ал деректер базасының иесі муниципалды органдар болып табылады, олардың осы дерекқорда тіркелген мүлікті пайдаланудан түскен табысы 0,3% мөлшерінде: 2,778 млрд рубль/ жыл. Бұл шығындар (4 455 118 рубль) оны көп алаңдатпайды, өйткені олар меншік иелеріне беріледі. Және, бұл аспектіде, Bigdata-да неғұрлым нақты технологияларды әзірлеуші ​​осы дерекқордың иесін сендіру қабілетін көрсетуі керек және мұндай нәрселер айтарлықтай талантты талап етеді.

Бұл мысалда қателерді бағалау алгоритмі сенімділікті тестілеу кезінде бағдарламалық қамтамасыз етуді тексерудің Шуман моделі [2] негізінде таңдалды. Интернетте таралуына және қажетті статистикалық көрсеткіштерді алу мүмкіндігіне байланысты. Әдістеме Монахов Ю.М. «Ақпараттық жүйелердің функционалды тұрақтылығы», суреттегі спойлер астынан қараңыз. 7-9.

Күріш. 7 – 9 Шуман моделінің әдістемесіТас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық

Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық

Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық

Бұл материалдың екінші бөлігінде Шуман моделін қолдану нәтижелері алынған деректерді тазалаудың мысалы келтірілген.
Алынған нәтижелерді ұсынуға рұқсат етіңіздер:
Қателердің болжамды саны N = 3167 n.
C параметрі, ламбда және сенімділік функциясы:

Тас, қағаз, қайшы ойыны сияқты деректерді тазалаңыз. Бұл аяқталуы бар немесе жоқ ойын ба? 1-бөлім. Теориялық
17-сурет

Негізінде, ламбда әр кезеңде қателер анықталатын қарқындылықтың нақты көрсеткіші болып табылады. Екінші бөлікті қарасаңыз, бұл көрсеткіш бойынша бағалау сағатына 42,4 қатені құрады, бұл Шуман көрсеткішімен айтарлықтай салыстырмалы. Жоғарыда, әзірлеушінің қателерді табу жылдамдығы минутына 1 жазбаны тексеру кезінде 250,4 жазбасына 1 қатеден төмен болмауы керек екендігі анықталды. Демек, Шуман моделі үшін ламбданың критикалық мәні:

60 / 250,4 = 0,239617.

Яғни, қателерді анықтау процедураларын жүргізу қажеттілігі ламбда бар 38,964-тен 0,239617-ге дейін төмендегенше орындалуы керек.

Немесе N индикаторы (қателердің ықтимал саны) минус n (қателердің түзетілген саны) біздің қабылданған шекті мәннен төмендегенше - 1459 дана.

Әдебиет

  1. Монахов, Ю.М. Ақпараттық жүйелердің функционалдық тұрақтылығы. 3 сағатта 1-бөлім Бағдарламалық қамтамасыз ету сенімділігі: оқулық. жәрдемақы / Ю.М.Монахов; Владимир. күй университет. – Владимир: Изво Владимир. күй Университет, 2011. – 60 б. – ISBN 978-5-9984-0189-3.
  2. Мартин Л. Шуман, «Бағдарламалық қамтамасыз ету сенімділігін болжаудың ықтималдық үлгілері».
  3. АТ мамандарына арналған деректерді сақтау негіздері / Полрадж Понниах.—2-ші басылым.

Екінші бөлім. Теориялық

Ақпарат көзі: www.habr.com

пікір қалдыру