Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė

1. Pradiniai duomenys

Duomenų valymas yra vienas iš iššūkių, su kuriais susiduria duomenų analizės užduotys. Ši medžiaga atspindėjo pokyčius ir sprendimus, kurie atsirado sprendžiant praktinę duomenų bazės analizės problemą formuojant kadastrinę vertę. Šaltiniai čia ATASKAITA Nr. 01/OKS-2019 dėl visų tipų nekilnojamojo turto (išskyrus žemės sklypus) Chanty-Mansijsko autonominio rajono - Ugros teritorijoje valstybinio kadastrinio vertinimo rezultatų“.

Buvo nagrinėjama byla „Lyginamasis modelis total.ods“ „B priede. KS nustatymo rezultatai 5. Informacija apie kadastrinės vertės nustatymo būdą 5.1 Lyginamasis metodas“.

1 lentelė. Duomenų rinkinio statistiniai rodikliai faile „Lyginamasis modelis total.ods“
Bendras laukelių skaičius, vnt. – 44
Bendras įrašų skaičius, vnt. — 365 490
Bendras simbolių skaičius, vnt. — 101 714 693
Vidutinis įrašo ženklų skaičius, vnt. — 278,297 XNUMX
Standartinis įrašo ženklų nuokrypis, vnt. – 15,510 XNUMX
Minimalus simbolių skaičius įraše, vnt. – 198
Maksimalus simbolių skaičius įraše, vnt. – 363

2. Įvadinė dalis. Pagrindiniai standartai

Analizuojant nurodytą duomenų bazę buvo suformuota užduotis patikslinti gryninimo laipsnio reikalavimus, nes, kaip visiems aišku, nurodyta duomenų bazė sukuria teisines ir ekonomines pasekmes vartotojams. Darbo metu paaiškėjo, kad didelių duomenų išvalymo laipsniui specifinių reikalavimų nėra. Analizuodamas teisės normas šiuo klausimu priėjau prie išvados, kad jos visos yra suformuotos iš galimybių. Tai yra, atsirado tam tikra užduotis, užduočiai sukompiliuoti informacijos šaltiniai, tada suformuojamas duomenų rinkinys ir pagal sukurtą duomenų rinkinį – priemonės problemos sprendimui. Gauti sprendimai yra atskaitos taškai renkantis iš alternatyvų. Tai pateikiau 1 paveiksle.

Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė

Kadangi nustatant bet kokius standartus geriau pasikliauti patikrintomis technologijomis, pasirinkau reikalavimus, išdėstytus „MHRA GxP duomenų vientisumo apibrėžimai ir gairės pramonei“, nes maniau, kad šis dokumentas yra išsamiausias šiam klausimui. Visų pirma, šio dokumento skyriuje sakoma: „Reikėtų pažymėti, kad duomenų vientisumo reikalavimai vienodai taikomi rankiniams (popieriniams) ir elektroniniams duomenims. (vertimas: „...duomenų vientisumo reikalavimai vienodai taikomi rankiniams (popieriniams) ir elektroniniams duomenims“). Ši formuluotė gana konkrečiai siejama su „rašytinių įrodymų“ sąvoka Civilinio proceso kodekso 71 str. 70 CAS, APC 75 str., „raštu“ str. 84 Civilinio proceso kodeksas.

2 paveiksle pateikta požiūrių į informacijos rūšis formavimosi diagrama jurisprudencijoje.

Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė
Ryžiai. 2. Šaltinis čia.

3 paveiksle parodytas 1 paveikslo mechanizmas, skirtas aukščiau pateiktoms „Nurodančioms“ užduotims. Atlikus palyginimą nesunku pastebėti, kad šiuolaikinių informacinių sistemų standartų informacijos vientisumo reikalavimų tenkinimo metodai yra labai riboti, palyginti su teisine informacijos samprata.

Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė
3 pav

Nurodytame dokumente (Rekomendacijose) ryšį su technine dalimi, duomenų apdorojimo ir saugojimo galimybes gerai patvirtina citata iš 18.2 skyriaus. Reliacinė duomenų bazė: „Ši failo struktūra iš esmės yra saugesnė, nes duomenys saugomi dideliu failo formatu, kuris išsaugo ryšį tarp duomenų ir metaduomenų.

Tiesą sakant, taikant šį metodą, atsižvelgiant į esamas technines galimybes, nėra nieko nenormalaus ir savaime tai yra natūralus procesas, nes sąvokų išplėtimas kyla iš labiausiai ištirtos veiklos - duomenų bazių projektavimo. Bet, kita vertus, atsiranda teisės normų, kurios nenumato nuolaidų esamų sistemų techninėms galimybėms, pvz. GDPR – Bendrasis duomenų apsaugos reglamentas.

Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė
Ryžiai. 4. Techninių galimybių piltuvėlis (šaltinis).

Šiais aspektais tampa aišku, kad pirminis duomenų rinkinys (1 pav.) visų pirma turės būti išsaugotas, antra, būti pagrindu iš jo išgauti papildomą informaciją. Na, kaip pavyzdys: eismo taisykles fiksuojančios kameros yra visur, informacijos apdorojimo sistemos išnaikina pažeidėjus, tačiau kitiems vartotojams gali būti pasiūlyta ir kita informacija, pavyzdžiui, kaip marketinginis klientų srauto į prekybos centrą struktūros stebėjimas. Ir tai yra papildomos pridėtinės vertės šaltinis naudojant BigDat. Visai įmanoma, kad dabar, kažkur ateityje renkami duomenų rinkiniai turės vertę pagal mechanizmą, panašų į retų 1700 leidimų vertę šiuo metu. Galų gale, iš tikrųjų laikini duomenų rinkiniai yra unikalūs ir greičiausiai nepasikartos ateityje.

3. Įvadinė dalis. Vertinimo kriterijus

Apdorojimo proceso metu buvo sukurta tokia klaidų klasifikacija.

1. Klaidų klasė (pagal GOST R 8.736-2011): a) sisteminės klaidos; b) atsitiktinės klaidos; c) klaida.

2. Daugybiniu būdu: a) mono iškraipymas; b) daugybinis iškraipymas.

3. Pagal pasekmių kritiškumą: a) kritinis; b) nėra kritiška.

4. Pagal įvykio šaltinį:

A) Techninės – klaidos, atsirandančios eksploatuojant įrangą. Gana aktuali klaida IoT sistemoms, sistemoms, turinčioms didelę įtaką ryšio kokybei, įrangai (techninei įrangai).

B) Operatoriaus klaidos – įvairios klaidos nuo operatoriaus rašybos klaidų įvedimo metu iki klaidų duomenų bazės projektavimo techninėse specifikacijose.

C) Vartotojo klaidos – čia pateikiamos vartotojo klaidos visame diapazone nuo „pamiršau perjungti išdėstymą“ iki skaitiklių supainiojimo su pėdomis.

5. Išskirta į atskirą klasę:

a) „skyriklio užduotis“, tai yra tarpas ir „:“ (mūsų atveju), kai jis buvo dubliuotas;
b) kartu parašyti žodžiai;
c) be tarpo po aptarnavimo simbolių
d) simetriškai keli simboliai: (), "", "...".

Kartu su duomenų bazės klaidų sisteminimu, pateiktu 5 paveiksle, susidaro gana efektyvi koordinačių sistema, skirta klaidų paieškai ir duomenų valymo algoritmui šiam pavyzdžiui sukurti.

Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė
Ryžiai. 5. Tipinės klaidos, atitinkančios duomenų bazės struktūrinius vienetus (Šaltinis: Oreškovas V.I., Paklinas N.B. „Pagrindinės duomenų konsolidavimo sąvokos“).

Tikslumas, domeno vientisumas, duomenų tipas, nuoseklumas, pertekliškumas, išsamumas, dubliavimas, verslo taisyklių laikymasis, struktūrinis apibrėžtumas, duomenų anomalija, aiškumas, savalaikiškumas, duomenų vientisumo taisyklių laikymasis. (334 psl.. Duomenų saugojimo pagrindai IT specialistams / Paulraj Ponniah – 2 leidimas)

Pateiktos formuluotės anglų kalba ir automatinis vertimas į rusų kalbą skliausteliuose.

Tikslumas. Sistemoje saugoma duomenų elemento reikšmė yra tinkama reikšmė tam duomenų elemento įvykiui. Jei kliento vardas ir adresas yra įrašyti į įrašą, adresas yra teisingas kliento tokiu vardu adresas. Jei užsakymo numerio 1000 įraše rasite užsakytą kiekį kaip 12345678 vienetų, tai šis kiekis yra tikslus to užsakymo kiekis.
[Tikslumas. Sistemoje saugoma duomenų elemento reikšmė yra teisinga to duomenų elemento įvykio reikšmė. Jei kliento vardas ir adresas yra įrašyti į įrašą, adresas yra teisingas kliento tokiu vardu adresas. Jei užsakymo numerio 1000 įraše rasite užsakytą kiekį kaip 12345678 vienetų, tai tas kiekis yra tikslus to užsakymo kiekis.]

Domeno vientisumas. Atributo duomenų reikšmė patenka į leistinų apibrėžtų reikšmių diapazoną. Dažnas pavyzdys yra leistinos lyties duomenų elemento reikšmės yra „vyras“ ir „moteris“.
[Domeno vientisumas. Atributo duomenų reikšmė patenka į galiojančių, apibrėžtų verčių diapazoną. Bendras pavyzdys yra galiojančios lyties duomenų elemento reikšmės „male“ ir „female“.]

Duomenų tipas. Duomenų atributo reikšmė iš tikrųjų saugoma kaip tam atributui apibrėžtas duomenų tipas. Kai parduotuvės pavadinimo lauko duomenų tipas apibrėžiamas kaip „tekstas“, visuose šio lauko egzemplioriuose yra parduotuvės pavadinimas, rodomas tekstiniu formatu, o ne skaitmeniniais kodais.
[Duomenų tipas. Duomenų atributo reikšmė iš tikrųjų saugoma kaip tam atributui apibrėžtas duomenų tipas. Jei parduotuvės pavadinimo lauko duomenų tipas apibrėžtas kaip „tekstas“, visuose šio lauko egzemplioriuose parduotuvės pavadinimas rodomas teksto formatu, o ne skaitmeniniais kodais.]

Nuoseklumas. Duomenų lauko forma ir turinys yra vienodi keliose šaltinių sistemose. Jei produkto ABC kodas vienoje sistemoje yra 1234, tada šio produkto kodas yra 1234 kiekvienoje šaltinio sistemoje.
[Nuoseklumas. Duomenų lauko forma ir turinys skirtingose ​​šaltinių sistemose yra vienodi. Jei produkto ABC kodas vienoje sistemoje yra 1234, tada to produkto kodas yra 1234 kiekvienoje šaltinio sistemoje.]

Perteklius. Tie patys duomenys negali būti saugomi daugiau nei vienoje sistemos vietoje. Jei veiksmingumo sumetimais duomenų elementas tyčia saugomas daugiau nei vienoje sistemos vietoje, perteklius turi būti aiškiai nustatytas ir patikrintas.
[Atleidimas iš darbo. Tie patys duomenys neturėtų būti saugomi daugiau nei vienoje sistemos vietoje. Jei veiksmingumo sumetimais duomenų elementas tyčia saugomas keliose sistemos vietose, perteklius turi būti aiškiai apibrėžtas ir patikrintas.]

Išbaigtumas. Sistemoje nėra trūkstamų tam tikro atributo verčių. Pavyzdžiui, kliento faile turi būti galiojanti kiekvieno kliento lauko „state“ reikšmė. Užsakymo duomenų faile kiekvienas užsakymo detalių įrašas turi būti visiškai užpildytas.
[Išsamumas. Sistemoje šio atributo reikšmių trūksta. Pavyzdžiui, kliento failas turi turėti galiojančią kiekvieno kliento „status“ lauko reikšmę. Užsakymo informacijos faile kiekvienas užsakymo informacijos įrašas turi būti visiškai užpildytas.]

Dubliavimas. Įrašų dubliavimas sistemoje yra visiškai išspręstas. Jei žinoma, kad produkto faile yra pasikartojančių įrašų, tada identifikuojami visi pasikartojantys kiekvieno produkto įrašai ir sukuriama kryžminė nuoroda.
[Dublikatas. Įrašų dubliavimas sistemoje buvo visiškai pašalintas. Jei žinoma, kad produkto faile yra pasikartojančių įrašų, tada identifikuojami visi pasikartojantys kiekvieno produkto įrašai ir sukuriama kryžminė nuoroda.]

Verslo taisyklių laikymasis. Kiekvieno duomenų elemento vertės atitinka nustatytas verslo taisykles. Aukciono sistemoje plaktuko arba pardavimo kaina negali būti mažesnė už rezervinę kainą. Banko paskolų sistemoje paskolos likutis visada turi būti teigiamas arba nulis.
[Verslo taisyklių laikymasis. Kiekvieno duomenų elemento reikšmės atitinka nustatytas verslo taisykles. Aukciono sistemoje plaktuko arba pardavimo kaina negali būti mažesnė už rezervinę kainą. Bankų kreditų sistemoje paskolos likutis visada turi būti teigiamas arba nulis.]

Struktūrinis apibrėžtumas. Kai duomenų elementą galima natūraliai suskirstyti į atskirus komponentus, elemente turi būti ši aiškiai apibrėžta struktūra. Pavyzdžiui, asmens vardas natūraliai skirstomas į vardą, vidurinį inicialą ir pavardę. Asmenų vardų reikšmės turi būti saugomos kaip vardas, vidurinis inicialas ir pavardė. Ši duomenų kokybės savybė supaprastina standartų vykdymą ir sumažina trūkstamas vertes.
[Struktūrinis tikrumas. Jei duomenų elementą galima natūraliai suskirstyti į atskirus komponentus, elemente turi būti ši aiškiai apibrėžta struktūra. Pavyzdžiui, asmens vardas natūraliai skirstomas į vardą, vidurinįjį inicialą ir pavardę. Atskirų vardų reikšmės turėtų būti saugomos kaip vardas, vidurinis inicialas ir pavardė. Ši duomenų kokybės charakteristika supaprastina standartų taikymą ir sumažina trūkstamas vertes.]

Duomenų anomalija. Laukas turi būti naudojamas tik tam tikslui, kuriam jis yra apibrėžtas. Jei laukas Adresas-3 yra apibrėžtas bet kuriai galimai trečiajai adreso eilutei ilgiems adresams, šis laukas turi būti naudojamas tik trečiajai adreso eilutei įrašyti. Jis negali būti naudojamas įvedant kliento telefono arba fakso numerį.
[Duomenų anomalija. Laukas turi būti naudojamas tik tam tikslui, kuriam jis yra apibrėžtas. Jei laukas Adresas-3 yra apibrėžtas bet kuriai galimai trečiajai adreso eilutei ilgiems adresams, šis laukas turi būti naudojamas tik trečiajai adreso eilutei įrašyti. Jis neturėtų būti naudojamas įvesti kliento telefono arba fakso numerį.]

Aiškumas. Duomenų elementas gali turėti visas kitas kokybiškų duomenų charakteristikas, tačiau jei vartotojai aiškiai nesupranta jo reikšmės, duomenų elementas vartotojams nėra vertingas. Tinkamos pavadinimų suteikimo taisyklės padeda vartotojams gerai suprasti duomenų elementus.
[Aiškumas. Duomenų elementas gali turėti visas kitas gerų duomenų savybes, tačiau jei vartotojai aiškiai nesupranta jo reikšmės, duomenų elementas vartotojams nėra vertingas. Teisingos pavadinimų taisyklės padeda vartotojams gerai suprasti duomenų elementus.]

Laiku. Vartotojai nustato duomenų savalaikiškumą. Jei vartotojai tikisi, kad kliento dimensijos duomenys nebus senesni nei viena diena, klientų duomenų pakeitimai šaltinio sistemose turi būti taikomi duomenų saugyklai kasdien.
[Laiku. Vartotojai nustato duomenų savalaikiškumą. Jei naudotojai tikisi, kad klientų dimensijos duomenys bus ne senesni nei viena diena, klientų duomenų pakeitimai šaltinio sistemose turėtų būti taikomi duomenų saugykloje kasdien.]

Naudingumas. Kiekvienas duomenų elementas duomenų saugykloje turi atitikti tam tikrus vartotojų rinkimo reikalavimus. Duomenų elementas gali būti tikslus ir kokybiškas, bet jei jis nėra vertingas vartotojams, tada visiškai nebūtina, kad tas duomenų elementas būtų duomenų saugykloje.
[Naudingumas. Kiekvienas duomenų elementas duomenų saugykloje turi atitikti kai kuriuos naudotojo rinkinio reikalavimus. Duomenų elementas gali būti tikslus ir aukštos kokybės, bet jei jis nesuteikia vertės vartotojams, nebūtina, kad tas duomenų elementas būtų duomenų saugykloje.]

Duomenų vientisumo taisyklių laikymasis. Duomenys, saugomi šaltinio sistemų reliacinėse duomenų bazėse, turi atitikti objekto vientisumo ir nuorodos vientisumo taisykles. Bet kuri lentelė, leidžianti null kaip pirminį raktą, neturi objekto vientisumo. Referencinis vientisumas verčia teisingai užmegzti tėvų ir vaikų santykius. Kliento ir užsakymo santykiuose nuorodos vientisumas užtikrina kliento egzistavimą kiekvienam užsakymui duomenų bazėje.
[Duomenų vientisumo taisyklių laikymasis. Duomenys, saugomi šaltinių sistemų reliacinėse duomenų bazėse, turi atitikti objekto vientisumo ir nuorodos vientisumo taisykles. Bet kuri lentelė, kuri leidžia nulį kaip pirminį raktą, neturi objekto vientisumo. Referencinis vientisumas verčia tėvus ir vaikus užmegzti teisingai. Kliento ir užsakymo santykiuose referencinis vientisumas užtikrina, kad kiekvienam duomenų bazėje esančiam užsakymui būtų klientas.]

4. Duomenų valymo kokybė

Duomenų valymo kokybė yra gana problemiška bigdata problema. Kiekvienam duomenų analitikui labai svarbu atsakyti į klausimą, kokio laipsnio duomenų valymas yra būtinas užduočiai atlikti. Daugumoje dabartinių problemų kiekvienas analitikas tai nustato pats ir mažai tikėtina, kad kas nors iš išorės galėtų įvertinti šį aspektą savo sprendime. Tačiau atliekant šią užduotį šiuo atveju šis klausimas buvo nepaprastai svarbus, nes teisinių duomenų patikimumas turėtų būti vienas.

Atsižvelgiant į programinės įrangos testavimo technologijas, siekiant nustatyti veikimo patikimumą. Šiandien yra daugiau nei šių modelių 200. Daugelyje modelių naudojamas pretenzijų aptarnavimo modelis:

Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė
Pav. 6

Pagalvokite taip: „Jei rasta klaida yra įvykis, panašus į šio modelio gedimo įvykį, tai kaip rasti parametro t analogą? Ir aš sudariau tokį modelį: Įsivaizduokime, kad laikas, per kurį bandytojas patikrina vieną įrašą, yra 1 minutė (tai duomenų bazėje), tada visoms klaidoms surasti jam prireiks 365 494 minučių, tai yra maždaug 3 metai ir 3 mėnesių darbo laiko. Kaip suprantame, tai yra labai didelis darbo kiekis ir duomenų bazės tikrinimo kaštai šios duomenų bazės sudarytojui bus per dideli. Šiame apmąstyme išryškėja ekonominė sąnaudų samprata ir po analizės priėjau prie išvados, kad tai pakankamai efektyvi priemonė. Remiantis ekonomikos dėsniu: „Gamybos apimtis (vienetais), kai įmonė pasiekia maksimalų pelną, yra taške, kur ribiniai naujo produkcijos vieneto gamybos kaštai lyginami su kaina, kurią ši įmonė gali gauti. naujam padaliniui“. Remiantis postulatu, kad radus kiekvieną paskesnę klaidą reikia vis dažniau tikrinti įrašus, tai yra išlaidų veiksnys. Tai reiškia, kad testavimo modeliuose priimtas postulatas įgauna fizinę prasmę tokia forma: jei norint rasti i-ąją klaidą reikėjo patikrinti n įrašų, tai norint rasti kitą (i+1) klaidą, reikės patikrinti m įrašus ir tuo pačiu n

  1. Kai įrašų, patikrintų prieš randant naują klaidą, skaičius stabilizuojasi;
  2. Kai prieš surandant kitą klaidą patikrintų įrašų skaičius padidės.

Kritinei vertei nustatyti kreipiausi į ekonominio pagrįstumo sampratą, kurią šiuo atveju, naudojant socialinių kaštų sąvoką, galima suformuluoti taip: „Klaidos ištaisymo išlaidas turi padengti galintis ūkio subjektas. už mažiausią kainą“. Turime vieną agentą – testuotoją, kuris vienam įrašui tikrinti skiria 1 minutę. Pinigine išraiška, jei uždirbate 6000 rublių per dieną, tai bus 12,2 rubliai. (maždaug šiandien). Belieka nustatyti antrąją pusiausvyros pusę ekonomikos teisėje. Aš samprotavau taip. Esama klaida reikalauja, kad atitinkamas asmuo, ty turto savininkas, dėtų pastangas ją ištaisyti. Tarkime, tam reikia 1 dienos veiksmų (pateikti paraišką, gauti pataisytą dokumentą). Tada socialiniu požiūriu jo išlaidos bus lygios vidutiniam atlyginimui per dieną. Vidutinis sukauptas atlyginimas Chanty-Mansi autonominėje apygardoje „2019 m. sausio–rugsėjo mėn. Hantimansijsko autonominio apygardos Ugros socialinės ir ekonominės plėtros rezultatai“ 73285 rub. arba 3053,542 XNUMX rubliai per dieną. Atitinkamai gauname kritinę vertę, lygią:
3053,542: 12,2 = 250,4 įrašų vienetai.

Tai reiškia, kad socialiniu požiūriu, jei testuotojas patikrino 251 įrašą ir rado vieną klaidą, tai prilygsta vartotojui, kuris šią klaidą ištaiso pats. Atitinkamai, jei bandytojas praleido laiką, lygų 252 įrašų patikrinimui, kad surastų kitą klaidą, tokiu atveju taisymo išlaidas geriau perkelti vartotojui.

Čia pateikiamas supaprastintas požiūris, nes socialiniu požiūriu būtina atsižvelgti į visą kiekvieno specialisto sukuriamą papildomą vertę, tai yra išlaidas, įskaitant mokesčius ir socialines išmokas, tačiau modelis yra aiškus. Šių santykių pasekmė – specialistams keliamas reikalavimas: IT pramonės specialisto atlyginimas turi būti didesnis nei šalies vidurkis. Jei jo atlyginimas yra mažesnis už vidutinį potencialių duomenų bazės vartotojų atlyginimą, jis pats turi patikrinti visą duomenų bazę iš rankų į rankas.

Taikant aprašytą kriterijų, suformuojamas pirmasis duomenų bazės kokybės reikalavimas:
I(tr). Kritinių klaidų dalis neturi viršyti 1/250,4 = 0,39938%. Šiek tiek mažiau nei rafinavimas auksas pramonėje. O fizine prasme yra ne daugiau kaip 1459 įrašai su klaidomis.

Ekonominis atsitraukimas.

Tiesą sakant, padarydama tiek klaidų įrašuose visuomenė sutinka su ekonominiais nuostoliais:

1459*3053,542 = 4 455 118 rubliai.

Šią sumą lemia tai, kad visuomenė neturi įrankių šių išlaidų mažinimui. Iš to išplaukia, kad jei kas nors turi technologiją, leidžiančią sumažinti įrašų su klaidomis skaičių iki, pavyzdžiui, iki 259, tai leis visuomenei sutaupyti:
1200*3053,542 = 3 664 250 rubliai.

Bet tuo pat metu jis gali paprašyti savo talento ir darbo, tarkime, 1 milijono rublių.
Tai reiškia, kad socialines išlaidas mažina:

3 664 250 – 1 000 000 = 2 664 250 rublių.

Iš esmės šis efektas yra pridėtinė vertė, gaunama naudojant BigDat technologijas.

Bet čia reikia atsižvelgti į tai, kad tai yra socialinis efektas, o duomenų bazės savininkas yra savivaldybių institucijos, jų pajamos iš šioje duomenų bazėje įrašyto turto naudojimo 0,3% tarifu yra: 2,778 mlrd. metų. Ir šios išlaidos (4 455 118 rublių) jo labai nevargina, nes pervedamos nekilnojamojo turto savininkams. Ir šiuo aspektu tobulesnių technologijų kūrėjas Bigdata turės parodyti gebėjimą įtikinti šios duomenų bazės savininką, o tokie dalykai reikalauja nemažo talento.

Šiame pavyzdyje klaidų įvertinimo algoritmas buvo pasirinktas remiantis Schumann modeliu [2] programinės įrangos patikros testavimo metu, kad veiktų be gedimų. Dėl jos paplitimo internete ir galimybės gauti reikiamus statistinius rodiklius. Metodika paimta iš Monakhov Yu.M. „Funkcinis informacinių sistemų stabilumas“, žr. po spoileriu pav. 7-9.

Ryžiai. 7 – 9 Schumann modelio metodikaDuomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė

Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė

Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė

Antroje šios medžiagos dalyje pateikiamas duomenų valymo pavyzdys, kuriame gauti Schumann modelio panaudojimo rezultatai.
Pateiksiu gautus rezultatus:
Numatomas klaidų skaičius N = 3167 n.
Parametras C, lambda ir patikimumo funkcija:

Duomenų, tokių kaip akmuo, popierius, žirklės, valymas. Ar tai žaidimas su apdaila ar be jo? 1 dalis. Teorinė
17 pav

Iš esmės lambda yra tikrasis kiekvieno etapo klaidų aptikimo intensyvumo rodiklis. Jei pažvelgsite į antrąją dalį, šio rodiklio įvertis buvo 42,4 klaidos per valandą, o tai yra gana panašu į Schumann rodiklį. Aukščiau buvo nustatyta, kad kūrėjo klaidų aptikimo dažnis turi būti ne mažesnis kaip 1 klaida 250,4 įrašuose, tikrinant 1 įrašą per minutę. Taigi kritinė lambda vertė Schumann modeliui:

60 / 250,4 = 0,239617.

Tai yra, būtinybė atlikti klaidų aptikimo procedūras turi būti vykdoma tol, kol lambda nuo esamo 38,964 sumažės iki 0,239617.

Arba tol, kol rodiklis N (galimas klaidų skaičius) minus n (pataisytas klaidų skaičius) nesumažės žemiau mūsų priimtos ribos – 1459 vnt.

Literatūra

  1. Monakhov, Yu. M. Informacinių sistemų funkcinis stabilumas. Per 3 valandas 1 dalis. Programinės įrangos patikimumas: vadovėlis. pašalpa / Ju. M. Monakhovas; Vladimiras. valstybė univ. – Vladimiras: Izvo Vladimas. valstybė Universitetas, 2011. – 60 p. – ISBN 978-5-9984-0189-3.
  2. Martinas L. Shoomanas, „Programinės įrangos patikimumo prognozavimo tikimybiniai modeliai“.
  3. Duomenų saugyklos pagrindai IT specialistams / Paulraj Ponniah.—2nd ed.

Antra dalis. Teorinis

Šaltinis: www.habr.com

Добавить комментарий