Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline

1. Algandmed

Andmete puhastamine on üks andmeanalüüsi ülesannete väljakutsetest. Antud materjal kajastas katastriväärtuse kujunemisel andmekogu analüüsi praktilise probleemi lahendamise tulemusena tekkinud arenguid ja lahendusi. Allikad siin “ARUANNE nr 01/OKS-2019 Hantõ-Mansiiski autonoomse ringkonna - Ugra territooriumil igat liiki kinnisvara (v.a maatükid) riikliku katastrihindamise tulemuste kohta”.

Vaadeldi faili “Võrdlusmudel total.ods” “Lisa B. KS määramise tulemused 5. Katastriväärtuse määramise meetodi teave 5.1 Võrdlev lähenemine”.

Tabel 1. Andmestiku statistilised näitajad failis “Comparative model total.ods”
Väljade koguarv, tk. — 44
Kirjete koguarv, tk. — 365 490
Tähemärkide koguarv, tk. — 101 714 693
Keskmine märkide arv kirjes, tk. — 278,297 XNUMX
Kirje märkide standardhälve, tk. — 15,510 XNUMX
Minimaalne märkide arv kirjes, tk. — 198
Maksimaalne märkide arv kirjes, tk. — 363

2. Sissejuhatav osa. Põhistandardid

Antud andmebaasi analüüsimisel tekkis ülesanne täpsustada puhastusastme nõudeid, kuna nagu kõigile selge, tekitab nimetatud andmebaas kasutajatele õiguslikke ja majanduslikke tagajärgi. Töö käigus selgus, et suurandmete puhastusastmele konkreetseid nõudeid ei olnud. Antud asjas kehtivaid õigusnorme analüüsides jõudsin järeldusele, et need kõik kujunevad võimalustest. See tähendab, et on ilmunud teatud ülesanne, ülesande jaoks koostatakse teabeallikad, seejärel moodustatakse andmestik ja loodud andmekogumi põhjal tööriistad probleemi lahendamiseks. Saadud lahendused on võrdluspunktideks alternatiivide hulgast valides. Esitasin selle joonisel 1.

Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline

Kuna standardite määramisel on eelistatav tugineda end tõestanud tehnoloogiatele, siis valisin punktis sätestatud nõuded. "MHRA GxP andmete terviklikkuse määratlused ja juhised tööstusele", sest pidasin seda dokumenti selle numbri kõige põhjalikumaks. Eelkõige öeldakse selles dokumendis jaotises "Tuleb märkida, et andmete terviklikkuse nõuded kehtivad võrdselt nii käsitsi (paberkandjal) kui ka elektroonilistele andmetele." (tõlge: "...andmete terviklikkuse nõuded kehtivad võrdselt nii käsitsi (paberkandjal) kui ka elektroonilistele andmetele"). See sõnastus on tsiviilkohtumenetluse seadustiku artikli 71 sätete kohaselt üsna konkreetselt seotud mõistega "kirjalik tõend". 70 CAS, APC artikkel 75, “kirjalikult” art. 84 Tsiviilkohtumenetluse seadustik.

Joonisel 2 on kujutatud skeem teabeliikide käsitluste kujunemisest õigusteaduses.

Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline
Riis. 2. Allikas siin.

Joonisel 3 on näidatud joonise 1 mehhanism ülaltoodud juhiste ülesannete jaoks. Võrdlust tehes on lihtne näha, et infoterviklikkuse nõuete täitmisel infosüsteemide tänapäevastes standardites kasutatavad lähenemisviisid on teabe juriidilise mõistega võrreldes oluliselt piiratud.

Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline
Joonis 3

Nimetatud dokumendis (Juhendis) kinnitab seotust tehnilise osaga, andmete töötlemise ja säilitamise võimalusi hästi tsitaat peatükist 18.2. Relatsiooniandmebaas: "See failistruktuur on oma olemuselt turvalisem, kuna andmeid hoitakse suures failivormingus, mis säilitab andmete ja metaandmete vahelise seose."

Tegelikult pole selles lähenemisviisis - olemasolevatest tehnilistest võimalustest lähtuvalt midagi ebanormaalset ja iseenesest on see loomulik protsess, kuna kontseptsioonide laienemine pärineb enim uuritud tegevusest - andmebaaside kujundamisest. Kuid teisest küljest ilmnevad õigusnormid, mis ei näe ette allahindlusi olemasolevate süsteemide tehnilistele võimalustele, näiteks: GDPR – isikuandmete kaitse üldmäärus.

Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline
Riis. 4. Tehniliste võimaluste kanal (Allikas).

Nendes aspektides saab selgeks, et esialgne andmestik (joonis 1) tuleb esiteks salvestada ja teiseks olla sellest täiendava teabe hankimise aluseks. No näiteks: liiklusreegleid salvestavad kaamerad on kõikjal, infotöötlussüsteemid rookivad rikkujad välja, aga ka teistele tarbijatele saab pakkuda muud infot, näiteks turunduslikuks monitooringuks kaubanduskeskusesse suunduva kliendivoo struktuuri kohta. Ja see on BigDati kasutamisel lisaväärtuse allikas. On täiesti võimalik, et praegu, kuskil tulevikus kogutavad andmestikud saavad väärtust mehhanismi järgi, mis sarnaneb haruldaste väljaannete praeguse 1700 väärtusega. Lõppude lõpuks on ajutised andmekogumid ainulaadsed ja tõenäoliselt ei kordu neid tulevikus.

3. Sissejuhatav osa. Hindamiskriteeriumid

Töötlemisprotsessi käigus töötati välja järgmine vigade klassifikatsioon.

1. Veaklass (GOST R 8.736-2011 alusel): a) süstemaatilised vead; b) juhuslikud vead; c) viga.

2. Mitmekordsuse järgi: a) monomoonutus; b) multimoonutus.

3. Tagajärgede kriitilisuse järgi: a) kriitiline; b) ei ole kriitiline.

4. Esinemisallika järgi:

A) Tehnilised – vead, mis tekivad seadme töö käigus. Üsna asjakohane viga asjade Interneti-süsteemide, süsteemide, mis mõjutavad oluliselt side kvaliteeti, seadmete (riistvara) jaoks.

B) Operaatori vead – vead laias valikus alates operaatori kirjavigadest sisestamisel kuni vigadeni andmebaasi projekteerimise tehnilistes kirjeldustes.

C) Kasutajavead – siin on kasutaja vead kogu vahemikus alates "unustasin paigutust vahetada" kuni meetrite ja jalgade segi ajamiseni.

5. Eraldatud eraldi klassi:

a) "eraldaja ülesanne", see tähendab tühik ja ":" (meie puhul), kui see dubleeriti;
b) kokku kirjutatud sõnad;
c) teenindusmärkide järel tühik puudub
d) sümmeetriliselt mitu sümbolit: (), "", "...".

Kokkuvõttes joonisel 5 toodud andmebaasivigade süstematiseerimisega moodustub üsna tõhus koordinaatsüsteem vigade otsimiseks ja antud näite jaoks andmete puhastusalgoritmi väljatöötamiseks.

Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline
Riis. 5. Andmebaasi struktuuriüksustele vastavad tüüpilised vead (Allikas: Oreshkov V.I., Paklin N.B. "Andmete konsolideerimise põhimõisted").

Täpsus, domeeni terviklikkus, andmetüüp, järjepidevus, liiasus, täielikkus, dubleerimine, ärireeglite järgimine, struktuuriline kindlaksmääratus, andmete anomaalia, selgus, õigeaegsus, andmete terviklikkuse reeglite järgimine. (Lk 334. Andmehoidla põhialused IT-spetsialistidele / Paulraj Ponniah – 2. väljaanne)

Esitatakse ingliskeelne sõnastus ja venekeelne masintõlge sulgudes.

Täpsus. Süsteemi andmeelemendi jaoks salvestatud väärtus on selle andmeelemendi esinemise jaoks õige väärtus. Kui teil on kirjesse salvestatud kliendi nimi ja aadress, siis on aadress sellenimelise kliendi õige aadress. Kui leiate tellimuse numbri 1000 kirjest tellitud koguse 12345678 ühikuna, on see kogus selle tellimuse täpne kogus.
[Täpsus. Süsteemi andmeelemendi jaoks salvestatud väärtus on selle andmeelemendi esinemise jaoks õige väärtus. Kui teil on kirjesse salvestatud kliendi nimi ja aadress, siis on aadress sellenimelise kliendi õige aadress. Kui leiate tellimuse numbri 1000 kirjest tellitud koguse 12345678 ühikuna, on see kogus selle tellimuse täpne kogus.]

Domeeni terviklikkus. Atribuudi andmeväärtus jääb lubatud, määratletud väärtuste vahemikku. Levinud näide on sooandmete elemendi lubatud väärtused "mees" ja "naine".
[Domeeni terviklikkus. Atribuudi andmete väärtus jääb kehtivate määratletud väärtuste vahemikku. Üldine näide on sooandmete elemendi kehtivad väärtused "male" ja "female".]

Andmetüüp. Andmeatribuudi väärtus salvestatakse tegelikult selle atribuudi jaoks määratud andmetüübina. Kui poe nime välja andmetüüp on määratletud kui „tekst”, sisaldavad kõik selle välja eksemplarid tekstivormingus poe nime, mitte numbrilisi koode.
[Andmetüüp. Andmeatribuudi väärtus salvestatakse tegelikult selle atribuudi jaoks määratud andmetüübina. Kui poe nime välja andmetüüp on määratletud kui "tekst", sisaldavad kõik selle välja eksemplarid poe nime, mis kuvatakse numbriliste koodide asemel tekstivormingus.]

Järjepidevus. Andmevälja vorm ja sisu on mitmes lähtesüsteemis samad. Kui toote ABC tootekood ühes süsteemis on 1234, siis igas lähtesüsteemis on selle toote kood 1234.
[Järjepidevus. Andmevälja vorm ja sisu on erinevates lähtesüsteemides samad. Kui toote ABC tootekood ühes süsteemis on 1234, siis igas lähtesüsteemis on selle toote kood 1234.]

Koondamine. Samu andmeid ei tohi süsteemis salvestada rohkem kui ühes kohas. Kui andmeelementi salvestatakse tõhususe huvides tahtlikult rohkem kui ühte kohta süsteemis, siis tuleb liiasus selgelt tuvastada ja kontrollida.
[Koondamine. Samu andmeid ei tohiks süsteemis salvestada rohkem kui ühes kohas. Kui tõhususe huvides salvestatakse andmeelementi tahtlikult süsteemi mitmesse kohta, tuleb liiasus selgelt määratleda ja kontrollida.]

Täielikkus. Antud atribuudi jaoks süsteemis puuduvad väärtused. Näiteks peab kliendifailis olema iga kliendi jaoks kehtiv väärtus väljal „state”. Tellimuse üksikasjade failis peavad kõik tellimuse üksikasjad olema täielikult täidetud.
[Täielikkus. Selle atribuudi jaoks pole süsteemis väärtusi puudu. Näiteks peab kliendifailil olema iga kliendi jaoks kehtiv väärtus väljal "status". Tellimuse üksikasjade failis peab iga tellimuse üksikasjade kirje olema täielikult täidetud.]

Dubleerimine. Kirjete dubleerimine süsteemis on täielikult lahendatud. Kui tootefailis on teadaolevalt duplikaatkirjeid, tuvastatakse iga toote kõik duplikaatkirjed ja luuakse ristviide.
[Duplikaat. Kirjete dubleerimine süsteemis on täielikult välistatud. Kui tootefail sisaldab teadaolevalt duplikaatkirjeid, tuvastatakse iga toote kõik duplikaatkirjed ja luuakse ristviide.]

Ärireeglite järgimine. Iga andmeüksuse väärtused vastavad ettenähtud ärireeglitele. Oksjonisüsteemis ei tohi haamri- või müügihind olla väiksem kui reservhind. Pangalaenusüsteemis peab laenujääk olema alati positiivne või null.
[Ärireeglite järgimine. Iga andmeelemendi väärtused vastavad kehtestatud ärireeglitele. Oksjonisüsteemis ei tohi haamri- või müügihind olla väiksem kui reservhind. Panga krediidisüsteemis peab laenujääk alati olema positiivne või null.]

Struktuurne definitsioon. Kui andmeüksuse saab loomulikult struktureerida üksikuteks komponentideks, peab üksus sisaldama seda täpselt määratletud struktuuri. Näiteks üksikisiku nimi jaguneb loomulikult eesnimeks, keskmiseks initsiaaliks ja perekonnanimeks. Üksikisikute nimede väärtused tuleb salvestada eesnime, keskmise initsiaali ja perekonnanimena. See andmekvaliteedi omadus lihtsustab standardite jõustamist ja vähendab puuduvaid väärtusi.
[Struktuurne kindlus. Kui andmeelemendi saab loomulikult struktureerida üksikuteks komponentideks, peab element sisaldama seda täpselt määratletud struktuuri. Näiteks inimese nimi jaguneb loomulikult eesnimeks, keskmiseks initsiaaliks ja perekonnanimeks. Üksikute nimede väärtused tuleks salvestada eesnime, keskmise initsiaali ja perekonnanimena. See andmete kvaliteedinäitaja lihtsustab standardite rakendamist ja vähendab puuduvaid väärtusi.]

Andmete anomaalia. Välja tuleb kasutada ainult sellel eesmärgil, milleks see on määratletud. Kui väli Aadress-3 on määratletud pikkade aadresside mis tahes võimaliku kolmanda aadressirea jaoks, tuleb seda välja kasutada ainult kolmanda aadressirea salvestamiseks. Seda ei tohi kasutada kliendi telefoni- või faksinumbri sisestamiseks.
[Andmete anomaalia. Välja tohib kasutada ainult sellel eesmärgil, milleks see on määratletud. Kui väli Aadress-3 on määratletud mis tahes võimaliku kolmanda aadressirea jaoks pikkade aadresside jaoks, kasutatakse seda välja ainult kolmanda aadressirea salvestamiseks. Seda ei tohiks kasutada kliendi telefoni- või faksinumbri sisestamiseks.]

Selgus. Andmeelemendil võivad olla kõik muud kvaliteetsete andmete tunnused, kuid kui kasutajad ei mõista selle tähendust selgelt, siis pole andmeelemendil kasutajate jaoks mingit väärtust. Õiged nimetamisreeglid aitavad andmeelemente kasutajatele hästi arusaadavaks muuta.
[Selgus. Andmeelemendil võivad olla kõik muud headele andmetele omased omadused, kuid kui kasutajad selle tähendusest selgelt aru ei saa, pole andmeelemendil kasutajatele väärtust. Õiged nimetamistavad aitavad andmeelemendid kasutajatele hästi arusaadavaks muuta.]

Õigeaegne. Andmete õigeaegsuse määravad kasutajad. Kui kasutajad eeldavad, et kliendi dimensiooni andmed ei ole vanemad kui üks päev, tuleb muudatused lähtesüsteemide kliendiandmetes andmelaole rakendada iga päev.
[Õigeaegselt. Kasutajad määravad andmete õigeaegsuse. Kui kasutajad eeldavad, et kliendi dimensiooni andmed ei ole vanemad kui üks päev, tuleks lähtesüsteemide kliendiandmete muudatusi andmelaole rakendada iga päev.]

Kasulikkus. Iga andmelao andmeelement peab vastama teatud kasutajate kogumise nõuetele. Andmeelement võib olla täpne ja kvaliteetne, kuid kui sellel pole kasutajatele mingit väärtust, siis pole selle andmeelemendi olemasolu andmelaos täiesti ebavajalik.
[Kasulikkus. Iga andmesalves olev andmeüksus peab vastama teatud kasutajakogu nõuetele. Andmeelement võib olla täpne ja kvaliteetne, kuid kui see ei paku kasutajatele väärtust, siis ei pea see andmeelement andmelaos olema.]

Andmete terviklikkuse reeglite järgimine. Lähtesüsteemide relatsiooniandmebaasides salvestatud andmed peavad järgima olemi terviklikkuse ja viiteterviklikkuse reegleid. Ükski tabel, mis lubab nulli primaarvõtmena, ei oma olemi terviklikkust. Viitamise terviklikkus sunnib vanema ja lapse suhteid õigesti looma. Kliendilt tellimusele suhetes tagab viiteterviklikkus kliendi olemasolu igale andmebaasis olevale tellimusele.
[Andmete terviklikkuse reeglite järgimine. Lähtesüsteemide relatsiooniandmebaasides salvestatud andmed peavad vastama olemi terviklikkuse ja viiteterviklikkuse reeglitele. Ükski tabel, mis lubab nulli primaarvõtmena, ei oma olemi terviklikkust. Viitamise terviklikkus sunnib vanemate ja laste vahelist suhet õigesti looma. Kliendi-tellimuse suhetes tagab viiteline terviklikkus, et iga andmebaasis oleva tellimuse jaoks on klient olemas.]

4. Andmete puhastamise kvaliteet

Andmete puhastamise kvaliteet on bigdata puhul üsna problemaatiline teema. Iga andmeanalüütiku jaoks on väga oluline vastata küsimusele, millisel tasemel andmeid on ülesande täitmiseks vaja puhastada. Enamiku praeguste probleemide puhul määrab iga analüütik selle ise ja on ebatõenäoline, et keegi väljastpoolt suudab seda aspekti oma lahenduses hinnata. Kuid antud juhul käsil oleva ülesande jaoks oli see küsimus äärmiselt oluline, kuna juriidiliste andmete usaldusväärsus peaks olema üks.

Tarkvara testimistehnoloogiate arvestamine töökindluse määramiseks. Tänapäeval on neid mudeleid rohkem 200. Paljud mudelid kasutavad nõuete teenindamise mudelit:

Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline
Joon. 6

Mõeldes järgmiselt: "Kui leitud tõrge on selle mudeli rikkesündmusega sarnane sündmus, siis kuidas leida parameetri t analoog?" Ja koostasin järgmise mudeli: Kujutame ette, et aeg, mis testijal kulub ühe kirje kontrollimiseks, on 1 minut (kõnealuse andmebaasi puhul), siis kõigi vigade leidmiseks kulub tal 365 494 minutit, mis on ligikaudu 3 aastat ja 3 kuud tööaega. Nagu me aru saame, on tegemist väga suure töömahuga ja andmebaasi kontrollimise kulud lähevad selle andmebaasi koostajale üle jõu. Selles mõtiskluses ilmneb kulude majanduslik mõiste ja pärast analüüsi jõudsin järeldusele, et see on üsna tõhus tööriist. Lähtudes majandusseadusest: “Tootmismaht (ühikutes), mille juures saavutatakse ettevõtte maksimaalne kasum, asub kohas, kus võrreldakse uue toodanguühiku tootmise piirkulu hinnaga, mida see ettevõte võib saada. uue üksuse jaoks." Lähtudes postulaadist, et iga järgneva vea leidmine nõuab üha enam kirjete kontrollimist, on see kulutegur. See tähendab, et testimismudelites omaks võetud postulaat omandab füüsilise tähenduse järgmises mustris: kui i-nda vea leidmiseks oli vaja kontrollida n kirjet, siis järgmise (i+1) vea leidmiseks kontrollida m kirjet ja samal ajal n

  1. Kui enne uue vea leidmist kontrollitud kirjete arv stabiliseerub;
  2. Kui enne järgmise vea leidmist kontrollitud kirjete arv suureneb.

Kriitilise väärtuse määramiseks pöördusin majandusliku teostatavuse kontseptsiooni poole, mille antud juhul saab sotsiaalsete kulude mõistet kasutades sõnastada järgmiselt: „Vea parandamise kulud peaks kandma see majandussubjekt, kes suudab seda teha. seda kõige madalama hinnaga." Meil on üks agent – ​​testija, kes kulutab ühe kirje kontrollimiseks 1 minuti. Rahalises mõttes, kui teenite 6000 rubla päevas, on see 12,2 rubla. (umbes täna). Jääb kindlaks määrata majandusõiguse tasakaalu teine ​​pool. Ma arutlesin nii. Olemasolev viga nõuab asjaomaselt isikult, st kinnisvaraomanikult, selle parandamiseks pingutusi. Oletame, et selleks on vaja 1 päeva tegutseda (esitada avaldus, saada parandatud dokument). Siis on tema kulud sotsiaalsest vaatenurgast võrdsed keskmise päevapalgaga. Keskmine kogunenud palk Hantõ-Mansi autonoomses ringkonnas "Hantõ-Mansiiski autonoomse ringkonna Ugra sotsiaal-majandusliku arengu tulemused jaanuar-september 2019" 73285 hõõruda. või 3053,542 rubla päevas. Sellest lähtuvalt saame kriitilise väärtuse, mis on võrdne:
3053,542: 12,2 = 250,4 kirjet.

See tähendab sotsiaalsest vaatenurgast, et kui testija kontrollis 251 kirjet ja leidis ühe vea, on see samaväärne sellega, et kasutaja parandab selle vea ise. Seega, kui testija kulutas järgmise vea leidmiseks aega, mis võrdub 252 kirje kontrollimisega, on sel juhul parem suunata paranduskulud kasutajale.

Siin on esitatud lihtsustatud lähenemine, kuna sotsiaalsest aspektist on vaja arvestada iga spetsialisti kogu lisaväärtusega, see tähendab kulusid, sealhulgas makse ja sotsiaalmakseid, kuid mudel on selge. Selle seose tagajärjeks on spetsialistidele esitatav nõue: IT-valdkonna spetsialistil peab olema riigi keskmisest suurem palk. Kui tema palk on väiksem potentsiaalsete andmebaasi kasutajate keskmisest palgast, siis peab ta ise kogu andmebaasi käest-kätte kontrollima.

Kirjeldatud kriteeriumi kasutamisel kujuneb esimene nõue andmebaasi kvaliteedile:
I(tr). Kriitiliste vigade osakaal ei tohiks ületada 1/250,4 = 0,39938%. Natuke vähem kui rafineerimine kuld tööstuses. Ja füüsilises mõttes pole vigadega rohkem kui 1459 kirjet.

Majanduslik taganemine.

Tegelikult nõustub ühiskond, tehes nii palju vigu kirjetes, majandusliku kahjuga summas:

1459 * 3053,542 = 4 455 118 rubla.

Selle summa määrab asjaolu, et ühiskonnal puuduvad vahendid nende kulude vähendamiseks. Sellest järeldub, et kui kellelgi on tehnoloogia, mis võimaldab vähendada vigadega kirjete arvu näiteks 259-ni, siis see võimaldab ühiskonnal kokku hoida:
1200 * 3053,542 = 3 664 250 rubla.

Kuid samal ajal võib ta küsida oma talenti ja tööd, noh, ütleme - 1 miljon rubla.
See tähendab, et sotsiaalkulusid vähendatakse:

3 664 250 – 1 000 000 = 2 664 250 rubla.

Sisuliselt on see efekt BigDati tehnoloogiate kasutamisest saadav lisandväärtus.

Kuid siin tuleb arvestada, et see on sotsiaalne efekt ja andmebaasi omanik on kohalikud omavalitsused, nende tulud selles andmebaasis registreeritud vara kasutamisest 0,3% määraga on: 2,778 miljardit rubla/ aastal. Ja need kulud (4 455 118 rubla) teda eriti ei häiri, kuna need kantakse üle kinnisvaraomanikele. Ja selles aspektis peab Bigdata täiustatud tehnoloogiate arendaja näitama suutlikkust selle andmebaasi omanikku veenda ja sellised asjad nõuavad märkimisväärset talenti.

Selles näites valiti veahindamise algoritm Schumanni mudeli [2] põhjal, mis põhineb tarkvara verifitseerimisel usaldusväärsuse testimisel. Tänu selle levikule Internetis ja võimalusele hankida vajalikke statistilisi näitajaid. Metoodika on võetud Monakhov Yu.M. “Infosüsteemide funktsionaalne stabiilsus”, vt spoileri all joonisel fig. 7-9.

Riis. 7 – 9 Schumanni mudeli metoodikaPuhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline

Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline

Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline

Selle materjali teises osas on toodud andmete puhastamise näide, milles saadakse Schumanni mudeli kasutamise tulemused.
Lubage mul esitada saadud tulemused:
Hinnanguline vigade arv N = 3167 n.
Parameeter C, lambda ja töökindlusfunktsioon:

Puhastage andmeid nagu kivi, paberi ja kääride mäng. Kas see mäng on lõpuga või ilma? Osa 1. Teoreetiline
Joonis 17

Põhimõtteliselt on lambda igas etapis vigade tuvastamise intensiivsuse tegelik näitaja. Kui vaadata teist osa, siis selle näitaja hinnang oli 42,4 viga tunnis, mis on üsna võrreldav Schumanni näitajaga. Ülalpool tehti kindlaks, et 1 kirje kontrollimisel minutis ei tohiks arendaja vigade leidmise määr olla väiksem kui 250,4 viga 1 kirje kohta. Siit tuleneb lambda kriitiline väärtus Schumanni mudeli jaoks:

60 / 250,4 = 0,239617.

See tähendab, et vigade tuvastamise protseduuride läbiviimise vajadus tuleb läbi viia seni, kuni lambda väheneb olemasolevalt 38,964-lt väärtusele 0,239617.

Või kuni indikaator N (potentsiaalne vigade arv) miinus n (parandatud vigade arv) langeb alla meie aktsepteeritud läve – 1459 tk.

Kirjandus

  1. Monakhov, Yu. M. Infosüsteemide funktsionaalne stabiilsus. 3 tunniga Osa 1. Tarkvara töökindlus: õpik. toetus / Yu. M. Monakhov; Vladimir. olek univ. – Vladimir: Izvo Vladim. olek Ülikool, 2011. – 60 lk. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Tarkvara töökindluse prognoosimise tõenäosuslikud mudelid".
  3. Andmeladustamise põhialused IT-spetsialistidele / Paulraj Ponniah – 2. väljaanne.

Teine osa. Teoreetiline

Allikas: www.habr.com

Lisa kommentaar