Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis

1. Data awal

Ngabersihan data mangrupikeun salah sahiji tantangan anu disanghareupan dina tugas analisis data. Bahan ieu ngagambarkeun kamajuan sareng solusi anu timbul salaku hasil tina ngarengsekeun masalah praktis tina analisa database dina formasi nilai kadaster. Sumber di dieu "LAPORAN No. 01/OKS-2019 ngeunaan hasil pangajen kadaster nagara sadaya jinis perumahan (iwal plot lahan) di daérah Okrug Otonom Khanty-Mansiysk - Ugra".

File "Total model komparatif.ods" dina "Appendix B. Hasil tina nangtukeun KS 5. Émbaran ngeunaan métode nangtukeun nilai cadastral 5.1 pendekatan komparatif" dianggap.

Tabél 1. Indikator statistik tina set data dina file "Total model komparatif.ods"
Jumlah total widang, pcs. — 44
Jumlah total rékaman, pcs. — 365 490
Jumlah karakter, pcs. — 101 714 693
Jumlah rata-rata karakter dina rékaman, pcs. — 278,297
simpangan baku tina karakter dina rékaman, pcs. — 15,510
Jumlah minimum karakter dina entri, pcs. — 198
Jumlah maksimum karakter dina entri, pcs. — 363

2. Bagian bubuka. Standar dasar

Nalika nganalisa database anu ditangtukeun, tugas dibentuk pikeun netepkeun sarat pikeun tingkat purifikasi, sabab, sakumaha anu jelas pikeun sadayana, database anu ditangtukeun nyiptakeun akibat hukum sareng ékonomi pikeun pangguna. Salila digawé, tétéla teu aya sarat husus pikeun darajat beberesih data badag. Nganalisis norma hukum dina masalah ieu, kuring sumping ka kacindekan yen aranjeunna sadayana kabentuk tina kemungkinan. Nyaéta, tugas anu tangtu parantos muncul, sumber inpormasi disusun pikeun tugas éta, teras set data kabentuk sareng, dumasar kana set data anu diciptakeun, alat pikeun ngarengsekeun masalah. Solusi anu dihasilkeun mangrupikeun titik rujukan dina milih alternatif. Kuring dibere ieu dina Gambar 1.

Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis

Kusabab, dina urusan nangtukeun standar naon waé, langkung saé ngandelkeun téknologi anu kabuktian, kuring milih sarat anu dijelaskeun dina "Definisi Integritas Data MHRA GxP sareng Pituduh pikeun Industri", sabab kuring dianggap dokumén ieu paling komprehensif pikeun masalah ieu. Khususna, dina dokumén ieu bagian nyebutkeun "Perlu diperhatoskeun yén sarat integritas data berlaku sami sareng manual (kertas) sareng data éléktronik." (tarjamahan: "... syarat integritas data lumaku sarua pikeun manual (kertas) jeung data éléktronik"). Rumusan ieu rada husus pakait jeung konsep "bukti tertulis", dina katangtuan Pasal 71 tina Code of Civil Procedure, Art. 70 CAS, Pasal 75 APC, "dina tulisan" Art. 84 Code of Prosedur Perdata.

Gambar 2 nampilkeun diagram formasi pendekatan kana jinis inpormasi dina yurisprudensi.

Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis
Sangu. 2. Sumber di dieu.

Gambar 3 nunjukkeun mékanisme Gambar 1, pikeun tugas-tugas di luhur "Pitunjuk". Gampang, ku cara ngabandingkeun, ningali yén pendekatan anu dianggo nalika nyumponan sarat pikeun integritas inpormasi dina standar modern pikeun sistem inpormasi sacara signifikan dugi dibandingkeun sareng konsép hukum inpormasi.

Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis
Gbr.3

Dina dokumén anu ditangtukeun (Panduan), sambungan kana bagian téknis, kamampuan pikeun ngolah sareng nyimpen data, ogé dikonfirmasi ku cutatan tina Bab 18.2. Database Relational: "Struktur file ieu inherently leuwih aman, sabab data disimpen dina format file badag nu preserves hubungan antara data jeung metadata."

Nyatana, dina pendekatan ieu - tina kamampuan téknis anu tos aya, teu aya anu teu normal sareng, nyalira, éta mangrupikeun prosés alami, sabab ékspansi konsép asalna tina kagiatan anu paling ditaliti - desain database. Tapi, di sisi anu sanésna, norma hukum muncul anu henteu nyayogikeun diskon pikeun kamampuan téknis sistem anu aya, contona: GDPR - Peraturan Protection Data Umum.

Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis
Sangu. 4. Saluran kamampuan téknis (sumber).

Dina aspék ieu, janten jelas yén dataset aslina (Gbr. 1) kudu, mimiti sagala, disimpen, sarta Bréh, jadi dadasar pikeun extracting informasi tambahan ti dinya. Muhun, salaku conto: kaméra ngarekam aturan lalulintas anu ubiquitous, sistem ngolah informasi nalungtik kaluar violators, tapi informasi sejenna ogé bisa ditawarkeun ka konsumén séjén, contona, salaku monitoring pamasaran struktur aliran konsumén ka puseur balanja. Sareng ieu mangrupikeun sumber nilai tambihan tambahan nalika nganggo BigDat. Ieu rada mungkin yen datasets keur dikumpulkeun ayeuna, wae dina mangsa nu bakal datang, bakal boga nilai nurutkeun mékanisme sarupa jeung nilai édisi langka 1700 dina waktos ayeuna. Barina ogé, dina kanyataanana, datasets samentara anu unik sarta saperti teu mirip diulang dina mangsa nu bakal datang.

3. Bagian bubuka. Kritéria évaluasi

Salila prosés ngolah, klasifikasi kasalahan di handap ieu dikembangkeun.

1. Kelas kasalahan (dumasar kana GOST Sunda 8.736-2011): a) kasalahan sistematis; b) kasalahan acak; c) kasalahan.

2. Ku multiplicity: a) distorsi mono; b) multi-distorsi.

3. Nurutkeun kritisitas balukarna: a) kritis; b) teu kritis.

4. Dumasar sumber kajadian:

A) Téknis - kasalahan anu lumangsung nalika operasi alat. Kasalahan anu cukup relevan pikeun sistem IoT, sistem anu ngagaduhan pangaruh anu signifikan dina kualitas komunikasi, alat (hardware).

B) Kasalahan operator - kasalahan dina rupa-rupa ti typos operator salila input pikeun kasalahan dina spésifikasi teknis pikeun desain database.

C) Kasalahan pangguna - ieu mangrupikeun kasalahan pangguna dina sadaya rentang tina "poho ngalihkeun perenah" dugi ka salah méter pikeun suku.

5. Dipisahkeun kana kelas anu misah:

a) "tugas pemisah," nyaéta, rohangan sareng ":" (dina hal urang) nalika duplikat;
b) kecap-kecap anu ditulis babarengan;
c) euweuh spasi sanggeus karakter jasa
d) sababaraha simbol simetris: (), "", "...".

Dicokot babarengan, jeung systematization kasalahan database dibere dina Gambar 5, sistem koordinat cukup éféktif kabentuk pikeun maluruh kasalahan sarta ngamekarkeun algoritma beberesih data pikeun conto ieu.

Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis
Sangu. 5. Kasalahan ilaharna pakait jeung unit struktural database (Sumber: Oreshkov V.I., Paklin N.B. "Konsép konci konsolidasi data").

Akurasi, Integritas Domain, Tipe Data, Konsistensi, Redundancy, Completeness, Duplikasi, Conformance kana Aturan Usaha, Structural Definiteness, Data Anomali, Clarity, Timely, Adherence kana Aturan Integritas Data. (Kaca 334. Dasar gudang data pikeun professional IT / Paulraj Ponniah.-2nd ed.)

Dibere kecap Inggris jeung terjemahan mesin Rusia dina kurung.

Akurasi. Nilai anu disimpen dina sistem pikeun unsur data mangrupikeun nilai anu pas pikeun lumangsungna unsur data. Upami anjeun gaduh nami palanggan sareng alamat anu disimpen dina rékaman, maka alamatna mangrupikeun alamat anu leres pikeun palanggan anu nami éta. Upami anjeun mendakan kuantitas anu dipesen salaku 1000 unit dina catetan kanggo nomer pesenan 12345678, maka kuantitas éta mangrupikeun kuantitas anu akurat pikeun pesenan éta.
[Akurasi. Nilai anu disimpen dina sistem pikeun unsur data mangrupikeun nilai anu leres pikeun lumangsungna unsur data. Upami anjeun gaduh nami palanggan sareng alamat anu disimpen dina rékaman, maka alamatna mangrupikeun alamat anu leres pikeun palanggan anu nami éta. Upami anjeun mendakan kuantitas anu dipesen salaku 1000 unit dina catetan kanggo nomer pesenan 12345678, maka kuantitas éta mangrupikeun kuantitas pasti pikeun pesenan éta.]

Integritas Domain. Nilai data tina atribut ragrag dina rentang allowable, nilai diartikeun. Conto umum nyaéta nilai anu diidinan janten "jalu" sareng "awéwé" pikeun unsur data gender.
[Integritas Domain. Nilai data atribut ragrag dina rentang valid, nilai tangtu. Conto umum nyaéta nilai valid "lalaki" sareng "awéwé" pikeun unsur data génder.]

Tipe Data. Nilai pikeun atribut data sabenerna disimpen salaku tipe data anu ditetepkeun pikeun atribut éta. Lamun tipe data widang ngaran toko dihartikeun salaku "teks," sakabeh instansi widang eta ngandung nami toko ditémbongkeun dina format tékstual teu kode numerik.
[Tipe data. Nilai atribut data sabenerna disimpen salaku tipe data anu ditetepkeun pikeun atribut éta. Lamun tipe data widang ngaran toko dihartikeun salaku "teks", sadaya conto widang ieu ngandung ngaran toko nu dipintonkeun dina format téks tinimbang kode numerik.]

Konsistensi. Wangun sareng eusi widang data sami dina sababaraha sistem sumber. Upami kode produk pikeun produk ABC dina hiji sistem nyaéta 1234, maka kode pikeun produk ieu nyaéta 1234 dina unggal sistem sumber.
[Konsistensi. Bentuk jeung eusi widang data sarua dina sistem sumber béda. Upami kode produk pikeun produk ABC dina hiji sistem nyaéta 1234, maka kode pikeun produk éta nyaéta 1234 dina unggal sistem sumber.]

Redundansi. Data anu sarua teu kudu disimpen dina leuwih ti hiji tempat dina sistem. Upami, ku alesan efisiensi, unsur data ngahaja disimpen di langkung ti hiji tempat dina sistem, maka redundansi kedah jelas sareng diverifikasi.
[Rénduransi. Data anu sarua teu kudu disimpen dina leuwih ti hiji tempat dina sistem. Upami, ku alesan efisiensi, unsur data ngahaja disimpen di sababaraha lokasi dina sistem, maka redundansi kedah didefinisikeun sareng diverifikasi sacara jelas.]

Kasampurnaan. Henteu aya nilai anu leungit pikeun atribut anu dipasihkeun dina sistem. Contona, dina file customer, kudu aya nilai valid pikeun widang "kaayaan" pikeun unggal customer. Dina file pikeun detil pesenan, unggal catetan rinci pikeun pesenan kedah dieusi lengkep.
[Kalengkepan. Henteu aya nilai anu leungit dina sistem pikeun atribut ieu. Contona, file klien kudu boga nilai valid pikeun widang "status" pikeun tiap klien. Dina file detil pesenan, unggal rékaman detil pesenan kedah lengkep lengkep.]

Duplikasi. Duplikasi rékaman dina sistem tos rengse direngsekeun. Upami file produk dipikanyaho gaduh rékaman duplikat, maka sadaya rékaman duplikat pikeun tiap produk diidentifikasi sareng referensi silang diciptakeun.
[Duplikat. Duplikasi rékaman dina sistem parantos dileungitkeun. Upami file produk dipikanyaho ngandung éntri duplikat, maka sadaya éntri duplikat pikeun tiap produk diidentifikasi sareng rujukan silang didamel.]

Conformance kana Aturan Usaha. Nilai unggal item data taat kana aturan bisnis prescribed. Dina sistem lélang, harga palu atanapi jual henteu tiasa langkung handap tina harga cagar. Dina sistem injeuman bank, kasaimbangan injeuman kudu salawasna positif atawa nol.
[Patuh kana aturan bisnis. Nilai unggal unsur data saluyu sareng aturan bisnis anu ditetepkeun. Dina sistem lélang, harga palu atanapi jual henteu tiasa langkung handap tina harga cagar. Dina sistem kiridit perbankan, kasaimbangan injeuman kedah salawasna positip atanapi nol.]

Kapastian Struktural. Dimana wae hiji item data bisa alami jadi terstruktur kana komponén individu, item kudu ngandung struktur well-diartikeun ieu. Contona, ngaran hiji individu sacara alami ngabagi jadi ngaran hareup, awal tengah, jeung ngaran tukang. Nilai pikeun ngaran individu kudu disimpen salaku ngaran hareup, awal tengah, jeung ngaran tukang. Karakteristik kualitas data ieu nyederhanakeun penegak standar sareng ngirangan nilai anu leungit.
[Kapastian Struktural. Dimana hiji unsur data bisa alami terstruktur kana komponén individu, unsur kudu ngandung struktur well-diartikeun ieu. Contona, ngaran hiji jalma sacara alami dibagi jadi ngaran hareup, awal tengah, jeung ngaran tukang. Nilai pikeun ngaran individu kudu disimpen salaku ngaran hareup, awal tengah, jeung ngaran tukang. Karakteristik kualitas data ieu nyederhanakeun aplikasi standar sareng ngirangan nilai anu leungit.]

Anomali Data. Widang kedah dianggo ngan ukur pikeun tujuan anu didefinisikeun. Lamun widang Alamat-3 diartikeun pikeun sagala baris katilu mungkin alamat pikeun alamat panjang, lajeng widang ieu kudu dipaké ngan pikeun ngarékam garis katilu alamat. Teu kudu dipaké pikeun ngasupkeun nomer telepon atawa fax keur nasabah.
[Anomali Data. Widang ngan kedah dianggo pikeun tujuan anu didefinisikeun. Lamun widang Alamat-3 dihartikeun pikeun sagala baris alamat katilu mungkin pikeun alamat panjang, mangka widang ieu ngan bakal dipaké pikeun ngarekam garis alamat katilu. Henteu kedah dianggo pikeun nuliskeun nomer telepon atanapi fax pikeun palanggan.]

Kajelasan. Hiji unsur data bisa mibanda sagala ciri séjén tina kualitas data tapi lamun pamaké teu ngarti hartina jelas, unsur data euweuh nilai keur pamaké. Konvénsi penamaan anu leres ngabantosan unsur data kahartos ku pangguna.
[Kajelasan. Hiji unsur data bisa mibanda sakabéh ciri séjén data alus, tapi lamun pamaké teu jelas ngartos hartina, unsur data euweuh nilai keur pamaké. Konvénsi penamaan anu leres ngabantosan unsur data kahartos ku pangguna.]

Pas waktuna. Pamaké nangtukeun timeliness data. Upami pangguna ngarepkeun data diménsi palanggan henteu langkung lami ti hiji dinten, parobihan kana data palanggan dina sistem sumber kedah diterapkeun kana gudang data unggal dinten.
[Dina waktuna. Pamaké nangtukeun timeliness data. Upami pangguna ngarepkeun data diménsi palanggan umurna henteu langkung ti hiji dinten, parobihan kana data palanggan dina sistem sumber kedah diterapkeun kana gudang data unggal dinten.]

Mangpaat. Unggal unsur data dina gudang data kudu nyugemakeun sababaraha sarat tina kumpulan pamaké. Unsur data tiasa akurat sareng kualitasna luhur, tapi upami henteu aya nilai pikeun pangguna, maka unsur data éta henteu kedah aya dina gudang data.
[Utiliti. Unggal item data dina toko data kedah nyugemakeun sababaraha sarat tina kumpulan pamaké. Unsur data tiasa akurat sareng kualitasna luhur, tapi upami henteu masihan nilai ka pangguna, maka unsur data éta henteu kedah aya dina gudang data.]

Adherence kana Aturan Integritas Data. Data anu disimpen dina basis data relasional tina sistem sumber kedah patuh kana integritas éntitas sareng aturan integritas rujukan. Sakur méja anu ngamungkinkeun null salaku konci primér henteu gaduh integritas éntitas. Integritas rujukan maksakeun ngadegkeun hubungan indung-anak kalayan leres. Dina hubungan customer-to-order, integritas referential ensures ayana customer pikeun unggal urutan dina database.
[Patuh kana aturan integritas data. Data anu disimpen dina basis data relasional sistem sumber kedah patuh kana aturan integritas éntitas sareng integritas rujukan. Sakur méja anu ngamungkinkeun null salaku konci primér henteu gaduh integritas éntitas. Integritas referensial maksakeun hubungan antara kolot sareng murangkalih pikeun ngadegkeun sacara leres. Dina hubungan pesenan-palanggan, integritas referensial mastikeun yén palanggan aya pikeun unggal pesenan dina pangkalan data.]

4. Kualitas beberesih data

Kualitas beberesih data mangrupikeun masalah anu rada masalah dina bigdata. Ngawalon patarosan naon darajat beberesih data diperlukeun pikeun ngarengsekeun tugas penting pikeun unggal analis data. Dina sabagéan ageung masalah ayeuna, unggal analis nangtukeun ieu nyalira sareng teu mungkin saha waé ti luar tiasa ngevaluasi aspék ieu dina solusi na. Tapi pikeun tugas di leungeun dina hal ieu, masalah ieu penting pisan, saprak reliabiliti data légal kedah condong ka hiji.

Mertimbangkeun téknologi nguji software pikeun nangtukeun reliabilitas operasional. Kiwari aya leuwih ti model ieu 200. Seueur model nganggo modél jasa klaim:

Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis
Gbr. Xnumx

Pamikiran kieu: "Upami kasalahan anu dipendakan mangrupikeun kajadian anu sami sareng kajadian gagal dina modél ieu, teras kumaha milarian analog tina parameter t?" Sarta kuring disusun model kieu: Hayu urang ngabayangkeun yén waktu nu diperlukeun hiji tester mariksa hiji catetan nyaéta 1 menit (pikeun database sual), lajeng pikeun manggihan sagala kasalahan anjeunna bakal butuh 365 menit, nu kira 494 taun jeung 3. bulan waktu gawé. Salaku urang ngartos, ieu téh jumlah anu kacida gedéna di karya jeung waragad mariksa database bakal prohibitive pikeun compiler database ieu. Dina cerminan ieu, konsép ékonomi biaya némbongan sarta sanggeus analisa kuring sumping ka kacindekan yen ieu alat cukup éféktif. Dumasar kana hukum ékonomi: "Volume produksi (dina hijian) di mana kauntungan maksimum hiji pausahaan kahontal lokasina di titik dimana biaya marginal ngahasilkeun hiji unit kaluaran anyar dibandingkeun jeung harga nu parusahaan ieu bisa narima. pikeun unit anyar." Dumasar kana dalil yén nyungsi unggal kasalahan saterusna merlukeun beuki loba mariksa rékaman, ieu faktor ongkos. Nyaéta, postulat anu diadopsi dina modél tés nyandak hartos fisik dina pola ieu: upami mendakan kasalahan i-th kedah mariksa n rékaman, teras milarian kasalahan (i + 3) salajengna bakal diperyogikeun. pikeun pariksa m rékaman sarta sakaligus n

  1. Nalika jumlah rékaman dipariksa saméméh kasalahan anyar kapanggih stabilizes;
  2. Nalika jumlah rékaman dipariksa saméméh manggihan kasalahan salajengna bakal nambahan.

Pikeun nangtukeun nilai kritis, kuring balik kana konsép feasibility ékonomi, nu dina hal ieu, ngagunakeun konsep waragad sosial, bisa dirumuskeun saperti kieu: "Biaya koréksi kasalahan kudu ditanggung ku agén ékonomi nu bisa ngalakukeun. éta dina biaya panghandapna ". Simkuring gaduh hiji agén - a tester anu méakkeun 1 menit mariksa hiji catetan. Dina istilah moneter, lamun earn 6000 rubles / dinten, ieu bakal jadi 12,2 rubles. (kira-kira kiwari). Tetep nangtukeun sisi kadua kasatimbangan dina hukum ékonomi. Kuring nalar siga kieu. Kasalahan anu aya bakal meryogikeun jalma anu prihatin pikeun usaha pikeun ngabenerkeunana, nyaéta, anu gaduh harta. Anggap ieu butuh 1 dinten tindakan (kintunkeun aplikasi, nampi dokumén anu dilereskeun). Teras, tina sudut pandang sosial, biayana bakal sami sareng gaji rata-rata per dinten. Gaji rata-rata accrued di Khanty-Mansi Otonom Okrug "Hasil pangwangunan sosio-ékonomi Okrug Otonom Khanty-Mansiysk - Ugra pikeun Januari-September 2019" 73285 ngagosok. atanapi 3053,542 rubles / dinten. Sasuai, urang meunangkeun nilai kritis sarua jeung:
3053,542: 12,2 = 250,4 hijian rékaman.

Ieu hartosna, tina sudut pandang sosial, upami panguji pariksa 251 rékaman sareng mendakan hiji kasalahan, éta sami sareng pangguna ngalereskeun kasalahan ieu nyalira. Sasuai, lamun tester méakkeun waktu sarua jeung mariksa 252 rékaman pikeun manggihan kasalahan salajengna, dina hal ieu eta leuwih hade pikeun mindahkeun biaya koréksi ka pamaké.

A pendekatan saderhana dibere dieu, sabab tina sudut pandang sosial perlu tumut kana akun sagala nilai tambahan dihasilkeun unggal spesialis, nyaeta, waragad kaasup pajeg jeung pangmayaran sosial, tapi model jelas. Konsékuansi tina hubungan ieu sarat di handap pikeun spesialis: spesialis ti industri IT kudu boga gaji leuwih gede ti rata nasional. Upami gajina langkung handap tina gaji rata-rata pangguna database poténsial, maka anjeunna nyalira kedah mariksa sadayana database sacara panangan.

Nalika nganggo kriteria anu dijelaskeun, sarat munggaran pikeun kualitas pangkalan data dibentuk:
abdi (tr). Pangsa kasalahan kritis teu kudu ngaleuwihan 1/250,4 = 0,39938%. A saeutik kirang ti pemurnian emas di industri. Sarta dina istilah fisik euweuh leuwih ti 1459 rékaman jeung kasalahan.

mundur ékonomi.

Kanyataanna, ku nyieun sababaraha kasalahan dina rékaman, masarakat satuju kana karugian ékonomi dina jumlah:

1459 * 3053,542 = 4 rubles.

Jumlah ieu ditangtukeun ku kanyataan yén masarakat henteu gaduh alat pikeun ngirangan biaya ieu. Kituna, upami aya anu gaduh téknologi anu ngamungkinkeun aranjeunna ngirangan jumlah rékaman kalayan kasalahan, contona, 259, maka ieu bakal ngamungkinkeun masarakat pikeun ngahemat:
1200 * 3053,542 = 3 rubles.

Tapi dina waktos anu sareng, anjeunna tiasa menta bakat na karya, sumur, hayu urang nyebutkeun - 1 juta rubles.
Hartina, biaya sosial dikirangan ku:

3 - 664 = 250 rubles.

Intina, pangaruh ieu mangrupikeun nilai tambah tina panggunaan téknologi BigDat.

Tapi di dieu kudu tumut kana akun yén ieu téh éfék sosial, jeung nu boga database nyaéta otoritas kotamadya, panghasilan maranéhanana ti pamakéan harta kacatet dina database ieu, dina laju 0,3%, nyaéta: 2,778 miliar rubles / taun. Sareng biaya ieu (4 rubles) henteu ngaganggu anjeunna, sabab ditransferkeun ka anu gaduh harta. Sareng, dina aspék ieu, pamekar téknologi pemurnian anu langkung ageung di Bigdata kedah nunjukkeun kamampuan pikeun ngayakinkeun anu gaduh database ieu, sareng hal-hal sapertos kitu peryogi bakat anu lumayan.

Dina conto ieu, algoritma assessment kasalahan dipilih dumasar kana model Schumann [2] verifikasi software salila nguji reliabilitas. Alatan Prévalénsi na dina Internét jeung kamampuhan pikeun ménta indikator statistik diperlukeun. Metodologi dicokot tina Monakhov Yu.M. "Stabilitas fungsional sistem inpormasi", tingali dina spoiler dina Gbr. 7-9.

Sangu. 7 – 9 Métodologi modél SchumannNgabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis

Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis

Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis

Bagian kadua tina bahan ieu nampilkeun conto beberesih data, dimana hasil tina ngagunakeun modél Schumann dicandak.
Hayu atuh nampilkeun hasil diala:
Jumlah estimasi kasalahan N = 3167 n.
Parameter C, lambda sareng fungsi réliabilitas:

Ngabersihan data sapertos kaulinan Rock, Paper, Gunting. Ieu kaulinan kalayan atawa tanpa tungtung? Bagian 1. Téoritis
Gbr.17

Intina, lambda mangrupikeun indikator saleresna tina inténsitas dimana kasalahan dideteksi dina unggal tahapan. Lamun nempo bagian kadua, estimasi keur indikator ieu 42,4 kasalahan per jam, nu rada comparable kana indikator Schumann. Di luhur, ditetepkeun yén laju pamekar mendakan kasalahan henteu kedah langkung handap tina 1 kasalahan per 250,4 rékaman, nalika mariksa 1 catetan per menit. Ku kituna nilai kritis lambda pikeun modél Schumann:

60 / 250,4 = 0,239617.

Hartina, kabutuhan pikeun ngalaksanakeun prosedur deteksi kasalahan kedah dilaksanakeun dugi ka lambda, tina 38,964 anu aya, turun ka 0,239617.

Atawa dugi indikator N (jumlah poténsi kasalahan) dikurangan n (jumlah dilereskeun kasalahan) nurun handap bangbarung kami katampa - 1459 PCS.

pustaka

  1. Monakhov, Yu. M. stabilitas Fungsional sistem informasi. Dina jam 3. Bagian 1. Reliabiliti software: buku ajar. sangu / Yu. M. Monakhov; Vladimir. kaayaan univ. - Vladimir: Izvo Vladimir. kaayaan universitas, 2011. - 60 p. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "model probabilistik pikeun prediksi reliabiliti software."
  3. Dasar gudang data pikeun profésional IT / Paulraj Ponniah.-2nd ed.

Bagian kadua. Téoritis

sumber: www.habr.com

Tambahkeun komentar