Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori

1. Data awal

Pembersihan data adalah salah satu cabaran yang dihadapi oleh tugasan analisis data. Bahan ini mencerminkan perkembangan dan penyelesaian yang timbul sebagai hasil daripada menyelesaikan masalah praktikal menganalisis pangkalan data dalam pembentukan nilai kadaster. Sumber di sini "LAPORAN No. 01/OKS-2019 mengenai keputusan penilaian kadaster negeri semua jenis hartanah (kecuali plot tanah) di wilayah Okrug Autonomi Khanty-Mansiysk - Ugra".

Fail "Jumlah model perbandingan.ods" dalam "Lampiran B. Keputusan penentuan KS 5. Maklumat mengenai kaedah penentuan nilai kadaster 5.1 Pendekatan perbandingan" telah dipertimbangkan.

Jadual 1. Penunjuk statistik set data dalam fail "Jumlah model perbandingan.ods"
Jumlah bilangan medan, pcs. β€” 44
Jumlah bilangan rekod, pcs. β€” 365 490
Jumlah bilangan aksara, pcs. β€” 101 714 693
Purata bilangan aksara dalam rekod, pcs. β€” 278,297
Sisihan piawai aksara dalam rekod, pcs. β€” 15,510
Bilangan minimum aksara dalam entri, pcs. β€” 198
Bilangan maksimum aksara dalam entri, pcs. β€” 363

2. Bahagian pengenalan. Piawaian asas

Semasa menganalisis pangkalan data yang ditentukan, satu tugas telah dibentuk untuk menentukan keperluan untuk tahap penulenan, kerana, seperti yang jelas kepada semua orang, pangkalan data yang ditentukan mewujudkan akibat undang-undang dan ekonomi untuk pengguna. Semasa kerja, ternyata tidak ada keperluan khusus untuk tahap pembersihan data besar. Menganalisis norma undang-undang dalam perkara ini, saya sampai pada kesimpulan bahawa semuanya terbentuk daripada kemungkinan. Iaitu, tugas tertentu telah muncul, sumber maklumat disusun untuk tugas itu, kemudian set data dibentuk dan, berdasarkan set data yang dibuat, alat untuk menyelesaikan masalah. Penyelesaian yang terhasil adalah titik rujukan dalam memilih daripada alternatif. Saya membentangkan ini dalam Rajah 1.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori

Memandangkan, dalam hal menentukan sebarang piawaian, adalah lebih baik untuk bergantung pada teknologi yang terbukti, saya memilih keperluan yang ditetapkan dalam "Takrifan dan Panduan Integriti Data MHRA GxP untuk Industri", kerana saya menganggap dokumen ini paling komprehensif untuk isu ini. Khususnya, dalam dokumen ini bahagian itu mengatakan "Perlu diingat bahawa keperluan integriti data digunakan secara sama rata untuk data manual (kertas) dan elektronik." (terjemahan: β€œ...keperluan integriti data terpakai sama rata untuk data manual (kertas) dan elektronik”). Perumusan ini agak khusus dikaitkan dengan konsep "bukti bertulis", dalam peruntukan Perkara 71 Kanun Tatacara Sivil, Seni. 70 CAS, Art. 75 APC, β€œsecara bertulis” Art. 84 Kod Tatacara Sivil.

Rajah 2 membentangkan gambarajah pembentukan pendekatan kepada jenis maklumat dalam perundangan.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori
nasi. 2. Sumber di sini.

Rajah 3 menunjukkan mekanisme Rajah 1, untuk tugas "Bimbingan" di atas. Adalah mudah, dengan membuat perbandingan, untuk melihat bahawa pendekatan yang digunakan apabila memenuhi keperluan untuk integriti maklumat dalam piawaian moden untuk sistem maklumat adalah terhad dengan ketara berbanding dengan konsep undang-undang maklumat.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori
Rajah 3

Dalam dokumen yang ditentukan (Panduan), sambungan ke bahagian teknikal, keupayaan untuk memproses dan menyimpan data, disahkan dengan baik oleh petikan daripada Bab 18.2. Pangkalan data perhubungan: "Struktur fail ini sememangnya lebih selamat, kerana data disimpan dalam format fail besar yang mengekalkan hubungan antara data dan metadata."

Malah, dalam pendekatan ini - dari keupayaan teknikal yang sedia ada, tidak ada yang tidak normal dan, dengan sendirinya, ini adalah proses semula jadi, kerana pengembangan konsep berasal dari aktiviti yang paling dikaji - reka bentuk pangkalan data. Tetapi, sebaliknya, norma undang-undang muncul yang tidak memberikan diskaun pada keupayaan teknikal sistem sedia ada, sebagai contoh: GDPR - Peraturan Perlindungan Data Umum.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori
nasi. 4. Corong keupayaan teknikal (Source).

Dalam aspek ini, menjadi jelas bahawa set data asal (Rajah 1) perlu, pertama sekali, disimpan, dan kedua, menjadi asas untuk mengekstrak maklumat tambahan daripadanya. Nah, sebagai contoh: kamera merakam peraturan lalu lintas ada di mana-mana, sistem pemprosesan maklumat menghapuskan pelanggar, tetapi maklumat lain juga boleh ditawarkan kepada pengguna lain, sebagai contoh, sebagai pemantauan pemasaran struktur aliran pelanggan ke pusat membeli-belah. Dan ini adalah sumber nilai tambah tambahan apabila menggunakan BigDat. Adalah agak mungkin bahawa set data yang dikumpul sekarang, di suatu tempat pada masa hadapan, akan mempunyai nilai mengikut mekanisme yang serupa dengan nilai edisi jarang 1700 pada masa ini. Lagipun, sebenarnya, set data sementara adalah unik dan tidak mungkin akan berulang pada masa hadapan.

3. Bahagian pengenalan. Kriteria penilaian

Semasa proses pemprosesan, klasifikasi ralat berikut telah dibangunkan.

1. Kelas ralat (berdasarkan GOST R 8.736-2011): a) ralat sistematik; b) ralat rawak; c) kesilapan.

2. Mengikut kepelbagaian: a) herotan mono; b) pelbagai herotan.

3. Mengikut kritikal akibat: a) kritikal; b) tidak kritikal.

4. Mengikut sumber kejadian:

A) Teknikal – ralat yang berlaku semasa pengendalian peralatan. Ralat yang agak relevan untuk sistem IoT, sistem dengan tahap pengaruh yang ketara terhadap kualiti komunikasi, peralatan (perkakasan).

B) Ralat operator - ralat dalam julat yang luas daripada kesilapan operator semasa input kepada ralat dalam spesifikasi teknikal untuk reka bentuk pangkalan data.

C) Ralat pengguna - berikut adalah ralat pengguna dalam keseluruhan julat daripada "terlupa menukar susun atur" kepada salah mengira meter untuk kaki.

5. Dipisahkan ke dalam kelas yang berasingan:

a) "tugas pemisah," iaitu ruang dan ":" (dalam kes kami) apabila ia diduplikasi;
b) perkataan yang ditulis bersama;
c) tiada ruang selepas aksara perkhidmatan
d) simbol berbilang simetri: (), "", "...".

Diambil bersama, dengan sistematisasi ralat pangkalan data yang dibentangkan dalam Rajah 5, sistem koordinat yang agak berkesan dibentuk untuk mencari ralat dan membangunkan algoritma pembersihan data untuk contoh ini.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori
nasi. 5. Ralat biasa yang sepadan dengan unit struktur pangkalan data (Sumber: Oreshkov V.I., Paklin N.B. "Konsep utama penyatuan data").

Ketepatan, Integriti Domain, Jenis Data, Ketekalan, Lebihan, Kesempurnaan, Penduaan, Pematuhan kepada Peraturan Perniagaan, Kepastian Struktur, Anomali Data, Kejelasan, Tepat pada Masa, Pematuhan kepada Peraturan Integriti Data. (Halaman 334. Asas pergudangan data untuk profesional IT / Paulraj Ponniah.β€”2nd ed.)

Membentangkan perkataan Inggeris dan terjemahan mesin Rusia dalam kurungan.

Ketepatan. Nilai yang disimpan dalam sistem untuk elemen data adalah nilai yang sesuai untuk kejadian elemen data tersebut. Jika anda mempunyai nama pelanggan dan alamat yang disimpan dalam rekod, maka alamat tersebut adalah alamat yang betul untuk pelanggan dengan nama tersebut. Jika anda mendapati kuantiti yang dipesan sebagai 1000 unit dalam rekod untuk nombor pesanan 12345678, maka kuantiti tersebut adalah kuantiti yang tepat untuk pesanan tersebut.
[Ketepatan. Nilai yang disimpan dalam sistem untuk elemen data ialah nilai yang betul untuk kejadian elemen data tersebut. Jika anda mempunyai nama dan alamat pelanggan yang disimpan dalam rekod, maka alamat tersebut adalah alamat yang betul untuk pelanggan dengan nama tersebut. Jika anda mendapati kuantiti yang dipesan sebagai 1000 unit dalam rekod untuk nombor pesanan 12345678, maka kuantiti itu ialah kuantiti yang tepat untuk pesanan itu.]

Integriti Domain. Nilai data atribut berada dalam julat nilai yang dibenarkan dan ditentukan. Contoh biasa ialah nilai yang dibenarkan sebagai "lelaki" dan "perempuan" untuk elemen data jantina.
[Integriti Domain. Nilai data atribut berada dalam julat nilai yang sah dan ditentukan. Contoh umum ialah nilai sah "lelaki" dan "perempuan" untuk elemen data jantina.]

Jenis data. Nilai untuk atribut data sebenarnya disimpan sebagai jenis data yang ditakrifkan untuk atribut tersebut. Apabila jenis data medan nama kedai ditakrifkan sebagai "teks", semua tika medan itu mengandungi nama kedai yang ditunjukkan dalam format teks dan bukan kod angka.
[Jenis data. Nilai atribut data sebenarnya disimpan sebagai jenis data yang ditakrifkan untuk atribut itu. Jika jenis data medan nama kedai ditakrifkan sebagai "teks", semua contoh medan ini mengandungi nama kedai yang dipaparkan dalam format teks dan bukannya kod angka.]

Konsisten. Bentuk dan kandungan medan data adalah sama merentas pelbagai sistem sumber. Jika kod produk untuk produk ABC dalam satu sistem ialah 1234, maka kod untuk produk ini ialah 1234 dalam setiap sistem sumber.
[Ketekalan. Bentuk dan kandungan medan data adalah sama dalam sistem sumber yang berbeza. Jika kod produk untuk produk ABC pada satu sistem ialah 1234, maka kod untuk produk itu ialah 1234 pada setiap sistem sumber.]

Lebihan. Data yang sama tidak boleh disimpan di lebih daripada satu tempat dalam sistem. Jika, atas sebab kecekapan, elemen data sengaja disimpan di lebih daripada satu tempat dalam sistem, maka lebihan mesti dikenal pasti dan disahkan dengan jelas.
[Kelebihan. Data yang sama tidak boleh disimpan di lebih daripada satu tempat dalam sistem. Jika, atas sebab kecekapan, elemen data sengaja disimpan di berbilang lokasi dalam sistem, maka redundansi mesti ditakrifkan dan disahkan dengan jelas.]

kesempurnaan. Tiada nilai yang hilang untuk atribut tertentu dalam sistem. Sebagai contoh, dalam fail pelanggan, mesti ada nilai yang sah untuk medan "negeri" untuk setiap pelanggan. Dalam fail untuk butiran pesanan, setiap rekod butiran untuk pesanan mesti diisi sepenuhnya.
[Kelengkapan. Tiada nilai yang hilang dalam sistem untuk atribut ini. Sebagai contoh, fail klien mesti mempunyai nilai yang sah untuk medan "status" untuk setiap klien. Dalam fail butiran pesanan, setiap rekod butiran pesanan mesti dilengkapkan sepenuhnya.]

Penduaan. Penduaan rekod dalam sistem diselesaikan sepenuhnya. Jika fail produk diketahui mempunyai rekod pendua, maka semua rekod pendua untuk setiap produk dikenal pasti dan rujukan silang dibuat.
[Pendua. Penduaan rekod dalam sistem telah dihapuskan sepenuhnya. Jika fail produk diketahui mengandungi entri pendua, maka semua entri pendua untuk setiap produk dikenal pasti dan rujukan silang dibuat.]

Pematuhan kepada Peraturan Perniagaan. Nilai setiap item data mematuhi peraturan perniagaan yang ditetapkan. Dalam sistem lelongan, tukul atau harga jualan tidak boleh kurang daripada harga rizab. Dalam sistem pinjaman bank, baki pinjaman mestilah sentiasa positif atau sifar.
[Pematuhan peraturan perniagaan. Nilai setiap elemen data mematuhi peraturan perniagaan yang ditetapkan. Dalam sistem lelongan, tukul atau harga jualan tidak boleh kurang daripada harga rizab. Dalam sistem kredit perbankan, baki pinjaman mestilah sentiasa positif atau sifar.]

Kepastian Struktur. Di mana sahaja item data secara semula jadi boleh distrukturkan ke dalam komponen individu, item tersebut mesti mengandungi struktur yang jelas ini. Sebagai contoh, nama individu secara semula jadi terbahagi kepada nama pertama, nama tengah dan nama keluarga. Nilai untuk nama individu mesti disimpan sebagai nama pertama, nama tengah dan nama keluarga. Ciri kualiti data ini memudahkan penguatkuasaan standard dan mengurangkan nilai yang hilang.
[Kepastian Struktur. Apabila elemen data boleh distrukturkan secara semula jadi menjadi komponen individu, elemen tersebut mesti mengandungi struktur yang jelas ini. Sebagai contoh, nama seseorang secara semula jadi terbahagi kepada nama pertama, nama tengah dan nama keluarga. Nilai untuk nama individu hendaklah disimpan sebagai nama pertama, nama tengah dan nama keluarga. Ciri kualiti data ini memudahkan penggunaan standard dan mengurangkan nilai yang hilang.]

Anomali Data. Medan mesti digunakan hanya untuk tujuan ia ditakrifkan. Jika medan Alamat-3 ditakrifkan untuk mana-mana baris ketiga alamat yang mungkin untuk alamat panjang, maka medan ini mesti digunakan hanya untuk merekodkan baris ketiga alamat. Ia tidak boleh digunakan untuk memasukkan nombor telefon atau faks untuk pelanggan.
[Anomali Data. Sesuatu medan hanya boleh digunakan untuk tujuan yang ditakrifkan. Jika medan Alamat-3 ditakrifkan untuk mana-mana baris alamat ketiga yang mungkin untuk alamat panjang, maka medan ini hanya akan digunakan untuk merekodkan baris alamat ketiga. Ia tidak boleh digunakan untuk memasukkan nombor telefon atau faks untuk pelanggan.]

Kejelasan. Elemen data mungkin mempunyai semua ciri lain bagi data berkualiti tetapi jika pengguna tidak memahami maksudnya dengan jelas, maka elemen data itu tidak bernilai kepada pengguna. Konvensyen penamaan yang betul membantu untuk menjadikan elemen data difahami dengan baik oleh pengguna.
[Kejelasan. Elemen data mungkin mempunyai semua ciri lain bagi data yang baik, tetapi jika pengguna tidak memahami maksudnya dengan jelas, maka elemen data itu tidak mempunyai nilai kepada pengguna. Konvensyen penamaan yang betul membantu menjadikan elemen data difahami dengan baik oleh pengguna.]

tepat pada masanya. Pengguna menentukan ketepatan masa data. Jika pengguna menjangkakan data dimensi pelanggan tidak melebihi satu hari, perubahan pada data pelanggan dalam sistem sumber mesti digunakan pada gudang data setiap hari.
[Tepat pada masanya. Pengguna menentukan ketepatan masa data. Jika pengguna menjangkakan data dimensi pelanggan tidak lebih daripada satu hari, perubahan pada data pelanggan dalam sistem sumber hendaklah digunakan pada gudang data setiap hari.]

Kebergunaan. Setiap elemen data dalam gudang data mesti memenuhi beberapa keperluan pengumpulan pengguna. Elemen data mungkin tepat dan berkualiti tinggi, tetapi jika ia tidak bernilai kepada pengguna, maka elemen data itu tidak perlu berada dalam gudang data sama sekali.
[Utiliti. Setiap item data dalam stor data mesti memenuhi beberapa keperluan pengumpulan pengguna. Elemen data mungkin tepat dan berkualiti tinggi, tetapi jika ia tidak memberikan nilai kepada pengguna, maka elemen data itu tidak perlu berada dalam gudang data.]

Pematuhan kepada Peraturan Integriti Data. Data yang disimpan dalam pangkalan data hubungan sistem sumber mesti mematuhi integriti entiti dan peraturan integriti rujukan. Mana-mana jadual yang membenarkan null sebagai kunci utama tidak mempunyai integriti entiti. Integriti rujukan memaksa penubuhan hubungan ibu bapa-anak dengan betul. Dalam hubungan pelanggan-ke-pesanan, integriti rujukan memastikan kewujudan pelanggan untuk setiap pesanan dalam pangkalan data.
[Pematuhan peraturan integriti data. Data yang disimpan dalam pangkalan data hubungan sistem sumber mesti mematuhi peraturan integriti entiti dan integriti rujukan. Mana-mana jadual yang membenarkan null sebagai kunci utama tidak mempunyai integriti entiti. Integriti rujukan memaksa hubungan antara ibu bapa dan anak-anak diwujudkan dengan betul. Dalam perhubungan pesanan pelanggan, integriti rujukan memastikan pelanggan wujud untuk setiap pesanan dalam pangkalan data.]

4. Kualiti pembersihan data

Kualiti pembersihan data adalah isu yang agak bermasalah dalam bigdata. Menjawab soalan tentang tahap pembersihan data yang diperlukan untuk menyelesaikan tugas adalah asas bagi setiap penganalisis data. Dalam kebanyakan masalah semasa, setiap penganalisis menentukannya sendiri dan tidak mungkin sesiapa dari luar dapat menilai aspek ini dalam penyelesaiannya. Tetapi untuk tugas yang dihadapi dalam kes ini, isu ini sangat penting, kerana kebolehpercayaan data undang-undang harus cenderung kepada satu.

Mempertimbangkan teknologi ujian perisian untuk menentukan kebolehpercayaan operasi. Hari ini terdapat lebih daripada model ini 200. Kebanyakan model menggunakan model servis tuntutan:

Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori
Rajah. Xnumx

Berfikir seperti berikut: "Jika ralat yang ditemui adalah peristiwa yang serupa dengan peristiwa kegagalan dalam model ini, maka bagaimana untuk mencari analog parameter t?" Dan saya menyusun model berikut: Mari kita bayangkan bahawa masa yang diperlukan penguji untuk menyemak satu rekod ialah 1 minit (untuk pangkalan data yang dipersoalkan), kemudian untuk mencari semua ralat dia memerlukan 365 minit, iaitu kira-kira 494 tahun dan 3 bulan masa bekerja. Seperti yang kita faham, ini adalah jumlah kerja yang sangat besar dan kos untuk menyemak pangkalan data akan menjadi mahal untuk penyusun pangkalan data ini. Dalam refleksi ini, konsep ekonomi kos muncul dan selepas analisis saya sampai pada kesimpulan bahawa ini adalah alat yang agak berkesan. Berdasarkan undang-undang ekonomi: β€œJumlah pengeluaran (dalam unit) di mana keuntungan maksimum firma dicapai terletak pada titik di mana kos marginal untuk menghasilkan unit keluaran baharu dibandingkan dengan harga yang boleh diterima oleh firma ini. untuk unit baharu.” Berdasarkan postulat bahawa mencari setiap ralat berikutnya memerlukan lebih banyak penyemakan rekod, ini adalah faktor kos. Iaitu, postulat yang diterima pakai dalam model ujian mengambil makna fizikal dalam corak berikut: jika untuk mencari ralat ke-i adalah perlu untuk menyemak n rekod, maka untuk mencari ralat seterusnya (i+3) ia akan diperlukan untuk menyemak rekod m dan pada masa yang sama n

  1. Apabila bilangan rekod yang disemak sebelum ralat baharu ditemui menjadi stabil;
  2. Apabila bilangan rekod yang disemak sebelum mencari ralat seterusnya akan meningkat.

Untuk menentukan nilai kritikal, saya beralih kepada konsep kebolehlaksanaan ekonomi, yang dalam hal ini, menggunakan konsep kos sosial, boleh dirumuskan seperti berikut: β€œKos membetulkan kesilapan harus ditanggung oleh ejen ekonomi yang boleh melakukan pada kos yang paling rendah.” Kami mempunyai satu ejen - penguji yang menghabiskan 1 minit menyemak satu rekod. Dari segi kewangan, jika anda memperoleh 6000 rubel/hari, ini akan menjadi 12,2 rubel. (kira-kira hari ini). Ia kekal untuk menentukan bahagian kedua keseimbangan dalam undang-undang ekonomi. Saya beralasan begini. Ralat sedia ada akan memerlukan orang yang berkenaan untuk berusaha untuk membetulkannya, iaitu pemilik harta. Katakan ini memerlukan 1 hari tindakan (serahkan permohonan, terima dokumen yang diperbetulkan). Kemudian, dari sudut sosial, kosnya akan sama dengan purata gaji sehari. Gaji terakru purata dalam Okrug Autonomi Khanty-Mansi β€œHasil pembangunan sosio-ekonomi Okrug Autonomi Khanty-Mansiysk - Ugra untuk Januari-September 2019” 73285 gosok. atau 3053,542 rubel/hari. Sehubungan itu, kami memperoleh nilai kritikal yang sama dengan:
3053,542: 12,2 = 250,4 unit rekod.

Ini bermakna, dari sudut pandangan sosial, jika penguji menyemak 251 rekod dan menemui satu ralat, ia bersamaan dengan pengguna membetulkan sendiri ralat ini. Oleh itu, jika penguji menghabiskan masa yang sama dengan menyemak 252 rekod untuk mencari ralat seterusnya, maka dalam kes ini adalah lebih baik untuk mengalihkan kos pembetulan kepada pengguna.

Pendekatan yang dipermudahkan dibentangkan di sini, kerana dari sudut pandangan sosial adalah perlu untuk mengambil kira semua nilai tambahan yang dihasilkan oleh setiap pakar, iaitu, kos termasuk cukai dan pembayaran sosial, tetapi modelnya jelas. Akibat daripada perhubungan ini ialah keperluan berikut untuk pakar: pakar dari industri IT mesti mempunyai gaji lebih besar daripada purata kebangsaan. Jika gajinya kurang daripada gaji purata pengguna pangkalan data yang berpotensi, maka dia sendiri mesti menyemak keseluruhan pangkalan data secara tangan ke tangan.

Apabila menggunakan kriteria yang diterangkan, keperluan pertama untuk kualiti pangkalan data dibentuk:
I(tr). Bahagian ralat kritikal tidak boleh melebihi 1/250,4 = 0,39938%. Kurang sedikit daripada menapis emas dalam industri. Dan dari segi fizikal tidak lebih daripada 1459 rekod dengan ralat.

Kemunduran ekonomi.

Malah, dengan membuat beberapa kesilapan dalam rekod, masyarakat bersetuju dengan kerugian ekonomi dalam jumlah:

1459*3053,542 = 4 rubel.

Jumlah ini ditentukan oleh fakta bahawa masyarakat tidak mempunyai alat untuk mengurangkan kos ini. Oleh itu, jika seseorang mempunyai teknologi yang membolehkan mereka mengurangkan bilangan rekod dengan ralat kepada, sebagai contoh, 259, maka ini akan membolehkan masyarakat menyimpan:
1200*3053,542 = 3 rubel.

Tetapi pada masa yang sama, dia boleh meminta bakat dan kerjanya, baiklah, katakan - 1 juta rubel.
Iaitu, kos sosial dikurangkan dengan:

3 – 664 = 250 rubel.

Pada dasarnya, kesan ini adalah nilai tambah daripada penggunaan teknologi BigDat.

Tetapi di sini perlu diambil kira bahawa ini adalah kesan sosial, dan pemilik pangkalan data adalah pihak berkuasa perbandaran, pendapatan mereka daripada penggunaan harta yang direkodkan dalam pangkalan data ini, pada kadar 0,3%, ialah: 2,778 bilion rubel/ tahun. Dan kos ini (4 rubel) tidak banyak mengganggunya, kerana ia dipindahkan kepada pemilik harta. Dan, dalam aspek ini, pembangun lebih banyak teknologi penapisan dalam Bigdata perlu menunjukkan keupayaan untuk meyakinkan pemilik pangkalan data ini, dan perkara sedemikian memerlukan bakat yang besar.

Dalam contoh ini, algoritma penilaian ralat telah dipilih berdasarkan model Schumann [2] pengesahan perisian semasa ujian kebolehpercayaan. Oleh kerana kelazimannya di Internet dan keupayaan untuk mendapatkan penunjuk statistik yang diperlukan. Metodologi diambil dari Monakhov Yu.M. "Kestabilan fungsi sistem maklumat", lihat di bawah spoiler dalam Rajah. 7-9.

nasi. 7 – 9 Metodologi model SchumannBersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori

Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori

Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori

Bahagian kedua bahan ini membentangkan contoh pembersihan data, di mana hasil penggunaan model Schumann diperolehi.
Izinkan saya membentangkan keputusan yang diperoleh:
Anggaran bilangan ralat N = 3167 n.
Parameter C, lambda dan fungsi kebolehpercayaan:

Bersihkan data seperti permainan Batu, Kertas, Gunting. Adakah ini permainan dengan atau tanpa penghujung? Bahagian 1. Teori
Rajah 17

Pada asasnya, lambda ialah penunjuk sebenar keamatan yang ralat dikesan pada setiap peringkat. Jika anda melihat bahagian kedua, anggaran untuk penunjuk ini ialah 42,4 ralat sejam, yang agak setanding dengan penunjuk Schumann. Di atas, telah ditentukan bahawa kadar di mana pembangun menemui ralat hendaklah tidak lebih rendah daripada 1 ralat setiap 250,4 rekod, apabila menyemak 1 rekod seminit. Oleh itu nilai kritikal lambda untuk model Schumann:

60/250,4 = 0,239617.

Iaitu, keperluan untuk menjalankan prosedur pengesanan ralat mesti dijalankan sehingga lambda, daripada 38,964 sedia ada, menurun kepada 0,239617.

Atau sehingga penunjuk N (nombor kemungkinan ralat) tolak n (bilangan ralat yang diperbetulkan) berkurangan di bawah ambang yang diterima kami - 1459 pcs.

Kesusasteraan

  1. Monakhov, Yu. M. Kestabilan fungsi sistem maklumat. Dalam 3 jam. Bahagian 1. Kebolehpercayaan perisian: buku teks. elaun / Yu. M. Monakhov; Vladimir. negeri univ. – Vladimir: Izvo Vladimir. negeri Universiti, 2011. – 60 p. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Model kebarangkalian untuk ramalan kebolehpercayaan perisian."
  3. Asas pergudangan data untuk profesional IT / Paulraj Ponniah.β€”2nd ed.

Bahagian kedua. Teori

Sumber: www.habr.com

Tambah komen