Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis

1. Data awal

Pembersihan data adalah salah satu tantangan yang dihadapi tugas analisis data. Materi ini mencerminkan perkembangan dan solusi yang muncul sebagai hasil pemecahan masalah praktis analisis database dalam pembentukan nilai kadaster. Sumber di sini “LAPORAN No. 01/OKS-2019 tentang hasil penilaian kadaster negara atas semua jenis real estat (kecuali bidang tanah) di wilayah Okrug Otonom Khanty-Mansiysk - Ugra”.

File “Model perbandingan total.ods” pada “Lampiran B. Hasil penentuan KS 5. Informasi tentang metode penentuan nilai kadaster 5.1 Pendekatan komparatif” telah dipertimbangkan.

Tabel 1. Indikator statistik kumpulan data dalam file “Model komparatif total.ods”
Jumlah total bidang, pcs. — 44
Jumlah total catatan, pcs. — 365
Jumlah total karakter, pcs. — 101 714 693
Jumlah rata-rata karakter dalam satu record, pcs. — 278,297
Deviasi standar karakter dalam catatan, pcs. — 15,510
Jumlah minimum karakter dalam sebuah entri, pcs. — 198
Jumlah maksimum karakter dalam sebuah entri, pcs. — 363

2. Bagian pendahuluan. Standar dasar

Saat menganalisis database yang ditentukan, tugas dibentuk untuk menentukan persyaratan tingkat pemurnian, karena, seperti yang jelas bagi semua orang, database yang ditentukan menciptakan konsekuensi hukum dan ekonomi bagi pengguna. Selama pengerjaan, ternyata tidak ada persyaratan khusus untuk tingkat pembersihan data besar. Menganalisis norma-norma hukum dalam hal ini, saya sampai pada kesimpulan bahwa semuanya terbentuk dari kemungkinan-kemungkinan. Artinya, tugas tertentu telah muncul, sumber informasi untuk tugas tersebut disusun, kemudian kumpulan data dibentuk dan, berdasarkan kumpulan data yang dibuat, alat untuk memecahkan masalah. Solusi yang dihasilkan merupakan titik acuan dalam memilih alternatif. Saya menyajikan ini pada Gambar 1.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis

Karena dalam menentukan standar apa pun, lebih baik mengandalkan teknologi yang telah terbukti, saya memilih persyaratan yang ditetapkan dalam "Definisi dan Panduan Integritas Data MHRA GxP untuk Industri", karena saya menganggap dokumen ini paling komprehensif untuk masalah ini. Secara khusus, dalam dokumen ini bagian tersebut berbunyi “Perlu dicatat bahwa persyaratan integritas data berlaku sama untuk data manual (kertas) dan elektronik.” (terjemahan: “...persyaratan integritas data berlaku sama untuk data manual (kertas) dan elektronik”). Rumusan ini secara khusus dikaitkan dengan konsep “alat bukti tertulis”, dalam ketentuan Pasal 71 KUHAP, Pasal. 70 CAS, Pasal 75 APC, “secara tertulis” Pasal. 84 KUHAP.

Gambar 2 menyajikan diagram pembentukan pendekatan jenis-jenis informasi dalam ilmu hukum.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis
Beras. 2. Sumber di sini.

Gambar 3 menunjukkan mekanisme Gambar 1, untuk tugas “Bimbingan” di atas. Dengan membuat perbandingan, mudah untuk melihat bahwa pendekatan yang digunakan untuk memenuhi persyaratan integritas informasi dalam standar sistem informasi modern sangat terbatas dibandingkan dengan konsep hukum informasi.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis
Fig. 3

Dalam dokumen yang ditentukan (Panduan), koneksi ke bagian teknis, kemampuan untuk memproses dan menyimpan data, dikonfirmasi dengan baik oleh kutipan dari Bab 18.2. Basis data relasional: "Struktur file ini secara inheren lebih aman, karena data disimpan dalam format file besar yang menjaga hubungan antara data dan metadata."

Faktanya, dalam pendekatan ini - dari kemampuan teknis yang ada, tidak ada yang abnormal dan, dengan sendirinya, ini adalah proses alami, karena perluasan konsep berasal dari aktivitas yang paling banyak dipelajari - desain database. Namun di sisi lain, muncul norma hukum yang tidak memberikan diskon terhadap kemampuan teknis sistem yang ada, misalnya: GDPR - Peraturan Perlindungan Data Umum.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis
Beras. 4. Corong kemampuan teknis (Источник).

Dalam aspek ini, menjadi jelas bahwa kumpulan data asli (Gbr. 1) pertama-tama harus disimpan, dan kedua, menjadi dasar untuk mengekstrak informasi tambahan darinya. Sebagai contoh: kamera yang merekam peraturan lalu lintas ada di mana-mana, sistem pemrosesan informasi menyingkirkan pelanggar, tetapi informasi lain juga dapat ditawarkan kepada konsumen lain, misalnya, sebagai pemantauan pemasaran terhadap struktur arus pelanggan ke pusat perbelanjaan. Dan ini menjadi sumber nilai tambah tambahan saat menggunakan BigDat. Sangat mungkin bahwa kumpulan data yang dikumpulkan sekarang, di masa depan, akan memiliki nilai menurut mekanisme yang serupa dengan nilai edisi langka tahun 1700 saat ini. Faktanya, kumpulan data sementara bersifat unik dan kecil kemungkinannya untuk terulang kembali di masa mendatang.

3. Bagian pendahuluan. Kriteria evaluasi

Selama proses pemrosesan, klasifikasi kesalahan berikut dikembangkan.

1. Kelas kesalahan (berdasarkan GOST R 8.736-2011): a) kesalahan sistematis; b) kesalahan yang tidak disengaja; c) kesalahan besar.

2. Berdasarkan multiplisitas: a) distorsi mono; b) multi-distorsi.

3. Menurut kekritisan akibat: a) kritis; b) tidak kritis.

4. Berdasarkan sumber kejadiannya:

A) Teknis – kesalahan yang terjadi selama pengoperasian peralatan. Kesalahan yang cukup relevan untuk sistem IoT, sistem dengan tingkat pengaruh yang signifikan terhadap kualitas komunikasi, peralatan (perangkat keras).

B) Kesalahan operator - kesalahan dalam berbagai macam mulai dari kesalahan ketik operator saat input hingga kesalahan dalam spesifikasi teknis untuk desain basis data.

C) Kesalahan pengguna - berikut adalah kesalahan pengguna dalam rentang mulai dari “lupa mengganti tata letak” hingga salah mengira meter sebagai kaki.

5. Dipisahkan menjadi kelas tersendiri:

a) “tugas pemisah”, yaitu spasi dan “:” (dalam kasus kami) ketika diduplikasi;
b) kata-kata yang ditulis bersama;
c) tidak ada spasi setelah karakter layanan
d) beberapa simbol simetris: (), "", "...".

Secara keseluruhan, dengan sistematisasi kesalahan database yang ditunjukkan pada Gambar 5, sistem koordinat yang cukup efektif dibentuk untuk mencari kesalahan dan mengembangkan algoritma pembersihan data untuk contoh ini.

Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis
Beras. 5. Kesalahan umum yang berhubungan dengan unit struktural database (Sumber: Oreshkov V.I., Paklin N.B. "Konsep utama konsolidasi data").

Akurasi, Integritas Domain, Tipe Data, Konsistensi, Redundansi, Kelengkapan, Duplikasi, Kesesuaian dengan Aturan Bisnis, Kepastian Struktural, Anomali Data, Kejelasan, Tepat Waktu, Kepatuhan pada Aturan Integritas Data. (Halaman 334. Dasar-dasar pergudangan data untuk profesional TI / Paulraj Ponniah.—edisi ke-2)

Kata-kata dalam bahasa Inggris dan terjemahan mesin Rusia dalam tanda kurung disajikan.

Ketepatan. Nilai yang disimpan dalam sistem untuk suatu elemen data adalah nilai yang tepat untuk kemunculan elemen data tersebut. Jika Anda memiliki nama pelanggan dan alamat yang disimpan dalam catatan, maka alamat tersebut adalah alamat yang benar untuk pelanggan dengan nama tersebut. Jika Anda menemukan jumlah yang dipesan sebanyak 1000 unit dalam catatan nomor pesanan 12345678, maka jumlah tersebut adalah jumlah yang akurat untuk pesanan tersebut.
[Ketepatan. Nilai yang disimpan dalam sistem untuk elemen data adalah nilai yang benar untuk kemunculan elemen data tersebut. Jika Anda memiliki nama dan alamat pelanggan yang disimpan dalam catatan, maka alamat tersebut adalah alamat yang benar untuk pelanggan dengan nama tersebut. Jika Anda menemukan jumlah yang dipesan sebanyak 1000 unit dalam catatan nomor pesanan 12345678, maka jumlah tersebut adalah jumlah yang tepat untuk pesanan tersebut.]

Integritas Domain. Nilai data suatu atribut berada dalam kisaran nilai yang diperbolehkan dan ditentukan. Contoh umumnya adalah nilai yang diperbolehkan adalah “male” dan “female” untuk elemen data gender.
[Integritas Domain. Nilai data atribut berada dalam kisaran nilai yang valid dan ditentukan. Contoh umum adalah nilai valid "male" dan "female" untuk elemen data gender.]

Tipe data. Nilai untuk atribut data sebenarnya disimpan sebagai tipe data yang ditentukan untuk atribut tersebut. Ketika tipe data bidang nama toko didefinisikan sebagai “teks”, semua contoh bidang tersebut berisi nama toko yang ditampilkan dalam format tekstual dan bukan kode numerik.
[Tipe data. Nilai atribut data sebenarnya disimpan sebagai tipe data yang ditentukan untuk atribut tersebut. Jika tipe data bidang nama toko didefinisikan sebagai "teks", semua contoh bidang ini berisi nama toko yang ditampilkan dalam format teks, bukan kode numerik.]

Konsistensi. Bentuk dan isi bidang data sama di berbagai sistem sumber. Jika kode produk produk ABC dalam satu sistem adalah 1234, maka kode produk ini adalah 1234 di setiap sistem sumber.
[Konsistensi. Bentuk dan isi bidang data sama di sistem sumber yang berbeda. Jika kode produk produk ABC pada satu sistem adalah 1234, maka kode produk tersebut adalah 1234 pada setiap sistem sumber.]

Redundansi. Data yang sama tidak boleh disimpan di lebih dari satu tempat dalam suatu sistem. Jika, demi alasan efisiensi, suatu elemen data sengaja disimpan di lebih dari satu tempat dalam suatu sistem, maka redundansinya harus diidentifikasi dan diverifikasi dengan jelas.
[Redundansi. Data yang sama tidak boleh disimpan di lebih dari satu tempat dalam sistem. Jika, demi alasan efisiensi, elemen data sengaja disimpan di beberapa lokasi dalam suatu sistem, maka redundansi harus didefinisikan dan diverifikasi dengan jelas.]

Kelengkapan. Tidak ada nilai yang hilang untuk atribut tertentu dalam sistem. Misalnya, dalam file pelanggan, harus ada nilai valid untuk bidang “status” untuk setiap pelanggan. Pada file rincian pesanan, setiap catatan detail suatu pesanan harus terisi dengan lengkap.
[Kelengkapan. Tidak ada nilai yang hilang dalam sistem untuk atribut ini. Misalnya, file klien harus memiliki nilai yang valid untuk bidang "status" untuk setiap klien. Dalam file detail pesanan, setiap catatan detail pesanan harus diselesaikan dengan lengkap.]

Duplikasi. Duplikasi catatan dalam suatu sistem teratasi sepenuhnya. Jika file produk diketahui memiliki catatan duplikat, maka semua catatan duplikat untuk setiap produk diidentifikasi dan referensi silang dibuat.
[Duplikat. Duplikasi catatan dalam sistem telah dihilangkan sepenuhnya. Jika file produk diketahui berisi entri duplikat, maka semua entri duplikat untuk setiap produk diidentifikasi dan referensi silang dibuat.]

Kesesuaian dengan Aturan Bisnis. Nilai setiap item data mematuhi aturan bisnis yang ditentukan. Dalam sistem lelang, harga palu atau harga jual tidak boleh kurang dari harga cadangan. Dalam sistem pinjaman bank, saldo pinjaman harus selalu positif atau nol.
[Kepatuhan terhadap aturan bisnis. Nilai setiap elemen data mematuhi aturan bisnis yang ditetapkan. Dalam sistem lelang, harga palu atau harga jual tidak boleh kurang dari harga cadangan. Dalam sistem kredit perbankan, saldo pinjaman harus selalu positif atau nol.]

Kepastian Struktural. Dimanapun suatu item data secara alami dapat disusun menjadi komponen-komponen individual, item tersebut harus berisi struktur yang terdefinisi dengan baik ini. Misalnya, nama seseorang secara alami terbagi menjadi nama depan, inisial tengah, dan nama belakang. Nilai nama individu harus disimpan sebagai nama depan, inisial tengah, dan nama belakang. Karakteristik kualitas data ini menyederhanakan penegakan standar dan mengurangi nilai yang hilang.
[Kepastian Struktural. Jika suatu elemen data dapat disusun secara alami menjadi komponen-komponen individual, maka elemen tersebut harus mengandung struktur yang terdefinisi dengan baik. Misalnya, nama seseorang secara alami terbagi menjadi nama depan, inisial tengah, dan nama belakang. Nilai untuk nama individu harus disimpan sebagai nama depan, inisial tengah, dan nama belakang. Karakteristik kualitas data ini menyederhanakan penerapan standar dan mengurangi nilai yang hilang.]

Anomali Data. Bidang harus digunakan hanya untuk tujuan yang ditentukan. Jika bidang Alamat-3 ditentukan untuk setiap kemungkinan baris alamat ketiga untuk alamat yang panjang, maka bidang ini harus digunakan hanya untuk mencatat baris alamat ketiga. Ini tidak boleh digunakan untuk memasukkan nomor telepon atau faks pelanggan.
[Anomali Data. Bidang hanya boleh digunakan sesuai tujuan yang ditetapkan. Jika kolom Alamat-3 ditentukan untuk kemungkinan baris alamat ketiga untuk alamat yang panjang, maka kolom ini hanya akan digunakan untuk mencatat baris alamat ketiga. Ini tidak boleh digunakan untuk memasukkan nomor telepon atau faks pelanggan.]

Kejelasan. Suatu elemen data mungkin memiliki semua karakteristik data berkualitas lainnya, tetapi jika pengguna tidak memahami maknanya dengan jelas, maka elemen data tersebut tidak ada nilainya bagi pengguna. Konvensi penamaan yang tepat membantu membuat elemen data dipahami dengan baik oleh pengguna.
[Kejelasan. Sebuah elemen data mungkin memiliki semua karakteristik data yang baik, namun jika pengguna tidak memahami maknanya dengan jelas, maka elemen data tersebut tidak ada nilainya bagi pengguna. Konvensi penamaan yang benar membantu elemen data dipahami dengan baik oleh pengguna.]

Tepat waktu. Pengguna menentukan ketepatan waktu data. Jika pengguna mengharapkan data dimensi pelanggan tidak lebih dari satu hari, perubahan pada data pelanggan di sistem sumber harus diterapkan ke gudang data setiap hari.
[Pada waktu yang tepat. Pengguna menentukan ketepatan waktu data. Jika pengguna mengharapkan data dimensi pelanggan tidak lebih dari satu hari, perubahan pada data pelanggan di sistem sumber harus diterapkan ke gudang data setiap hari.]

Kegunaan. Setiap elemen data dalam gudang data harus memenuhi beberapa persyaratan pengumpulan pengguna. Sebuah elemen data mungkin akurat dan berkualitas tinggi, namun jika tidak ada nilainya bagi pengguna, maka elemen data tersebut sama sekali tidak perlu ada di gudang data.
[Kegunaan. Setiap item data di penyimpanan data harus memenuhi beberapa persyaratan koleksi pengguna. Sebuah elemen data mungkin akurat dan berkualitas tinggi, namun jika tidak memberikan nilai kepada pengguna, maka elemen data tersebut tidak perlu ada di gudang data.]

Kepatuhan terhadap Aturan Integritas Data. Data yang disimpan dalam database relasional sistem sumber harus mematuhi aturan integritas entitas dan integritas referensial. Tabel apa pun yang mengizinkan null sebagai kunci utama tidak memiliki integritas entitas. Integritas referensial memaksa pembentukan hubungan orang tua-anak dengan benar. Dalam hubungan pelanggan-ke-pesanan, integritas referensial memastikan keberadaan pelanggan untuk setiap pesanan dalam database.
[Kepatuhan terhadap aturan integritas data. Data yang disimpan dalam database relasional sistem sumber harus mematuhi aturan integritas entitas dan integritas referensial. Tabel apa pun yang mengizinkan null sebagai kunci utama tidak memiliki integritas entitas. Integritas referensial memaksa hubungan antara orang tua dan anak terjalin dengan benar. Dalam hubungan pesanan pelanggan, integritas referensial memastikan bahwa ada pelanggan untuk setiap pesanan dalam database.]

4. Kualitas pembersihan data

Kualitas pembersihan data merupakan masalah yang agak bermasalah di bigdata. Menjawab pertanyaan tentang tingkat pembersihan data yang diperlukan untuk menyelesaikan tugas adalah hal mendasar bagi setiap analis data. Dalam sebagian besar masalah saat ini, setiap analis menentukannya sendiri dan kecil kemungkinannya ada orang dari luar yang dapat mengevaluasi aspek ini dalam solusinya. Namun untuk tugas yang ada dalam kasus ini, permasalahan ini sangatlah penting, karena keandalan data hukum harus cenderung pada satu hal.

Mempertimbangkan teknologi pengujian perangkat lunak untuk menentukan keandalan operasional. Saat ini ada lebih dari model-model ini 200. Banyak model yang menggunakan model layanan klaim:

Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis
Gambar. 6

Berpikir sebagai berikut: “Jika kesalahan yang ditemukan merupakan kejadian yang serupa dengan kejadian kegagalan pada model ini, lalu bagaimana mencari analogi dari parameter t?” Dan saya menyusun model berikut: Bayangkan waktu yang dibutuhkan seorang penguji untuk memeriksa satu catatan adalah 1 menit (untuk database yang dimaksud), maka untuk menemukan semua kesalahan ia memerlukan 365 menit, yaitu sekitar 494 tahun 3 bulan waktu kerja. Seperti yang kami pahami, ini adalah pekerjaan yang sangat besar dan biaya pemeriksaan database akan menjadi penghalang bagi penyusun database ini. Dalam refleksi ini, konsep ekonomi biaya muncul dan setelah analisis saya sampai pada kesimpulan bahwa ini adalah alat yang cukup efektif. Berdasarkan hukum ekonomi: “Volume produksi (dalam unit) yang menghasilkan keuntungan maksimum suatu perusahaan terletak pada titik di mana biaya marjinal untuk memproduksi satu unit output baru dibandingkan dengan harga yang dapat diterima perusahaan tersebut. untuk unit baru.” Berdasarkan postulat bahwa menemukan setiap kesalahan berikutnya memerlukan pemeriksaan catatan yang lebih banyak, ini adalah faktor biaya. Artinya, postulat yang diadopsi dalam model pengujian memiliki makna fisik dalam pola berikut: jika untuk menemukan kesalahan ke-i perlu memeriksa n catatan, maka untuk menemukan kesalahan (i+3) berikutnya diperlukan untuk memeriksa m catatan dan pada saat yang sama n

  1. Ketika jumlah catatan yang diperiksa sebelum kesalahan baru ditemukan menjadi stabil;
  2. Ketika jumlah record diperiksa sebelum ditemukan kesalahan berikutnya akan bertambah.

Untuk menentukan nilai kritis, saya beralih ke konsep kelayakan ekonomi, yang dalam hal ini dengan menggunakan konsep biaya sosial dapat dirumuskan sebagai berikut: “Biaya perbaikan kesalahan harus ditanggung oleh pelaku ekonomi yang mampu melakukan hal tersebut. dengan biaya terendah.” Kami memiliki satu agen - seorang penguji yang menghabiskan 1 menit untuk memeriksa satu catatan. Dalam istilah moneter, jika Anda memperoleh 6000 rubel/hari, jumlahnya akan menjadi 12,2 rubel. (kira-kira hari ini). Masih menentukan sisi kedua dari keseimbangan dalam hukum ekonomi. Saya beralasan seperti ini. Kesalahan yang ada akan mengharuskan yang bersangkutan mengeluarkan upaya untuk memperbaikinya, yaitu pemilik properti. Katakanlah ini memerlukan tindakan 1 hari (kirim aplikasi, terima dokumen yang diperbaiki). Kemudian dari segi sosial, pengeluarannya akan sama dengan gaji rata-rata per hari. Gaji rata-rata yang masih harus dibayar di Okrug Otonom Khanty-Mansi “Hasil pembangunan sosial ekonomi Okrug Otonom Khanty-Mansiysk - Ugra Januari-September 2019” 73285 gosok. atau 3053,542 rubel/hari. Dengan demikian, kita memperoleh nilai kritis yang sama dengan:
3053,542: 12,2 = 250,4 unit catatan.

Artinya, dari sudut pandang sosial, jika penguji memeriksa 251 catatan dan menemukan satu kesalahan, hal ini setara dengan pengguna yang memperbaiki sendiri kesalahan tersebut. Oleh karena itu, jika penguji menghabiskan waktu yang sama dengan memeriksa 252 catatan untuk menemukan kesalahan berikutnya, maka dalam hal ini lebih baik mengalihkan biaya koreksi ke pengguna.

Pendekatan yang disederhanakan disajikan di sini, karena dari sudut pandang sosial perlu memperhitungkan semua nilai tambahan yang dihasilkan oleh masing-masing spesialis, yaitu biaya termasuk pajak dan pembayaran sosial, namun modelnya jelas. Konsekuensi dari hubungan ini adalah persyaratan bagi spesialis sebagai berikut: seorang spesialis dari industri TI harus memiliki gaji yang lebih besar dari rata-rata nasional. Jika gajinya kurang dari gaji rata-rata calon pengguna database, maka dia sendiri yang harus memeriksa seluruh database secara langsung.

Saat menggunakan kriteria yang dijelaskan, persyaratan pertama untuk kualitas database terbentuk:
saya (tr). Proporsi kesalahan kritis tidak boleh melebihi 1/250,4 = 0,39938%. Sedikit kurang dari pengilangan emas di industri. Dan secara fisik tidak lebih dari 1459 record yang error.

Kemunduran ekonomi.

Padahal, dengan melakukan kesalahan pencatatan sebanyak itu, masyarakat menanggung kerugian ekonomi sebesar:

1459*3053,542 = 4 rubel.

Jumlah ini ditentukan oleh kenyataan bahwa masyarakat tidak memiliki alat untuk mengurangi biaya-biaya tersebut. Oleh karena itu, jika seseorang memiliki teknologi yang memungkinkan mereka mengurangi jumlah catatan yang memiliki kesalahan menjadi, misalnya, 259, maka hal ini akan memungkinkan masyarakat untuk menghemat:
1200*3053,542 = 3 rubel.

Tetapi pada saat yang sama, dia dapat meminta bakat dan pekerjaannya, katakanlah - 1 juta rubel.
Artinya, biaya sosial dikurangi dengan:

3 – 664 = 250 rubel.

Intinya, efek ini merupakan nilai tambah dari penggunaan teknologi BigDat.

Namun di sini harus diperhitungkan bahwa ini adalah efek sosial, dan pemilik database adalah otoritas kota, pendapatan mereka dari penggunaan properti yang dicatat dalam database ini, pada tingkat 0,3%, adalah: 2,778 miliar rubel/ tahun. Dan biaya-biaya ini (4 rubel) tidak terlalu mengganggunya, karena biaya-biaya tersebut ditransfer ke pemilik properti. Dan, dalam aspek ini, pengembang teknologi yang lebih menyempurnakan Bigdata harus menunjukkan kemampuan untuk meyakinkan pemilik database ini, dan hal-hal seperti itu membutuhkan banyak bakat.

Dalam contoh ini, algoritma penilaian kesalahan dipilih berdasarkan model Schumann [2] verifikasi perangkat lunak selama pengujian keandalan. Karena prevalensinya di Internet dan kemampuan untuk memperoleh indikator statistik yang diperlukan. Metodologinya diambil dari Monakhov Yu.M. “Stabilitas fungsional sistem informasi”, lihat di bawah spoiler pada Gambar. 7-9.

Beras. 7 – 9 Metodologi model SchumannBersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis

Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis

Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis

Bagian kedua materi ini menyajikan contoh pembersihan data yang diperoleh hasil penggunaan model Schumann.
Izinkan saya menyajikan hasil yang diperoleh:
Perkiraan jumlah kesalahan N = 3167 n.
Parameter C, lambda dan fungsi keandalan:

Bersihkan data seperti permainan Batu, Kertas, Gunting. Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis
Fig. 17

Pada dasarnya, lambda adalah indikator aktual dari intensitas deteksi kesalahan pada setiap tahap. Jika melihat bagian kedua, perkiraan indikator ini adalah 42,4 kesalahan per jam, cukup sebanding dengan indikator Schumann. Di atas, ditentukan bahwa tingkat di mana pengembang menemukan kesalahan tidak boleh lebih rendah dari 1 kesalahan per 250,4 catatan, ketika memeriksa 1 catatan per menit. Oleh karena itu nilai kritis lambda untuk model Schumann:

60 / 250,4 = 0,239617.

Artinya, kebutuhan untuk melakukan prosedur deteksi kesalahan harus dilakukan hingga lambda dari yang ada 38,964 turun menjadi 0,239617.

Atau sampai indikator N (potensi jumlah kesalahan) dikurangi n (jumlah kesalahan yang dikoreksi) turun di bawah ambang batas yang kami terima - 1459 pcs.

Literatur

  1. Monakhov, Yu.M. Stabilitas fungsional sistem informasi. Dalam 3 jam Bagian 1. Keandalan perangkat lunak: buku teks. tunjangan / Yu.M.Monakhov; Tuan. negara universitas. – Vladimir: Izvo Vladim. negara Universitas, 2011. – 60 hal. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, “Model probabilistik untuk prediksi keandalan perangkat lunak.”
  3. Dasar-dasar pergudangan data untuk profesional TI / Paulraj Ponniah.—edisi ke-2.

Bagian kedua. Teoretis

Sumber: www.habr.com

Tambah komentar