В Dijelaskan bahwa publikasi ini dibuat berdasarkan kumpulan data hasil penilaian kadaster objek real estat di Okrug Otonom Khanty-Mansi.
Bagian praktis disajikan secara bertahap. Semua pembersihan dilakukan di Excel, karena Excel merupakan alat yang paling umum, dan operasi yang dijelaskan dapat diulangi oleh sebagian besar profesional yang familiar dengan Excel. Bagian ini juga sangat cocok untuk pekerjaan langsung.
Saya akan menempatkan pekerjaan meluncurkan dan menyimpan berkas sebagai tahap nol, karena ukurannya 100 MB, dan dengan puluhan dan ratusan operasi ini, diperlukan waktu yang cukup lama.
Waktu pembukaan rata-ratanya 30 detik.
Menghemat waktu: 22 detik.
Tahap pertama dimulai dengan mendefinisikan indikator statistik dari kumpulan data.
Tabel 1. Indikator statistik dari kumpulan data

Teknologi 2.1.
Buat kolom tambahan; saya akan menyebutnya AY. Untuk setiap data, buat rumus "=LEN(F365502)+LEN(G365502)+…+LEN(AW365502)".
Total waktu yang dihabiskan pada tahap 2.1 (untuk rumus Schumann) t21 = 1 jam.
Jumlah kesalahan yang ditemukan pada langkah 2.1 (untuk rumus Schumann) n21 = 0 pcs.
Tahap kedua.
Memeriksa komponen kumpulan data.
2.2. Semua nilai dalam catatan dibentuk menggunakan simbol standar. Oleh karena itu, mari kita lacak statistik berdasarkan simbol.
Tabel 2. Indikator statistik simbol dalam dataset dengan analisis awal hasilnya.




Teknologi 2.2.1.
Kita buat kolom tambahan – “alpha1”. Untuk setiap record, kita buat rumus “=CONCATENATE(Sheet1!B9;…Sheet1!AQ9)”.
Kita akan membuat sel tetap bernama "Omega-1". Kita akan memasukkan kode karakter Windows-1251 dari 32 hingga 255 ke dalam sel ini, satu per satu.
Kita buat bidang bantu – “alpha2”. Dengan rumus “=FIND(CHAR(Omega;1); “alpha1”;N)”.
Kita buat field tambahan – “alpha3”. Dengan rumus “=IF(ISNUMBER(“alpha2”;N);1;0)”
Buat sel tetap "Omega-2" dengan rumus "=SUM("alpha3"N1:"alpha3"N365498)"
Tabel 3. Hasil Analisis Awal Hasil
Tabel 4. Kesalahan yang tercatat pada tahap ini
Total waktu yang dihabiskan pada tahap 2.2.1 (untuk rumus Schumann) t221 = 8 jam.
Jumlah kesalahan yang dikoreksi pada tahap 2.2.1 (untuk rumus Schumann) n221 = 0 pcs.
Langkah 3.
Langkah ketiga adalah mencatat status dataset. Kami menetapkan nomor unik (ID) untuk setiap rekaman dan setiap kolom. Hal ini diperlukan untuk membandingkan dataset hasil transformasi dengan dataset asli. Kemampuan pengelompokan dan pemfilteran juga perlu dimanfaatkan sepenuhnya. Di sini, kami kembali merujuk ke Tabel 2.2.2 dan memilih simbol yang tidak digunakan dalam dataset. Hasilnya ditunjukkan pada Gambar 10.

Gbr. 10. Menetapkan pengenal.
Total waktu yang dihabiskan pada tahap 3 (untuk rumus Schumann) t3 = 0,75 jam.
Jumlah kesalahan yang ditemukan pada langkah 3 (untuk rumus Schumann) n3 = 0 pcs.
Karena rumus Schumann mengharuskan tahap ini diselesaikan dengan koreksi kesalahan, kita kembali ke tahap 2.
Langkah 2.2.2.
Pada tahap ini kami juga akan mengoreksi spasi ganda dan spasi rangkap tiga.

Gbr. 11. Jumlah spasi ganda.
Koreksi kesalahan yang diidentifikasi dalam Tabel 2.2.4.
Tabel 5. Tahap koreksi kesalahan

Contoh mengapa aspek seperti penggunaan huruf “e” atau “yo” penting ditunjukkan pada Gambar 12.

Gbr. 12. Ketidakkonsistenan pada huruf "ё".
Total waktu yang dihabiskan pada tahap 2.2.2 t222 = 4 jam.
Jumlah kesalahan yang ditemukan pada langkah 2.2.2 (untuk rumus Schumann) n222 = 583 pcs.
Tahap keempat.
Memeriksa redundansi kolom sangat cocok untuk langkah ini. Dari 44 kolom, 6 di antaranya adalah:
7 — Tujuan struktur
16 - Jumlah lantai bawah tanah
17 — Objek induk
21 — Dewan Desa
38 — Parameter struktur (deskripsi)
40 - Warisan Budaya
Mereka tidak memiliki satu entri pun. Artinya, mereka mubazir.
Kolom "22 - Kota" memiliki satu entri tunggal, Gambar 13.

Gbr. 13. Satu-satunya entri Z_348653 di kolom “Kota”.
Kolom “34 — Nama bangunan” berisi entri yang jelas tidak sesuai dengan tujuan kolom, Gambar 14.

Gbr. 14. Contoh entri yang tidak patuh.
Kami mengecualikan bidang ini dari kumpulan data dan mencatat perubahan pada 214 catatan.
Total waktu yang dihabiskan pada tahap 4 (untuk rumus Schumann) t4 = 2,5 jam.
Jumlah kesalahan yang ditemukan pada langkah 4 (untuk rumus Schumann) n4 = 222 pcs.
Tabel 6. Analisis indikator dataset setelah tahap ke-4

Secara umum, menganalisis perubahan indikator (Tabel 6), kita dapat mengatakan bahwa:
1) Rasio rata-rata jumlah simbol terhadap tuas deviasi standar mendekati 3, berarti ada tanda-tanda distribusi normal (aturan enam sigma).
2) Penyimpangan signifikan tuas minimum dan maksimum dari tuas rata-rata menunjukkan bahwa studi ekor merupakan arah yang menjanjikan dalam pencarian kesalahan.
Kita akan meneliti hasil penemuan kesalahan dengan menggunakan metodologi Schumann.
Tahapan diam
2.1. Total waktu yang dihabiskan pada tahap 2.1 (untuk rumus Schumann) t21 = 1 jam.
Jumlah kesalahan yang ditemukan pada langkah 2.1 (untuk rumus Schumann) n21 = 0 pcs.
3. Total waktu yang dihabiskan pada tahap 3 (untuk rumus Schumann) t3 = 0,75 jam.
Jumlah kesalahan yang ditemukan pada langkah 3 (untuk rumus Schumann) n3 = 0 pcs.
Tahapan yang efektif
2.2. Total waktu yang dihabiskan pada tahap 2.2.1 (untuk rumus Schumann) t221 = 8 jam.
Jumlah kesalahan yang dikoreksi pada tahap 2.2.1 (untuk rumus Schumann) n221 = 0 pcs.
Total waktu yang dihabiskan pada tahap 2.2.2 t222 = 4 jam.
Jumlah kesalahan yang ditemukan pada langkah 2.2.2 (untuk rumus Schumann) n222 = 583 pcs.
Total waktu yang dihabiskan pada tahap 2.2 t22 = 8 + 4 = 12 jam.
Jumlah kesalahan yang ditemukan pada langkah 2.2.2 (untuk rumus Schumann) n222 = 583 pcs.
4. Total waktu yang dihabiskan pada tahap 4 (untuk rumus Schumann) t4 = 2,5 jam.
Jumlah kesalahan yang ditemukan pada langkah 4 (untuk rumus Schumann) n4 = 222 pcs.
Karena tidak ada tahapan yang harus disertakan dalam tahapan pertama model Schumann, dan di sisi lain, tahapan 2, 2, dan 4 pada hakikatnya bersifat independen, maka dengan mempertimbangkan bahwa model Schumann mengasumsikan bahwa dengan bertambahnya durasi pengujian, maka probabilitas mendeteksi kesalahan akan berkurang, dengan kata lain, alur kegagalan pun berkurang, maka dengan mempelajari alur ini kita akan menentukan tahapan mana yang akan didahulukan, sesuai dengan kaidah, di mana kepadatan kegagalan lebih sering terjadi, tahapan itulah yang didahulukan.
![]()
Pic.15
Dari rumus pada Gambar 15 dapat disimpulkan bahwa lebih baik menempatkan tahap keempat sebelum tahap 2.2 dalam perhitungan.
Dengan menggunakan rumus Schumann, kami menentukan perkiraan jumlah kesalahan awal:

Pic.16
Dari hasil pada Gambar 16 terlihat bahwa jumlah kesalahan prediksi N2 = 3167, lebih besar dari kriteria minimum yaitu 1459.
Sebagai hasil koreksi, kami mengoreksi 805 kesalahan, dan angka prediksi adalah 3167 - 805 = 2362, yang masih lebih besar dari ambang batas minimum yang kami adopsi.
Kami mendefinisikan parameter C, lambda dan fungsi keandalan:

Pic.17
Pada dasarnya, lambda merupakan indikator aktual tingkat deteksi kesalahan di setiap tahap. Berdasarkan estimasi sebelumnya, indikator ini adalah 42,4 kesalahan per jam, yang cukup sebanding dengan indikator Schumann. Merujuk pada bagian pertama materi ini, ditetapkan bahwa tingkat deteksi kesalahan pengembang tidak boleh lebih rendah dari 1 kesalahan per 250,4 rekaman, dengan satu rekaman per menit diperiksa. Oleh karena itu, nilai lambda kritis untuk model Schumann adalah:
60 / 250,4 = 0,239617.
Artinya, kebutuhan untuk melakukan prosedur deteksi kesalahan harus dilakukan hingga lambda dari yang ada 38,964 turun menjadi 0,239617.
Atau sampai indikator N (jumlah kesalahan potensial) dikurangi n (jumlah kesalahan yang dikoreksi) menurun di bawah ambang batas yang kita adopsi (pada bagian pertama) – 1459 pcs.
Sumber: www.habr.com
