Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik

В Birinci hissə təsvir edilmişdir ki, bu nəşr Xantı-Mansi Muxtar Dairəsində daşınmaz əmlakın kadastr qiymətləndirilməsinin nəticələrinin məlumat toplusu əsasında hazırlanıb.

Praktik hissə addımlar şəklində təqdim olunur. Bütün təmizlik Excel-də aparıldı, çünki ən çox yayılmış alət və təsvir olunan əməliyyatlar Excel-i bilən əksər mütəxəssislər tərəfindən təkrarlana bilər. Və əl-ələ işləmək üçün olduqca uyğundur.

Sıfır mərhələ faylın işə salınması, saxlanması üzrə iş olacaq, çünki ölçüsü 100 mb olduğundan, bu əməliyyatların sayı, onlarla və yüzlərlə, onlar əhəmiyyətli vaxt tələb edir.
Açılış, orta hesabla - 30 saniyə.
Qənaət - 22 san.

Birinci mərhələ verilənlər toplusunun statistik göstəricilərinin müəyyən edilməsi ilə başlayır.

Cədvəl 1. Dataset statistikası
Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik

Texnologiya 2.1.

Biz köməkçi sahə yaradırıq, məndə nömrə altında var - AY. Hər bir giriş üçün "= DLSTR (F365502) + DLSTR (G365502) + ... + DLSTR (AW365502)" düsturu formalaşdırırıq.

2.1-ci addıma sərf olunan ümumi vaxt (Şuman düsturu üçün) t21 = 1 saat.
Mərhələ 2.1-də aşkar edilən səhvlərin sayı (Schumann düsturu üçün) n21 = 0 ədəd.

İkinci mərhələ.
Dataset komponentlərinin yoxlanılması.
2.2. Qeydlərdəki bütün dəyərlər standart simvollarla formalaşır. Ona görə də biz statistik rəqəmləri simvollarla izləyəcəyik.

Cədvəl 2. Nəticələrin ilkin təhlili ilə verilənlər bazasında xarakter statistikası.Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik

Texnologiya 2.2.1.

Köməkçi bir sahə yaradın - "alpha1". Hər bir qeyd üçün "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)" düsturu formalaşdırırıq.
Sabit bir hüceyrə "Omega-1" yaradırıq. Bu xanada biz alternativ olaraq Windows-1251 üçün 32-dən 255-ə qədər simvol kodlarını daxil edəcəyik.
Köməkçi sahə yaradın - "alpha2". "= FIND (CHAR (Omega, 1), "alpha1", N)" düsturu ilə.
Köməkçi bir sahə yaradın - "alpha3". "=ƏGƏR(ISNUMBER("alfa2";N);1;0)" düsturu ilə
"=SUM("alpha2"N3:"alpha1"N3)" düsturu ilə sabit "Omeqa-365498" xanası yaradın.

Cədvəl 3. Nəticələrin ilkin təhlilinin nəticələriQaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik

Cədvəl 4. Bu mərhələdə düzəldilmiş xətalarQaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik

2.2.1-ci addıma sərf olunan ümumi vaxt (Şuman düsturu üçün) t221 = 8 saat.
Mərhələ 2.2.1-də düzəldilmiş səhvlərin sayı (Schumann formulası üçün) n221 = 0 ədəd.

3 Adım.
Üçüncü addım verilənlər bazasının vəziyyətini düzəltməkdir. Hər bir qeydə unikal nömrə (ID) və hər bir sahə təyin etməklə. Bu, çevrilmiş məlumat dəstini orijinal ilə müqayisə etmək üçün lazımdır. Qruplaşdırma və filtrləmə imkanlarından da tam istifadə etmək lazımdır. Burada yenidən cədvəl 2.2.2-yə müraciət edirik və verilənlər bazasında istifadə olunmayan simvolu seçirik. Şəkil 10-da göstərilənləri alırıq.

Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Şəkil 10. İdentifikatorların təyin edilməsi.

3-ci addıma sərf olunan ümumi vaxt (Şuman düsturu üçün) t3 = 0,75 saat.
Mərhələ 3-də aşkar edilən səhvlərin sayı (Schumann düsturu üçün) n3 = 0 ədəd.

Schumann düsturu səhvlərin düzəldilməsi ilə mərhələnin tamamlanmasını tələb etdiyi üçün. 2-ci mərhələyə qayıdırıq.

2.2.2 Adım.
Bu addımda biz ikiqat və üçlü boşluqları da düzəldəcəyik.
Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Şəkil 11. İkiqat boşluqların sayı.

Cədvəl 2.2.4-də müəyyən edilmiş səhvlərin düzəldilməsi.

Cədvəl 5. Səhvlərin düzəldilməsi mərhələsiQaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik

“e” və ya “ё” hərflərinin istifadəsi kimi bir cəhətin niyə əhəmiyyətli olduğuna dair bir nümunə Şəkil 12-də göstərilmişdir.

Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Şəkil 12. "e" hərfində uyğunsuzluq.

2.2.2-ci addımda sərf olunan ümumi vaxt t222 = 4 saat.
Mərhələ 2.2.2-də aşkar edilən səhvlərin sayı (Schumann düsturu üçün) n222 = 583 ədəd.

Dördüncü mərhələ.
Sahələrin artıqlığının yoxlanılması bu mərhələyə yaxşı uyğun gəlir. 44 sahədən 6 sahə:
7 - Quruluşun məqsədi
16 - Yeraltı mərtəbələrin sayı
17 - Ana obyekt
21 - Kənd Soveti
38 - Struktur parametrləri (təsvir)
40 - Mədəni irs

Onların heç bir qeydləri yoxdur. Yəni lazımsız.
"22 - Şəhər" sahəsində bir qeyd var, Şəkil 13.

Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Şəkil 13. "Şəhər" sahəsində yeganə giriş Z_348653-dir.

“34 – Binanın adı” sahəsində sahənin təyinatına aydın şəkildə uyğun gəlməyən qeydlər verilir, Şəkil 14.

Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Şəkil 14. Uyğun olmayan giriş nümunəsi.

Bu sahələri verilənlər bazasından çıxarırıq. Həmçinin biz 214 qeydin dəyişməsini düzəldirik.

4-ci addıma sərf olunan ümumi vaxt (Şuman düsturu üçün) t4 = 2,5 saat.
Mərhələ 4-də aşkar edilən səhvlərin sayı (Schumann düsturu üçün) n4 = 222 ədəd.

Cədvəl 6. 4-cü mərhələdən sonra verilənlər bazası göstəricilərinin təhlili

Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik

Ümumiyyətlə, göstəricilərdəki dəyişiklikləri təhlil edərkən (Cədvəl 6) deyə bilərik ki:
1) Simvolların orta sayının standart sapma leverajına nisbəti 3-ə yaxındır, yəni normal paylanma əlamətləri var (altı siqma qaydası).
2) Minimum və maksimum qolların orta qoldan əhəmiyyətli dərəcədə sapması quyruqların öyrənilməsinin səhvlərin axtarışında perspektivli bir istiqamət olduğunu göstərir.

Biz Schumann metodologiyasından istifadə edərək səhvlərin tapılmasının nəticələrini araşdırırıq.

boş mərhələlər

2.1. 2.1-ci addıma sərf olunan ümumi vaxt (Şuman düsturu üçün) t21 = 1 saat.
Mərhələ 2.1-də aşkar edilən səhvlərin sayı (Schumann düsturu üçün) n21 = 0 ədəd.

3. 3-ci addıma sərf olunan ümumi vaxt (Şuman düsturu üçün) t3 = 0,75 saat.
Mərhələ 3-də aşkar edilən səhvlərin sayı (Schumann düsturu üçün) n3 = 0 ədəd.

Effektiv mərhələlər
2.2. 2.2.1-ci addıma sərf olunan ümumi vaxt (Şuman düsturu üçün) t221 = 8 saat.
Mərhələ 2.2.1-də düzəldilmiş səhvlərin sayı (Schumann formulası üçün) n221 = 0 ədəd.
2.2.2-ci addımda sərf olunan ümumi vaxt t222 = 4 saat.
Mərhələ 2.2.2-də aşkar edilən səhvlərin sayı (Schumann düsturu üçün) n222 = 583 ədəd.

2.2-ci addımda sərf olunan ümumi vaxt t22 = 8 + 4 = 12 saat.
Mərhələ 2.2.2-də aşkar edilən səhvlərin sayı (Schumann düsturu üçün) n222 = 583 ədəd.

4. 4-ci addıma sərf olunan ümumi vaxt (Şuman düsturu üçün) t4 = 2,5 saat.
Mərhələ 4-də aşkar edilən səhvlərin sayı (Schumann düsturu üçün) n4 = 222 ədəd.

Schumann modelinin birinci mərhələsinə daxil edilməli olan sıfır mərhələlər olduğundan və digər tərəfdən, 2.2 və 4-cü mərhələlər mahiyyətcə müstəqildir, nəzərə alsaq ki, Şuman modelində yoxlama müddətinin artması ehtimalı var. xətanın aşkarlanması, yəni axın nasazlıqları azalır, sonra bu axını araşdıraraq, qaydaya uyğun olaraq, hansı mərhələləri birinci yerə qoyacağımızı müəyyənləşdirəcəyik, harada uğursuzluq sıxlığı daha tez-tez baş verirsə, mərhələlərdən birini birinciyə qoyuruq. .

Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Şəkil 15.

Şəkil 15-dəki düsturdan belə çıxır ki, hesablamalarda dördüncü mərhələnin 2.2-ci mərhələdən əvvəl qoyulmasına üstünlük verilir.

Schumann düsturundan istifadə edərək, səhvlərin təxmini ilkin sayını təyin edirik:

Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Şəkil 16.

Şəkil 16-dakı nəticələrdən görmək olar ki, səhvlərin proqnozlaşdırılan sayı N2 = 3167-dir ki, bu da minimum meyar olan 1459-dan çoxdur.

Düzəliş nəticəsində biz 805 səhvi düzəltdik və proqnozlaşdırılan rəqəm 3167 - 805 = 2362-dir ki, bu da hələ də bizim qəbul etdiyimiz minimum hədddən çoxdur.

Parametr C, lambda və etibarlılıq funksiyasını təyin edirik:

Qaya, Kağız, Qayçı kimi məlumatların təmizlənməsi. Bu, bitən və ya bitməyən bir oyundur? Hissə 2. Praktik
Şəkil 17.

Əslində, lambda hər mərhələdə səhvlərin aşkar edildiyi faktiki sürətdir. Yuxarıda baxsanız, bu göstəricinin qiymətləndirilməsi əvvəllər saatda 42,4 səhv idi ki, bu da Schuman göstəricisi ilə kifayət qədər müqayisə edilə bilər. Bu materialın birinci hissəsinə istinad edərək müəyyən edilmişdir ki, tərtibatçı tərəfindən səhvlərin tapılma dərəcəsi dəqiqədə 1 qeyd yoxlanılarkən 250,4 qeyd üçün 1 səhvdən aşağı olmamalıdır. Beləliklə, Schumann modeli üçün kritik lambda dəyəri:
60 / 250,4 = 0,239617.

Yəni, səhvləri tapmaq üçün prosedurları yerinə yetirmək ehtiyacı lambda mövcud 38,964-dən 0,239617-ə düşənə qədər həyata keçirilməlidir.

Və ya göstərici N (səhvlərin potensial sayı) minus n (səhvlərin düzəldilmiş sayı) qəbul etdiyimiz həddən aşağı düşənə qədər (birinci hissədə) - 1459 ədəd.

Hissə 1. Nəzəri.

Mənbə: www.habr.com

Добавить комментарий