Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành

В phần một người ta mô tả rằng ấn phẩm này được thực hiện trên cơ sở bộ dữ liệu về kết quả định giá địa chính của bất động sản ở Khu tự trị Khanty-Mansi.

Phần thực hành được trình bày dưới dạng các bước. Tất cả quá trình dọn dẹp đều được thực hiện trong Excel, vì hầu hết các chuyên gia biết Excel đều có thể lặp lại công cụ phổ biến nhất và các thao tác được mô tả. Và khá phù hợp cho công việc tay chân.

Giai đoạn 100 sẽ là công việc khởi chạy và lưu tệp, vì nó có kích thước XNUMX MB, nên với số lượng thao tác này là hàng chục và hàng trăm, chúng sẽ mất thời gian đáng kể.
Thời gian mở trung bình là 30 giây.
Tiết kiệm - 22 giây.

Giai đoạn đầu tiên bắt đầu bằng việc xác định các chỉ số thống kê của tập dữ liệu.

Bảng 1. Các chỉ tiêu thống kê của tập dữ liệu
Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành

Công nghệ 2.1.

Chúng tôi tạo một trường phụ trợ, tôi có nó dưới số - AY. Đối với mỗi mục nhập, chúng tôi tạo thành công thức “=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”

Tổng thời gian dành cho giai đoạn 2.1 (đối với công thức Schumann) t21 = 1 giờ.
Số lỗi tìm được ở bước 2.1 (đối với công thức Schumann) n21 = 0 chiếc.

Giai đoạn thứ hai.
Kiểm tra các thành phần của tập dữ liệu
2.2. Tất cả các giá trị trong bản ghi được hình thành bằng các ký hiệu tiêu chuẩn. Vì vậy, hãy theo dõi số liệu thống kê bằng ký hiệu.

Bảng 2. Chỉ tiêu thống kê các ký tự trong tập dữ liệu với kết quả phân tích sơ bộ.Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành

Công nghệ 2.2.1.

Chúng tôi tạo một trường phụ trợ - “alpha1”. Đối với mỗi bản ghi, chúng ta tạo thành công thức “=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)”
Chúng tôi tạo ra một tế bào Omega-1 cố định. Chúng ta sẽ lần lượt nhập các mã ký tự theo Windows-1251 từ 32 đến 255 vào ô này.
Chúng tôi tạo một trường phụ trợ - “alpha2”. Với công thức “=FIND(SYMBOL(Omega,1); “alpha1”,N)”.
Chúng tôi tạo một trường phụ trợ - “alpha3”. Với công thức “=IF(ISNUMBER(“alpha2”,N),1)”
Tạo một ô cố định “Omega-2”, với công thức “=SUM(“alpha3”N1: “alpha3”N365498)”

Bảng 3. Kết quả phân tích sơ bộ kết quảDọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành

Bảng 4. Các lỗi ghi nhận ở giai đoạn nàyDọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành

Tổng thời gian dành cho giai đoạn 2.2.1 (đối với công thức Schumann) t221 = 8 giờ.
Số lỗi đã sửa ở bước 2.2.1 (đối với công thức Schumann) n221 = 0 chiếc.

Bước 3.
Bước thứ ba là ghi lại trạng thái của tập dữ liệu. Bằng cách gán cho mỗi bản ghi một số (ID) duy nhất và mỗi trường. Điều này là cần thiết để so sánh tập dữ liệu đã chuyển đổi với tập dữ liệu gốc. Điều này cũng cần thiết để tận dụng tối đa khả năng nhóm và lọc. Ở đây một lần nữa chúng ta chuyển sang bảng 2.2.2 và chọn một ký hiệu không được sử dụng trong tập dữ liệu. Chúng ta có được những gì được hiển thị trong Hình 10.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Hình 10. Chỉ định định danh.

Tổng thời gian dành cho giai đoạn 3 (đối với công thức Schumann) t3 = 0,75 giờ.
Số lỗi tìm được ở bước 3 (đối với công thức Schumann) n3 = 0 chiếc.

Vì công thức Schumann yêu cầu giai đoạn này phải được hoàn thành bằng cách sửa lỗi. Hãy quay lại giai đoạn 2.

Bước 2.2.2.
Trong bước này, chúng tôi cũng sẽ sửa các khoảng trắng đôi và ba.
Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Hình 11. Số lượng không gian đôi.

Sửa chữa các lỗi được xác định trong bảng 2.2.4.

Bảng 5. Giai đoạn sửa lỗiDọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành

Ví dụ về lý do tại sao khía cạnh như việc sử dụng các chữ cái “e” hoặc “e” lại quan trọng được trình bày trong Hình 12.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Hình 12. Sự khác biệt trong chữ "e".

Tổng thời gian ở bước 2.2.2 t222 = 4 giờ.
Số lỗi tìm được ở bước 2.2.2 (đối với công thức Schumann) n222 = 583 chiếc.

Giai đoạn thứ tư.
Kiểm tra sự dư thừa của trường phù hợp với giai đoạn này. Trong số 44 trường có 6 trường:
7 - Mục đích của kết cấu
16 – Số tầng ngầm
17 - Đối tượng cha
21 - Hội đồng thôn
38 - Tham số kết cấu (mô tả)
40 – Di sản văn hóa

Họ không có bất kỳ mục nào. Tức là chúng dư thừa.
Trường “22 – Thành phố” có một mục duy nhất, Hình 13.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Hình 13. Mục nhập duy nhất là Z_348653 trong trường “Thành phố”.

Trường “34 - Tên tòa nhà” chứa các mục nhập rõ ràng không tương ứng với mục đích của trường, Hình 14.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Hình 14. Một ví dụ về một mục nhập không tuân thủ.

Chúng tôi loại trừ các trường này khỏi tập dữ liệu. Và chúng tôi ghi lại sự thay đổi trong 214 bản ghi.

Tổng thời gian dành cho giai đoạn 4 (đối với công thức Schumann) t4 = 2,5 giờ.
Số lỗi tìm được ở bước 4 (đối với công thức Schumann) n4 = 222 chiếc.

Bảng 6. Phân tích các chỉ số của bộ dữ liệu sau giai đoạn 4

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành

Nhìn chung, phân tích sự thay đổi các chỉ số (Bảng 6) chúng ta có thể nói rằng:
1) Tỷ lệ số ký hiệu trung bình với đòn bẩy độ lệch chuẩn gần bằng 3, tức là có dấu hiệu phân phối chuẩn (quy tắc sáu sigma).
2) Độ lệch đáng kể của đòn bẩy tối thiểu và tối đa so với đòn bẩy trung bình cho thấy việc nghiên cứu mặt đuôi là một hướng đi đầy hứa hẹn khi tìm kiếm lỗi.

Hãy xem xét kết quả tìm lỗi bằng phương pháp của Schumann.

Giai đoạn nhàn rỗi

2.1. Tổng thời gian dành cho giai đoạn 2.1 (đối với công thức Schumann) t21 = 1 giờ.
Số lỗi tìm được ở bước 2.1 (đối với công thức Schumann) n21 = 0 chiếc.

3. Tổng thời gian dành cho giai đoạn 3 (đối với công thức Schumann) t3 = 0,75 giờ.
Số lỗi tìm được ở bước 3 (đối với công thức Schumann) n3 = 0 chiếc.

Giai đoạn hiệu quả
2.2. Tổng thời gian dành cho giai đoạn 2.2.1 (đối với công thức Schumann) t221 = 8 giờ.
Số lỗi đã sửa ở bước 2.2.1 (đối với công thức Schumann) n221 = 0 chiếc.
Tổng thời gian ở bước 2.2.2 t222 = 4 giờ.
Số lỗi tìm được ở bước 2.2.2 (đối với công thức Schumann) n222 = 583 chiếc.

Tổng thời gian ở bước 2.2 t22 = 8 + 4 = 12 giờ.
Số lỗi tìm được ở bước 2.2.2 (đối với công thức Schumann) n222 = 583 chiếc.

4. Tổng thời gian dành cho giai đoạn 4 (đối với công thức Schumann) t4 = 2,5 giờ.
Số lỗi tìm được ở bước 4 (đối với công thức Schumann) n4 = 222 chiếc.

Vì không có giai đoạn nào phải được đưa vào giai đoạn đầu tiên của mô hình Schumann và mặt khác, các giai đoạn 2.2 và 4 vốn độc lập với nhau, nên mô hình Schumann giả định rằng bằng cách tăng thời gian kiểm tra, xác suất của việc phát hiện lỗi giảm, tức là luồng giảm thất bại, sau đó bằng cách kiểm tra luồng này, chúng ta sẽ xác định giai đoạn nào cần đặt trước, theo quy tắc, nơi nào mật độ lỗi thường xuyên hơn, chúng ta sẽ đặt giai đoạn đó lên trước.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Hình 15.

Từ công thức trong Hình 15, cho thấy rằng nên đặt giai đoạn thứ tư trước giai đoạn 2.2 trong tính toán.

Sử dụng công thức Schumann, chúng tôi xác định số lỗi ban đầu ước tính:

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Hình 16.

Từ kết quả trên Hình 16 có thể thấy số lỗi dự đoán là N2 = 3167, nhiều hơn tiêu chí tối thiểu là 1459.

Kết quả của việc sửa chữa là chúng tôi đã sửa được 805 lỗi và con số dự đoán là 3167 – 805 = 2362, vẫn cao hơn ngưỡng tối thiểu mà chúng tôi chấp nhận.

Chúng tôi xác định tham số C, lambda và hàm độ tin cậy:

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 2. Thực hành
Hình 17.

Về cơ bản, lambda là một chỉ báo thực tế về cường độ phát hiện lỗi ở mỗi giai đoạn. Nếu bạn nhìn ở trên, ước tính trước đây của chỉ báo này là 42,4 lỗi mỗi giờ, khá tương đương với chỉ báo Schumann. Chuyển sang phần đầu tiên của tài liệu này, người ta xác định rằng tốc độ mà nhà phát triển tìm thấy lỗi không được thấp hơn 1 lỗi trên 250,4 bản ghi khi kiểm tra 1 bản ghi mỗi phút. Do đó, giá trị tới hạn của lambda đối với mô hình Schumann:
60 / 250,4 = 0,239617.

Nghĩa là, nhu cầu thực hiện các thủ tục phát hiện lỗi phải được thực hiện cho đến khi lambda, từ 38,964 hiện có, giảm xuống 0,239617.

Hoặc cho đến khi chỉ báo N (số lỗi tiềm ẩn) trừ n (số lỗi đã sửa) giảm xuống dưới ngưỡng chúng tôi chấp nhận (trong phần đầu tiên) - 1459 chiếc.

Phần 1. Lý thuyết.

Nguồn: www.habr.com

Thêm một lời nhận xét