ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ

В ส่วนหนึ่ง มีการอธิบายว่าสิ่งพิมพ์นี้จัดทำขึ้นบนพื้นฐานของชุดข้อมูลผลการประเมินมูลค่าที่ดินของอสังหาริมทรัพย์ใน Khanty-Mansi Autonomous Okrug

ส่วนการปฏิบัติจะแสดงเป็นขั้นตอน การทำความสะอาดทั้งหมดเสร็จสิ้นใน Excel เนื่องจากผู้เชี่ยวชาญส่วนใหญ่ที่รู้จัก Excel สามารถทำซ้ำเครื่องมือทั่วไปและการดำเนินการที่อธิบายไว้ได้ และค่อนข้างเหมาะกับงานจับมือกันเลยทีเดียว

ระยะศูนย์จะเป็นงานในการเปิดและบันทึกไฟล์ เนื่องจากมีขนาด 100 MB ดังนั้นเมื่อจำนวนการดำเนินการเหล่านี้เป็นสิบหรือหลายร้อย จึงใช้เวลานานมาก
การเปิดโดยเฉลี่ยคือ 30 วินาที
ประหยัด – 22 วินาที

ขั้นแรกเริ่มต้นด้วยการกำหนดตัวบ่งชี้ทางสถิติของชุดข้อมูล

ตารางที่ 1. ตัวบ่งชี้ทางสถิติของชุดข้อมูล
ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ

เทคโนโลยี 2.1

เราสร้างฟิลด์เสริมฉันมีไว้ใต้หมายเลข - AY สำหรับแต่ละรายการ เราจะสร้างสูตร “=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”

เวลาทั้งหมดที่ใช้ในระยะ 2.1 (สำหรับสูตร Schumann) t21 = 1 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.1 (สำหรับสูตร Schumann) n21 = 0 ชิ้น

ขั้นตอนที่สอง
การตรวจสอบส่วนประกอบของชุดข้อมูล
2.2. ค่าทั้งหมดในบันทึกถูกสร้างขึ้นโดยใช้สัญลักษณ์มาตรฐาน ดังนั้นเรามาติดตามสถิติด้วยสัญลักษณ์กัน

ตารางที่ 2. ตัวบ่งชี้ทางสถิติของอักขระในชุดข้อมูลพร้อมการวิเคราะห์ผลลัพธ์เบื้องต้นทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ

เทคโนโลยี 2.2.1

เราสร้างฟิลด์เสริม - "alpha1" สำหรับแต่ละระเบียน เราจะสร้างสูตร “=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)”
เราสร้างเซลล์โอเมก้า 1 แบบคงที่ เราจะสลับกันป้อนรหัสอักขระตาม Windows-1251 จาก 32 ถึง 255 ลงในเซลล์นี้
เราสร้างฟิลด์เสริม - "alpha2" ด้วยสูตร “=FIND(SYMBOL(Omega,1); “alpha1”,N)”
เราสร้างฟิลด์เสริม - "alpha3" ด้วยสูตร “=IF(ISNUMBER(“alpha2”,N),1)”
สร้างเซลล์คงที่ "Omega-2" โดยใช้สูตร "=SUM("alpha3"N1: "alpha3"N365498)"

ตารางที่ 3 ผลการวิเคราะห์ผลเบื้องต้นทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ

ตารางที่ 4. ข้อผิดพลาดที่บันทึกไว้ในขั้นตอนนี้ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ

เวลาทั้งหมดที่ใช้ในระยะ 2.2.1 (สำหรับสูตร Schumann) t221 = 8 ชั่วโมง
จำนวนข้อผิดพลาดที่แก้ไขในขั้นตอน 2.2.1 (สำหรับสูตร Schumann) n221 = 0 ชิ้น

ขั้นตอนที่ 3
ขั้นตอนที่สามคือการบันทึกสถานะของชุดข้อมูล โดยการกำหนดหมายเลขเฉพาะ (ID) และแต่ละฟิลด์ให้กับแต่ละเรคคอร์ด นี่เป็นสิ่งจำเป็นในการเปรียบเทียบชุดข้อมูลที่แปลงแล้วกับชุดข้อมูลต้นฉบับ นี่ยังจำเป็นต่อการใช้ประโยชน์จากความสามารถในการจัดกลุ่มและการกรองอย่างเต็มที่ ที่นี่เรากลับไปที่ตาราง 2.2.2 อีกครั้งและเลือกสัญลักษณ์ที่ไม่ได้ใช้ในชุดข้อมูล เราได้สิ่งที่แสดงในรูปที่ 10

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
มะเดื่อ 10. การกำหนดตัวระบุ

เวลาทั้งหมดที่ใช้ในระยะ 3 (สำหรับสูตร Schumann) t3 = 0,75 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 3 (สำหรับสูตร Schumann) n3 = 0 ชิ้น

เนื่องจากสูตร Schumann กำหนดให้ขั้นตอนต้องเสร็จสิ้นโดยการแก้ไขข้อผิดพลาด กลับไปที่ขั้นตอนที่ 2 กันเถอะ

ขั้นตอนที่ 2.2.2
ในขั้นตอนนี้ เราจะแก้ไขช่องว่างสองเท่าและสามช่องด้วย
ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
มะเดื่อ 11. จำนวนช่องว่างสองเท่า

การแก้ไขข้อผิดพลาดที่ระบุในตาราง 2.2.4

ตารางที่ 5. ขั้นตอนการแก้ไขข้อผิดพลาดทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ

ตัวอย่างว่าทำไมลักษณะเช่นการใช้ตัวอักษร "e" หรือ "e" จึงมีความสำคัญแสดงในรูปที่ 12

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
มะเดื่อ 12. ความคลาดเคลื่อนในตัวอักษร "e"

เวลาทั้งหมดที่ใช้ในขั้นตอน 2.2.2 t222 = 4 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.2.2 (สำหรับสูตร Schumann) n222 = 583 ชิ้น

ขั้นตอนที่สี่
การตรวจสอบความซ้ำซ้อนของฟิลด์เหมาะสมกับขั้นตอนนี้ จาก 44 ฟิลด์ 6 ฟิลด์:
7 - วัตถุประสงค์ของโครงสร้าง
16 — จำนวนชั้นใต้ดิน
17 - ออบเจ็กต์หลัก
21 - สภาหมู่บ้าน
38 — พารามิเตอร์โครงสร้าง (คำอธิบาย)
40 – มรดกทางวัฒนธรรม

พวกเขาไม่มีรายการใด ๆ นั่นคือพวกเขาซ้ำซ้อน
ฟิลด์ “22 – เมือง” มีรายการเดียว รูปที่ 13

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
มะเดื่อ 13. รายการเดียวคือ Z_348653 ในฟิลด์ "เมือง"

ฟิลด์ “34 - ชื่ออาคาร” มีรายการที่ไม่สอดคล้องกับวัตถุประสงค์ของฟิลด์อย่างชัดเจน รูปที่ 14

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
มะเดื่อ 14. ตัวอย่างของรายการที่ไม่สอดคล้อง

เราแยกฟิลด์เหล่านี้ออกจากชุดข้อมูล และเราบันทึกการเปลี่ยนแปลงใน 214 บันทึก

เวลาทั้งหมดที่ใช้ในระยะ 4 (สำหรับสูตร Schumann) t4 = 2,5 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 4 (สำหรับสูตร Schumann) n4 = 222 ชิ้น

ตารางที่ 6. การวิเคราะห์ตัวบ่งชี้ชุดข้อมูลหลังระยะที่ 4

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ

โดยทั่วไป การวิเคราะห์การเปลี่ยนแปลงของตัวชี้วัด (ตารางที่ 6) เราสามารถพูดได้ว่า:
1) อัตราส่วนของจำนวนสัญลักษณ์โดยเฉลี่ยต่อคันโยกส่วนเบี่ยงเบนมาตรฐานอยู่ใกล้กับ 3 นั่นคือมีสัญญาณของการแจกแจงแบบปกติ (กฎซิกซิกม่า)
2) การเบี่ยงเบนอย่างมีนัยสำคัญของคันโยกต่ำสุดและสูงสุดจากคันโยกเฉลี่ยแสดงให้เห็นว่าการศึกษาส่วนท้ายเป็นทิศทางที่ดีเมื่อค้นหาข้อผิดพลาด

เรามาตรวจสอบผลลัพธ์ของการค้นหาข้อผิดพลาดโดยใช้วิธีของชูมันน์กันดีกว่า

ระยะไม่ได้ใช้งาน

2.1. เวลาทั้งหมดที่ใช้ในระยะ 2.1 (สำหรับสูตร Schumann) t21 = 1 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.1 (สำหรับสูตร Schumann) n21 = 0 ชิ้น

3. เวลาทั้งหมดที่ใช้ในระยะ 3 (สำหรับสูตร Schumann) t3 = 0,75 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 3 (สำหรับสูตร Schumann) n3 = 0 ชิ้น

ขั้นตอนที่มีประสิทธิภาพ
2.2. เวลาทั้งหมดที่ใช้ในระยะ 2.2.1 (สำหรับสูตร Schumann) t221 = 8 ชั่วโมง
จำนวนข้อผิดพลาดที่แก้ไขในขั้นตอน 2.2.1 (สำหรับสูตร Schumann) n221 = 0 ชิ้น
เวลาทั้งหมดที่ใช้ในขั้นตอน 2.2.2 t222 = 4 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.2.2 (สำหรับสูตร Schumann) n222 = 583 ชิ้น

เวลาทั้งหมดที่ใช้ในขั้นตอน 2.2 t22 = 8 + 4 = 12 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.2.2 (สำหรับสูตร Schumann) n222 = 583 ชิ้น

4. เวลาทั้งหมดที่ใช้ในระยะ 4 (สำหรับสูตร Schumann) t4 = 2,5 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 4 (สำหรับสูตร Schumann) n4 = 222 ชิ้น

เนื่องจากมีศูนย์ขั้นตอนที่จะต้องรวมไว้ในขั้นตอนแรกของแบบจำลอง Schumann และในทางกลับกัน ขั้นตอนที่ 2.2 และ 4 มีความเป็นอิสระโดยเนื้อแท้ จากนั้น เมื่อพิจารณาว่าแบบจำลอง Schumann ถือว่าการเพิ่มระยะเวลาของการตรวจสอบ ความน่าจะเป็น ของการตรวจจับข้อผิดพลาดลดลง กล่าวคือ โฟลว์ลดความล้มเหลว จากนั้นโดยการตรวจสอบโฟลว์นี้ เราจะกำหนดระยะที่จะใส่ไว้ก่อน ตามกฎ โดยที่ความหนาแน่นของความล้มเหลวบ่อยกว่า เราจะวางระยะนั้นไว้ก่อน

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
มะเดื่อ 15.

จากสูตรในรูปที่ 15 พบว่าควรวางระยะที่สี่ก่อนระยะ 2.2 ในการคำนวณ

เมื่อใช้สูตรของชูมันน์ เราจะกำหนดจำนวนข้อผิดพลาดเริ่มต้นโดยประมาณ:

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
มะเดื่อ 16.

จากผลลัพธ์ในรูปที่ 16 จะเห็นได้ว่าจำนวนข้อผิดพลาดที่คาดการณ์ไว้คือ N2 = 3167 ซึ่งมากกว่าเกณฑ์ขั้นต่ำที่ 1459

จากผลของการแก้ไข เราได้แก้ไขข้อผิดพลาด 805 และตัวเลขที่คาดการณ์คือ 3167 – 805 = 2362 ซึ่งยังคงมากกว่าเกณฑ์ขั้นต่ำที่เรายอมรับ

เรากำหนดพารามิเตอร์ C, แลมบ์ดาและฟังก์ชันความน่าเชื่อถือ:

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 2 การปฏิบัติ
มะเดื่อ 17.

โดยพื้นฐานแล้ว lambda เป็นตัวบ่งชี้ที่แท้จริงของระดับความรุนแรงของการตรวจพบข้อผิดพลาดในแต่ละขั้นตอน หากคุณดูด้านบน การประมาณการก่อนหน้านี้ของตัวบ่งชี้นี้คือข้อผิดพลาด 42,4 ต่อชั่วโมง ซึ่งค่อนข้างเทียบได้กับตัวบ่งชี้ Schumann เมื่อพิจารณาจากส่วนแรกของเนื้อหานี้ พบว่าอัตราที่นักพัฒนาพบข้อผิดพลาดไม่ควรต่ำกว่า 1 ข้อผิดพลาดต่อ 250,4 บันทึก เมื่อตรวจสอบ 1 บันทึกต่อนาที ดังนั้นค่าวิกฤตของแลมบ์ดาสำหรับโมเดลชูมันน์:
60 / 250,4 = 0,239617

นั่นคือจำเป็นต้องดำเนินการตามขั้นตอนการตรวจจับข้อผิดพลาดจนกว่าแลมบ์ดาจาก 38,964 ที่มีอยู่จะลดลงเหลือ 0,239617

หรือจนกว่าตัวบ่งชี้ N (จำนวนข้อผิดพลาดที่อาจเกิดขึ้น) ลบ n (จำนวนข้อผิดพลาดที่ถูกต้อง) ลดลงต่ำกว่าเกณฑ์ที่เรายอมรับ (ในส่วนแรก) - 1459 ชิ้น

ส่วนที่ 1 เชิงทฤษฎี

ที่มา: will.com

เพิ่มความคิดเห็น