В
ส่วนการปฏิบัติจะแสดงเป็นขั้นตอน การทำความสะอาดทั้งหมดเสร็จสิ้นใน Excel เนื่องจากผู้เชี่ยวชาญส่วนใหญ่ที่รู้จัก Excel สามารถทำซ้ำเครื่องมือทั่วไปและการดำเนินการที่อธิบายไว้ได้ และค่อนข้างเหมาะกับงานจับมือกันเลยทีเดียว
ระยะศูนย์จะเป็นงานในการเปิดและบันทึกไฟล์ เนื่องจากมีขนาด 100 MB ดังนั้นเมื่อจำนวนการดำเนินการเหล่านี้เป็นสิบหรือหลายร้อย จึงใช้เวลานานมาก
การเปิดโดยเฉลี่ยคือ 30 วินาที
ประหยัด – 22 วินาที
ขั้นแรกเริ่มต้นด้วยการกำหนดตัวบ่งชี้ทางสถิติของชุดข้อมูล
ตารางที่ 1. ตัวบ่งชี้ทางสถิติของชุดข้อมูล
เทคโนโลยี 2.1
เราสร้างฟิลด์เสริมฉันมีไว้ใต้หมายเลข - AY สำหรับแต่ละรายการ เราจะสร้างสูตร “=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”
เวลาทั้งหมดที่ใช้ในระยะ 2.1 (สำหรับสูตร Schumann) t21 = 1 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.1 (สำหรับสูตร Schumann) n21 = 0 ชิ้น
ขั้นตอนที่สอง
การตรวจสอบส่วนประกอบของชุดข้อมูล
2.2. ค่าทั้งหมดในบันทึกถูกสร้างขึ้นโดยใช้สัญลักษณ์มาตรฐาน ดังนั้นเรามาติดตามสถิติด้วยสัญลักษณ์กัน
ตารางที่ 2. ตัวบ่งชี้ทางสถิติของอักขระในชุดข้อมูลพร้อมการวิเคราะห์ผลลัพธ์เบื้องต้น
เทคโนโลยี 2.2.1
เราสร้างฟิลด์เสริม - "alpha1" สำหรับแต่ละระเบียน เราจะสร้างสูตร “=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)”
เราสร้างเซลล์โอเมก้า 1 แบบคงที่ เราจะสลับกันป้อนรหัสอักขระตาม Windows-1251 จาก 32 ถึง 255 ลงในเซลล์นี้
เราสร้างฟิลด์เสริม - "alpha2" ด้วยสูตร “=FIND(SYMBOL(Omega,1); “alpha1”,N)”
เราสร้างฟิลด์เสริม - "alpha3" ด้วยสูตร “=IF(ISNUMBER(“alpha2”,N),1)”
สร้างเซลล์คงที่ "Omega-2" โดยใช้สูตร "=SUM("alpha3"N1: "alpha3"N365498)"
ตารางที่ 3 ผลการวิเคราะห์ผลเบื้องต้น
ตารางที่ 4. ข้อผิดพลาดที่บันทึกไว้ในขั้นตอนนี้
เวลาทั้งหมดที่ใช้ในระยะ 2.2.1 (สำหรับสูตร Schumann) t221 = 8 ชั่วโมง
จำนวนข้อผิดพลาดที่แก้ไขในขั้นตอน 2.2.1 (สำหรับสูตร Schumann) n221 = 0 ชิ้น
ขั้นตอนที่ 3
ขั้นตอนที่สามคือการบันทึกสถานะของชุดข้อมูล โดยการกำหนดหมายเลขเฉพาะ (ID) และแต่ละฟิลด์ให้กับแต่ละเรคคอร์ด นี่เป็นสิ่งจำเป็นในการเปรียบเทียบชุดข้อมูลที่แปลงแล้วกับชุดข้อมูลต้นฉบับ นี่ยังจำเป็นต่อการใช้ประโยชน์จากความสามารถในการจัดกลุ่มและการกรองอย่างเต็มที่ ที่นี่เรากลับไปที่ตาราง 2.2.2 อีกครั้งและเลือกสัญลักษณ์ที่ไม่ได้ใช้ในชุดข้อมูล เราได้สิ่งที่แสดงในรูปที่ 10
มะเดื่อ 10. การกำหนดตัวระบุ
เวลาทั้งหมดที่ใช้ในระยะ 3 (สำหรับสูตร Schumann) t3 = 0,75 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 3 (สำหรับสูตร Schumann) n3 = 0 ชิ้น
เนื่องจากสูตร Schumann กำหนดให้ขั้นตอนต้องเสร็จสิ้นโดยการแก้ไขข้อผิดพลาด กลับไปที่ขั้นตอนที่ 2 กันเถอะ
ขั้นตอนที่ 2.2.2
ในขั้นตอนนี้ เราจะแก้ไขช่องว่างสองเท่าและสามช่องด้วย
มะเดื่อ 11. จำนวนช่องว่างสองเท่า
การแก้ไขข้อผิดพลาดที่ระบุในตาราง 2.2.4
ตารางที่ 5. ขั้นตอนการแก้ไขข้อผิดพลาด
ตัวอย่างว่าทำไมลักษณะเช่นการใช้ตัวอักษร "e" หรือ "e" จึงมีความสำคัญแสดงในรูปที่ 12
มะเดื่อ 12. ความคลาดเคลื่อนในตัวอักษร "e"
เวลาทั้งหมดที่ใช้ในขั้นตอน 2.2.2 t222 = 4 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.2.2 (สำหรับสูตร Schumann) n222 = 583 ชิ้น
ขั้นตอนที่สี่
การตรวจสอบความซ้ำซ้อนของฟิลด์เหมาะสมกับขั้นตอนนี้ จาก 44 ฟิลด์ 6 ฟิลด์:
7 - วัตถุประสงค์ของโครงสร้าง
16 — จำนวนชั้นใต้ดิน
17 - ออบเจ็กต์หลัก
21 - สภาหมู่บ้าน
38 — พารามิเตอร์โครงสร้าง (คำอธิบาย)
40 – มรดกทางวัฒนธรรม
พวกเขาไม่มีรายการใด ๆ นั่นคือพวกเขาซ้ำซ้อน
ฟิลด์ “22 – เมือง” มีรายการเดียว รูปที่ 13
มะเดื่อ 13. รายการเดียวคือ Z_348653 ในฟิลด์ "เมือง"
ฟิลด์ “34 - ชื่ออาคาร” มีรายการที่ไม่สอดคล้องกับวัตถุประสงค์ของฟิลด์อย่างชัดเจน รูปที่ 14
มะเดื่อ 14. ตัวอย่างของรายการที่ไม่สอดคล้อง
เราแยกฟิลด์เหล่านี้ออกจากชุดข้อมูล และเราบันทึกการเปลี่ยนแปลงใน 214 บันทึก
เวลาทั้งหมดที่ใช้ในระยะ 4 (สำหรับสูตร Schumann) t4 = 2,5 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 4 (สำหรับสูตร Schumann) n4 = 222 ชิ้น
ตารางที่ 6. การวิเคราะห์ตัวบ่งชี้ชุดข้อมูลหลังระยะที่ 4
โดยทั่วไป การวิเคราะห์การเปลี่ยนแปลงของตัวชี้วัด (ตารางที่ 6) เราสามารถพูดได้ว่า:
1) อัตราส่วนของจำนวนสัญลักษณ์โดยเฉลี่ยต่อคันโยกส่วนเบี่ยงเบนมาตรฐานอยู่ใกล้กับ 3 นั่นคือมีสัญญาณของการแจกแจงแบบปกติ (กฎซิกซิกม่า)
2) การเบี่ยงเบนอย่างมีนัยสำคัญของคันโยกต่ำสุดและสูงสุดจากคันโยกเฉลี่ยแสดงให้เห็นว่าการศึกษาส่วนท้ายเป็นทิศทางที่ดีเมื่อค้นหาข้อผิดพลาด
เรามาตรวจสอบผลลัพธ์ของการค้นหาข้อผิดพลาดโดยใช้วิธีของชูมันน์กันดีกว่า
ระยะไม่ได้ใช้งาน
2.1. เวลาทั้งหมดที่ใช้ในระยะ 2.1 (สำหรับสูตร Schumann) t21 = 1 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.1 (สำหรับสูตร Schumann) n21 = 0 ชิ้น
3. เวลาทั้งหมดที่ใช้ในระยะ 3 (สำหรับสูตร Schumann) t3 = 0,75 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 3 (สำหรับสูตร Schumann) n3 = 0 ชิ้น
ขั้นตอนที่มีประสิทธิภาพ
2.2. เวลาทั้งหมดที่ใช้ในระยะ 2.2.1 (สำหรับสูตร Schumann) t221 = 8 ชั่วโมง
จำนวนข้อผิดพลาดที่แก้ไขในขั้นตอน 2.2.1 (สำหรับสูตร Schumann) n221 = 0 ชิ้น
เวลาทั้งหมดที่ใช้ในขั้นตอน 2.2.2 t222 = 4 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.2.2 (สำหรับสูตร Schumann) n222 = 583 ชิ้น
เวลาทั้งหมดที่ใช้ในขั้นตอน 2.2 t22 = 8 + 4 = 12 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 2.2.2 (สำหรับสูตร Schumann) n222 = 583 ชิ้น
4. เวลาทั้งหมดที่ใช้ในระยะ 4 (สำหรับสูตร Schumann) t4 = 2,5 ชั่วโมง
จำนวนข้อผิดพลาดที่พบในระยะ 4 (สำหรับสูตร Schumann) n4 = 222 ชิ้น
เนื่องจากมีศูนย์ขั้นตอนที่จะต้องรวมไว้ในขั้นตอนแรกของแบบจำลอง Schumann และในทางกลับกัน ขั้นตอนที่ 2.2 และ 4 มีความเป็นอิสระโดยเนื้อแท้ จากนั้น เมื่อพิจารณาว่าแบบจำลอง Schumann ถือว่าการเพิ่มระยะเวลาของการตรวจสอบ ความน่าจะเป็น ของการตรวจจับข้อผิดพลาดลดลง กล่าวคือ โฟลว์ลดความล้มเหลว จากนั้นโดยการตรวจสอบโฟลว์นี้ เราจะกำหนดระยะที่จะใส่ไว้ก่อน ตามกฎ โดยที่ความหนาแน่นของความล้มเหลวบ่อยกว่า เราจะวางระยะนั้นไว้ก่อน
มะเดื่อ 15.
จากสูตรในรูปที่ 15 พบว่าควรวางระยะที่สี่ก่อนระยะ 2.2 ในการคำนวณ
เมื่อใช้สูตรของชูมันน์ เราจะกำหนดจำนวนข้อผิดพลาดเริ่มต้นโดยประมาณ:
มะเดื่อ 16.
จากผลลัพธ์ในรูปที่ 16 จะเห็นได้ว่าจำนวนข้อผิดพลาดที่คาดการณ์ไว้คือ N2 = 3167 ซึ่งมากกว่าเกณฑ์ขั้นต่ำที่ 1459
จากผลของการแก้ไข เราได้แก้ไขข้อผิดพลาด 805 และตัวเลขที่คาดการณ์คือ 3167 – 805 = 2362 ซึ่งยังคงมากกว่าเกณฑ์ขั้นต่ำที่เรายอมรับ
เรากำหนดพารามิเตอร์ C, แลมบ์ดาและฟังก์ชันความน่าเชื่อถือ:
มะเดื่อ 17.
โดยพื้นฐานแล้ว lambda เป็นตัวบ่งชี้ที่แท้จริงของระดับความรุนแรงของการตรวจพบข้อผิดพลาดในแต่ละขั้นตอน หากคุณดูด้านบน การประมาณการก่อนหน้านี้ของตัวบ่งชี้นี้คือข้อผิดพลาด 42,4 ต่อชั่วโมง ซึ่งค่อนข้างเทียบได้กับตัวบ่งชี้ Schumann เมื่อพิจารณาจากส่วนแรกของเนื้อหานี้ พบว่าอัตราที่นักพัฒนาพบข้อผิดพลาดไม่ควรต่ำกว่า 1 ข้อผิดพลาดต่อ 250,4 บันทึก เมื่อตรวจสอบ 1 บันทึกต่อนาที ดังนั้นค่าวิกฤตของแลมบ์ดาสำหรับโมเดลชูมันน์:
60 / 250,4 = 0,239617
นั่นคือจำเป็นต้องดำเนินการตามขั้นตอนการตรวจจับข้อผิดพลาดจนกว่าแลมบ์ดาจาก 38,964 ที่มีอยู่จะลดลงเหลือ 0,239617
หรือจนกว่าตัวบ่งชี้ N (จำนวนข้อผิดพลาดที่อาจเกิดขึ้น) ลบ n (จำนวนข้อผิดพลาดที่ถูกต้อง) ลดลงต่ำกว่าเกณฑ์ที่เรายอมรับ (ในส่วนแรก) - 1459 ชิ้น
ที่มา: will.com