ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี

1. ข้อมูลเบื้องต้น

การล้างข้อมูลเป็นหนึ่งในความท้าทายที่งานวิเคราะห์ข้อมูลต้องเผชิญ เนื้อหานี้สะท้อนให้เห็นถึงการพัฒนาและแนวทางแก้ไขที่เกิดขึ้นจากการแก้ปัญหาเชิงปฏิบัติในการวิเคราะห์ฐานข้อมูลในรูปแบบของมูลค่าที่ดิน แหล่งที่มาที่นี่ “รายงานหมายเลข 01/OKS-2019 เกี่ยวกับผลการประเมินมูลค่าที่ดินของรัฐของอสังหาริมทรัพย์ทุกประเภท (ยกเว้นที่ดิน) ในอาณาเขตของ Khanty-Mansiysk Autonomous Okrug - Ugra”.

ไฟล์ "แบบจำลองเปรียบเทียบ Total.ods" ใน "ภาคผนวก B. ผลลัพธ์ของการกำหนด KS 5. ข้อมูลเกี่ยวกับวิธีการกำหนดค่าที่ดิน 5.1 วิธีการเปรียบเทียบ" ได้รับการพิจารณา

ตารางที่ 1. ตัวบ่งชี้ทางสถิติของชุดข้อมูลในไฟล์ “โมเดลเปรียบเทียบ Total.ods”
จำนวนฟิลด์ทั้งหมด, ชิ้น — 44
จำนวนบันทึกทั้งหมด ชิ้น — 365 490
จำนวนตัวอักษรทั้งหมด ชิ้น — 101 714 693
จำนวนอักขระโดยเฉลี่ยในบันทึก ชิ้น — 278,297
ค่าเบี่ยงเบนมาตรฐานของอักขระในบันทึก ชิ้น — 15,510
จำนวนอักขระขั้นต่ำในรายการ, ชิ้น — 198
จำนวนอักขระสูงสุดในรายการ, ชิ้น — 363

2. ส่วนเบื้องต้น มาตรฐานขั้นพื้นฐาน

ในขณะที่วิเคราะห์ฐานข้อมูลที่ระบุ งานได้ถูกสร้างขึ้นเพื่อระบุข้อกำหนดสำหรับระดับการทำให้บริสุทธิ์ เนื่องจากฐานข้อมูลที่ระบุจะสร้างผลทางกฎหมายและเศรษฐกิจให้กับผู้ใช้ ตามที่ทุกคนเข้าใจ ในระหว่างการทำงาน ปรากฎว่าไม่มีข้อกำหนดเฉพาะสำหรับระดับการทำความสะอาดข้อมูลขนาดใหญ่ เมื่อวิเคราะห์บรรทัดฐานทางกฎหมายในเรื่องนี้ ผมสรุปได้ว่าทั้งหมดล้วนเกิดจากความเป็นไปได้ นั่นคือมีงานบางอย่างปรากฏขึ้น แหล่งข้อมูลจะถูกรวบรวมสำหรับงาน จากนั้นชุดข้อมูลจะถูกสร้างขึ้นและขึ้นอยู่กับชุดข้อมูลที่สร้างขึ้น เครื่องมือสำหรับการแก้ปัญหา ผลลัพธ์ที่ได้คือจุดอ้างอิงในการเลือกทางเลือก ฉันนำเสนอสิ่งนี้ในรูปที่ 1

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี

เนื่องจากในเรื่องของการกำหนดมาตรฐาน ขอแนะนำให้ใช้เทคโนโลยีที่ได้รับการพิสูจน์แล้ว ฉันจึงเลือกข้อกำหนดที่กำหนดไว้ "คำจำกัดความความสมบูรณ์ถูกต้องของข้อมูล MHRA GxP และคำแนะนำสำหรับอุตสาหกรรม"เนื่องจากฉันถือว่าเอกสารนี้ครอบคลุมประเด็นนี้มากที่สุด โดยเฉพาะอย่างยิ่ง ในเอกสารนี้ส่วนที่ระบุว่า "ควรสังเกตว่าข้อกำหนดด้านความสมบูรณ์ถูกต้องของข้อมูลมีผลกับข้อมูลด้วยตนเอง (กระดาษ) และข้อมูลอิเล็กทรอนิกส์เท่าเทียมกัน" (คำแปล: “...ข้อกำหนดด้านความสมบูรณ์ถูกต้องของข้อมูลมีผลกับข้อมูลด้วยตนเอง (กระดาษ) และข้อมูลอิเล็กทรอนิกส์เท่าๆ กัน”) การกำหนดนี้ค่อนข้างเกี่ยวข้องโดยเฉพาะกับแนวคิดเรื่อง "หลักฐานที่เป็นลายลักษณ์อักษร" ในบทบัญญัติของมาตรา 71 แห่งประมวลกฎหมายวิธีพิจารณาความแพ่ง ข้อ 70 75 CAS, ข้อ 84 APC, “เป็นลายลักษณ์อักษร” XNUMX ประมวลกฎหมายวิธีพิจารณาความแพ่ง

รูปที่ 2 แสดงแผนภาพการก่อตัวของแนวทางประเภทข้อมูลในนิติศาสตร์

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี
ข้าว. 2. แหล่งที่มา ที่นี่.

รูปที่ 3 แสดงกลไกของรูปที่ 1 สำหรับงานของ "คำแนะนำ" ข้างต้น เป็นเรื่องง่ายโดยการเปรียบเทียบเพื่อดูว่าแนวทางที่ใช้ในการปฏิบัติตามข้อกำหนดด้านความสมบูรณ์ของข้อมูลในมาตรฐานสมัยใหม่สำหรับระบบข้อมูลนั้นมีข้อ จำกัด อย่างมากเมื่อเปรียบเทียบกับแนวคิดทางกฎหมายของข้อมูล

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี
มะเดื่อ 3

ในเอกสารที่ระบุ (คำแนะนำ) การเชื่อมต่อกับส่วนทางเทคนิค ความสามารถในการประมวลผลและจัดเก็บข้อมูล ได้รับการยืนยันอย่างดีจากคำพูดจากบทที่ 18.2 ฐานข้อมูลเชิงสัมพันธ์: "โครงสร้างไฟล์นี้มีความปลอดภัยมากกว่าโดยเนื้อแท้ เนื่องจากข้อมูลถูกจัดเก็บในรูปแบบไฟล์ขนาดใหญ่ซึ่งรักษาความสัมพันธ์ระหว่างข้อมูลและข้อมูลเมตา"

ในความเป็นจริงในแนวทางนี้ - จากความสามารถทางเทคนิคที่มีอยู่ไม่มีอะไรผิดปกติและในตัวมันเองนี่เป็นกระบวนการทางธรรมชาติเนื่องจากการขยายแนวคิดมาจากกิจกรรมที่มีการศึกษามากที่สุด - การออกแบบฐานข้อมูล แต่ในทางกลับกันบรรทัดฐานทางกฎหมายปรากฏว่าไม่ได้ให้ส่วนลดสำหรับความสามารถทางเทคนิคของระบบที่มีอยู่เช่น: GDPR - กฎการคุ้มครองข้อมูลทั่วไป.

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี
ข้าว. 4. ช่องทางความสามารถทางเทคนิค (Источник).

ในด้านเหล่านี้เป็นที่ชัดเจนว่าชุดข้อมูลต้นฉบับ (รูปที่ 1) จะต้องได้รับการบันทึกก่อนอื่น และประการที่สองเป็นพื้นฐานในการดึงข้อมูลเพิ่มเติมจากชุดข้อมูลดังกล่าว ตัวอย่างเช่น: กล้องที่บันทึกกฎจราจรมีอยู่ทั่วไปทุกหนทุกแห่ง ระบบประมวลผลข้อมูลกำจัดผู้ฝ่าฝืน แต่ข้อมูลอื่น ๆ ยังสามารถเสนอให้กับผู้บริโภครายอื่นได้เช่นเป็นการตรวจสอบการตลาดของโครงสร้างการไหลเวียนของลูกค้าไปยังศูนย์การค้า และนี่คือที่มาของมูลค่าเพิ่มเพิ่มเติมเมื่อใช้ BigDat มีความเป็นไปได้ค่อนข้างมากที่ชุดข้อมูลที่เก็บรวบรวมในขณะนี้หรือในอนาคตจะมีค่าตามกลไกที่คล้ายคลึงกับมูลค่าของรุ่นที่หายากในปี 1700 ในปัจจุบัน ท้ายที่สุดแล้ว ชุดข้อมูลชั่วคราวจะไม่ซ้ำกันและไม่น่าจะเกิดขึ้นซ้ำอีกในอนาคต

3. ส่วนเบื้องต้น เกณฑ์การประเมิน

ในระหว่างกระบวนการประมวลผล ได้มีการพัฒนาการจัดหมวดหมู่ข้อผิดพลาดดังต่อไปนี้

1. ระดับข้อผิดพลาด (ตาม GOST R 8.736-2011): ก) ข้อผิดพลาดที่เป็นระบบ; b) ข้อผิดพลาดแบบสุ่ม; c) ความผิดพลาด

2. โดยหลายหลาก: ก) การบิดเบือนแบบโมโน; b) การบิดเบือนหลายแบบ

3. ตามความวิพากษ์วิจารณ์ของผลที่ตามมา: ก) วิกฤติ; b) ไม่สำคัญ

4. ตามแหล่งที่มาของเหตุการณ์:

ก) ทางเทคนิค – ข้อผิดพลาดที่เกิดขึ้นระหว่างการทำงานของอุปกรณ์ ข้อผิดพลาดที่ค่อนข้างเกี่ยวข้องสำหรับระบบ IoT ระบบที่มีอิทธิพลอย่างมีนัยสำคัญต่อคุณภาพของการสื่อสาร อุปกรณ์ (ฮาร์ดแวร์)

B) ข้อผิดพลาดของผู้ปฏิบัติงาน - ข้อผิดพลาดในช่วงกว้างตั้งแต่การพิมพ์ผิดของผู้ปฏิบัติงานระหว่างการป้อนข้อมูลไปจนถึงข้อผิดพลาดในข้อกำหนดทางเทคนิคสำหรับการออกแบบฐานข้อมูล

C) ข้อผิดพลาดของผู้ใช้ - นี่คือข้อผิดพลาดของผู้ใช้ในช่วงทั้งหมดตั้งแต่ "ลืมเปลี่ยนเค้าโครง" ไปจนถึงข้อผิดพลาดเมตรสำหรับฟุต

5. แยกเป็นชั้นเรียนแยก:

ก) “งานของตัวคั่น” นั่นคือช่องว่างและ “:” (ในกรณีของเรา) เมื่อทำซ้ำ
b) คำที่เขียนร่วมกัน
c) ไม่มีช่องว่างหลังอักขระบริการ
d) สัญลักษณ์หลายตัวแบบสมมาตร: (), "", "..."

เมื่อนำมารวมกับการจัดระบบข้อผิดพลาดของฐานข้อมูลที่แสดงในรูปที่ 5 ระบบพิกัดที่มีประสิทธิภาพพอสมควรจะถูกสร้างขึ้นเพื่อค้นหาข้อผิดพลาดและพัฒนาอัลกอริธึมการล้างข้อมูลสำหรับตัวอย่างนี้

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี
ข้าว. 5. ข้อผิดพลาดทั่วไปที่เกี่ยวข้องกับหน่วยโครงสร้างของฐานข้อมูล (ที่มา: Oreshkov V.I. , Paklin N.B. “แนวคิดหลักของการรวมข้อมูล”).

ความแม่นยำ ความสมบูรณ์ของโดเมน ประเภทข้อมูล ความสม่ำเสมอ ความซ้ำซ้อน ความสมบูรณ์ การทำซ้ำ ความสอดคล้องกับกฎเกณฑ์ทางธุรกิจ ความชัดเจนของโครงสร้าง ความผิดปกติของข้อมูล ความชัดเจน ทันเวลา การยึดมั่นในกฎความสมบูรณ์ถูกต้องของข้อมูล (หน้า 334. พื้นฐานคลังข้อมูลสำหรับผู้เชี่ยวชาญด้านไอที / Paulraj Ponniah.—2nd ed.)

นำเสนอถ้อยคำภาษาอังกฤษและการแปลภาษารัสเซียด้วยคอมพิวเตอร์ในวงเล็บ

ความแม่นยำ. ค่าที่จัดเก็บไว้ในระบบสำหรับองค์ประกอบข้อมูลคือค่าที่เหมาะสมสำหรับการเกิดขึ้นขององค์ประกอบข้อมูลนั้น หากคุณมีชื่อลูกค้าและที่อยู่จัดเก็บไว้ในบันทึก ที่อยู่นั้นจะเป็นที่อยู่ที่ถูกต้องสำหรับลูกค้าที่มีชื่อนั้น หากคุณพบปริมาณที่สั่งซื้อเป็น 1000 หน่วยในเรกคอร์ดสำหรับหมายเลขใบสั่ง 12345678 ปริมาณนั้นจะเป็นปริมาณที่ถูกต้องสำหรับใบสั่งนั้น
[ความแม่นยำ. ค่าที่จัดเก็บไว้ในระบบสำหรับองค์ประกอบข้อมูลเป็นค่าที่ถูกต้องสำหรับการเกิดขึ้นขององค์ประกอบข้อมูลนั้น หากคุณมีชื่อและที่อยู่ลูกค้าจัดเก็บไว้ในบันทึก ที่อยู่นั้นจะเป็นที่อยู่ที่ถูกต้องสำหรับลูกค้าที่มีชื่อนั้น หากคุณพบปริมาณที่สั่งซื้อเป็น 1000 หน่วยในบันทึกสำหรับหมายเลขคำสั่งซื้อ 12345678 ปริมาณนั้นก็คือปริมาณที่แน่นอนสำหรับคำสั่งซื้อนั้น]

ความสมบูรณ์ของโดเมน ค่าข้อมูลของแอตทริบิวต์อยู่ในช่วงของค่าที่อนุญาตและกำหนดไว้ ตัวอย่างทั่วไปคือค่าที่อนุญาตคือ "ชาย" และ "หญิง" สำหรับองค์ประกอบข้อมูลเพศ
[ความสมบูรณ์ของโดเมน ค่าข้อมูลแอ็ตทริบิวต์อยู่ในช่วงของค่าที่กำหนดไว้ที่ถูกต้อง ตัวอย่างทั่วไปคือค่าที่ถูกต้อง "ชาย" และ "หญิง" สำหรับองค์ประกอบข้อมูลเพศ]

ประเภทข้อมูล. ค่าสำหรับแอตทริบิวต์ข้อมูลจะถูกจัดเก็บตามประเภทข้อมูลที่กำหนดไว้สำหรับแอตทริบิวต์นั้นจริงๆ เมื่อประเภทข้อมูลของช่องชื่อร้านค้าถูกกำหนดเป็น "ข้อความ" อินสแตนซ์ทั้งหมดของช่องนั้นจะมีชื่อร้านค้าที่แสดงในรูปแบบข้อความ ไม่ใช่รหัสตัวเลข
[ประเภทข้อมูล. ค่าของแอตทริบิวต์ข้อมูลจะถูกจัดเก็บตามประเภทข้อมูลที่กำหนดไว้สำหรับคุณลักษณะนั้นจริงๆ หากประเภทข้อมูลของฟิลด์ชื่อร้านค้าถูกกำหนดเป็น "ข้อความ" อินสแตนซ์ทั้งหมดของฟิลด์นี้จะมีชื่อร้านค้าที่แสดงในรูปแบบข้อความแทนที่จะเป็นรหัสตัวเลข]

ความสม่ำเสมอ รูปแบบและเนื้อหาของช่องข้อมูลจะเหมือนกันในระบบต้นทางหลายระบบ หากรหัสผลิตภัณฑ์สำหรับผลิตภัณฑ์ ABC ในระบบหนึ่งคือ 1234 ดังนั้นรหัสสำหรับผลิตภัณฑ์นี้คือ 1234 ในทุกระบบต้นทาง
[ความสม่ำเสมอ รูปแบบและเนื้อหาของช่องข้อมูลจะเหมือนกันในระบบต้นทางที่ต่างกัน หากรหัสผลิตภัณฑ์สำหรับผลิตภัณฑ์ ABC บนระบบหนึ่งคือ 1234 ดังนั้นรหัสสำหรับผลิตภัณฑ์นั้นคือ 1234 ในแต่ละระบบต้นทาง]

ความซ้ำซ้อน ข้อมูลเดียวกันจะต้องไม่ถูกจัดเก็บไว้ในที่มากกว่าหนึ่งแห่งในระบบ ด้วยเหตุผลด้านประสิทธิภาพ หากองค์ประกอบข้อมูลถูกจัดเก็บไว้ในระบบมากกว่าหนึ่งแห่งโดยเจตนา จะต้องระบุและตรวจสอบความซ้ำซ้อนอย่างชัดเจน
[ความซ้ำซ้อน ไม่ควรจัดเก็บข้อมูลเดียวกันไว้ในที่เดียวในระบบ ด้วยเหตุผลด้านประสิทธิภาพ หากองค์ประกอบข้อมูลถูกจัดเก็บโดยเจตนาในหลายตำแหน่งในระบบ จะต้องกำหนดและตรวจสอบความซ้ำซ้อนอย่างชัดเจน]

ความสมบูรณ์. ไม่มีค่าที่หายไปสำหรับแอตทริบิวต์ที่กำหนดในระบบ ตัวอย่างเช่น ในไฟล์ลูกค้า จะต้องมีค่าที่ถูกต้องสำหรับฟิลด์ "สถานะ" สำหรับลูกค้าทุกราย ในไฟล์รายละเอียดคำสั่งซื้อ จะต้องกรอกรายละเอียดทุกรายการของคำสั่งซื้อให้ครบถ้วน
[ความสมบูรณ์. ไม่มีค่าที่หายไปในระบบสำหรับแอตทริบิวต์นี้ ตัวอย่างเช่น ไฟล์ไคลเอนต์จะต้องมีค่าที่ถูกต้องสำหรับฟิลด์ "สถานะ" สำหรับไคลเอนต์แต่ละราย ในไฟล์รายละเอียดคำสั่งซื้อ บันทึกรายละเอียดคำสั่งซื้อแต่ละรายการจะต้องเสร็จสมบูรณ์]

การทำสำเนา ความซ้ำซ้อนของบันทึกในระบบได้รับการแก้ไขอย่างสมบูรณ์ หากทราบว่าไฟล์ผลิตภัณฑ์มีบันทึกที่ซ้ำกัน จะมีการระบุบันทึกที่ซ้ำกันทั้งหมดสำหรับแต่ละผลิตภัณฑ์และสร้างการอ้างอิงโยง
[ทำซ้ำ. ความซ้ำซ้อนของบันทึกในระบบได้ขจัดออกไปโดยสิ้นเชิง หากทราบว่าไฟล์ผลิตภัณฑ์มีรายการที่ซ้ำกัน จะมีการระบุรายการที่ซ้ำกันทั้งหมดสำหรับแต่ละผลิตภัณฑ์และสร้างการอ้างอิงโยง]

ความสอดคล้องกับกฎเกณฑ์ทางธุรกิจ ค่าของแต่ละรายการข้อมูลเป็นไปตามกฎเกณฑ์ทางธุรกิจที่กำหนด ในระบบการประมูล ราคาค้อนหรือราคาขายต้องไม่ต่ำกว่าราคาจอง ในระบบสินเชื่อของธนาคาร ยอดเงินกู้ต้องเป็นค่าบวกหรือศูนย์เสมอ
[การปฏิบัติตามกฎเกณฑ์ทางธุรกิจ ค่าของแต่ละองค์ประกอบข้อมูลเป็นไปตามกฎเกณฑ์ทางธุรกิจที่กำหนดไว้ ในระบบการประมูล ราคาค้อนหรือราคาขายต้องไม่ต่ำกว่าราคาจอง ในระบบเครดิตของธนาคาร ยอดเงินกู้ต้องเป็นค่าบวกหรือศูนย์เสมอ]

ความแน่นอนของโครงสร้าง เมื่อใดก็ตามที่รายการข้อมูลสามารถจัดโครงสร้างเป็นองค์ประกอบแต่ละส่วนได้ตามธรรมชาติ รายการจะต้องมีโครงสร้างที่กำหนดไว้อย่างชัดเจนนี้ ตัวอย่างเช่น ชื่อของบุคคลจะแบ่งออกเป็นชื่อ ชื่อกลาง และนามสกุลโดยธรรมชาติ ค่าชื่อของบุคคลจะต้องถูกจัดเก็บเป็นชื่อ ชื่อกลาง และนามสกุล คุณลักษณะของคุณภาพข้อมูลนี้ช่วยลดความยุ่งยากในการบังคับใช้มาตรฐานและลดค่าที่หายไป
[ความแน่นอนของโครงสร้าง ในกรณีที่องค์ประกอบข้อมูลสามารถจัดโครงสร้างตามธรรมชาติเป็นองค์ประกอบแต่ละส่วนได้ องค์ประกอบจะต้องมีโครงสร้างที่กำหนดไว้อย่างดีนี้ ตัวอย่างเช่น ชื่อของบุคคลจะถูกแบ่งออกเป็นชื่อ ชื่อกลาง และนามสกุลโดยธรรมชาติ ค่าของแต่ละชื่อควรเก็บไว้เป็นชื่อ ชื่อกลาง และนามสกุล คุณลักษณะด้านคุณภาพข้อมูลนี้ทำให้การประยุกต์ใช้มาตรฐานง่ายขึ้นและลดค่าที่หายไป]

ความผิดปกติของข้อมูล ต้องใช้ฟิลด์ตามวัตถุประสงค์ที่กำหนดไว้เท่านั้น หากฟิลด์ Address-3 ถูกกำหนดไว้สำหรับที่อยู่บรรทัดที่สามที่เป็นไปได้สำหรับที่อยู่แบบยาว ฟิลด์นี้จะต้องใช้สำหรับการบันทึกที่อยู่บรรทัดที่สามเท่านั้น จะต้องไม่ใช้ในการกรอกหมายเลขโทรศัพท์หรือแฟกซ์ของลูกค้า
[ความผิดปกติของข้อมูล ฟิลด์จะต้องใช้เพื่อวัตถุประสงค์ที่กำหนดไว้เท่านั้น หากฟิลด์ Address-3 ถูกกำหนดไว้สำหรับบรรทัดที่อยู่ที่สามที่เป็นไปได้สำหรับที่อยู่แบบยาว ฟิลด์นี้จะใช้เพื่อบันทึกบรรทัดที่อยู่ที่สามเท่านั้น ไม่ควรใช้กรอกหมายเลขโทรศัพท์หรือแฟกซ์สำหรับลูกค้า]

ความชัดเจน องค์ประกอบข้อมูลอาจมีลักษณะเฉพาะอื่นๆ ทั้งหมดของข้อมูลคุณภาพ แต่ถ้าผู้ใช้ไม่เข้าใจความหมายอย่างชัดเจน องค์ประกอบข้อมูลนั้นก็ไม่มีคุณค่าต่อผู้ใช้ แบบแผนการตั้งชื่อที่เหมาะสมช่วยทำให้ผู้ใช้เข้าใจองค์ประกอบข้อมูลได้ดี
[ความชัดเจน. องค์ประกอบข้อมูลอาจมีลักษณะอื่นๆ ทั้งหมดของข้อมูลที่ดี แต่ถ้าผู้ใช้ไม่เข้าใจความหมายอย่างชัดเจน องค์ประกอบข้อมูลนั้นก็ไม่มีคุณค่าต่อผู้ใช้ แบบแผนการตั้งชื่อที่ถูกต้องช่วยให้ผู้ใช้เข้าใจองค์ประกอบข้อมูลได้ดี]

ทันเวลา. ผู้ใช้จะกำหนดความทันเวลาของข้อมูล หากผู้ใช้คาดหวังว่าข้อมูลมิติของลูกค้าจะต้องไม่เก่ากว่าหนึ่งวัน การเปลี่ยนแปลงในข้อมูลลูกค้าในระบบต้นทางจะต้องนำไปใช้กับคลังข้อมูลทุกวัน
[ในเวลาที่เหมาะสม ผู้ใช้กำหนดความทันเวลาของข้อมูล หากผู้ใช้คาดหวังว่าข้อมูลมิติของลูกค้าจะมีอายุไม่เกินหนึ่งวัน การเปลี่ยนแปลงข้อมูลลูกค้าในระบบต้นทางควรนำไปใช้กับคลังข้อมูลเป็นประจำทุกวัน]

ประโยชน์. องค์ประกอบข้อมูลทุกรายการในคลังข้อมูลจะต้องเป็นไปตามข้อกำหนดบางประการของการรวบรวมผู้ใช้ องค์ประกอบข้อมูลอาจมีความถูกต้องและมีคุณภาพสูง แต่หากไม่มีคุณค่าต่อผู้ใช้ ก็ไม่จำเป็นอย่างยิ่งที่องค์ประกอบข้อมูลนั้นจะต้องอยู่ในคลังข้อมูล
[คุณประโยชน์. แต่ละรายการข้อมูลในที่เก็บข้อมูลต้องเป็นไปตามข้อกำหนดบางประการของการรวบรวมผู้ใช้ องค์ประกอบข้อมูลอาจมีความถูกต้องและมีคุณภาพสูง แต่หากไม่ได้ให้คุณค่าแก่ผู้ใช้ ก็ไม่จำเป็นที่องค์ประกอบข้อมูลนั้นจะต้องอยู่ในคลังข้อมูล]

การปฏิบัติตามกฎความสมบูรณ์ถูกต้องของข้อมูล ข้อมูลที่จัดเก็บไว้ในฐานข้อมูลเชิงสัมพันธ์ของระบบต้นทางจะต้องเป็นไปตามความสมบูรณ์ของเอนทิตีและกฎความสมบูรณ์ในการอ้างอิง ตารางใดๆ ที่อนุญาตให้เป็นโมฆะเป็นคีย์หลักไม่มีความสมบูรณ์ของเอนทิตี Referential Integrity บังคับให้สร้างความสัมพันธ์ระหว่างพ่อแม่และลูกอย่างถูกต้อง ในความสัมพันธ์ระหว่างลูกค้ากับคำสั่งซื้อ ความสมบูรณ์ในการอ้างอิงช่วยให้แน่ใจว่ามีลูกค้าอยู่สำหรับทุกคำสั่งซื้อในฐานข้อมูล
[การปฏิบัติตามกฎความสมบูรณ์ถูกต้องของข้อมูล ข้อมูลที่จัดเก็บไว้ในฐานข้อมูลเชิงสัมพันธ์ของระบบต้นทางจะต้องเป็นไปตามกฎความสมบูรณ์ของเอนทิตีและความสมบูรณ์ในการอ้างอิง ตารางใดๆ ที่อนุญาตให้มีค่า Null เป็นคีย์หลักไม่มีความสมบูรณ์ของเอนทิตี Referential Integrity บังคับให้สร้างความสัมพันธ์ระหว่างพ่อแม่และลูกอย่างถูกต้อง ในความสัมพันธ์ระหว่างการสั่งซื้อกับลูกค้า ความสมบูรณ์ในการอ้างอิงช่วยให้แน่ใจว่ามีลูกค้าอยู่สำหรับทุกคำสั่งซื้อในฐานข้อมูล]

4. คุณภาพของการทำความสะอาดข้อมูล

คุณภาพของการทำความสะอาดข้อมูลถือเป็นปัญหาที่ค่อนข้างเป็นปัญหาใน bigdata การตอบคำถามว่าระดับการทำความสะอาดข้อมูลที่จำเป็นต่อการทำงานให้เสร็จสิ้นถือเป็นพื้นฐานสำหรับนักวิเคราะห์ข้อมูลทุกคน ในปัญหาปัจจุบันส่วนใหญ่ นักวิเคราะห์แต่ละคนจะกำหนดเรื่องนี้ด้วยตนเอง และไม่น่าเป็นไปได้ที่ใครก็ตามจากภายนอกจะสามารถประเมินแง่มุมนี้ในแนวทางแก้ไขของเขาได้ แต่สำหรับงานที่ทำอยู่ในกรณีนี้ ปัญหานี้มีความสำคัญอย่างยิ่ง เนื่องจากความน่าเชื่อถือของข้อมูลทางกฎหมายควรเป็นแบบเดียวกัน

พิจารณาเทคโนโลยีการทดสอบซอฟต์แวร์เพื่อกำหนดความน่าเชื่อถือในการปฏิบัติงาน วันนี้มีมากกว่ารุ่นเหล่านี้ 200. โมเดลหลายรุ่นใช้โมเดลการให้บริการการเคลม:

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี
มะเดื่อ 6

คิดดังนี้: “หากพบข้อผิดพลาดเป็นเหตุการณ์คล้ายกับเหตุการณ์ความล้มเหลวในโมเดลนี้ แล้วจะค้นหาอะนาล็อกของพารามิเตอร์ t ได้อย่างไร” และฉันรวบรวมโมเดลต่อไปนี้ ลองจินตนาการว่าเวลาที่ผู้ทดสอบใช้ในการตรวจสอบหนึ่งบันทึกคือ 1 นาที (สำหรับฐานข้อมูลที่เป็นปัญหา) จากนั้นจะพบข้อผิดพลาดทั้งหมดที่เขาจะต้อง 365 นาที ซึ่งก็คือประมาณ 494 ปี 3 เวลาทำงานหลายเดือน ตามที่เราเข้าใจนี่เป็นงานจำนวนมากและค่าใช้จ่ายในการตรวจสอบฐานข้อมูลจะเป็นสิ่งต้องห้ามสำหรับคอมไพเลอร์ของฐานข้อมูลนี้ ในการสะท้อนนี้ แนวคิดทางเศรษฐศาสตร์เกี่ยวกับต้นทุนปรากฏขึ้น และหลังจากการวิเคราะห์ ฉันจึงได้ข้อสรุปว่านี่เป็นเครื่องมือที่มีประสิทธิภาพพอสมควร ตามกฎหมายเศรษฐศาสตร์: “ปริมาณการผลิต (เป็นหน่วย) ที่ทำให้บริษัทมีกำไรสูงสุดนั้นอยู่ที่จุดที่ต้นทุนส่วนเพิ่มในการผลิตหน่วยผลผลิตใหม่ถูกเปรียบเทียบกับราคาที่บริษัทนี้สามารถรับได้ สำหรับยูนิตใหม่” ตามสมมติฐานที่ว่าการค้นหาข้อผิดพลาดที่ตามมาแต่ละข้อจำเป็นต้องมีการตรวจสอบบันทึกมากขึ้นเรื่อยๆ นี่เป็นปัจจัยด้านต้นทุน นั่นคือสมมุติฐานที่ใช้ในแบบจำลองการทดสอบจะใช้ความหมายทางกายภาพในรูปแบบต่อไปนี้: หากต้องการค้นหาข้อผิดพลาดครั้งที่ i จำเป็นต้องตรวจสอบบันทึก n รายการ จากนั้นหากต้องการค้นหาข้อผิดพลาดถัดไป (i+3) ก็จำเป็น เพื่อตรวจสอบบันทึก m และในเวลาเดียวกัน n

  1. เมื่อจำนวนบันทึกที่ตรวจสอบก่อนพบข้อผิดพลาดใหม่จะคงที่
  2. เมื่อจำนวนบันทึกที่ตรวจสอบก่อนพบข้อผิดพลาดครั้งต่อไปจะเพิ่มขึ้น

ในการกำหนดค่าวิกฤต ฉันหันไปใช้แนวคิดความเป็นไปได้ทางเศรษฐกิจ ซึ่งในกรณีนี้ โดยใช้แนวคิดต้นทุนทางสังคมสามารถกำหนดได้ดังนี้ “ต้นทุนในการแก้ไขข้อผิดพลาดควรตกเป็นภาระของตัวแทนทางเศรษฐกิจที่สามารถทำได้ ด้วยต้นทุนที่ต่ำที่สุด” เรามีตัวแทนหนึ่งราย - ผู้ทดสอบที่ใช้เวลา 1 นาทีในการตรวจสอบหนึ่งบันทึก ในแง่การเงิน หากคุณมีรายได้ 6000 รูเบิล/วัน ก็จะเท่ากับ 12,2 รูเบิล (ประมาณวันนี้). ยังคงต้องกำหนดด้านที่สองของความสมดุลในกฎหมายเศรษฐกิจ ฉันให้เหตุผลเช่นนี้ ข้อผิดพลาดที่มีอยู่จะต้องให้บุคคลที่เกี่ยวข้องต้องใช้ความพยายามในการแก้ไขนั่นคือเจ้าของทรัพย์สิน สมมติว่าต้องใช้เวลาดำเนินการ 1 วัน (ส่งใบสมัคร รับเอกสารที่แก้ไขแล้ว) จากนั้นในมุมมองทางสังคม ค่าใช้จ่ายของเขาจะเท่ากับเงินเดือนเฉลี่ยต่อวัน เงินเดือนสะสมเฉลี่ยใน Khanty-Mansi Autonomous Okrug “ ผลลัพธ์ของการพัฒนาเศรษฐกิจและสังคมของ Khanty-Mansiysk Autonomous Okrug - Ugra สำหรับเดือนมกราคมถึงกันยายน 2019” 73285 ถู หรือ 3053,542 รูเบิล/วัน ดังนั้นเราจึงได้รับค่าวิกฤตเท่ากับ:
3053,542: 12,2 = 250,4 หน่วยของบันทึก

ซึ่งหมายความว่าจากมุมมองทางสังคม หากผู้ทดสอบตรวจสอบบันทึก 251 รายการและพบข้อผิดพลาดหนึ่งข้อ ก็เท่ากับว่าผู้ใช้แก้ไขข้อผิดพลาดนี้ด้วยตนเอง ดังนั้น หากผู้ทดสอบใช้เวลาเท่ากับการตรวจสอบ 252 รายการเพื่อค้นหาข้อผิดพลาดถัดไป ในกรณีนี้ จะเป็นการดีกว่าที่จะโอนค่าใช้จ่ายในการแก้ไขให้กับผู้ใช้

นำเสนอแนวทางที่เรียบง่ายที่นี่ เนื่องจากจากมุมมองทางสังคม จำเป็นต้องคำนึงถึงมูลค่าเพิ่มเติมทั้งหมดที่สร้างโดยผู้เชี่ยวชาญแต่ละคน นั่นคือต้นทุนรวมภาษีและการจ่ายเงินทางสังคม แต่รูปแบบนั้นชัดเจน ผลที่ตามมาของความสัมพันธ์นี้คือข้อกำหนดสำหรับผู้เชี่ยวชาญดังต่อไปนี้: ผู้เชี่ยวชาญจากอุตสาหกรรมไอทีจะต้องมีเงินเดือนมากกว่าค่าเฉลี่ยของประเทศ หากเงินเดือนของเขาน้อยกว่าเงินเดือนเฉลี่ยของผู้ใช้ฐานข้อมูลที่มีศักยภาพ เขาจะต้องตรวจสอบฐานข้อมูลทั้งหมดด้วยตนเอง

เมื่อใช้เกณฑ์ที่อธิบายไว้ ข้อกำหนดแรกสำหรับคุณภาพของฐานข้อมูลจะถูกสร้างขึ้น:
ฉัน(tr) ส่วนแบ่งของข้อผิดพลาดร้ายแรงไม่ควรเกิน 1/250,4 = 0,39938% น้อยกว่านิดหน่อย. การกลั่น ทองคำในอุตสาหกรรม และในแง่กายภาพมีบันทึกที่มีข้อผิดพลาดไม่เกิน 1459 รายการ

การถอยทางเศรษฐกิจ

ในความเป็นจริง โดยการบันทึกข้อผิดพลาดจำนวนมาก สังคมตกลงที่จะสูญเสียทางเศรษฐกิจจำนวน:

1459*3053,542 = 4 รูเบิล

จำนวนนี้ถูกกำหนดจากการที่สังคมไม่มีเครื่องมือในการลดต้นทุนเหล่านี้ ตามมาว่าหากใครบางคนมีเทคโนโลยีที่ช่วยให้พวกเขาสามารถลดจำนวนบันทึกที่มีข้อผิดพลาดลงได้เช่น 259 สิ่งนี้จะช่วยให้สังคมสามารถบันทึก:
1200*3053,542 = 3 รูเบิล

แต่ในขณะเดียวกันเขาก็สามารถขอความสามารถและผลงานของเขาได้ สมมติว่า - 1 ล้านรูเบิล
นั่นคือต้นทุนทางสังคมจะลดลงโดย:

3 – 664 = 250 รูเบิล

โดยพื้นฐานแล้ว ผลกระทบนี้คือมูลค่าเพิ่มจากการใช้เทคโนโลยี BigDat

แต่ที่นี่ควรคำนึงว่านี่เป็นผลกระทบทางสังคมและเจ้าของฐานข้อมูลคือหน่วยงานเทศบาล รายได้จากการใช้ทรัพย์สินที่บันทึกไว้ในฐานข้อมูลนี้ในอัตรา 0,3% คือ: 2,778 พันล้านรูเบิล/ ปี. และค่าใช้จ่ายเหล่านี้ (4 รูเบิล) ไม่ได้รบกวนเขามากนักเนื่องจากถูกโอนไปยังเจ้าของทรัพย์สิน และในแง่นี้ ผู้พัฒนาเทคโนโลยีการกลั่นกรองใน Bigdata จะต้องแสดงความสามารถในการโน้มน้าวใจเจ้าของฐานข้อมูลนี้ และสิ่งเหล่านี้ต้องใช้ความสามารถจำนวนมาก

ในตัวอย่างนี้ อัลกอริธึมการประเมินข้อผิดพลาดได้รับเลือกตามแบบจำลอง Schumann [2] ของการตรวจสอบซอฟต์แวร์ในระหว่างการทดสอบความน่าเชื่อถือ เนื่องจากแพร่หลายบนอินเทอร์เน็ตและความสามารถในการรับตัวบ่งชี้ทางสถิติที่จำเป็น วิธีการนี้นำมาจาก Monakhov Yu.M. “เสถียรภาพการทำงานของระบบข้อมูล” ดูใต้สปอยเลอร์ในรูป 7-9.

ข้าว. 7 – 9 วิธีการของแบบจำลองชูมันน์ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี

ส่วนที่สองของเนื้อหานี้นำเสนอตัวอย่างของการล้างข้อมูล ซึ่งได้รับผลลัพธ์ของการใช้แบบจำลอง Schumann
ฉันขอนำเสนอผลลัพธ์ที่ได้รับ:
จำนวนข้อผิดพลาดโดยประมาณ N = 3167 n
พารามิเตอร์ C, แลมบ์ดาและฟังก์ชันความน่าเชื่อถือ:

ทำความสะอาดข้อมูล เช่น เกม Rock, Paper, Scissors นี่คือเกมที่มีหรือไม่มีตอนจบ? ส่วนที่ 1 เชิงทฤษฎี
มะเดื่อ 17

โดยพื้นฐานแล้ว lambda เป็นตัวบ่งชี้ที่แท้จริงของระดับความรุนแรงของการตรวจพบข้อผิดพลาดในแต่ละขั้นตอน หากคุณดูในส่วนที่สอง ค่าประมาณของตัวบ่งชี้นี้คือข้อผิดพลาด 42,4 ต่อชั่วโมง ซึ่งค่อนข้างเทียบได้กับตัวบ่งชี้ Schumann ข้างต้น มีการพิจารณาว่าอัตราที่นักพัฒนาพบข้อผิดพลาดไม่ควรต่ำกว่า 1 ข้อผิดพลาดต่อ 250,4 บันทึก เมื่อตรวจสอบ 1 บันทึกต่อนาที ดังนั้นค่าวิกฤตของแลมบ์ดาสำหรับโมเดลชูมันน์:

60 / 250,4 = 0,239617

นั่นคือจำเป็นต้องดำเนินการตามขั้นตอนการตรวจจับข้อผิดพลาดจนกว่าแลมบ์ดาจาก 38,964 ที่มีอยู่จะลดลงเหลือ 0,239617

หรือจนกว่าตัวบ่งชี้ N (จำนวนข้อผิดพลาดที่อาจเกิดขึ้น) ลบ n (จำนวนข้อผิดพลาดที่ถูกต้อง) ลดลงต่ำกว่าเกณฑ์ที่เรายอมรับ - 1459 ชิ้น

วรรณกรรม

  1. Monakhov, Yu. M. เสถียรภาพการทำงานของระบบสารสนเทศ ใน 3 ชั่วโมง ตอนที่ 1 ความน่าเชื่อถือของซอฟต์แวร์: หนังสือเรียน เบี้ยเลี้ยง / Yu. M. Monakhov; วลาดิม. สถานะ มหาวิทยาลัย – วลาดิมีร์: อิซโว วลาดิม สถานะ มหาวิทยาลัยมหิดล 2011 – 60 น. – ไอ 978-5-9984-0189-3.
  2. Martin L. Shooman “แบบจำลองความน่าจะเป็นสำหรับการทำนายความน่าเชื่อถือของซอฟต์แวร์”
  3. พื้นฐานคลังข้อมูลสำหรับผู้เชี่ยวชาญด้านไอที / Paulraj Ponniah.—ฉบับพิมพ์ครั้งที่ 2

ส่วนที่สอง เชิงทฤษฎี

ที่มา: will.com

เพิ่มความคิดเห็น