คุณภาพข้อมูลในคลังสินค้า

คุณภาพของข้อมูลในคลังสินค้าถือเป็นข้อกำหนดเบื้องต้นที่สำคัญสำหรับการได้รับข้อมูลอันมีค่า คุณภาพต่ำทำให้เกิดปฏิกิริยาลูกโซ่เชิงลบในระยะยาว
ประการแรก ความไว้วางใจในข้อมูลที่ให้ไว้จะสูญเสียไป ผู้คนเริ่มใช้แอปพลิเคชัน Business Intelligence น้อยลง ศักยภาพของแอปพลิเคชันยังคงไม่มีการอ้างสิทธิ์
เป็นผลให้การลงทุนเพิ่มเติมในโครงการวิเคราะห์ถูกตั้งคำถาม

ความรับผิดชอบต่อคุณภาพของข้อมูล

แง่มุมที่เกี่ยวข้องกับการปรับปรุงคุณภาพข้อมูลถือเป็นสิ่งสำคัญอย่างยิ่งในโครงการ BI อย่างไรก็ตาม ไม่ใช่สิทธิพิเศษของผู้เชี่ยวชาญทางเทคนิคเท่านั้น
คุณภาพของข้อมูลยังได้รับอิทธิพลจากปัจจัยต่างๆ เช่น

วัฒนธรรมองค์กร

  • คนงานเองสนใจที่จะผลิตสินค้าคุณภาพดีหรือไม่?
  • ถ้าไม่ทำไมจะไม่ได้? อาจมีความขัดแย้งทางผลประโยชน์
  • อาจมีกฎเกณฑ์ขององค์กรที่กำหนดว่าใครเป็นผู้รับผิดชอบด้านคุณภาพ

กระบวนการต่างๆ

  • ข้อมูลใดที่ถูกสร้างขึ้นที่ส่วนท้ายของห่วงโซ่เหล่านี้?
  • บางทีระบบปฏิบัติการได้รับการกำหนดค่าในลักษณะที่คุณต้อง "บิด" เพื่อสะท้อนสถานการณ์นี้หรือสถานการณ์นั้นในความเป็นจริง
  • ระบบปฏิบัติการทำการตรวจสอบข้อมูลและกระทบยอดด้วยตนเองหรือไม่

ทุกคนในองค์กรมีหน้าที่รับผิดชอบต่อคุณภาพของข้อมูลในระบบการรายงาน

ความหมายและความหมาย

คุณภาพคือความพึงพอใจที่ได้รับการพิสูจน์แล้วตามความคาดหวังของลูกค้า

แต่คุณภาพของข้อมูลไม่มีคำจำกัดความ มันสะท้อนบริบทการใช้งานเสมอ คลังข้อมูลและระบบ BI มีจุดประสงค์ที่แตกต่างจากระบบปฏิบัติการที่ข้อมูลมา

ตัวอย่างเช่น บนระบบปฏิบัติการ คุณลักษณะของลูกค้าอาจเป็นฟิลด์ที่ไม่บังคับ ในที่เก็บ แอ็ตทริบิวต์นี้สามารถใช้เป็นมิติได้ และจำเป็นต้องมีการเติมข้อมูล ซึ่งในทางกลับกันทำให้เกิดความจำเป็นในการกรอกค่าเริ่มต้น

ข้อกำหนดในการจัดเก็บข้อมูลมีการเปลี่ยนแปลงอยู่ตลอดเวลา และมักจะสูงกว่าความต้องการสำหรับระบบปฏิบัติการ แต่อาจเป็นอีกทางหนึ่งได้เช่นกัน เมื่อไม่จำเป็นต้องจัดเก็บข้อมูลโดยละเอียดจากระบบปฏิบัติการในที่จัดเก็บข้อมูล

เพื่อให้สามารถวัดคุณภาพข้อมูลได้ จะต้องอธิบายมาตรฐานของมัน ผู้ที่ใช้ข้อมูลและตัวเลขในการทำงานจะต้องมีส่วนร่วมในกระบวนการอธิบาย ผลของการมีส่วนร่วมนี้อาจเป็นกฎเกณฑ์ ซึ่งสามารถบอกได้อย่างรวดเร็วที่ตารางว่ามีข้อผิดพลาดหรือไม่ กฎนี้ต้องอยู่ในรูปแบบสคริปต์/รหัสเพื่อการตรวจสอบในภายหลัง

การปรับปรุงคุณภาพข้อมูล

เป็นไปไม่ได้ที่จะล้างและแก้ไขข้อผิดพลาดสมมุติทั้งหมดในระหว่างกระบวนการโหลดข้อมูลลงในคลังสินค้า คุณภาพของข้อมูลที่ดีจะเกิดขึ้นได้จากการทำงานร่วมกันอย่างใกล้ชิดระหว่างผู้เข้าร่วมทุกคนเท่านั้น ผู้ที่ป้อนข้อมูลลงในระบบปฏิบัติการจำเป็นต้องเรียนรู้ว่าการกระทำใดที่นำไปสู่ข้อผิดพลาด

คุณภาพของข้อมูลเป็นกระบวนการ น่าเสียดายที่หลายองค์กรไม่มีกลยุทธ์ในการปรับปรุงอย่างต่อเนื่อง หลายๆ คนจำกัดตัวเองอยู่เพียงการจัดเก็บข้อมูลเท่านั้น และไม่ได้ใช้ระบบการวิเคราะห์อย่างเต็มศักยภาพ โดยทั่วไปแล้ว เมื่อพัฒนาคลังข้อมูล 70-80% ของงบประมาณจะถูกนำมาใช้ในการดำเนินการบูรณาการข้อมูล กระบวนการติดตามและปรับปรุงยังคงไม่สมบูรณ์หากเลย

เครื่องมือ

การใช้เครื่องมือซอฟต์แวร์สามารถช่วยในกระบวนการปรับปรุงและติดตามคุณภาพข้อมูลโดยอัตโนมัติ ตัวอย่างเช่น พวกเขาสามารถดำเนินการตรวจสอบทางเทคนิคของโครงสร้างการจัดเก็บได้โดยอัตโนมัติอย่างสมบูรณ์: รูปแบบฟิลด์, การมีอยู่ของค่าเริ่มต้น, การปฏิบัติตามชื่อฟิลด์ของตาราง

การตรวจสอบเนื้อหาอาจทำได้ยากขึ้น เมื่อข้อกำหนดในการจัดเก็บเปลี่ยนแปลง การตีความข้อมูลก็อาจเปลี่ยนแปลงเช่นกัน เครื่องมือนี้สามารถกลายเป็นโครงการขนาดใหญ่ที่ต้องการการสนับสนุนได้

สภา

ฐานข้อมูลเชิงสัมพันธ์ ซึ่งโดยทั่วไปแล้วร้านค้าจะได้รับการออกแบบ มีความสามารถที่โดดเด่นในการสร้างมุมมอง สามารถใช้เพื่อตรวจสอบข้อมูลได้อย่างรวดเร็วหากคุณทราบข้อมูลเฉพาะของเนื้อหา แต่ละกรณีของการค้นหาข้อผิดพลาดหรือปัญหาในข้อมูลสามารถบันทึกในรูปแบบของการสืบค้นฐานข้อมูล

ด้วยวิธีนี้จะเกิดฐานความรู้เกี่ยวกับเนื้อหา แน่นอนว่าคำขอดังกล่าวจะต้องรวดเร็ว โดยทั่วไปการดูจะใช้เวลาของมนุษย์ในการบำรุงรักษาน้อยกว่าเครื่องมือแบบตาราง มุมมองพร้อมแสดงผลการทดสอบเสมอ
ในกรณีของรายงานสำคัญ มุมมองอาจมีคอลัมน์ที่มีผู้รับ ควรใช้เครื่องมือ BI เดียวกันเพื่อรายงานสถานะของคุณภาพข้อมูลในคลังสินค้า

ตัวอย่าง

แบบสอบถามถูกเขียนสำหรับฐานข้อมูล Oracle ในตัวอย่างนี้ การทดสอบจะส่งกลับค่าตัวเลขที่สามารถตีความได้ตามต้องการ สามารถใช้ค่า T_MIN และ T_MAX เพื่อปรับระดับสัญญาณเตือนได้ ครั้งหนึ่งช่อง REPORT ถูกใช้เป็นข้อความในผลิตภัณฑ์ ETL เชิงพาณิชย์ซึ่งไม่ทราบวิธีส่งอีเมลอย่างถูกต้อง ดังนั้น rpad จึงเปรียบเสมือน "ไม้ยันรักแร้"

ในกรณีของตารางขนาดใหญ่ คุณสามารถเพิ่ม AND ROWNUM <= 10 ได้ เช่น หากมีข้อผิดพลาด 10 ข้อ ก็เพียงพอที่จะทำให้เกิดสัญญาณเตือน

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

สิ่งพิมพ์ใช้สื่อจากหนังสือ
โรนัลด์ บาคมันน์, ดร. กุยโด เคมเปอร์
เราอัส เดอร์ บี-ฟอลเล
Wie Business Intelligence และ Wird


ที่มา: will.com

เพิ่มความคิดเห็น