เฮ้ ฮับ!
ข้อมูลเป็นทรัพย์สินที่มีค่าที่สุดของบริษัท บริษัทดิจิทัลเกือบทุกแห่งอ้างสิ่งนี้ เป็นการยากที่จะโต้แย้งในเรื่องนี้: ไม่มีการประชุมใหญ่ด้านไอทีครั้งสำคัญใดเกิดขึ้นโดยไม่พูดคุยถึงแนวทางในการจัดการ จัดเก็บ และประมวลผลข้อมูล
ข้อมูลมาหาเราจากภายนอก มันถูกสร้างขึ้นภายในบริษัทด้วย และถ้าเราพูดถึงข้อมูลจากบริษัทโทรคมนาคม ดังนั้นสำหรับพนักงานภายใน นี่คือคลังข้อมูลเกี่ยวกับลูกค้า ความสนใจ นิสัย และที่ตั้งของเขา ด้วยโปรไฟล์และการแบ่งส่วนที่เหมาะสม ข้อเสนอการโฆษณาจะมีประสิทธิภาพสูงสุด อย่างไรก็ตาม ในทางปฏิบัติ ไม่ใช่ทุกอย่างจะดูสดใสนัก ข้อมูลที่บริษัทจัดเก็บไว้อาจล้าสมัยอย่างสิ้นหวัง ซ้ำซ้อน ซ้ำซ้อน หรือการมีอยู่ของข้อมูลนั้นไม่มีใครรู้จักยกเว้นผู้ใช้ในวงแคบ ลาก_(ツ)_/¯
พูดง่ายๆ ก็คือ ข้อมูลจะต้องได้รับการจัดการอย่างมีประสิทธิภาพ - เมื่อนั้นข้อมูลนั้นจึงจะกลายเป็นสินทรัพย์ที่นำประโยชน์และผลกำไรที่แท้จริงมาสู่ธุรกิจ น่าเสียดายที่การแก้ปัญหาการจัดการข้อมูลจำเป็นต้องเอาชนะความซับซ้อนค่อนข้างมาก สาเหตุหลักมาจากทั้งมรดกทางประวัติศาสตร์ในรูปแบบของ "สวนสัตว์" ของระบบและการขาดกระบวนการและแนวทางการจัดการที่เป็นหนึ่งเดียว แต่การ "ขับเคลื่อนด้วยข้อมูล" หมายความว่าอย่างไร?
นี่คือสิ่งที่เราจะพูดถึงโดยสรุป รวมถึงวิธีที่สแต็กโอเพ่นซอร์สช่วยเรา
แนวคิดของการจัดการข้อมูลเชิงกลยุทธ์ Data Governance (DG) ค่อนข้างเป็นที่รู้จักในตลาดรัสเซียและเป้าหมายที่ธุรกิจบรรลุผลจากการดำเนินการนั้นมีความชัดเจนและประกาศอย่างชัดเจน บริษัทของเราก็ไม่มีข้อยกเว้นและได้กำหนดหน้าที่ในการแนะนำแนวคิดการจัดการข้อมูล
แล้วเราเริ่มต้นที่ไหน? เริ่มต้นด้วย เราได้ตั้งเป้าหมายสำคัญสำหรับตัวเราเอง:
- เก็บข้อมูลของเราให้สามารถเข้าถึงได้
- รับประกันความโปร่งใสของวงจรชีวิตข้อมูล
- ให้ข้อมูลที่สม่ำเสมอและสม่ำเสมอแก่ผู้ใช้ของบริษัท
- ให้ข้อมูลที่ได้รับการตรวจสอบแก่ผู้ใช้ของบริษัท
ปัจจุบันมีเครื่องมือคลาส Data Governance มากมายในตลาดซอฟต์แวร์
แต่หลังจากการวิเคราะห์โดยละเอียดและศึกษาวิธีแก้ปัญหา เราได้บันทึกความคิดเห็นเชิงวิพากษ์วิจารณ์หลายประการสำหรับตัวเราเอง:
- ผู้ผลิตส่วนใหญ่เสนอชุดโซลูชันที่ครอบคลุม ซึ่งสำหรับเรานั้นซ้ำซ้อนและซ้ำซ้อนฟังก์ชันการทำงานที่มีอยู่ อีกทั้งมีราคาแพงในแง่ของทรัพยากร รวมถึงการบูรณาการเข้ากับภูมิทัศน์ด้านไอทีในปัจจุบัน
- ฟังก์ชันและอินเทอร์เฟซได้รับการออกแบบสำหรับนักเทคโนโลยี ไม่ใช่ผู้ใช้ทางธุรกิจ
- อัตราการรอดตายของผลิตภัณฑ์ต่ำและขาดการใช้งานที่ประสบความสำเร็จในตลาดรัสเซีย
- ซอฟต์แวร์ราคาสูงและการสนับสนุนเพิ่มเติม
เกณฑ์และคำแนะนำที่กล่าวไว้ข้างต้นเกี่ยวกับการทดแทนการนำเข้าซอฟต์แวร์สำหรับบริษัทรัสเซีย โน้มน้าวให้เราก้าวไปสู่การพัฒนาของเราเองบนสแต็กโอเพ่นซอร์ส แพลตฟอร์มที่เราเลือกคือ Django ซึ่งเป็นเฟรมเวิร์กโอเพ่นซอร์สฟรีที่เขียนด้วย Python และด้วยเหตุนี้ เราจึงได้ระบุโมดูลสำคัญที่จะนำไปสู่เป้าหมายที่ระบุไว้ข้างต้น:
- ทะเบียนรายงาน
- อภิธานศัพท์ธุรกิจ
- โมดูลสำหรับอธิบายการเปลี่ยนแปลงทางเทคนิค
- โมดูลสำหรับอธิบายวงจรชีวิตของข้อมูลจากแหล่งที่มาไปยังเครื่องมือ BI
- โมดูลควบคุมคุณภาพข้อมูล
ทะเบียนรายงาน
จากผลการศึกษาภายในของบริษัทขนาดใหญ่พบว่า เมื่อแก้ไขปัญหาเกี่ยวกับข้อมูล พนักงานจะใช้เวลา 40-80% ในการค้นหาข้อมูล ดังนั้นเราจึงกำหนดหน้าที่ของตัวเองในการสร้างข้อมูลแบบเปิดเกี่ยวกับรายงานที่มีอยู่ซึ่งก่อนหน้านี้มีให้เฉพาะลูกค้าเท่านั้น ดังนั้นเราจึงลดเวลาในการสร้างรายงานใหม่และรับประกันการทำให้ข้อมูลเป็นประชาธิปไตย
ทะเบียนการรายงานกลายเป็นหน้าต่างการรายงานเดียวสำหรับผู้ใช้ภายในจากภูมิภาค แผนก และแผนกต่างๆ รวบรวมข้อมูลเกี่ยวกับบริการข้อมูลที่สร้างขึ้นในพื้นที่เก็บข้อมูลขององค์กรหลายแห่งของ บริษัท และมีหลายแห่งใน Rostelecom
แต่รีจิสทรีไม่ได้เป็นเพียงรายการรายงานที่พัฒนาแล้วเท่านั้น สำหรับแต่ละรายงาน เราจะให้ข้อมูลที่จำเป็นสำหรับผู้ใช้ในการทำความคุ้นเคย:
- คำอธิบายโดยย่อของรายงาน
- ความลึกของข้อมูลที่มีอยู่
- ส่วนลูกค้า;
- เครื่องมือแสดงภาพ
- ชื่อของที่เก็บข้อมูลขององค์กร
- ข้อกำหนดด้านการทำงานของธุรกิจ
- เชื่อมโยงไปยังรายงาน
- ลิงค์ไปยังแอปพลิเคชันเพื่อการเข้าถึง
- สถานะการดำเนินการ
มีการวิเคราะห์ระดับการใช้งานสำหรับรายงาน และรายงานจะได้รับการจัดอันดับที่ด้านบนสุดของรายการตามการวิเคราะห์บันทึกตามจำนวนผู้ใช้ที่ไม่ซ้ำ และนั่นไม่ใช่มัน นอกเหนือจากลักษณะทั่วไปแล้ว เรายังได้จัดเตรียมคำอธิบายโดยละเอียดเกี่ยวกับองค์ประกอบคุณลักษณะของรายงานพร้อมตัวอย่างค่าและวิธีการคำนวณอีกด้วย รายละเอียดดังกล่าวจะให้คำตอบแก่ผู้ใช้ทันทีว่ารายงานนั้นมีประโยชน์สำหรับเขาหรือไม่
การพัฒนาโมดูลนี้เป็นขั้นตอนสำคัญในการทำให้ข้อมูลเป็นประชาธิปไตย และลดเวลาที่ใช้ในการค้นหาข้อมูลที่ต้องการลงอย่างมาก นอกจากจะลดเวลาในการค้นหาแล้ว จำนวนคำขอไปยังทีมสนับสนุนเพื่อให้คำปรึกษายังลดลงอีกด้วย เป็นไปไม่ได้ที่จะไม่สังเกตผลลัพธ์ที่เป็นประโยชน์อีกอย่างที่เราได้รับจากการพัฒนาการลงทะเบียนรายงานแบบรวม - ป้องกันการพัฒนารายงานที่ซ้ำกันสำหรับหน่วยโครงสร้างที่แตกต่างกัน
อภิธานศัพท์ธุรกิจ
คุณทุกคนรู้ดีว่าแม้จะอยู่ในบริษัทเดียวกัน ธุรกิจต่างๆ ก็พูดภาษาที่แตกต่างกัน ใช่ พวกเขาใช้คำเดียวกัน แต่มีความหมายต่างกันโดยสิ้นเชิง อภิธานศัพท์ทางธุรกิจได้รับการออกแบบมาเพื่อแก้ไขปัญหานี้
สำหรับเรา อภิธานศัพท์ธุรกิจไม่ได้เป็นเพียงหนังสืออ้างอิงที่มีคำอธิบายคำศัพท์และวิธีการคำนวณเท่านั้น นี่คือสภาพแวดล้อมที่ครบถ้วนสำหรับการพัฒนา ตกลง และอนุมัติคำศัพท์ สร้างความสัมพันธ์ระหว่างข้อกำหนดและทรัพย์สินข้อมูลอื่นๆ ของบริษัท ก่อนที่จะเข้าสู่อภิธานศัพท์ธุรกิจ ข้อกำหนดจะต้องผ่านการอนุมัติทุกขั้นตอนกับลูกค้าธุรกิจและศูนย์คุณภาพข้อมูล หลังจากนี้จึงจะสามารถใช้งานได้
ตามที่ฉันได้เขียนไว้ข้างต้น ความพิเศษของเครื่องมือนี้คือช่วยให้สามารถเชื่อมต่อจากระดับของเงื่อนไขทางธุรกิจไปยังรายงานผู้ใช้เฉพาะที่ใช้งาน เช่นเดียวกับระดับของวัตถุฐานข้อมูลทางกายภาพ
สิ่งนี้เกิดขึ้นได้โดยใช้ตัวระบุคำศัพท์ในคำอธิบายโดยละเอียดของรายงานรีจิสทรีและคำอธิบายของออบเจ็กต์ฐานข้อมูลทางกายภาพ
ปัจจุบันมีคำจำกัดความและตกลงกันมากกว่า 4000 คำในอภิธานศัพท์ การใช้งานช่วยลดความยุ่งยากและรวดเร็วในการประมวลผลคำขอที่เข้ามาสำหรับการเปลี่ยนแปลงในระบบข้อมูลของบริษัท หากมีการใช้ตัวบ่งชี้ที่จำเป็นในรายงานใด ๆ แล้ว ผู้ใช้จะเห็นชุดรายงานสำเร็จรูปทันทีที่ใช้ตัวบ่งชี้นี้ และจะสามารถตัดสินใจได้ว่าจะใช้ฟังก์ชันที่มีอยู่ซ้ำอย่างมีประสิทธิภาพหรือแก้ไขเพียงเล็กน้อย โดยไม่ต้องเริ่มดำเนินการ คำขอใหม่สำหรับการพัฒนารายงานใหม่
โมดูลสำหรับอธิบายการเปลี่ยนแปลงทางเทคนิคและ DataLineage
คุณถามโมดูลเหล่านี้คืออะไร? การใช้ Report Register และอภิธานศัพท์เพียงอย่างเดียวนั้นไม่เพียงพอ แต่ยังจำเป็นต้องยึดข้อกำหนดทางธุรกิจทั้งหมดเกี่ยวกับโมเดลฐานข้อมูลทางกายภาพด้วย ดังนั้นเราจึงสามารถดำเนินกระบวนการสร้างวงจรชีวิตของข้อมูลจากระบบต้นทางไปจนถึงการแสดงภาพ BI ได้สำเร็จผ่านทุกเลเยอร์ของคลังข้อมูล กล่าวอีกนัยหนึ่ง สร้าง DataLineage
เราพัฒนาอินเทอร์เฟซตามรูปแบบที่ใช้ในบริษัทก่อนหน้านี้เพื่ออธิบายกฎและตรรกะของการแปลงข้อมูล ข้อมูลเดียวกันนี้ถูกป้อนข้อมูลผ่านอินเทอร์เฟซเหมือนเมื่อก่อน แต่คำจำกัดความของตัวระบุคำศัพท์จากอภิธานศัพท์ธุรกิจได้กลายเป็นข้อกำหนดเบื้องต้น นี่คือวิธีที่เราสร้างการเชื่อมโยงระหว่างชั้นธุรกิจและชั้นทางกายภาพ
ใครต้องการมัน? เกิดอะไรขึ้นกับรูปแบบเก่าที่คุณร่วมงานด้วยมาหลายปี? ต้นทุนแรงงานสำหรับการสร้างความต้องการเพิ่มขึ้นเท่าใด? เราต้องจัดการกับคำถามดังกล่าวระหว่างการนำเครื่องมือไปใช้ คำตอบที่นี่ค่อนข้างง่าย - เราทุกคนต้องการสิ่งนี้ สำนักงานข้อมูลของบริษัท และผู้ใช้ของเรา
พนักงานต้องปรับตัว ในตอนแรก ส่งผลให้ค่าแรงในการเตรียมเอกสารเพิ่มขึ้นเล็กน้อย แต่เราจัดการปัญหานี้แล้ว การปฏิบัติ การระบุ และการเพิ่มประสิทธิภาพด้านปัญหาได้ทำหน้าที่ของพวกเขาแล้ว เราบรรลุสิ่งสำคัญแล้ว - เราได้ปรับปรุงคุณภาพของข้อกำหนดที่พัฒนาขึ้นแล้ว ช่องบังคับ, หนังสืออ้างอิงแบบรวม, รูปแบบการป้อนข้อมูล, การตรวจสอบในตัว - ทั้งหมดนี้ทำให้สามารถปรับปรุงคุณภาพของคำอธิบายการเปลี่ยนแปลงได้อย่างมีนัยสำคัญ เราย้ายออกจากแนวทางปฏิบัติในการมอบสคริปต์เป็นข้อกำหนดในการพัฒนาและแบ่งปันความรู้ที่มีให้เฉพาะกับทีมพัฒนาเท่านั้น ฐานข้อมูลเมตาดาต้าที่สร้างขึ้นช่วยลดเวลาที่ต้องใช้ในการดำเนินการวิเคราะห์การถดถอยได้อย่างมาก และให้ความสามารถในการประเมินผลกระทบของการเปลี่ยนแปลงในชั้นใดๆ ของภูมิทัศน์ด้านไอทีได้อย่างรวดเร็ว (แสดงรายงาน การรวม แหล่งที่มา)
สิ่งนี้เกี่ยวข้องกับผู้ใช้รายงานทั่วไปอย่างไร อะไรคือข้อดีสำหรับพวกเขา? ด้วยความสามารถในการสร้าง DataLineage ผู้ใช้ของเรา แม้แต่ผู้ใช้ที่ห่างไกลจาก SQL และภาษาการเขียนโปรแกรมอื่น ๆ ก็ได้รับข้อมูลเกี่ยวกับแหล่งที่มาและออบเจ็กต์อย่างรวดเร็วบนพื้นฐานของการสร้างรายงานเฉพาะ
โมดูลควบคุมคุณภาพข้อมูล
ทุกสิ่งที่เราพูดถึงข้างต้นในแง่ของการรับรองความโปร่งใสของข้อมูลนั้นไม่สำคัญหากไม่เข้าใจว่าข้อมูลที่เราให้กับผู้ใช้นั้นถูกต้อง โมดูลที่สำคัญอย่างหนึ่งของแนวคิดการกำกับดูแลข้อมูลของเราคือโมดูลการควบคุมคุณภาพข้อมูล
ในขั้นตอนปัจจุบัน นี่คือแค็ตตาล็อกของเช็คสำหรับเอนทิตีที่เลือก เป้าหมายเร่งด่วนในการพัฒนาผลิตภัณฑ์คือการขยายรายการตรวจสอบและบูรณาการเข้ากับรีจิสทรีการรายงาน
จะให้อะไรและแก่ใคร? ผู้ใช้รีจิสทรีจะสามารถเข้าถึงข้อมูลเกี่ยวกับวันที่ที่วางแผนไว้และวันที่จริงของความพร้อมของรายงาน ผลลัพธ์ของการตรวจสอบที่เสร็จสมบูรณ์พร้อมไดนามิก และข้อมูลเกี่ยวกับแหล่งที่มาที่โหลดลงในรายงาน
สำหรับเรา โมดูลคุณภาพข้อมูลที่รวมอยู่ในกระบวนการทำงานของเราคือ:
- การสร้างความคาดหวังของลูกค้าทันที
- การตัดสินใจเกี่ยวกับการใช้ข้อมูลต่อไป
- การได้รับชุดประเด็นปัญหาเบื้องต้นในระยะเริ่มต้นของงานเพื่อการพัฒนาการควบคุมคุณภาพอย่างสม่ำเสมอ
แน่นอนว่านี่เป็นขั้นตอนแรกในการสร้างกระบวนการจัดการข้อมูลอย่างเต็มรูปแบบ แต่เรามั่นใจว่าเพียงการทำงานนี้อย่างตั้งใจ การแนะนำเครื่องมือกำกับดูแลข้อมูลเข้าสู่กระบวนการทำงานเท่านั้น เราจะมอบเนื้อหาข้อมูลให้กับลูกค้า ความไว้วางใจในข้อมูลในระดับสูง ความโปร่งใสในการรับ และเพิ่มความเร็วในการเปิดตัว ฟังก์ชั่นใหม่
ทีมงานดาต้าออฟฟิศ
ที่มา: will.com