Quản trị dữ liệu nội bộ

Này Habr!

Dữ liệu là tài sản quý giá nhất của công ty. Hầu hết mọi công ty tập trung vào kỹ thuật số đều tuyên bố điều này. Thật khó để tranh luận với điều này: không một hội nghị CNTT lớn nào được tổ chức mà không thảo luận về các phương pháp quản lý, lưu trữ và xử lý dữ liệu.

Dữ liệu đến với chúng ta từ bên ngoài, nó cũng được tạo ra trong công ty và nếu chúng ta nói về dữ liệu từ một công ty viễn thông, thì đối với nhân viên nội bộ, đây là kho thông tin về khách hàng, sở thích, thói quen và vị trí của họ. Với việc lập hồ sơ và phân khúc thích hợp, việc cung cấp quảng cáo sẽ hiệu quả nhất. Tuy nhiên, trên thực tế, không phải mọi thứ đều màu hồng như vậy. Dữ liệu mà các công ty lưu trữ có thể đã lỗi thời, dư thừa, lặp đi lặp lại hoặc không ai biết đến sự tồn tại của nó, ngoại trừ một nhóm người dùng hạn hẹp. ¯_(ツ)_/¯

Quản trị dữ liệu nội bộ
Nói một cách dễ hiểu, dữ liệu phải được quản lý hiệu quả - chỉ khi đó nó mới trở thành tài sản mang lại lợi ích và lợi nhuận thực sự cho doanh nghiệp. Thật không may, việc giải quyết các vấn đề quản lý dữ liệu đòi hỏi phải vượt qua khá nhiều điều phức tạp. Chúng chủ yếu là do di sản lịch sử dưới dạng “vườn thú” của các hệ thống và việc thiếu các quy trình và cách tiếp cận thống nhất để quản lý chúng. Nhưng “điều khiển dữ liệu” nghĩa là gì?

Đây chính xác là những gì chúng ta sẽ nói đến trong phần giới thiệu, cũng như cách ngăn xếp mã nguồn mở đã giúp chúng ta.

Khái niệm quản lý dữ liệu chiến lược Quản trị dữ liệu (DG) đã khá nổi tiếng ở thị trường Nga và các mục tiêu mà doanh nghiệp đạt được khi thực hiện nó đều rõ ràng và được tuyên bố rõ ràng. Công ty chúng tôi cũng không ngoại lệ và tự đặt cho mình nhiệm vụ giới thiệu khái niệm quản lý dữ liệu.

Vậy chúng ta đã bắt đầu từ đâu? Để bắt đầu, chúng tôi đã hình thành các mục tiêu chính cho mình:

  1. Giữ dữ liệu của chúng tôi có thể truy cập được.
  2. Đảm bảo tính minh bạch của vòng đời dữ liệu.
  3. Cung cấp cho người dùng công ty dữ liệu nhất quán, nhất quán.
  4. Cung cấp cho người dùng công ty dữ liệu đã được xác minh.

Ngày nay, có hàng tá công cụ lớp Quản trị dữ liệu trên thị trường phần mềm.

Quản trị dữ liệu nội bộ

Nhưng sau khi phân tích và nghiên cứu chi tiết các giải pháp, chúng tôi đã ghi lại một số nhận xét phê bình cho bản thân:

  • Hầu hết các nhà sản xuất đều cung cấp một bộ giải pháp toàn diện, đối với chúng tôi, giải pháp này là dư thừa và trùng lặp chức năng hiện có. Thêm vào đó, tốn kém về mặt tài nguyên, khả năng tích hợp vào bối cảnh CNTT hiện tại.
  • Chức năng và giao diện được thiết kế dành cho các nhà công nghệ, không phải người dùng cuối là doanh nghiệp.
  • Tỷ lệ tồn tại của sản phẩm thấp và thiếu triển khai thành công trên thị trường Nga.
  • Chi phí phần mềm cao và hỗ trợ thêm.

Các tiêu chí và khuyến nghị nêu trên liên quan đến việc thay thế nhập khẩu phần mềm cho các công ty Nga đã thuyết phục chúng tôi hướng tới sự phát triển của riêng mình trên kho nguồn mở. Nền tảng chúng tôi chọn là Django, một framework mã nguồn mở và miễn phí được viết bằng Python. Và do đó, chúng tôi đã xác định được các mô-đun chính sẽ góp phần đạt được các mục tiêu nêu trên:

  1. Sổ đăng ký báo cáo.
  2. Từ điển kinh doanh.
  3. Mô-đun mô tả các chuyển đổi kỹ thuật.
  4. Mô-đun mô tả vòng đời dữ liệu từ nguồn đến công cụ BI.
  5. Mô-đun kiểm soát chất lượng dữ liệu

Quản trị dữ liệu nội bộ

Sổ đăng ký báo cáo

Theo kết quả nghiên cứu nội bộ ở các công ty lớn, khi giải quyết các vấn đề liên quan đến dữ liệu, nhân viên dành 40-80% thời gian để tìm kiếm chúng. Vì vậy, chúng tôi đặt cho mình nhiệm vụ cung cấp thông tin mở về các báo cáo hiện có mà trước đây chỉ dành cho khách hàng. Do đó, chúng tôi giảm thời gian tạo báo cáo mới và đảm bảo dân chủ hóa dữ liệu.

Quản trị dữ liệu nội bộ

Sổ đăng ký báo cáo đã trở thành một cửa sổ báo cáo duy nhất cho người dùng nội bộ từ các khu vực, phòng ban và bộ phận khác nhau. Nó tổng hợp thông tin về các dịch vụ thông tin được tạo trong một số kho lưu trữ công ty của công ty và có rất nhiều trong số đó ở Rostelecom.

Nhưng sổ đăng ký không chỉ là một danh sách khô khan các báo cáo đã phát triển. Đối với mỗi báo cáo, chúng tôi cung cấp thông tin cần thiết để người dùng làm quen với nó:

  • mô tả ngắn gọn về báo cáo;
  • độ sâu của dữ liệu sẵn có;
  • phân khúc khách hàng;
  • công cụ trực quan;
  • tên kho lưu trữ của công ty;
  • yêu cầu chức năng kinh doanh;
  • liên kết đến báo cáo;
  • liên kết đến ứng dụng để truy cập;
  • tình trạng thực hiện.

Phân tích cấp độ sử dụng có sẵn cho các báo cáo và báo cáo được xếp hạng ở đầu danh sách dựa trên phân tích nhật ký dựa trên số lượng người dùng duy nhất. Và đó không phải là nó. Ngoài các đặc điểm chung, chúng tôi cũng đã cung cấp mô tả chi tiết về thành phần thuộc tính của báo cáo cùng với các ví dụ về giá trị và phương pháp tính toán. Những chi tiết như vậy ngay lập tức mang lại cho người dùng câu trả lời liệu báo cáo có hữu ích cho anh ta hay không.

Sự phát triển của mô-đun này là một bước quan trọng trong quá trình dân chủ hóa dữ liệu và giảm đáng kể thời gian tìm kiếm thông tin cần thiết. Ngoài việc giảm thời gian tìm kiếm, số lượng yêu cầu gửi đến nhóm hỗ trợ để được tư vấn cũng giảm đi. Không thể không ghi nhận một kết quả hữu ích khác mà chúng tôi đã đạt được khi phát triển hệ thống đăng ký báo cáo thống nhất - ngăn chặn việc phát triển các báo cáo trùng lặp cho các đơn vị cấu trúc khác nhau.

Thuật ngữ kinh doanh

Tất cả các bạn đều biết rằng ngay cả trong cùng một công ty, các doanh nghiệp vẫn sử dụng các ngôn ngữ khác nhau. Đúng, chúng sử dụng những thuật ngữ giống nhau, nhưng chúng có nghĩa hoàn toàn khác nhau. Một bảng thuật ngữ kinh doanh được thiết kế để giải quyết vấn đề này.

Đối với chúng tôi, bảng thuật ngữ kinh doanh không chỉ là một cuốn sách tham khảo mô tả các thuật ngữ và phương pháp tính toán. Đây là môi trường đầy đủ để phát triển, thống nhất và phê duyệt các thuật ngữ, xây dựng mối quan hệ giữa các điều khoản và các tài sản thông tin khác của công ty. Trước khi đưa vào bảng thuật ngữ kinh doanh, một thuật ngữ phải trải qua tất cả các giai đoạn phê duyệt với khách hàng doanh nghiệp và trung tâm chất lượng dữ liệu. Chỉ sau đó nó mới có sẵn để sử dụng.

Như tôi đã viết ở trên, điểm độc đáo của công cụ này là nó cho phép kết nối từ cấp độ thuật ngữ kinh doanh đến các báo cáo người dùng cụ thể mà nó được sử dụng, cũng như cấp độ đối tượng cơ sở dữ liệu vật lý.

Quản trị dữ liệu nội bộ

Điều này có thể thực hiện được thông qua việc sử dụng các mã định danh thuật ngữ trong bảng mô tả chi tiết các báo cáo đăng ký và mô tả các đối tượng cơ sở dữ liệu vật lý.

Hiện tại, hơn 4000 thuật ngữ đã được định nghĩa và thống nhất trong Bảng thuật ngữ. Việc sử dụng nó giúp đơn giản hóa và tăng tốc quá trình xử lý các yêu cầu gửi đến về những thay đổi trong hệ thống thông tin của công ty. Nếu chỉ báo bắt buộc đã được triển khai trong bất kỳ báo cáo nào thì người dùng sẽ thấy ngay một tập hợp các báo cáo làm sẵn trong đó chỉ báo này được sử dụng và sẽ có thể quyết định việc sử dụng lại hiệu quả chức năng hiện có hoặc sửa đổi tối thiểu mà không cần bắt đầu yêu cầu mới cho việc phát triển một báo cáo mới.

Mô-đun mô tả các chuyển đổi kỹ thuật và DataLineage

Bạn hỏi những mô-đun này là gì? Việc triển khai đơn giản Sổ đăng ký Báo cáo và Bảng chú giải thuật ngữ là chưa đủ; cần phải đặt tất cả các thuật ngữ kinh doanh dựa trên mô hình cơ sở dữ liệu vật lý. Như vậy, chúng tôi đã có thể hoàn tất quá trình hình thành vòng đời dữ liệu từ hệ thống nguồn đến trực quan hóa BI thông qua tất cả các lớp của kho dữ liệu. Nói cách khác, hãy xây dựng DataLineage.

Chúng tôi đã phát triển một giao diện dựa trên định dạng được sử dụng trước đây trong công ty để mô tả các quy tắc và logic của việc chuyển đổi dữ liệu. Thông tin tương tự được nhập qua giao diện như trước đây, nhưng định nghĩa về định danh thuật ngữ từ bảng thuật ngữ kinh doanh đã trở thành điều kiện tiên quyết. Đây là cách chúng tôi xây dựng kết nối giữa lớp kinh doanh và lớp vật lý.

Ai cần nó? Điều gì đã xảy ra với định dạng cũ mà bạn đã làm việc trong vài năm? Chi phí lao động để tạo ra nhu cầu đã tăng bao nhiêu? Chúng tôi đã phải giải quyết những câu hỏi như vậy trong quá trình triển khai công cụ này. Câu trả lời ở đây khá đơn giản - tất cả chúng ta đều cần điều này, văn phòng dữ liệu của công ty và người dùng của chúng ta.

Quả thực, người lao động đã phải thích nghi, ban đầu điều này khiến chi phí nhân công chuẩn bị hồ sơ tăng nhẹ, nhưng chúng tôi đã giải quyết được vấn đề này. Thực hành, xác định và tối ưu hóa các khu vực có vấn đề đã hoàn thành công việc của họ. Chúng tôi đã đạt được điều chính - chúng tôi đã cải thiện chất lượng của các yêu cầu được phát triển. Các trường bắt buộc, sách tham khảo thống nhất, mặt nạ đầu vào, kiểm tra tích hợp - tất cả những điều này giúp cải thiện đáng kể chất lượng của các mô tả chuyển đổi. Chúng tôi đã loại bỏ thói quen bàn giao các tập lệnh làm yêu cầu phát triển và chia sẻ kiến ​​thức chỉ dành cho nhóm phát triển. Cơ sở dữ liệu siêu dữ liệu được tạo giúp giảm đáng kể thời gian cần thiết để tiến hành phân tích hồi quy và cung cấp khả năng đánh giá nhanh tác động của các thay đổi đối với bất kỳ lớp nào trong bối cảnh CNTT (báo cáo giới thiệu, tổng hợp, nguồn).

Điều này có liên quan gì đến người dùng báo cáo thông thường, họ có lợi ích gì? Nhờ khả năng xây dựng DataLineage, người dùng của chúng tôi, ngay cả những người không quen với SQL và các ngôn ngữ lập trình khác, sẽ nhanh chóng nhận được thông tin về các nguồn và đối tượng trên cơ sở tạo ra một báo cáo cụ thể.

Mô-đun kiểm soát chất lượng dữ liệu

Mọi điều chúng tôi đã nói ở trên về việc đảm bảo tính minh bạch của dữ liệu đều không quan trọng nếu không hiểu rằng dữ liệu chúng tôi cung cấp cho người dùng là chính xác. Một trong những mô-đun quan trọng trong khái niệm Quản trị dữ liệu của chúng tôi là mô-đun kiểm soát chất lượng dữ liệu.

Ở giai đoạn hiện tại, đây là danh mục kiểm tra cho các thực thể được chọn. Mục tiêu trước mắt của việc phát triển sản phẩm là mở rộng danh sách kiểm tra và tích hợp với cơ quan đăng ký báo cáo.
Nó sẽ cung cấp cái gì và cho ai? Người dùng cuối của cơ quan đăng ký sẽ có quyền truy cập vào thông tin về ngày sẵn sàng báo cáo theo kế hoạch và thực tế, kết quả kiểm tra động lực đã hoàn thành và thông tin về các nguồn được tải vào báo cáo.

Đối với chúng tôi, mô-đun chất lượng dữ liệu được tích hợp vào quy trình làm việc của chúng tôi là:

  • Kịp thời hình thành mong đợi của khách hàng.
  • Đưa ra quyết định về việc sử dụng thêm dữ liệu.
  • Thu thập một tập hợp sơ bộ các điểm vấn đề ở giai đoạn đầu của công việc để phát triển các biện pháp kiểm soát chất lượng thường xuyên.

Tất nhiên, đây là những bước đầu tiên trong việc xây dựng quy trình quản lý dữ liệu chính thức. Nhưng chúng tôi tin tưởng rằng chỉ bằng cách thực hiện công việc này một cách có mục đích, tích cực đưa các công cụ Quản trị dữ liệu vào quy trình làm việc, chúng tôi sẽ cung cấp cho khách hàng nội dung thông tin, mức độ tin cậy cao đối với dữ liệu, tính minh bạch trong quá trình tiếp nhận và tăng tốc độ triển khai chức năng mới.

Nhóm DataOffice

Nguồn: www.habr.com

Thêm một lời nhận xét