Tata Kelola Data internal

Hei Habr!

Data adalah aset perusahaan yang paling berharga. Hampir setiap perusahaan dengan fokus digital menyatakan hal ini. Sulit untuk membantah hal ini: tidak ada satu pun konferensi TI besar yang diadakan tanpa membahas pendekatan dalam mengelola, menyimpan, dan memproses data.

Data datang kepada kita dari luar, juga dihasilkan di dalam perusahaan, dan jika kita berbicara tentang data dari perusahaan telekomunikasi, maka bagi karyawan internal ini adalah gudang informasi tentang klien, minat, kebiasaan, dan lokasinya. Dengan pembuatan profil dan segmentasi yang tepat, penawaran iklan menjadi paling efektif. Namun, dalam praktiknya, tidak semuanya berjalan baik. Data yang disimpan perusahaan mungkin sudah ketinggalan zaman, mubazir, berulang, atau keberadaannya tidak diketahui oleh siapa pun kecuali kalangan pengguna yang sempit. ¯_(ツ)_/¯

Tata Kelola Data internal
Singkatnya, data harus dikelola secara efektif - hanya dengan demikian data akan menjadi aset yang memberikan manfaat dan keuntungan nyata bagi bisnis. Sayangnya, penyelesaian masalah pengelolaan data memerlukan penyelesaian banyak kerumitan. Hal ini terutama disebabkan oleh warisan sejarah dalam bentuk “kebun binatang” sistem dan kurangnya proses dan pendekatan terpadu dalam pengelolaannya. Namun apa yang dimaksud dengan “data-driven”?

Inilah tepatnya yang akan kita bicarakan, serta bagaimana tumpukan sumber terbuka membantu kami.

Konsep pengelolaan data strategis Tata Kelola Data (DG) sudah cukup terkenal di pasar Rusia, dan tujuan yang dicapai oleh bisnis sebagai hasil penerapannya dinyatakan dengan jelas dan jelas. Perusahaan kami tidak terkecuali dan menetapkan tugas untuk memperkenalkan konsep manajemen data.

Jadi dari mana kita memulainya? Untuk memulainya, kami menetapkan tujuan utama untuk diri kami sendiri:

  1. Pastikan data kami dapat diakses.
  2. Pastikan transparansi siklus hidup data.
  3. Memberikan data yang konsisten dan konsisten kepada pengguna perusahaan.
  4. Memberikan data terverifikasi kepada pengguna perusahaan.

Saat ini, ada selusin alat kelas Tata Kelola Data di pasar perangkat lunak.

Tata Kelola Data internal

Namun setelah melakukan analisis mendetail dan mempelajari solusinya, kami mencatat sejumlah komentar kritis untuk diri kami sendiri:

  • Sebagian besar produsen menawarkan serangkaian solusi komprehensif, yang bagi kami berlebihan dan menduplikasi fungsi yang sudah ada. Ditambah lagi, sumber daya yang mahal, integrasi ke dalam lanskap TI saat ini.
  • Fungsionalitas dan antarmuka dirancang untuk para ahli teknologi, bukan pengguna akhir bisnis.
  • Tingkat kelangsungan hidup produk yang rendah dan kurangnya keberhasilan implementasi di pasar Rusia.
  • Tingginya biaya perangkat lunak dan dukungan lebih lanjut.

Kriteria dan rekomendasi yang disebutkan di atas mengenai substitusi impor perangkat lunak untuk perusahaan Rusia meyakinkan kami untuk bergerak menuju pengembangan kami sendiri pada tumpukan sumber terbuka. Platform yang kami pilih adalah Django, kerangka kerja sumber terbuka dan gratis yang ditulis dengan Python. Oleh karena itu, kami telah mengidentifikasi modul-modul utama yang akan berkontribusi terhadap tujuan yang disebutkan di atas:

  1. Daftar laporan.
  2. Glosarium bisnis.
  3. Modul untuk menjelaskan transformasi teknis.
  4. Modul untuk menjelaskan siklus hidup data dari sumber ke alat BI.
  5. Modul kontrol kualitas data.

Tata Kelola Data internal

Daftar laporan

Menurut hasil studi internal di perusahaan besar, ketika memecahkan masalah terkait data, karyawan menghabiskan 40-80% waktunya untuk mencarinya. Oleh karena itu, kami menetapkan tugas untuk membuat informasi terbuka tentang laporan yang ada yang sebelumnya hanya tersedia untuk pelanggan. Oleh karena itu, kami mengurangi waktu untuk menghasilkan laporan baru dan memastikan demokratisasi data.

Tata Kelola Data internal

Register pelaporan telah menjadi jendela pelaporan tunggal bagi pengguna internal dari berbagai wilayah, departemen, dan divisi. Ini menggabungkan informasi tentang layanan informasi yang dibuat di beberapa repositori perusahaan perusahaan, dan ada banyak di antaranya di Rostelecom.

Namun registri bukan hanya daftar kering laporan yang dikembangkan. Untuk setiap laporan, kami memberikan informasi yang diperlukan pengguna untuk memahaminya:

  • uraian singkat laporan;
  • kedalaman ketersediaan data;
  • segmen pelanggan;
  • alat visualisasi;
  • nama tempat penyimpanan perusahaan;
  • persyaratan fungsional bisnis;
  • tautan ke laporan;
  • tautan ke aplikasi untuk akses;
  • status implementasi.

Analisis tingkat penggunaan tersedia untuk laporan, dan laporan diberi peringkat di bagian atas daftar berdasarkan analisis log berdasarkan jumlah pengguna unik. Dan bukan itu saja. Selain ciri-ciri umum, kami juga telah memberikan penjelasan rinci tentang komposisi atribut laporan beserta contoh nilai dan metode perhitungannya. Perincian tersebut segera memberikan jawaban kepada pengguna apakah laporan tersebut berguna baginya atau tidak.

Pengembangan modul ini merupakan langkah penting dalam demokratisasi data dan secara signifikan mengurangi waktu yang diperlukan untuk menemukan informasi yang diperlukan. Selain mengurangi waktu pencarian, jumlah permintaan ke tim support untuk memberikan konsultasi juga berkurang. Mustahil untuk tidak mencatat hasil bermanfaat lainnya yang kami capai dengan mengembangkan daftar laporan terpadu - mencegah pengembangan duplikat laporan untuk unit struktural yang berbeda.

Glosarium bisnis

Anda semua tahu bahwa bahkan dalam perusahaan yang sama, bisnis berbicara dalam bahasa yang berbeda. Ya, mereka menggunakan istilah yang sama, tetapi artinya sangat berbeda. Glosarium bisnis dirancang untuk memecahkan masalah ini.

Bagi kami, glosarium bisnis bukan sekadar buku referensi yang menjelaskan istilah dan metodologi perhitungan. Ini adalah lingkungan yang lengkap untuk mengembangkan, mengoordinasikan dan menyetujui terminologi, membangun hubungan antara istilah dan aset informasi perusahaan lainnya. Sebelum masuk ke glosarium bisnis, suatu istilah harus melalui seluruh tahapan persetujuan dengan pelanggan bisnis dan pusat kualitas data. Hanya setelah ini baru tersedia untuk digunakan.

Seperti yang saya tulis di atas, keunikan alat ini adalah memungkinkan koneksi dari tingkat istilah bisnis ke laporan pengguna tertentu yang menggunakannya, serta ke tingkat objek database fisik.

Tata Kelola Data internal

Hal ini dimungkinkan melalui penggunaan pengidentifikasi istilah glosarium dalam penjelasan rinci laporan registri dan deskripsi objek database fisik.

Saat ini, lebih dari 4000 istilah telah didefinisikan dan disepakati dalam Glosarium. Penggunaannya menyederhanakan dan mempercepat pemrosesan permintaan perubahan yang masuk pada sistem informasi perusahaan. Jika indikator yang diperlukan sudah diterapkan dalam laporan apa pun, maka pengguna akan segera melihat kumpulan laporan siap pakai di mana indikator ini digunakan, dan akan dapat memutuskan penggunaan kembali fungsi yang ada secara efektif atau modifikasi minimalnya, tanpa memulai. permintaan baru untuk pengembangan laporan baru.

Modul untuk menjelaskan transformasi teknis dan DataLineage

Apa saja modul-modul ini, Anda bertanya? Tidak cukup hanya mengimplementasikan Daftar Laporan dan Glosarium; semua istilah bisnis harus didasarkan pada model database fisik. Dengan demikian, kami dapat menyelesaikan proses pembentukan siklus hidup data dari sistem sumber hingga visualisasi BI melalui seluruh lapisan gudang data. Dengan kata lain, bangun DataLineage.

Kami mengembangkan antarmuka berdasarkan format yang digunakan sebelumnya di perusahaan untuk menjelaskan aturan dan logika transformasi data. Informasi yang sama dimasukkan melalui antarmuka seperti sebelumnya, namun definisi istilah pengidentifikasi dari glosarium bisnis telah menjadi prasyarat. Inilah cara kami membangun hubungan antara lapisan bisnis dan fisik.

Siapa yang membutuhkannya? Apa yang salah dengan format lama yang Anda gunakan selama beberapa tahun? Berapa kenaikan biaya tenaga kerja untuk menghasilkan kebutuhan? Kami harus menghadapi pertanyaan seperti itu selama penerapan alat ini. Jawabannya cukup sederhana - kita semua memerlukannya, baik kantor data perusahaan maupun pengguna kita.

Memang benar bahwa karyawan harus beradaptasi; pada awalnya, hal ini menyebabkan sedikit peningkatan dalam biaya tenaga kerja untuk menyiapkan dokumentasi, tetapi kami telah menyelesaikan masalah ini. Berlatih, mengidentifikasi, dan mengoptimalkan area masalah telah berhasil. Kami telah mencapai hal utama - kami telah meningkatkan kualitas persyaratan yang dikembangkan. Bidang wajib, buku referensi terpadu, masker masukan, pemeriksaan bawaan - semua ini memungkinkan peningkatan kualitas deskripsi transformasi secara signifikan. Kami beralih dari praktik penyerahan skrip sebagai persyaratan pengembangan dan berbagi pengetahuan yang hanya tersedia untuk tim pengembangan. Basis data metadata yang dihasilkan secara signifikan mengurangi waktu yang diperlukan untuk melakukan analisis regresi dan memberikan kemampuan untuk menilai dengan cepat dampak perubahan pada setiap lapisan lanskap TI (laporan etalase, agregat, sumber).

Apa hubungannya dengan pengguna laporan biasa, apa keuntungannya bagi mereka? Berkat kemampuan membangun DataLineage, pengguna kami, bahkan mereka yang jauh dari SQL dan bahasa pemrograman lainnya, dengan cepat menerima informasi tentang sumber dan objek yang menjadi dasar pembuatan laporan tertentu.

Modul Kontrol Kualitas Data

Semua yang kami bicarakan di atas dalam hal memastikan transparansi data tidak penting tanpa pemahaman bahwa data yang kami berikan kepada pengguna adalah benar. Salah satu modul penting dari konsep Tata Kelola Data kami adalah modul pengendalian kualitas data.

Pada tahap saat ini, ini adalah katalog cek untuk entitas yang dipilih. Tujuan langsung pengembangan produk adalah memperluas daftar pemeriksaan dan mengintegrasikan dengan daftar pelaporan.
Apa yang akan diberikannya dan kepada siapa? Pengguna akhir registri akan memiliki akses ke informasi tentang tanggal kesiapan laporan yang direncanakan dan aktual, hasil pemeriksaan lengkap dengan dinamika, dan informasi tentang sumber yang dimuat ke dalam laporan.

Bagi kami, modul kualitas data yang terintegrasi ke dalam proses kerja kami adalah:

  • Pembentukan harapan pelanggan yang cepat.
  • Membuat keputusan tentang penggunaan data lebih lanjut.
  • Memperoleh serangkaian poin masalah awal pada tahap awal pekerjaan untuk pengembangan pengendalian kualitas reguler.

Tentu saja, ini adalah langkah pertama dalam membangun proses pengelolaan data yang lengkap. Namun kami yakin bahwa hanya dengan melakukan pekerjaan ini secara sengaja, secara aktif memperkenalkan alat Tata Kelola Data ke dalam proses kerja, kami akan memberikan konten informasi kepada klien kami, tingkat kepercayaan yang tinggi terhadap data, transparansi dalam penerimaannya, dan meningkatkan kecepatan peluncuran. fungsionalitas baru.

Tim Kantor Data

Sumber: www.habr.com

Tambah komentar