Kualitas data di gudang

Kualitas data di gudang merupakan prasyarat penting untuk memperoleh informasi berharga. Kualitas yang buruk menyebabkan reaksi berantai negatif dalam jangka panjang.
Pertama, kepercayaan terhadap informasi yang diberikan hilang. Masyarakat mulai mengurangi penggunaan aplikasi Business Intelligence; potensi aplikasi masih belum dimanfaatkan.
Akibatnya, investasi lebih lanjut dalam proyek analitis dipertanyakan.

Tanggung jawab atas kualitas data

Aspek yang terkait dengan peningkatan kualitas data sangat penting dalam proyek BI. Namun, ini bukan hak istimewa yang hanya dimiliki oleh spesialis teknis.
Kualitas data juga dipengaruhi oleh aspek-aspek seperti

Budaya perusahaan

  • Apakah para pekerja itu sendiri tertarik untuk menghasilkan kualitas yang baik?
  • Jika tidak, mengapa tidak? Mungkin ada konflik kepentingan.
  • Mungkinkah ada peraturan perusahaan yang menentukan siapa yang bertanggung jawab terhadap kualitas?

ΠŸΡ€ΠΎΡ†Π΅ΡΡΡ‹

  • Data apa yang dibuat pada akhir rantai ini?
  • Mungkin sistem operasi dikonfigurasi sedemikian rupa sehingga Anda perlu "memutar" untuk mencerminkan situasi ini atau itu dalam kenyataan.
  • Apakah sistem operasi melakukan verifikasi dan rekonsiliasi data sendiri?

Setiap orang di organisasi bertanggung jawab atas kualitas data dalam sistem pelaporan.

Definisi dan makna

Kualitas adalah kepuasan harapan pelanggan yang terbukti.

Namun kualitas data tidak mengandung definisi. Itu selalu mencerminkan konteks penggunaan. Gudang data dan sistem BI memiliki tujuan yang berbeda dengan sistem operasi tempat data berasal.

Misalnya, pada sistem operasi, atribut pelanggan mungkin merupakan bidang opsional. Di repositori, atribut ini dapat digunakan sebagai dimensi dan diperlukan pengisiannya. Yang, pada gilirannya, menimbulkan kebutuhan untuk mengisi nilai default.

Persyaratan penyimpanan data terus berubah dan biasanya lebih tinggi dibandingkan sistem operasi. Namun bisa juga sebaliknya, ketika tidak perlu menyimpan informasi detail dari sistem operasi di penyimpanan.

Agar kualitas data dapat diukur, standarnya harus dijelaskan. Orang yang menggunakan informasi dan angka untuk pekerjaannya harus dilibatkan dalam proses deskripsi. Hasil dari keterlibatan ini bisa berupa sebuah aturan, berikut ini seseorang dapat mengetahui secara sekilas apakah ada kesalahan atau tidak di meja. Aturan ini harus diformat sebagai skrip/kode untuk verifikasi selanjutnya.

Meningkatkan kualitas data

Tidak mungkin untuk membersihkan dan memperbaiki semua kesalahan hipotetis selama proses memuat data ke dalam gudang. Kualitas data yang baik hanya dapat dicapai melalui kolaborasi yang erat antara seluruh peserta. Orang yang memasukkan data ke dalam sistem operasi perlu mempelajari tindakan apa yang menyebabkan kesalahan.

Kualitas data adalah sebuah proses. Sayangnya, banyak organisasi tidak mempunyai strategi untuk perbaikan berkelanjutan. Banyak yang membatasi diri hanya pada penyimpanan data dan tidak menggunakan potensi penuh dari sistem analitik. Biasanya, ketika mengembangkan gudang data, 70-80% anggaran dihabiskan untuk implementasi integrasi data. Proses pemantauan dan perbaikan masih belum lengkap.

Alat

Penggunaan perangkat lunak dapat membantu dalam proses otomatisasi peningkatan dan pemantauan kualitas data. Misalnya, mereka dapat sepenuhnya mengotomatiskan verifikasi teknis struktur penyimpanan: format bidang, keberadaan nilai default, kesesuaian dengan nama bidang tabel.

Mungkin lebih sulit untuk memeriksa isinya. Ketika persyaratan penyimpanan berubah, interpretasi data juga dapat berubah. Alat itu sendiri bisa menjadi proyek besar yang memerlukan dukungan.

Tip

Basis data relasional, tempat penyimpanan biasanya dirancang, memiliki kemampuan luar biasa untuk membuat tampilan. Mereka dapat digunakan untuk memeriksa data dengan cepat jika Anda mengetahui konten spesifiknya. Setiap kasus ditemukannya kesalahan atau masalah pada data dapat dicatat dalam bentuk query database.

Dengan cara ini akan terbentuk basis pengetahuan tentang konten. Tentu saja permintaan seperti itu harus cepat. Tampilan biasanya memerlukan lebih sedikit waktu pemeliharaan dibandingkan alat berbasis tabel. Tampilan selalu siap menampilkan hasil pengujian.
Dalam kasus laporan penting, tampilan mungkin berisi kolom dengan penerima. Masuk akal untuk menggunakan alat BI yang sama untuk melaporkan kondisi kualitas data di gudang.

Contoh

Kueri ini ditulis untuk database Oracle. Dalam contoh ini, pengujian mengembalikan nilai numerik yang dapat diinterpretasikan sesuai keinginan. Nilai T_MIN dan T_MAX dapat digunakan untuk mengatur level alarm. Bidang REPORT pernah digunakan sebagai pesan dalam produk ETL komersial yang tidak tahu cara mengirim email dengan benar, jadi rpad adalah β€œpenopang”.

Dalam kasus tabel besar, Anda dapat menambahkan, misalnya, AND ROWNUM <= 10, yaitu. jika ada 10 kesalahan, maka ini cukup menimbulkan alarm.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Publikasinya menggunakan bahan-bahan dari buku
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Sumber: www.habr.com

Tambah komentar