Kualiti data di gudang

Kualiti data dalam gudang adalah prasyarat penting untuk mendapatkan maklumat yang berharga. Kualiti yang buruk membawa kepada tindak balas berantai negatif dalam jangka masa panjang.
Pertama, kepercayaan terhadap maklumat yang diberikan hilang. Orang ramai mula kurang menggunakan aplikasi Perisikan Perniagaan; potensi aplikasi kekal tidak dituntut.
Akibatnya, pelaburan lanjut dalam projek analisis dipersoalkan.

Tanggungjawab untuk kualiti data

Aspek yang berkaitan dengan peningkatan kualiti data adalah mega-penting dalam projek BI. Walau bagaimanapun, ia bukan keistimewaan hanya pakar teknikal.
Kualiti data juga dipengaruhi oleh aspek seperti

Budaya korporat

  • Adakah pekerja sendiri berminat untuk menghasilkan kualiti yang baik?
  • Jika tidak, mengapa tidak? Mungkin ada konflik kepentingan.
  • Mungkin ada peraturan korporat yang menentukan siapa yang bertanggungjawab untuk kualiti?

Proses

  • Apakah data yang dicipta pada penghujung rantaian ini?
  • Mungkin sistem pengendalian dikonfigurasikan sedemikian rupa sehingga anda perlu "berputar" untuk mencerminkan situasi ini atau itu dalam realiti.
  • Adakah sistem pengendalian melaksanakan sendiri pengesahan data dan penyelarasan?

Setiap orang dalam organisasi bertanggungjawab terhadap kualiti data dalam sistem pelaporan.

Definisi dan makna

Kualiti adalah kepuasan yang terbukti terhadap jangkaan pelanggan.

Tetapi kualiti data tidak mengandungi definisi. Ia sentiasa mencerminkan konteks penggunaan. Gudang data dan sistem BI berkhidmat untuk tujuan yang berbeza daripada sistem pengendalian dari mana data itu datang.

Sebagai contoh, pada sistem pengendalian, atribut pelanggan mungkin medan pilihan. Dalam repositori, atribut ini boleh digunakan sebagai dimensi dan pengisiannya diperlukan. Yang, seterusnya, memperkenalkan keperluan untuk mengisi nilai lalai.

Keperluan storan data sentiasa berubah dan ia biasanya lebih tinggi daripada keperluan untuk sistem pengendalian. Tetapi ia juga boleh menjadi sebaliknya, apabila tidak perlu menyimpan maklumat terperinci daripada sistem pengendalian dalam storan.

Untuk menjadikan kualiti data boleh diukur, piawaiannya mesti diterangkan. Orang yang menggunakan maklumat dan angka untuk kerja mereka mesti terlibat dalam proses penerangan. Hasil penglibatan ini mungkin merupakan peraturan, mengikut mana seseorang boleh memberitahu sepintas lalu pada jadual sama ada terdapat ralat atau tidak. Peraturan ini mesti diformatkan sebagai skrip/kod untuk pengesahan seterusnya.

Meningkatkan kualiti data

Adalah mustahil untuk membersihkan dan membetulkan semua ralat hipotesis semasa proses memuatkan data ke dalam gudang. Kualiti data yang baik hanya boleh dicapai melalui kerjasama erat antara semua peserta. Orang yang memasukkan data ke dalam sistem pengendalian perlu mengetahui tindakan yang membawa kepada ralat.

Kualiti data adalah satu proses. Malangnya, banyak organisasi tidak mempunyai strategi untuk penambahbaikan berterusan. Ramai mengehadkan diri mereka hanya untuk menyimpan data dan tidak menggunakan potensi penuh sistem analisis. Biasanya, apabila membangunkan gudang data, 70-80% daripada belanjawan dibelanjakan untuk melaksanakan penyepaduan data. Proses pemantauan dan penambahbaikan masih tidak lengkap, jika ada.

Tools

Penggunaan alat perisian boleh membantu dalam proses mengautomasikan peningkatan dan pemantauan kualiti data. Sebagai contoh, mereka boleh mengautomasikan sepenuhnya pengesahan teknikal struktur storan: format medan, kehadiran nilai lalai, pematuhan dengan nama medan jadual.

Mungkin lebih sukar untuk menyemak kandungannya. Apabila keperluan storan berubah, tafsiran data juga mungkin berubah. Alat itu sendiri boleh menjadi projek besar yang memerlukan sokongan.

Petua

Pangkalan data perhubungan, di mana kedai biasanya direka bentuk, mempunyai keupayaan yang luar biasa untuk mencipta paparan. Ia boleh digunakan untuk menyemak data dengan cepat jika anda mengetahui butiran kandungan tersebut. Setiap kes mencari ralat atau masalah dalam data boleh direkodkan dalam bentuk pertanyaan pangkalan data.

Dengan cara ini, pangkalan pengetahuan tentang kandungan akan terbentuk. Sudah tentu, permintaan sedemikian mesti pantas. Paparan biasanya memerlukan lebih sedikit masa manusia untuk menyelenggara berbanding alatan berasaskan jadual. Pandangan sentiasa bersedia untuk memaparkan keputusan ujian.
Dalam kes laporan penting, paparan mungkin mengandungi lajur dengan penerima. Adalah wajar untuk menggunakan alat BI yang sama untuk melaporkan keadaan kualiti data dalam gudang.

Contoh

Pertanyaan telah ditulis untuk pangkalan data Oracle. Dalam contoh ini, ujian mengembalikan nilai angka yang boleh ditafsirkan seperti yang dikehendaki. Nilai T_MIN dan T_MAX ​​boleh digunakan untuk melaraskan tahap penggera. Medan REPORT pernah digunakan sebagai mesej dalam produk ETL komersial yang tidak tahu cara menghantar e-mel dengan betul, jadi rpad ialah "tongkat".

Dalam kes jadual besar, anda boleh menambah, sebagai contoh, DAN ROWNUM <= 10, i.e. jika terdapat 10 ralat, maka ini sudah cukup untuk menyebabkan penggera.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Penerbitan menggunakan bahan daripada buku
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Sumber: www.habr.com

Tambah komen