Kualitas data dina gudang

Kualitas data dina gudang mangrupa prasarat penting pikeun meunangkeun informasi berharga. Kualitas goréng ngabalukarkeun réaksi ranté négatip dina jangka panjang.
Kahiji, kapercayaan dina informasi disadiakeun leungit. Jalma-jalma mimiti ngagunakeun aplikasi Business Intelligence kirang; poténsi aplikasi tetep teu diklaim.
Hasilna, investasi salajengna dina proyék analitik disebut patarosan.

Tanggung jawab pikeun kualitas data

Aspék nu patali jeung ngaronjatkeun kualitas data téh mega-penting dina proyék BI. Nanging, éta sanés hak husus pikeun spesialis téknis wungkul.
Kualitas data ogé dipangaruhan ku aspék sapertos

Budaya perusahaan

  • Naha pagawe sorangan kabetot dina ngahasilkeun kualitas alus?
  • Lamun henteu, naha henteu? Bisa jadi aya konflik kapentingan.
  • Meureun aya aturan perusahaan nu nangtukeun saha jawab kualitas?

Proses dina prosés

  • Data naon anu diciptakeun dina tungtung ranté ieu?
  • Panginten sistem operasi dikonpigurasi ku cara anu anjeun kedah "pulas" pikeun ngagambarkeun kaayaan ieu atanapi éta dina kanyataan.
  • Naha sistem operasi ngalakukeun verifikasi data sareng rekonsiliasi sorangan?

Sarerea dina organisasi tanggung jawab kualitas data dina sistem ngalaporkeun.

Harti jeung harti

Kualitas mangrupikeun kapuasan anu kabuktian tina ekspektasi pelanggan.

Tapi kualitas data henteu ngandung harti. Éta salawasna ngagambarkeun konteks pamakean. Gudang data sareng sistem BI ngagaduhan tujuan anu béda ti sistem operasi dimana data asalna.

Contona, dina sistem operasi, atribut customer bisa jadi hiji widang pilihan. Dina gudang, atribut ieu bisa dipaké salaku diménsi sarta keusikan na diperlukeun. Anu, kahareupna ngenalkeun kabutuhan pikeun ngeusian nilai standar.

Syarat panyimpen data terus robih sareng biasana langkung luhur tibatan sistem operasi. Tapi ogé bisa jadi sabalikna, lamun teu kudu nyimpen inpo wincik tina sistem operasi di gudang.

Pikeun ngajantenkeun kualitas data tiasa diukur, standarna kedah dijelaskeun. Jalma anu ngagunakeun informasi sarta inohong pikeun karya maranéhanana kudu kalibet dina prosés déskripsi. Hasil tina involvement ieu bisa jadi aturan, di handap nu hiji bisa ngabejaan di glance dina tabel naha aya kasalahan atawa henteu. Aturan ieu kedah diformat salaku naskah/kode pikeun verifikasi salajengna.

Ningkatkeun kualitas data

Teu mungkin pikeun ngabersihan sareng ngabenerkeun sadaya kasalahan hipotésis nalika prosés ngamuat data kana gudang. Kualitas data anu saé ngan ukur tiasa dihontal ku kolaborasi anu caket antara sadaya pamilon. Jalma anu ngasupkeun data kana sistem operasi kudu diajar naon lampah ngakibatkeun kasalahan.

Kualitas data mangrupikeun prosés. Hanjakal, loba organisasi teu boga strategi pikeun perbaikan kontinyu. Seueur anu ngabatesan diri ngan ukur nyimpen data sareng henteu nganggo poténsi pinuh ku sistem analitik. Ilaharna, nalika ngembangkeun gudang data, 70-80% tina anggaran dibalanjakeun pikeun ngalaksanakeun integrasi data. Proses ngawaskeun sareng perbaikan tetep teu lengkep, upami sadayana.

instrumen

Pamakéan alat parangkat lunak tiasa ngabantosan dina prosés ngajadikeun otomatis perbaikan kualitas data sareng ngawaskeun. Salaku conto, aranjeunna tiasa ngajadikeun otomatis verifikasi téknis struktur panyimpen: format médan, ayana nilai standar, patuh kana nami médan méja.

Bisa jadi leuwih hese mariksa eusi. Nalika syarat panyimpen robih, interpretasi data ogé tiasa robih. Alatna sorangan tiasa janten proyék ageung anu peryogi dukungan.

dewan

Basis data relasional, dimana toko biasana dirancang, gaduh kamampuan anu luar biasa pikeun nyiptakeun pandangan. Éta tiasa dianggo pikeun pariksa data gancang upami anjeun terang spésifik eusi. Unggal kasus manggihan kasalahan atawa masalah dina data bisa dirékam dina bentuk query database.

Ku cara kieu, dasar pangaweruh ngeunaan eusi bakal kabentuk. Tangtosna, pamundut sapertos kitu kedah gancang. Pintonan ilaharna merlukeun kirang waktos manusa pikeun ngajaga ti parabot basis méja. Panempoan sok siap nampilkeun hasil tés.
Dina kasus laporan penting, pintonan bisa ngandung hiji kolom kalawan panarima. Masuk akal ngagunakeun alat BI anu sami pikeun ngalaporkeun kaayaan kualitas data di gudang.

conto

Patarosan ieu ditulis pikeun database Oracle. Dina conto ieu, tés balik nilai numerik nu bisa diinterpretasi sakumaha dipikahoyongna. Nilai T_MIN sareng T_MAX tiasa dianggo pikeun nyaluyukeun tingkat alarm. Widang REPORT kungsi dipaké salaku pesen dina produk ETL komérsial anu teu nyaho kumaha carana ngirim surelek bener, jadi rpad mangrupakeun "kruk".

Dina kasus tabel badag, Anjeun bisa nambah, contona, AND ROWNUM <= 10, i.e. Upami aya 10 kasalahan, maka ieu cekap pikeun nyababkeun alarem.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Publikasi ngagunakeun bahan tina buku
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


sumber: www.habr.com

Tambahkeun komentar