Kualitas data ing gudang

Kualitas data ing gudang minangka prasyarat penting kanggo entuk informasi sing penting. Kualitas sing ora apik nyebabake reaksi rantai negatif ing jangka panjang.
Kaping pisanan, kepercayaan marang informasi sing diwenehake bakal ilang. Wong wiwit nggunakake aplikasi Business Intelligence kurang; potensial aplikasi tetep ora dituntut.
Akibaté, investasi luwih lanjut ing proyek analitis diarani pitakonan.

Tanggung jawab kanggo kualitas data

Aspek sing gegandhengan karo ningkatake kualitas data iku mega-penting ing proyek BI. Nanging, iki ora mung hak istimewa saka spesialis teknis.
Kualitas data uga dipengaruhi dening aspek kayata

Budaya perusahaan

  • Apa buruh dhewe kasengsem ngasilake kualitas apik?
  • Yen ora, kenapa ora? Bisa uga ana konflik kepentingan.
  • Mungkin ana aturan perusahaan sing nemtokake sapa sing tanggung jawab kanggo kualitas?

Pangolahan

  • Data apa sing digawe ing pungkasan rantai kasebut?
  • Mbok menawa sistem operasi dikonfigurasi kanthi cara sing kudu "corak" kanggo nggambarake kahanan iki utawa kasebut ing kasunyatan.
  • Apa sistem operasi nindakake verifikasi data lan rekonsiliasi dhewe?

Saben uwong ing organisasi tanggung jawab kanggo kualitas data ing sistem laporan.

Definisi lan makna

Kualitas minangka kepuasan sing kabukten saka pangarepan pelanggan.

Nanging kualitas data ora ngemot definisi. Iku tansah nggambarake konteks panggunaan. Gudang data lan sistem BI nduweni tujuan sing beda karo sistem operasi sing asale saka data kasebut.

Contone, ing sistem operasi, atribut pelanggan bisa dadi lapangan opsional. Ing repositori, atribut iki bisa digunakake minangka ukuran lan ngisi dibutuhake. Kang, ing siji, ngenalaken perlu kanggo ngisi nilai standar.

Syarat panyimpenan data saya ganti lan biasane luwih dhuwur tinimbang sistem operasi. Nanging uga bisa dadi cara liyane, nalika ora perlu kanggo nyimpen informasi rinci saka sistem operasi ing panyimpenan.

Kanggo nggawe kualitas data bisa diukur, standar kasebut kudu diterangake. Wong sing nggunakake informasi lan tokoh kanggo karyane kudu melu proses deskripsi. Asil saka keterlibatan iki bisa dadi aturan, ing ngisor iki kang siji bisa ngomong ing Mirit ing meja apa ana kesalahan utawa ora. Aturan iki kudu diformat minangka skrip/kode kanggo verifikasi sabanjure.

Ngapikake kualitas data

Ora mungkin kanggo ngresiki lan mbenerake kabeh kesalahan hipotetis sajrone proses loading data menyang gudang. Kualitas data sing apik mung bisa digayuh liwat kolaborasi sing cedhak antarane kabeh peserta. Wong sing nglebokake data menyang sistem operasi kudu sinau tumindak apa sing nyebabake kesalahan.

Kualitas data minangka proses. Sayange, akeh organisasi ora duwe strategi kanggo perbaikan terus-terusan. Akeh sing mbatesi mung nyimpen data lan ora nggunakake potensial lengkap sistem analitis. Biasane, nalika ngembangake gudang data, 70-80% saka anggaran digunakake kanggo ngetrapake integrasi data. Proses ngawasi lan perbaikan tetep ora lengkap, yen kabeh.

Piranti

Panggunaan piranti lunak bisa mbantu proses ngotomatisasi lan ngawasi kualitas data. Contone, dheweke bisa ngotomatisasi verifikasi teknis struktur panyimpenan: format lapangan, anane nilai standar, selaras karo jeneng lapangan tabel.

Bisa uga luwih angel kanggo mriksa isi kasebut. Nalika syarat panyimpenan diganti, interpretasi data uga bisa diganti. Alat kasebut bisa dadi proyek gedhe sing mbutuhake dhukungan.

Tip

Basis data relasional, ing ngendi toko biasane dirancang, nduweni kemampuan sing luar biasa kanggo nggawe tampilan. Bisa digunakake kanggo mriksa data kanthi cepet yen sampeyan ngerti spesifik isi kasebut. Saben kasus nemokake kesalahan utawa masalah ing data bisa direkam ing wangun query database.

Kanthi cara iki, basis kawruh babagan isi bakal dibentuk. Mesthine, panjaluk kasebut kudu cepet. Tampilan biasane mbutuhake wektu manungsa luwih sithik kanggo njaga tinimbang alat adhedhasar tabel. Tampilan tansah siap kanggo nampilake asil test.
Ing kasus laporan penting, tampilan bisa ngemot kolom karo panampa. Iku ndadekake pangertèn kanggo nggunakake piranti BI sing padha kanggo nglaporake kahanan kualitas data ing gudang.

Conto:

Pitakonan kasebut ditulis kanggo database Oracle. Ing conto iki, tes ngasilake nilai numerik sing bisa diinterpretasikake kaya sing dikarepake. Nilai T_MIN lan T_MAX bisa digunakake kanggo nyetel tingkat weker. Kolom REPORT biyen digunakake minangka pesen ing produk ETL komersial sing ora ngerti carane ngirim email kanthi bener, mula rpad minangka "kruk".

Ing kasus tabel gedhe, sampeyan bisa nambah, contone, lan ROWNUM <= 10, i.e. yen ana 10 kasalahan, banjur iki cukup kanggo nimbulaké weker.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Publikasi nggunakake bahan saka buku
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Source: www.habr.com

Add a comment