Kvalito de datumoj en la magazeno

La kvalito de la datumoj en la magazeno estas grava antaŭkondiĉo por akiri valorajn informojn. Malbona kvalito kondukas al negativa ĉenreago longtempe.
Unue, fido je la donitaj informoj perdiĝas. Homoj komencas uzi aplikaĵojn de Komerca Inteligenteco malpli; la potencialo de aplikoj restas nepostulita.
Kiel rezulto, plia investo en la analiza projekto estas pridubita.

Respondeco por kvalito de datumoj

La aspekto rilata al plibonigo de datumkvalito estas tre grava en BI-projektoj. Tamen, ĝi ne estas la privilegio de nur teknikaj specialistoj.
Datumkvalito ankaŭ estas influita de tiaj aspektoj kiel

Korporacia kulturo

  • Ĉu la laboristoj mem interesas produkti bonkvalitan?
  • Se ne, kial ne? Povas esti konflikto de intereso.
  • Eble ekzistas kompaniaj reguloj, kiuj determinas, kiu respondecas pri kvalito?

Procezoj

  • Kiuj datumoj estas kreitaj ĉe la fino de ĉi tiuj ĉenoj?
  • Eble la operaciumoj estas agorditaj tiel, ke vi devas "tordi" por reflekti tiun aŭ alian situacion en la realo.
  • Ĉu operaciumoj mem efektivigas datuman konfirmon kaj repaciĝon?

Ĉiuj en la organizo respondecas pri la kvalito de datumoj en raportsistemoj.

Difino kaj signifo

Kvalito estas la pruvita kontento de atendoj de kliento.

Sed datumkvalito ne enhavas difinon. Ĝi ĉiam reflektas la kuntekston de uzo. La datumstokejo kaj BI-sistemo servas malsamajn celojn ol la operaciumo de kiu la datumoj venas.

Ekzemple, en operaciumo, la klienta atributo povas esti laŭvola kampo. En la deponejo, ĉi tiu atributo povas esti uzata kiel dimensio kaj ĝia plenigo estas postulata. Kiu, siavice, enkondukas la bezonon plenigi defaŭltajn valorojn.

Postuloj pri konservado de datumoj konstante ŝanĝiĝas kaj ili estas kutime pli altaj ol tiuj por operaciumoj. Sed ankaŭ povas esti inverse, kiam ne necesas konservi detalajn informojn de la operaciumo en la stokado.

Por igi datumkvaliton mezurebla, ĝiaj normoj devas esti priskribitaj. Homoj, kiuj uzas informojn kaj ciferojn por sia laboro, devas esti implikitaj en la priskriba procezo. La rezulto de ĉi tiu engaĝiĝo povas esti regulo, sekvante kiun oni povas ekrigardi ĉe la tablo ĉu estas eraro aŭ ne. Ĉi tiu regulo devas esti formatita kiel skripto/kodo por posta konfirmo.

Plibonigi la kvaliton de datumoj

Estas neeble purigi kaj korekti ĉiujn hipotezajn erarojn dum la procezo de ŝarĝo de datumoj en la magazenon. Bona datumkvalito povas esti atingita nur per proksima kunlaboro inter ĉiuj partoprenantoj. Homoj, kiuj enigas datumojn en operaciumojn, devas lerni, kiaj agoj kondukas al eraroj.

Datuma kvalito estas procezo. Bedaŭrinde, multaj organizoj ne havas strategion por kontinua plibonigo. Multaj limigas sin nur al stokado de datumoj kaj ne uzas la plenan potencialon de analizaj sistemoj. Tipe, dum disvolvado de datumstokejoj, 70-80% de la buĝeto estas elspezitaj por efektivigado de datumintegriĝo. La procezo de monitorado kaj plibonigo restas nekompleta, se entute.

Iloj

La uzo de programaraj iloj povas helpi en la procezo de aŭtomatigo de datuma kvalitplibonigo kaj monitorado. Ekzemple, ili povas plene aŭtomatigi la teknikan kontrolon de stokaj strukturoj: kampformato, ĉeesto de defaŭltaj valoroj, konformeco al tabelkampaj nomoj.

Eble estas pli malfacile kontroli la enhavon. Ĉar konservadpostuloj ŝanĝiĝas, la interpreto de la datenoj ankaŭ povas ŝanĝiĝi. La ilo mem povas fariĝi grandega projekto, kiu postulas subtenon.

Konsilo

Relaciaj datumbazoj, en kiuj butikoj estas tipe dizajnitaj, havas la rimarkindan kapablon krei vidojn. Ili povas esti uzataj por rapide kontroli datumojn se vi konas la specifaĵojn de la enhavo. Ĉiu kazo de trovado de eraro aŭ problemo en la datumoj povas esti registrita en la formo de datumbaza demando.

Tiamaniere formiĝos sciobazo pri la enhavo. Kompreneble tiaj petoj devas esti rapidaj. Vidoj kutime postulas malpli da homa tempo por konservi ol tabel-bazitaj iloj. La vido estas ĉiam preta por montri la rezulton de la testo.
En la kazo de gravaj raportoj, la vido povas enhavi kolumnon kun la ricevanto. Estas senco uzi la samajn BI-iloj por raporti pri la stato de datumkvalito en la magazeno.

Ekzemplo:

La demando estis skribita por la Oracle-datumbazo. En ĉi tiu ekzemplo, la testoj resendas nombran valoron, kiu povas esti interpretita laŭdezire. La valoroj T_MIN kaj T_MAX povas esti uzataj por ĝustigi la alarmnivelon. La kampo RAPORTO iam estis uzata kiel mesaĝo en komerca ETL-produkto, kiu ne sciis kiel ĝuste sendi retpoŝtojn, do rpad estas "lambastono".

En la kazo de granda tabelo, vi povas aldoni, ekzemple, KAJ VICNUM <= 10, t.e. se estas 10 eraroj, tiam ĉi tio sufiĉas por kaŭzi alarmon.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

La eldonaĵo uzas materialojn el la libro
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


fonto: www.habr.com

Aldoni komenton