Andmete kvaliteet laos

Laos olevate andmete kvaliteet on väärtusliku teabe hankimise oluline eeldus. Halb kvaliteet põhjustab pikemas perspektiivis negatiivse ahelreaktsiooni.
Esiteks kaob usaldus pakutava teabe vastu. Inimesed hakkavad ärianalüüsi rakendusi vähem kasutama; rakenduste potentsiaal jääb kasutamata.
Selle tulemusena seatakse kahtluse alla edasised investeeringud analüüsiprojekti.

Vastutus andmete kvaliteedi eest

Andmekvaliteedi parandamisega seotud aspekt on BI-projektide puhul megatähtis. See pole aga ainult tehniliste spetsialistide privileeg.
Andmete kvaliteeti mõjutavad ka sellised aspektid nagu

Ärikultuuri

  • Kas töötajad ise on huvitatud kvaliteetsest tootmisest?
  • Kui ei, siis miks mitte? Võib tekkida huvide konflikt.
  • Võib-olla on ettevõtte reeglid, mis määravad, kes vastutab kvaliteedi eest?

Protsessid

  • Millised andmed luuakse nende ahelate lõpus?
  • Võib-olla on operatsioonisüsteemid konfigureeritud nii, et peate selle või selle olukorra tegelikkuses kajastamiseks "keerama".
  • Kas operatsioonisüsteemid teostavad andmete kontrollimise ja kooskõlastamise ise?

Igaüks organisatsioonis vastutab aruandlussüsteemide andmete kvaliteedi eest.

Definitsioon ja tähendus

Kvaliteet on klientide ootuste tõestatud rahuldamine.

Kuid andmete kvaliteet ei sisalda määratlust. See peegeldab alati kasutuskonteksti. Andmeladu ja BI-süsteem teenivad erinevaid eesmärke kui operatsioonisüsteem, millest andmed pärinevad.

Näiteks operatsioonisüsteemis võib kliendi atribuut olla valikuline väli. Hoidlas saab seda atribuuti kasutada dimensioonina ja selle täitmine on vajalik. Mis omakorda toob kaasa vajaduse täita vaikeväärtusi.

Andmete salvestamise nõuded muutuvad pidevalt ja need on tavaliselt kõrgemad kui operatsioonisüsteemide omad. Kuid see võib olla ka vastupidi, kui pole vaja salvestusruumi salvestada üksikasjalikku teavet operatsioonisüsteemist.

Andmete kvaliteedi mõõdetavaks muutmiseks tuleb kirjeldada selle standardeid. Kirjeldusprotsessi tuleb kaasata inimesed, kes kasutavad oma töös teavet ja arve. Selle kaasamise tulemuseks võib olla reegel, mida järgides saab ühe pilguga tabelisse aru, kas viga on või mitte. See reegel tuleb hilisemaks kinnitamiseks vormindada skriptina/koodina.

Andmekvaliteedi parandamine

Andmete lattu laadimise käigus on võimatu kõiki hüpoteetilisi vigu puhastada ja parandada. Hea andmekvaliteedi saab saavutada ainult kõigi osalejate tihedas koostöös. Inimesed, kes sisestavad andmeid operatsioonisüsteemidesse, peavad õppima, millised toimingud põhjustavad vigu.

Andmete kvaliteet on protsess. Kahjuks pole paljudel organisatsioonidel pideva täiustamise strateegiat. Paljud piirduvad ainult andmete salvestamisega ega kasuta analüütiliste süsteemide täit potentsiaali. Tavaliselt kulub andmeladude arendamisel 70-80% eelarvest andmete integreerimise juurutamiseks. Järelevalve- ja parendusprotsess jääb pooleli, kui üldse.

Töövahendid

Tarkvaratööriistade kasutamine võib aidata automatiseerida andmete kvaliteedi parandamist ja jälgimist. Näiteks saavad nad täielikult automatiseerida salvestusstruktuuride tehnilist kontrolli: väljavorming, vaikeväärtuste olemasolu, vastavus tabeliväljade nimedele.

Sisu kontrollimine võib olla keerulisem. Säilitusnõuete muutudes võib muutuda ka andmete tõlgendus. Tööriistast endast võib saada tohutu projekt, mis vajab tuge.

Vihje

Relatsiooniandmebaasidel, milles kauplused tavaliselt kujundatakse, on märkimisväärne võime vaateid luua. Neid saab kasutada andmete kiireks kontrollimiseks, kui tead sisu spetsiifikat. Iga andmetes vea või probleemi leidmise juhtumi saab registreerida andmebaasipäringu vormis.

Nii moodustub teadmistebaas sisu kohta. Loomulikult peavad sellised taotlused olema kiired. Vaadete hooldamine nõuab tavaliselt vähem inimaega kui tabelipõhised tööriistad. Vaade on alati valmis testi tulemuse kuvamiseks.
Oluliste aruannete puhul võib vaade sisaldada veergu adressaadiga. Mõistlik on kasutada samu BI-tööriistu, et anda aru andmekvaliteedi seisu kohta laos.

Näide

Päring on kirjutatud Oracle'i andmebaasi jaoks. Selles näites tagastavad testid numbrilise väärtuse, mida saab soovikohaselt tõlgendada. Häiretaseme reguleerimiseks saab kasutada väärtusi T_MIN ja T_MAX. Välja ARUANNE kasutati kunagi sõnumina kaubanduslikus ETL-i tootes, mis ei teadnud, kuidas e-kirju õigesti saata, nii et rpad on "kark".

Suure tabeli puhul saab lisada näiteks AND ROWNUM <= 10, st. kui on 10 viga, siis sellest piisab häire tekitamiseks.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Väljaandes on kasutatud raamatu materjale
Ronald Bachmann, dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Allikas: www.habr.com

Lisa kommentaar