Gegevenskwaliteit yn it pakhús

De kwaliteit fan de gegevens yn it pakhús is in wichtige betingst foar it krijen fan weardefolle ynformaasje. Slechte kwaliteit liedt op 'e lange termyn ta in negative kettingreaksje.
Earst is it fertrouwen yn 'e levere ynformaasje ferlern. Minsken begjinne Business Intelligence-applikaasjes minder te brûken; it potinsjeel fan applikaasjes bliuwt net opeaske.
Dêrtroch komt fierdere ynvestearring yn it analytyske projekt yn twifel.

Ferantwurdlikens foar gegevenskwaliteit

It aspekt yn ferbân mei it ferbetterjen fan gegevenskwaliteit is mega-wichtich yn BI-projekten. It is lykwols net it foarrjocht fan allinich technyske spesjalisten.
Gegevenskwaliteit wurdt ek beynfloede troch sokke aspekten as

Bedriuwskultuer

  • Binne de arbeiders sels ynteressearre yn it produsearjen fan goede kwaliteit?
  • Sa net, wêrom net? Der kin in konflikt fan belangen wêze.
  • Miskien binne d'r bedriuwsregels dy't bepale wa't ferantwurdlik is foar kwaliteit?

Prozessen

  • Hokker gegevens wurde oan 'e ein fan dizze keatlingen makke?
  • Miskien binne de bestjoeringssystemen sa ynsteld dat jo moatte "twist" om dizze of dy situaasje yn 'e realiteit te reflektearjen.
  • Doch bestjoeringssystemen sels gegevensferifikaasje en fermoedsoening?

Elkenien yn 'e organisaasje is ferantwurdlik foar de kwaliteit fan gegevens yn rapportaazjesystemen.

Definysje en betsjutting

Kwaliteit is de bewiisde befrediging fan klantferwachtingen.

Mar gegevenskwaliteit befettet gjin definysje. It wjerspegelet altyd de kontekst fan gebrûk. It datapakhús en BI-systeem tsjinje oare doelen as it bestjoeringssysteem wêrfan de gegevens komme.

Bygelyks, op in bestjoeringssysteem kin it klantattribút in opsjoneel fjild wêze. Yn it repository kin dit attribút brûkt wurde as dimensje en it ynfoljen is fereaske. Wat op syn beurt de needsaak yntrodusearret om standertwearden yn te foljen.

Data opslach easken binne hieltyd feroarjend en se binne meastal heger as dy foar bestjoeringssystemen. Mar it kin ek oarsom, as it net nedich is om detaillearre ynformaasje fan it bestjoeringssysteem yn 'e opslach te bewarjen.

Om gegevenskwaliteit mjitber te meitsjen, moatte har noarmen beskreaun wurde. Minsken dy't ynformaasje en sifers brûke foar har wurk moatte belutsen wurde by it beskriuwingsproses. It gefolch fan dizze belutsenens kin in regel wêze, wêrnei't men yn ien eachopslach oan 'e tafel sizze kin oft der in flater is of net. Dizze regel moat wurde opmakke as in skript / koade foar folgjende ferifikaasje.

Ferbetterjen fan gegevens kwaliteit

It is ûnmooglik om alle hypotetyske flaters op te romjen en te korrigearjen tidens it proses fan it laden fan gegevens yn it pakhús. Goede gegevenskwaliteit kin allinnich berikt wurde troch nauwe gearwurking tusken alle dielnimmers. Minsken dy't gegevens ynfiere yn bestjoeringssystemen moatte leare hokker aksjes liede ta flaters.

Gegevenskwaliteit is in proses. Spitigernôch hawwe in protte organisaasjes gjin strategy foar trochgeande ferbettering. In protte beheine harsels om allinich gegevens op te slaan en brûke it folsleine potensjeel fan analytyske systemen net. Typysk, by it ûntwikkeljen fan gegevenspakhuzen, wurdt 70-80% fan it budzjet bestege oan it ymplementearjen fan gegevensyntegraasje. It tafersjoch- en ferbetteringproses bliuwt net kompleet, as dat al is.

Tools

It gebrûk fan software-ark kin helpe by it automatisearjen fan ferbettering en tafersjoch fan gegevenskwaliteit. Bygelyks kinne se de technyske ferifikaasje fan opslachstruktueren folslein automatisearje: fjildformaat, oanwêzigens fan standertwearden, konformiteit mei tabelfjildnammen.

It kin lestiger wêze om de ynhâld te kontrolearjen. As opslach easken feroarje, kin de ynterpretaasje fan de gegevens ek feroarje. It ark sels kin in enoarm projekt wurde dat stipe fereasket.

Tip

Relasjonele databases, wêryn winkels typysk binne ûntwurpen, hawwe de opmerklike mooglikheid om werjeften te meitsjen. Se kinne brûkt wurde om gegevens fluch te kontrolearjen as jo de spesifiken fan 'e ynhâld kenne. Elk gefal fan it finen fan in flater of probleem yn 'e gegevens kin wurde opnommen yn' e foarm fan in databankfraach.

Op dizze wize wurdt in kennisbasis oer de ynhâld foarme. Fansels moatte sokke oanfragen fluch wêze. Views fereaskje typysk minder minsklike tiid om te ûnderhâlden dan tabel-basearre ark. De werjefte is altyd klear om it resultaat fan 'e test wer te jaan.
Yn it gefal fan wichtige rapporten kin de werjefte in kolom mei de ûntfanger befetsje. It makket sin om deselde BI-ark te brûken om te rapportearjen oer de steat fan gegevenskwaliteit yn it pakhús.

Foarbyld:

De query is skreaun foar de Oracle-database. Yn dit foarbyld jouwe de tests in numerike wearde werom dy't kin wurde ynterpretearre as winske. De T_MIN- en T_MAX-wearden kinne brûkt wurde om it alarmnivo oan te passen. It REPORT-fjild waard ienris brûkt as berjocht yn in kommersjeel ETL-produkt dat net wist hoe't jo e-postberjochten goed ferstjoere, dus rpad is in "kruk".

Yn it gefal fan in grutte tabel, kinne jo tafoegje, bygelyks, AND ROWNUM <= 10, i.e. as der 10 flaters binne, dan is dit genôch om alarm te feroarsaakjen.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

De publikaasje brûkt materialen út it boek
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Boarne: www.habr.com

Add a comment