Cilësia e të dhënave në magazinë

Cilësia e të dhënave në magazinë është një parakusht i rëndësishëm për marrjen e informacionit të vlefshëm. Cilësia e dobët çon në një reaksion negativ zinxhir në planin afatgjatë.
Së pari, besimi në informacionin e dhënë humbet. Njerëzit kanë filluar të përdorin më pak aplikacionet e Business Intelligence; potenciali i aplikacioneve mbetet i paprekur.
Si rezultat, investimi i mëtejshëm në projektin analitik vihet në pikëpyetje.

Përgjegjësia për cilësinë e të dhënave

Aspekti që lidhet me përmirësimin e cilësisë së të dhënave është shumë i rëndësishëm në projektet e BI. Megjithatë, nuk është privilegj vetëm i specialistëve teknikë.
Cilësia e të dhënave ndikohet gjithashtu nga aspekte të tilla si

Kulturë korporative

  • A janë vetë punëtorët të interesuar të prodhojnë cilësi të mirë?
  • Nëse jo, pse jo? Mund të ketë një konflikt interesi.
  • Ndoshta ka rregulla të korporatës që përcaktojnë se kush është përgjegjës për cilësinë?

proceset

  • Çfarë të dhënash krijohen në fund të këtyre zinxhirëve?
  • Ndoshta sistemet operative janë konfiguruar në atë mënyrë që ju duhet të "përdredhni" për të pasqyruar këtë apo atë situatë në realitet.
  • A kryejnë vetë sistemet operative verifikimin dhe rakordimin e të dhënave?

Të gjithë në organizatë janë përgjegjës për cilësinë e të dhënave në sistemet e raportimit.

Përkufizimi dhe kuptimi

Cilësia është kënaqësia e provuar e pritshmërive të klientit.

Por cilësia e të dhënave nuk përmban një përkufizim. Ai gjithmonë pasqyron kontekstin e përdorimit. Magazina e të dhënave dhe sistemi BI shërbejnë për qëllime të ndryshme nga sistemi operativ nga i cili vijnë të dhënat.

Për shembull, në një sistem operativ, atributi i klientit mund të jetë një fushë opsionale. Në depo, ky atribut mund të përdoret si dimension dhe kërkohet plotësimi i tij. E cila, nga ana tjetër, paraqet nevojën për të plotësuar vlerat e paracaktuara.

Kërkesat për ruajtjen e të dhënave po ndryshojnë vazhdimisht dhe ato zakonisht janë më të larta se ato për sistemet operative. Por mund të jetë edhe anasjelltas, kur nuk ka nevojë të ruani informacione të detajuara nga sistemi operativ në memorie.

Për ta bërë cilësinë e të dhënave të matshme, duhet të përshkruhen standardet e saj. Njerëzit që përdorin informacione dhe figura për punën e tyre duhet të përfshihen në procesin e përshkrimit. Rezultati i kësaj përfshirjeje mund të jetë një rregull, sipas të cilit mund të shihet me një shikim në tabelë nëse ka një gabim apo jo. Ky rregull duhet të formatohet si një skript/kod për verifikimin e mëvonshëm.

Përmirësimi i cilësisë së të dhënave

Është e pamundur të pastrohen dhe korrigjohen të gjitha gabimet hipotetike gjatë procesit të ngarkimit të të dhënave në magazinë. Cilësia e mirë e të dhënave mund të arrihet vetëm përmes bashkëpunimit të ngushtë ndërmjet të gjithë pjesëmarrësve. Njerëzit që futin të dhëna në sistemet operative duhet të mësojnë se cilat veprime çojnë në gabime.

Cilësia e të dhënave është një proces. Fatkeqësisht, shumë organizata nuk kanë një strategji për përmirësim të vazhdueshëm. Shumë e kufizojnë veten vetëm në ruajtjen e të dhënave dhe nuk përdorin potencialin e plotë të sistemeve analitike. Në mënyrë tipike, kur zhvillohen depo të të dhënave, 70-80% e buxhetit shpenzohet për zbatimin e integrimit të të dhënave. Procesi i monitorimit dhe përmirësimit mbetet i paplotë, nëse fare.

Mjete

Përdorimi i mjeteve softuerike mund të ndihmojë në procesin e automatizimit të përmirësimit dhe monitorimit të cilësisë së të dhënave. Për shembull, ata mund të automatizojnë plotësisht verifikimin teknik të strukturave të ruajtjes: formati i fushës, prania e vlerave të paracaktuara, pajtueshmëria me emrat e fushave të tabelës.

Mund të jetë më e vështirë të kontrollosh përmbajtjen. Ndërsa kërkesat e ruajtjes ndryshojnë, interpretimi i të dhënave mund të ndryshojë gjithashtu. Vetë mjeti mund të bëhet një projekt i madh që kërkon mbështetje.

Совет

Bazat e të dhënave relacionale, në të cilat zakonisht dizajnohen dyqanet, kanë aftësinë e jashtëzakonshme për të krijuar pamje. Ato mund të përdoren për të kontrolluar shpejt të dhënat nëse i dini specifikat e përmbajtjes. Çdo rast i gjetjes së një gabimi ose problemi në të dhëna mund të regjistrohet në formën e një pyetjeje të bazës së të dhënave.

Në këtë mënyrë do të krijohet një bazë njohurish për përmbajtjen. Natyrisht, kërkesa të tilla duhet të jenë të shpejta. Pamjet zakonisht kërkojnë më pak kohë njerëzore për t'u mirëmbajtur sesa mjetet e bazuara në tabelë. Pamja është gjithmonë gati për të shfaqur rezultatin e testit.
Në rastin e raporteve të rëndësishme, pamja mund të përmbajë një kolonë me marrësin. Ka kuptim të përdoren të njëjtat mjete BI për të raportuar mbi gjendjen e cilësisë së të dhënave në magazinë.

Shembull

Pyetja është shkruar për bazën e të dhënave Oracle. Në këtë shembull, testet kthejnë një vlerë numerike që mund të interpretohet sipas dëshirës. Vlerat T_MIN dhe T_MAX mund të përdoren për të rregulluar nivelin e alarmit. Fusha REPORT përdorej dikur si mesazh në një produkt komercial ETL që nuk dinte të dërgonte siç duhet email, kështu që rpad është një "paterica".

Në rastin e një tabele të madhe, mund të shtoni, për shembull, AND ROWNUM <= 10, d.m.th. nëse ka 10 gabime, atëherë kjo është e mjaftueshme për të shkaktuar alarm.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS
SELECT
  CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX
  THEN 'OK' ELSE 'ERROR' END AS RESULT,
  DESCRIPTION,
  TABLE_NAME, 
  OUTPUT, 
  T_MIN,
  T_MAX,
  rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT
FROM (-- Test itself
  SELECT
    'DIM_PRODUCT' AS TABLE_NAME,
    'Count of blanks' AS DESCRIPTION,
    COUNT(*) AS OUTPUT,
    0 AS T_MIN,
    10 AS T_MAX
  FROM DIM_PRODUCT
  WHERE DIM_PRODUCT_ID != -1 -- not default value
  AND ATTRIBUTE IS NULL ); -- count blanks

Botimi përdor materiale nga libri
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird


Burimi: www.habr.com

Shto një koment