ETL procesų stebėjimas mažoje duomenų saugykloje

Daugelis naudoja specializuotus įrankius duomenų išgavimo, transformavimo ir įkėlimo į reliacines duomenų bazes procedūras. Darbo įrankių eiga registruojama, klaidos taisomos.

Klaidos atveju žurnale pateikiama informacija, kad įrankiui nepavyko atlikti užduoties ir kurie moduliai (dažnai java) kur sustojo. Paskutinėse eilutėse galite rasti duomenų bazės klaidą, pavyzdžiui, lentelės unikalaus rakto pažeidimą.

Norėdami atsakyti į klausimą, kokį vaidmenį vaidina ETL klaidų informacija, visas per pastaruosius dvejus metus iškilusias problemas suskirstiau į gana didelę saugyklą.

ETL procesų stebėjimas mažoje duomenų saugykloje

Duomenų bazės klaidos apima nepakankamos vietos, ryšio praradimą, seanso sustabdymą ir kt.

Loginės klaidos apima tokias kaip lentelės raktų pažeidimas, netinkami objektai, prieigos prie objektų trūkumas ir kt.
Tvarkaraštis gali neįsijungti laiku, užšalti ir pan.

Paprastų klaidų taisymas netrunka. Geras ETL daugumą jų gali susitvarkyti pats.

Dėl sudėtingų klaidų būtina atrasti ir išbandyti darbo su duomenimis procedūras, ištirti duomenų šaltinius. Dažnai prireikia pakeitimų testavimo ir diegimo.

Taigi pusė visų problemų yra susijusios su duomenų baze. 48% visų klaidų yra paprastos klaidos.
Trečdalis visų problemų yra susijusios su saugojimo logikos ar modelio keitimu, daugiau nei pusė šių klaidų yra sudėtingos.

Ir mažiau nei ketvirtadalis visų problemų yra susijusios su užduočių planuokliu, iš kurių 18% yra paprastos klaidos.

Apskritai 22% visų pasitaikančių klaidų yra sudėtingos, o jų taisymas reikalauja daugiausiai dėmesio ir laiko. Jie vyksta maždaug kartą per savaitę. Tuo tarpu paprastų klaidų pasitaiko beveik kiekvieną dieną.

Akivaizdu, kad ETL procesų stebėjimas bus efektyvus, kai žurnale bus kuo tiksliau nurodyta klaidos vieta ir reikės kuo mažiau laiko surasti problemos šaltinį.

Efektyvus stebėjimas

Ką norėjau matyti ETL stebėjimo procese?

ETL procesų stebėjimas mažoje duomenų saugykloje
Pradėti nuo – kai jis pradėjo dirbti,
Šaltinis – duomenų šaltinis,
Sluoksnis – kokio lygio saugykla įkeliama,
ETL darbo pavadinimas – įkėlimo procedūra, kurią sudaro daug mažų žingsnelių,
Step Number – atliekamo veiksmo numeris,
Paveiktos eilutės – kiek duomenų jau apdorota,
Trukmė sek. – kiek laiko užtrunka,
Būsena – ar viskas gerai, ar ne: OK, KLAIDA, VEIKIA, KABAI
Pranešimas – paskutinis sėkmingas pranešimas arba klaidos aprašymas.

Atsižvelgdami į įrašų būseną, galite siųsti el. laišką kitiems nariams. Jei klaidų nėra, tada laiškas nereikalingas.

Taigi, įvykus klaidai, aiškiai nurodoma įvykio vieta.

Kartais nutinka taip, kad pats stebėjimo įrankis neveikia. Tokiu atveju galima tiesiogiai duomenų bazėje iškviesti rodinį (vaizdą), kurio pagrindu kuriama ataskaita.

ETL stebėjimo lentelė

ETL procesų stebėjimui įgyvendinti pakanka vienos lentelės ir vieno rodinio.

Norėdami tai padaryti, galite grįžti į jūsų maža saugykla ir sukurti prototipą sqlite duomenų bazėje.

DDL lentelės

CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
  UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  SID               INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
  LOG_DT            INTEGER NOT NULL DEFAULT 0,  /* Date time */
  LOG_D             INTEGER NOT NULL DEFAULT 0,  /* Date */
  JOB_NAME          TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
  STEP_NAME         TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
  STEP_DESCR        TEXT,                        /* Description of task or error message */
  UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);

Peržiūrėti/pranešti apie DDL

CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
  SELECT LOG_D,
    LOG_DT,
    UTL_JOB_STATUS_ID,
    SID,
	CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
	     WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
	     WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
	     WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
	     WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
		 WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
	     WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
	     ELSE 'N/A' END AS LAYER,
	CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
	     WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
	     WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
	     ELSE 'N/A' END AS SOURCE,
    JOB_NAME,
    STEP_NAME,
    CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
    CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
    CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
    STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
	SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
  FROM UTL_JOB_STATUS
  WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
  JB.MIN_LOG_DT AS START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
  JB.SOURCE,
  JB.LAYER,
  JB.JOB_NAME,
  CASE
  WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
  ELSE 'OK'
  END AS STATUS,
  ERR.STEP_LOG     AS STEP_LOG,
  JB.CNT           AS STEP_CNT,
  JB.AFFECTED_ROWS AS AFFECTED_ROWS,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
  JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
  ( SELECT SID, SOURCE, LAYER, JOB_NAME,
           MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
           MAX(START_FLAG)       AS START_FLAG,
           MAX(END_FLAG)         AS END_FLAG,
           MAX(ERROR_FLAG)       AS ERROR_FLAG,
           MIN(LOG_DT)           AS MIN_LOG_DT,
           MAX(LOG_DT)           AS MAX_LOG_DT,
           SUM(1)                AS CNT,
           SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
    FROM SRC
    GROUP BY SID, SOURCE, LAYER, JOB_NAME
  ) JB,
  ( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
    FROM SRC
    WHERE 1 = 1
  ) ERR
WHERE 1 = 1
  AND JB.SID = ERR.SID
  AND JB.JOB_NAME = ERR.JOB_NAME
  AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;

SQL Tikrinama, ar galima gauti naują seanso numerį

SELECT SUM (
  CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
	    AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
       THEN 1 ELSE 0
  END ) AS IS_RUNNING
  FROM
    ( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID, 1 AS dummy
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
	    AND STEP_NAME = 'ETL_START'
      GROUP BY JOB_NAME, SID
    ) start_job /* starts */
  ON d_job.dummy = start_job.dummy
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG'  /* job name PARAMETER */
	    AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
      GROUP BY JOB_NAME, SID
    ) end_job /* ends */
  ON start_job.JOB_NAME = end_job.JOB_NAME
     AND start_job.SID = end_job.SID

Stalo ypatybės:

  • po duomenų apdorojimo procedūros pradžios ir pabaigos turi būti atlikti ETL_START ir ETL_END veiksmai
  • klaidos atveju turėtų būti sukurtas ETL_ERROR veiksmas su jo aprašymu
  • apdorojamų duomenų kiekis turėtų būti paryškintas, pavyzdžiui, žvaigždutėmis
  • tą pačią procedūrą galima pradėti tuo pačiu metu su parametru force_restart=y, be jo seanso numeris išduodamas tik baigtai procedūrai
  • įprastu režimu negalite lygiagrečiai vykdyti tos pačios duomenų apdorojimo procedūros

Darbui su lentele būtinos operacijos yra šios:

  • gauti vykdomos ETL procedūros sesijos numerį
  • įterpti žurnalo įrašą į lentelę
  • gauti paskutinį sėkmingą ETL procedūros įrašą

Tokiose duomenų bazėse kaip „Oracle“ ar „Postgres“ šios operacijos gali būti įgyvendintos kaip integruotos funkcijos. sqlite reikalingas išorinis mechanizmas, o šiuo atveju jis sukurtas PHP prototipas.

Produkcija

Taigi, klaidų pranešimai duomenų apdorojimo priemonėse atlieka labai svarbų vaidmenį. Tačiau sunku juos pavadinti optimaliais, kad būtų galima greitai rasti problemos priežastį. Kai procedūrų skaičius artėja prie šimto, procesų stebėjimas virsta sudėtingu projektu.

Straipsnyje pateikiamas galimo problemos sprendimo pavyzdys prototipo pavidalu. Visas mažos saugyklos prototipas yra prieinamas „gitlab“. SQLite PHP ETL Utilities.

Šaltinis: www.habr.com

Добавить комментарий