ETL prozesuak monitorizatzea datu biltegi txiki batean

Askok tresna espezializatuak erabiltzen dituzte datuak ateratzeko, eraldatzeko eta datu-base erlazionaletan kargatzeko prozedurak sortzeko. Lan-tresnen prozesua erregistratzen da, akatsak konpondu dira.

Errore bat gertatuz gero, erregistroak informazioa dauka tresnak huts egin duela zeregina bete eta zein modulu (askotan java) non gelditu diren. Azken lerroetan, datu-basearen errore bat aurki dezakezu, adibidez, taulako gako-urraketa bakarra.

ETL errore-informazioak zer eginkizun betetzen duen galderari erantzuteko, azken bi urteetan gertatu diren arazo guztiak biltegi handi samarrean sailkatu ditut.

ETL prozesuak monitorizatzea datu biltegi txiki batean

Datu-basearen erroreen artean, leku nahikoa ez, konexioa galdu, saioa zintzilikatu, etab.

Errore logikoen artean daude, besteak beste, taula-gakoak urratzea, balio ez duten objektuak, objektuetarako sarbide eza, etab.
Baliteke programatzailea ez abiatzea garaiz, izoztu egin daiteke, etab.

Akats sinpleak ez dira luze behar izaten konpontzeko. ETL on batek horietako gehienak bere kabuz kudeatu ditzake.

Akats konplexuek beharrezkoa egiten dute datuekin lan egiteko prozedurak aurkitzea eta probatzea, datu-iturriak arakatzea. Sarritan aldaketa-probak eta hedapena behar izatea dakar.

Beraz, arazo guztien erdiak datu-baseari lotuta daude. Akats guztien %48 akats sinpleak dira.
Arazo guztien herena biltegiratze logika edo eredua aldatzearekin lotuta dago, akats horien erdiak baino gehiago konplexuak dira.

Eta arazo guztien laurdena baino gutxiago zereginen programatzaileari dagokio, eta horietatik % 18 akats soilak dira.

Oro har, gertatzen diren akats guztien %22 konplexuak dira, eta horiek zuzentzeak arreta eta denbora gehien eskatzen du. Astean behin gertatzen dira. Akats sinpleak, berriz, ia egunero gertatzen dira.

Bistakoa da ETL prozesuen jarraipena eraginkorra izango dela akatsaren kokapena erregistroan ahalik eta zehatzen adierazten denean eta arazoaren iturria aurkitzeko gutxieneko denbora behar denean.

Jarraipen eraginkorra

Zer ikusi nahi nuen ETL jarraipen prozesuan?

ETL prozesuak monitorizatzea datu biltegi txiki batean
Lanean hasi zenean hasi zenean,
Iturria - datu iturria,
Geruza - zer biltegiratze maila kargatzen ari den,
ETL lanaren izena - kargatzeko prozedura, urrats txiki ugariz osatua.
Step Number - egiten ari den urratsaren zenbakia,
Eragindako errenkadak - zenbat datu prozesatu diren dagoeneko,
Iraupena segundo - zenbat denbora behar den,
Egoera - dena ondo dagoen ala ez: OK, ERROREA, KORRIKA, ZELTATU
Mezua - Azken mezu arrakastatsua edo errorearen deskribapena.

Sarreren egoeraren arabera, mezu elektroniko bat bidal dezakezu. beste kideei gutuna. Akatsik ez badago, gutuna ez da beharrezkoa.

Horrela, akatsen bat gertatuz gero, gertakariaren kokalekua argi eta garbi adierazten da.

Batzuetan gertatzen da monitorizazio tresnak berak ez duela funtzionatzen. Kasu honetan, datu-basean bista (ikuspegia) zuzenean dei daiteke, txostena oinarritzat hartuta.

ETL jarraipen taula

ETL prozesuen jarraipena ezartzeko, nahikoa dira taula bat eta ikuspegi bat.

Horretarako, itzul zaitezke zure biltegiratze txikia eta sortu prototipoa sqlite datu-basean.

DDL taulak

CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
  UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  SID               INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
  LOG_DT            INTEGER NOT NULL DEFAULT 0,  /* Date time */
  LOG_D             INTEGER NOT NULL DEFAULT 0,  /* Date */
  JOB_NAME          TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
  STEP_NAME         TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
  STEP_DESCR        TEXT,                        /* Description of task or error message */
  UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);

Ikusi/Salatu DDL

CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
  SELECT LOG_D,
    LOG_DT,
    UTL_JOB_STATUS_ID,
    SID,
	CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
	     WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
	     WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
	     WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
	     WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
		 WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
	     WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
	     ELSE 'N/A' END AS LAYER,
	CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
	     WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
	     WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
	     ELSE 'N/A' END AS SOURCE,
    JOB_NAME,
    STEP_NAME,
    CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
    CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
    CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
    STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
	SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
  FROM UTL_JOB_STATUS
  WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
  JB.MIN_LOG_DT AS START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
  JB.SOURCE,
  JB.LAYER,
  JB.JOB_NAME,
  CASE
  WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
  ELSE 'OK'
  END AS STATUS,
  ERR.STEP_LOG     AS STEP_LOG,
  JB.CNT           AS STEP_CNT,
  JB.AFFECTED_ROWS AS AFFECTED_ROWS,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
  JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
  ( SELECT SID, SOURCE, LAYER, JOB_NAME,
           MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
           MAX(START_FLAG)       AS START_FLAG,
           MAX(END_FLAG)         AS END_FLAG,
           MAX(ERROR_FLAG)       AS ERROR_FLAG,
           MIN(LOG_DT)           AS MIN_LOG_DT,
           MAX(LOG_DT)           AS MAX_LOG_DT,
           SUM(1)                AS CNT,
           SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
    FROM SRC
    GROUP BY SID, SOURCE, LAYER, JOB_NAME
  ) JB,
  ( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
    FROM SRC
    WHERE 1 = 1
  ) ERR
WHERE 1 = 1
  AND JB.SID = ERR.SID
  AND JB.JOB_NAME = ERR.JOB_NAME
  AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;

SQL Saio-zenbaki berri bat lortzea posible den egiaztatzea

SELECT SUM (
  CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
	    AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
       THEN 1 ELSE 0
  END ) AS IS_RUNNING
  FROM
    ( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID, 1 AS dummy
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
	    AND STEP_NAME = 'ETL_START'
      GROUP BY JOB_NAME, SID
    ) start_job /* starts */
  ON d_job.dummy = start_job.dummy
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG'  /* job name PARAMETER */
	    AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
      GROUP BY JOB_NAME, SID
    ) end_job /* ends */
  ON start_job.JOB_NAME = end_job.JOB_NAME
     AND start_job.SID = end_job.SID

Taularen ezaugarriak:

  • datuak prozesatzeko prozeduraren hasiera eta amaiera ETL_START eta ETL_END urratsak jarraitu behar dira
  • erroreren bat izanez gero, ETL_ERROR urratsa bere deskribapenarekin sortu behar da
  • prozesatutako datuen kopurua nabarmendu behar da, adibidez, izartxoekin
  • prozedura bera aldi berean has daiteke force_rstart=y parametroarekin, hori gabe saio-zenbakia amaitutako prozedurari soilik igortzen zaio
  • modu normalean, ezin duzu datuak prozesatzeko prozedura bera paraleloan exekutatu

Taula batekin lan egiteko beharrezkoak diren eragiketak hauek dira:

  • martxan dagoen ETL prozeduraren saio-zenbakia lortzea
  • txertatu erregistroko sarrera taulan
  • ETL prozedura baten azken erregistro arrakastatsua lortzea

Oracle edo Postgres bezalako datu-baseetan, eragiketa hauek funtzio integratu gisa inplementa daitezke. sqlite-k kanpoko mekanismo bat behar du, eta kasu honetan PHPn prototipatua.

Irteera

Horrela, datuak prozesatzeko tresnetako errore-mezuek paper oso garrantzitsua dute. Baina zaila da egokienak deitzea arazoaren kausa azkar aurkitzeko. Prozedura kopurua ehunera hurbiltzen denean, prozesuen jarraipena proiektu konplexua bihurtzen da.

Artikuluak arazoaren irtenbide posible baten adibidea eskaintzen du prototipo moduan. Biltegi txikiko prototipo osoa gitlab-en dago eskuragarri SQLite PHP ETL Utilitateak.

Iturria: www.habr.com

Gehitu iruzkin berria