ETL procesu uzraudzība nelielā datu noliktavā

Daudzi izmanto specializētus rīkus, lai izveidotu procedūras datu iegūšanai, pārveidošanai un ielādei relāciju datu bāzēs. Darba rīku process tiek reģistrēts, kļūdas tiek novērstas.

Kļūdas gadījumā žurnālā ir informācija, ka rīks neizdevās izpildīt uzdevumu un kuri moduļi (bieži java) kur apstājās. Pēdējās rindās var atrast datu bāzes kļūdu, piemēram, tabulas unikālās atslēgas pārkāpumu.

Lai atbildētu uz jautājumu, kādu lomu spēlē ETL kļūdu informācija, visas pēdējo divu gadu laikā radušās problēmas esmu klasificējis diezgan lielā repozitorijā.

ETL procesu uzraudzība nelielā datu noliktavā

Datu bāzes kļūdas ietver nepietiekamas vietas, savienojuma zudumu, sesijas pārtraukšanu utt.

Loģiskās kļūdas ietver, piemēram, tabulas atslēgu pārkāpumus, nederīgus objektus, piekļuves trūkumu objektiem utt.
Plānotājs var neiedarbināties laikā, var sasalt utt.

Vienkāršas kļūdas nav ilgi jālabo. Labs ETL var tikt galā ar lielāko daļu no tiem.

Sarežģītu kļūdu dēļ ir nepieciešams atklāt un pārbaudīt procedūras darbam ar datiem, izpētīt datu avotus. Bieži vien rada nepieciešamību veikt izmaiņu testēšanu un izvietošanu.

Tātad puse no visām problēmām ir saistītas ar datu bāzi. 48% no visām kļūdām ir vienkāršas kļūdas.
Trešā daļa problēmu ir saistītas ar uzglabāšanas loģikas vai modeļa maiņu, vairāk nekā puse no šīm kļūdām ir sarežģītas.

Un mazāk nekā ceturtā daļa problēmu ir saistītas ar uzdevumu plānotāju, no kurām 18% ir vienkāršas kļūdas.

Kopumā 22% no visām pieļautajām kļūdām ir sarežģītas, un to labošana prasa vislielāko uzmanību un laiku. Tās notiek apmēram reizi nedēļā. Tā kā vienkāršas kļūdas notiek gandrīz katru dienu.

Acīmredzot ETL procesu uzraudzība būs efektīva, ja kļūdas atrašanās vieta žurnālā ir norādīta pēc iespējas precīzāk un ir nepieciešams minimālais laiks, lai atrastu problēmas avotu.

Efektīva uzraudzība

Ko es gribēju redzēt ETL uzraudzības procesā?

ETL procesu uzraudzība nelielā datu noliktavā
Sākt - kad viņš sāka strādāt,
Avots — datu avots,
Slānis — kāds krātuves līmenis tiek ielādēts,
ETL darba nosaukums — augšupielādes procedūra, kas sastāv no daudziem maziem soļiem,
Soļa numurs - veicamās darbības numurs,
Ietekmētās rindas — cik daudz datu jau ir apstrādāts,
Ilgums sekunde — cik ilgs laiks nepieciešams,
Statuss - vai viss ir kārtībā vai nē: OK, ERROR, RUNNING, HANG
Ziņojums — pēdējais veiksmīgais ziņojums vai kļūdas apraksts.

Pamatojoties uz ierakstu statusu, varat nosūtīt e-pastu. vēstule citiem dalībniekiem. Ja kļūdu nav, tad vēstule nav nepieciešama.

Tādējādi kļūdas gadījumā ir skaidri norādīta incidenta vieta.

Dažreiz gadās, ka pats uzraudzības rīks nedarbojas. Šajā gadījumā iespējams tieši datu bāzē izsaukt skatu (skatu), uz kura pamata tiek veidota atskaite.

ETL uzraudzības tabula

Lai ieviestu ETL procesu uzraudzību, pietiek ar vienu tabulu un vienu skatu.

Lai to izdarītu, varat atgriezties pie jūsu mazā krātuve un izveidot prototipu sqlite datu bāzē.

DDL tabulas

CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
  UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  SID               INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
  LOG_DT            INTEGER NOT NULL DEFAULT 0,  /* Date time */
  LOG_D             INTEGER NOT NULL DEFAULT 0,  /* Date */
  JOB_NAME          TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
  STEP_NAME         TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
  STEP_DESCR        TEXT,                        /* Description of task or error message */
  UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);

Skatīt/ziņot par DDL

CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
  SELECT LOG_D,
    LOG_DT,
    UTL_JOB_STATUS_ID,
    SID,
	CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
	     WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
	     WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
	     WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
	     WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
		 WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
	     WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
	     ELSE 'N/A' END AS LAYER,
	CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
	     WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
	     WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
	     ELSE 'N/A' END AS SOURCE,
    JOB_NAME,
    STEP_NAME,
    CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
    CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
    CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
    STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
	SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
  FROM UTL_JOB_STATUS
  WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
  JB.MIN_LOG_DT AS START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
  JB.SOURCE,
  JB.LAYER,
  JB.JOB_NAME,
  CASE
  WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
  ELSE 'OK'
  END AS STATUS,
  ERR.STEP_LOG     AS STEP_LOG,
  JB.CNT           AS STEP_CNT,
  JB.AFFECTED_ROWS AS AFFECTED_ROWS,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
  JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
  ( SELECT SID, SOURCE, LAYER, JOB_NAME,
           MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
           MAX(START_FLAG)       AS START_FLAG,
           MAX(END_FLAG)         AS END_FLAG,
           MAX(ERROR_FLAG)       AS ERROR_FLAG,
           MIN(LOG_DT)           AS MIN_LOG_DT,
           MAX(LOG_DT)           AS MAX_LOG_DT,
           SUM(1)                AS CNT,
           SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
    FROM SRC
    GROUP BY SID, SOURCE, LAYER, JOB_NAME
  ) JB,
  ( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
    FROM SRC
    WHERE 1 = 1
  ) ERR
WHERE 1 = 1
  AND JB.SID = ERR.SID
  AND JB.JOB_NAME = ERR.JOB_NAME
  AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;

SQL Pārbauda, ​​vai ir iespējams iegūt jaunu sesijas numuru

SELECT SUM (
  CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
	    AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
       THEN 1 ELSE 0
  END ) AS IS_RUNNING
  FROM
    ( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID, 1 AS dummy
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
	    AND STEP_NAME = 'ETL_START'
      GROUP BY JOB_NAME, SID
    ) start_job /* starts */
  ON d_job.dummy = start_job.dummy
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG'  /* job name PARAMETER */
	    AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
      GROUP BY JOB_NAME, SID
    ) end_job /* ends */
  ON start_job.JOB_NAME = end_job.JOB_NAME
     AND start_job.SID = end_job.SID

Tabulas īpašības:

  • pēc datu apstrādes procedūras sākuma un beigām ir jāseko soļiem ETL_START un ETL_END
  • kļūdas gadījumā jāizveido ETL_ERROR darbība ar tās aprakstu
  • apstrādāto datu apjoms ir jāizceļ, piemēram, ar zvaigznītēm
  • to pašu procedūru var sākt vienlaicīgi ar parametru force_restart=y, bez tā sesijas numurs tiek izsniegts tikai pabeigtajai procedūrai
  • parastajā režīmā nevar paralēli palaist vienu un to pašu datu apstrādes procedūru

Nepieciešamās darbības darbam ar tabulu ir šādas:

  • iegūstot darbojošās ETL procedūras sesijas numuru
  • ievietot žurnāla ierakstu tabulā
  • iegūstot pēdējo veiksmīgo ETL procedūras ierakstu

Tādās datubāzēs kā Oracle vai Postgres šīs darbības var ieviest kā iebūvētas funkcijas. sqlite ir nepieciešams ārējs mehānisms, un šajā gadījumā tas prototips PHP.

secinājums

Tādējādi kļūdu ziņojumiem datu apstrādes rīkos ir mega svarīga loma. Bet ir grūti tos saukt par optimāliem, lai ātri atrastu problēmas cēloni. Kad procedūru skaits tuvojas simtam, procesu monitorings pārvēršas sarežģītā projektā.

Rakstā ir sniegts piemērs iespējamam problēmas risinājumam prototipa veidā. Viss mazā repozitorija prototips ir pieejams Gitlab SQLite PHP ETL utilītas.

Avots: www.habr.com

Pievieno komentāru