ETL protsesside jälgimine väikeses andmelaos

Paljud kasutavad spetsiaalseid tööriistu, et luua protseduure andmete ekstraheerimiseks, teisendamiseks ja relatsiooniandmebaasidesse laadimiseks. Tööriistade tööprotsess logitakse, vead parandatakse.

Vea korral sisaldab logi teavet selle kohta, et tööriist ei suutnud ülesannet täita ja millised moodulid (sageli java) kus peatusid. Viimastelt ridadelt leiate andmebaasi vea, näiteks tabeli kordumatu võtme rikkumise.

Et vastata küsimusele, millist rolli mängib ETL-i veateave, olen liigitanud kõik viimase kahe aasta jooksul ilmnenud probleemid üsna suurde repositooriumisse.

ETL protsesside jälgimine väikeses andmelaos

Andmebaasi vead hõlmavad ruumi vähesust, ühenduse katkemist, seansi katkemist jne.

Loogikavigade hulka kuuluvad näiteks tabelivõtmete rikkumine, kehtetud objektid, juurdepääsu puudumine objektidele jne.
Planeerija ei pruugi õigel ajal käivituda, võib külmuda jne.

Lihtsate vigade parandamine ei võta kaua aega. Hea ETL saab enamiku neist ise hakkama.

Keerulised vead nõuavad andmetega töötamise protseduuride avastamist ja testimist, andmeallikate uurimist. Viivad sageli vajaduseni muudatuste testimise ja juurutamise järele.

Seega on pooled probleemidest seotud andmebaasiga. 48% kõigist vigadest on lihtvead.
Kolmandik kõigist probleemidest on seotud salvestusloogika või -mudeli muutmisega, enam kui pooled neist vigadest on keerulised.

Ja vähem kui veerand kõigist probleemidest on seotud ülesannete planeerijaga, millest 18% on lihtvead.

Üldjuhul on 22% kõigist esinevatest vigadest keerukad ning nende parandamine nõuab kõige rohkem tähelepanu ja aega. Need toimuvad umbes kord nädalas. Lihtsaid vigu juhtub aga peaaegu iga päev.

On ilmne, et ETL-i protsesside jälgimine on efektiivne, kui vea asukoht on võimalikult täpselt logisse märgitud ja probleemi allika leidmiseks kulub minimaalselt aega.

Tõhus jälgimine

Mida ma tahtsin näha ETL monitooringu protsessis?

ETL protsesside jälgimine väikeses andmelaos
Alustage - kui ta tööle asus,
Allikas – andmeallikas,
Kiht – millisel tasemel salvestusruumi laaditakse,
ETL töö nimi – üleslaadimisprotseduur, mis koosneb paljudest väikestest sammudest,
Sammu number – sooritatava sammu number,
Mõjutatud read – kui palju andmeid on juba töödeldud,
Kestus s – kui kaua see aega võtab,
Seisund – kas kõik on korras või mitte: OK, VIGA, TÖÖTAB, RIPUB
Sõnum – viimane õnnestunud teade või veakirjeldus.

Kirjete oleku põhjal saate saata meili. kiri teistele liikmetele. Kui vigu pole, pole kiri vajalik.

Seega on tõrke korral selgelt näidatud intsidendi asukoht.

Mõnikord juhtub, et seiretööriist ise ei tööta. Sel juhul on võimalik otse andmebaasis välja kutsuda vaade (vaade), mille alusel aruanne koostatakse.

ETL seire tabel

ETL protsesside monitooringu rakendamiseks piisab ühest tabelist ja ühest vaatest.

Selleks võite naasta juurde teie väike panipaik ja luua prototüüp sqlite andmebaasis.

DDL tabelid

CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
  UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  SID               INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
  LOG_DT            INTEGER NOT NULL DEFAULT 0,  /* Date time */
  LOG_D             INTEGER NOT NULL DEFAULT 0,  /* Date */
  JOB_NAME          TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
  STEP_NAME         TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
  STEP_DESCR        TEXT,                        /* Description of task or error message */
  UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);

Vaata/teavita DDL-i

CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
  SELECT LOG_D,
    LOG_DT,
    UTL_JOB_STATUS_ID,
    SID,
	CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
	     WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
	     WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
	     WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
	     WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
		 WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
	     WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
	     ELSE 'N/A' END AS LAYER,
	CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
	     WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
	     WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
	     ELSE 'N/A' END AS SOURCE,
    JOB_NAME,
    STEP_NAME,
    CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
    CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
    CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
    STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
	SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
  FROM UTL_JOB_STATUS
  WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
  JB.MIN_LOG_DT AS START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
  JB.SOURCE,
  JB.LAYER,
  JB.JOB_NAME,
  CASE
  WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
  ELSE 'OK'
  END AS STATUS,
  ERR.STEP_LOG     AS STEP_LOG,
  JB.CNT           AS STEP_CNT,
  JB.AFFECTED_ROWS AS AFFECTED_ROWS,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
  JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
  ( SELECT SID, SOURCE, LAYER, JOB_NAME,
           MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
           MAX(START_FLAG)       AS START_FLAG,
           MAX(END_FLAG)         AS END_FLAG,
           MAX(ERROR_FLAG)       AS ERROR_FLAG,
           MIN(LOG_DT)           AS MIN_LOG_DT,
           MAX(LOG_DT)           AS MAX_LOG_DT,
           SUM(1)                AS CNT,
           SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
    FROM SRC
    GROUP BY SID, SOURCE, LAYER, JOB_NAME
  ) JB,
  ( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
    FROM SRC
    WHERE 1 = 1
  ) ERR
WHERE 1 = 1
  AND JB.SID = ERR.SID
  AND JB.JOB_NAME = ERR.JOB_NAME
  AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;

SQL Kontrollib, kas on võimalik saada uut seansi numbrit

SELECT SUM (
  CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
	    AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
       THEN 1 ELSE 0
  END ) AS IS_RUNNING
  FROM
    ( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID, 1 AS dummy
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
	    AND STEP_NAME = 'ETL_START'
      GROUP BY JOB_NAME, SID
    ) start_job /* starts */
  ON d_job.dummy = start_job.dummy
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG'  /* job name PARAMETER */
	    AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
      GROUP BY JOB_NAME, SID
    ) end_job /* ends */
  ON start_job.JOB_NAME = end_job.JOB_NAME
     AND start_job.SID = end_job.SID

Tabeli omadused:

  • andmetöötlusprotseduuri algusele ja lõpule peavad järgnema sammud ETL_START ja ETL_END
  • vea korral tuleks luua samm ETL_ERROR koos selle kirjeldusega
  • töödeldavate andmete hulk tuleks esile tõsta näiteks tärnidega
  • sama protseduuri saab samaaegselt käivitada parameetriga force_restart=y, ilma selleta väljastatakse seansi number ainult lõpetatud protseduurile
  • tavarežiimis ei saa te sama andmetöötlusprotseduuri paralleelselt käivitada

Tabeliga töötamiseks vajalikud toimingud on järgmised:

  • töötava ETL-protseduuri seansinumbri saamine
  • sisestage logikirje tabelisse
  • saada ETL-protseduuri viimane edukas kirje

Andmebaasides, nagu Oracle või Postgres, saab neid toiminguid rakendada sisseehitatud funktsioonidena. sqlite nõuab välist mehhanismi ja antud juhul seda prototüüp PHP-s.

Väljund

Seega on andmetöötlusvahendite veateadetel megatähtis roll. Kuid probleemi põhjuse kiireks leidmiseks on neid raske optimaalseks nimetada. Kui protseduuride arv läheneb sajale, muutub protsesside jälgimine keerukaks projektiks.

Artiklis on toodud näide probleemi võimalikust lahendusest prototüübi näol. Kogu väikese hoidla prototüüp on saadaval Gitlabis SQLite PHP ETL utiliidid.

Allikas: www.habr.com

Lisa kommentaar