Kufuatilia michakato ya ETL katika ghala ndogo la data

Wengi hutumia zana maalum kuunda taratibu za kutoa, kubadilisha, na kupakia data katika hifadhidata za uhusiano. Mchakato wa zana za kufanya kazi umewekwa, makosa yanarekebishwa.

Katika kesi ya hitilafu, logi ina habari kwamba chombo kimeshindwa kukamilisha kazi na ni moduli zipi (mara nyingi java) zilisimama wapi. Katika mistari ya mwisho, unaweza kupata kosa la hifadhidata, kwa mfano, ukiukaji wa ufunguo wa kipekee wa meza.

Ili kujibu swali la jukumu la habari ya makosa ya ETL ina jukumu gani, nimeainisha shida zote ambazo zimetokea kwa miaka miwili iliyopita kwenye hazina kubwa.

Kufuatilia michakato ya ETL katika ghala ndogo la data

Hitilafu za hifadhidata ni pamoja na ukosefu wa nafasi ya kutosha, muunganisho uliopotea, kipindi kilichowekwa, nk.

Makosa ya kimantiki ni pamoja na ukiukaji wa funguo za jedwali, vitu visivyo halali, ukosefu wa ufikiaji wa vitu, n.k.
Kipanga ratiba hakiwezi kuanza kwa wakati, kinaweza kufungia, nk.

Makosa rahisi hayachukui muda mrefu kurekebisha. ETL nzuri inaweza kushughulikia nyingi peke yake.

Hitilafu tata hufanya iwe muhimu kugundua na kujaribu taratibu za kufanya kazi na data, kuchunguza vyanzo vya data. Mara nyingi husababisha hitaji la majaribio ya mabadiliko na kupelekwa.

Kwa hiyo, nusu ya matatizo yote yanahusiana na hifadhidata. 48% ya makosa yote ni makosa rahisi.
Theluthi ya matatizo yote yanahusiana na kubadilisha mantiki ya kuhifadhi au mfano, zaidi ya nusu ya makosa haya ni ngumu.

Na chini ya robo ya matatizo yote yanahusiana na mpangaji wa kazi, 18% ambayo ni makosa rahisi.

Kwa ujumla, 22% ya makosa yote yanayotokea ni magumu, na marekebisho yao yanahitaji tahadhari zaidi na wakati. Wanatokea mara moja kwa wiki. Ambapo makosa rahisi hutokea karibu kila siku.

Kwa wazi, ufuatiliaji wa michakato ya ETL utakuwa na ufanisi wakati eneo la hitilafu limeonyeshwa kwenye kumbukumbu kwa usahihi iwezekanavyo na muda wa chini unahitajika ili kupata chanzo cha tatizo.

Ufuatiliaji wa ufanisi

Nilitaka kuona nini katika mchakato wa ufuatiliaji wa ETL?

Kufuatilia michakato ya ETL katika ghala ndogo la data
Anza saa - alipoanza kazi,
Chanzo - chanzo cha data,
Safu - ni kiwango gani cha uhifadhi kinachopakiwa,
Jina la Kazi la ETL - utaratibu wa upakiaji, ambao una hatua nyingi ndogo,
Nambari ya Hatua - idadi ya hatua inayofanywa,
Safu Mlalo Zilizoathiriwa - ni data ngapi ambayo tayari imechakatwa,
Muda wa sekunde - inachukua muda gani,
Hali - ikiwa kila kitu ni sawa au la: SAWA, HITILAFU, KUKIMBIA, HANGES
Ujumbe - Ujumbe wa mwisho uliofaulu au maelezo ya hitilafu.

Kulingana na hali ya rekodi, unaweza kutuma barua pepe. barua kwa wanachama wengine. Ikiwa hakuna makosa, basi barua sio lazima.

Kwa hivyo, katika tukio la kosa, eneo la tukio linaonyeshwa wazi.

Wakati mwingine hutokea kwamba chombo cha ufuatiliaji yenyewe haifanyi kazi. Katika kesi hii, inawezekana kuita mtazamo (mtazamo) moja kwa moja kwenye hifadhidata, kwa misingi ambayo ripoti imejengwa.

Jedwali la ufuatiliaji la ETL

Ili kutekeleza ufuatiliaji wa michakato ya ETL, meza moja na mtazamo mmoja zinatosha.

Ili kufanya hivyo, unaweza kurudi hifadhi yako ndogo na unda mfano katika hifadhidata ya sqlite.

Jedwali la DL

CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
  UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  SID               INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
  LOG_DT            INTEGER NOT NULL DEFAULT 0,  /* Date time */
  LOG_D             INTEGER NOT NULL DEFAULT 0,  /* Date */
  JOB_NAME          TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
  STEP_NAME         TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
  STEP_DESCR        TEXT,                        /* Description of task or error message */
  UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);

Tazama/Ripoti DDL

CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
  SELECT LOG_D,
    LOG_DT,
    UTL_JOB_STATUS_ID,
    SID,
	CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
	     WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
	     WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
	     WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
	     WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
		 WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
	     WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
	     ELSE 'N/A' END AS LAYER,
	CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
	     WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
	     WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
	     ELSE 'N/A' END AS SOURCE,
    JOB_NAME,
    STEP_NAME,
    CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
    CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
    CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
    STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
	SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
  FROM UTL_JOB_STATUS
  WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
  JB.MIN_LOG_DT AS START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
  JB.SOURCE,
  JB.LAYER,
  JB.JOB_NAME,
  CASE
  WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
  ELSE 'OK'
  END AS STATUS,
  ERR.STEP_LOG     AS STEP_LOG,
  JB.CNT           AS STEP_CNT,
  JB.AFFECTED_ROWS AS AFFECTED_ROWS,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
  JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
  ( SELECT SID, SOURCE, LAYER, JOB_NAME,
           MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
           MAX(START_FLAG)       AS START_FLAG,
           MAX(END_FLAG)         AS END_FLAG,
           MAX(ERROR_FLAG)       AS ERROR_FLAG,
           MIN(LOG_DT)           AS MIN_LOG_DT,
           MAX(LOG_DT)           AS MAX_LOG_DT,
           SUM(1)                AS CNT,
           SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
    FROM SRC
    GROUP BY SID, SOURCE, LAYER, JOB_NAME
  ) JB,
  ( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
    FROM SRC
    WHERE 1 = 1
  ) ERR
WHERE 1 = 1
  AND JB.SID = ERR.SID
  AND JB.JOB_NAME = ERR.JOB_NAME
  AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;

SQL Kuangalia ikiwa inawezekana kupata nambari mpya ya kikao

SELECT SUM (
  CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
	    AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
       THEN 1 ELSE 0
  END ) AS IS_RUNNING
  FROM
    ( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID, 1 AS dummy
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
	    AND STEP_NAME = 'ETL_START'
      GROUP BY JOB_NAME, SID
    ) start_job /* starts */
  ON d_job.dummy = start_job.dummy
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG'  /* job name PARAMETER */
	    AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
      GROUP BY JOB_NAME, SID
    ) end_job /* ends */
  ON start_job.JOB_NAME = end_job.JOB_NAME
     AND start_job.SID = end_job.SID

Vipengele vya jedwali:

  • kuanza na mwisho wa utaratibu wa kuchakata data lazima ufuatwe na hatua ETL_START na ETL_END
  • kukitokea hitilafu, hatua ya ETL_ERROR yenye maelezo yake inapaswa kuundwa
  • kiasi cha data iliyochakatwa inapaswa kuonyeshwa, kwa mfano, na nyota
  • utaratibu huo unaweza kuanza kwa wakati mmoja na parameta force_restart=y, bila hiyo nambari ya kikao hutolewa tu kwa utaratibu uliokamilishwa.
  • katika hali ya kawaida, huwezi kuendesha utaratibu sawa wa usindikaji wa data sambamba

Shughuli muhimu za kufanya kazi na meza ni kama ifuatavyo.

  • kupata nambari ya kikao cha utaratibu wa ETL unaoendesha
  • ingiza kiingilio cha logi kwenye meza
  • kupata rekodi ya mwisho ya mafanikio ya utaratibu wa ETL

Katika hifadhidata kama vile Oracle au Postgres, shughuli hizi zinaweza kutekelezwa kama vitendaji vilivyojumuishwa. sqlite inahitaji utaratibu wa nje, na katika kesi hii imechorwa katika PHP.

Pato

Kwa hivyo, ujumbe wa makosa katika zana za usindikaji wa data una jukumu muhimu sana. Lakini ni ngumu kuwaita bora kwa kupata haraka sababu ya shida. Wakati idadi ya taratibu inakaribia mia, basi ufuatiliaji wa mchakato unageuka kuwa mradi mgumu.

Nakala hiyo inatoa mfano wa suluhisho linalowezekana kwa shida kwa njia ya mfano. Mfano mzima wa kumbukumbu unapatikana kwenye gitlab Huduma za SQLite PHP ETL.

Chanzo: mapenzi.com

Kuongeza maoni