Мониторинги равандҳои ETL дар анбори хурди додаҳо

Бисёриҳо асбобҳои махсусро барои эҷоди расмиёти истихроҷ, табдил додан ва боркунии додаҳо ба пойгоҳи додаҳои релятсионӣ истифода мебаранд. Рафти кори асбобхо кайд карда мешавад, хатохо ислох карда мешаванд.

Дар ҳолати хатогӣ, сабт маълумотро дар бар мегирад, ки асбоб вазифаро иҷро карда натавонист ва кадом модулҳо (аксар вақт java) дар куҷо қатъ шудаанд. Дар сатрҳои охир шумо метавонед хатогии пойгоҳи додаҳоро пайдо кунед, масалан, вайронкунии калиди ягонаи ҷадвал.

Барои ҷавоб додан ба саволи он, ки иттилооти хатогии ETL чӣ нақш мебозад, ман ҳамаи мушкилотеро, ки дар тӯли ду соли охир рух додаанд, дар як анбори хеле калон тасниф кардам.

Мониторинги равандҳои ETL дар анбори хурди додаҳо

Хатогиҳои пойгоҳи додаҳо фазои кофӣ, пайвасти гумшуда, овезон сессия ва ғайраҳоро дар бар мегиранд.

Хатогиҳои мантиқӣ аз қабили вайрон кардани калидҳои ҷадвал, объектҳои беэътибор, набудани дастрасӣ ба объектҳо ва ғ.
Барномасоз метавонад сари вақт оғоз нашавад, он метавонад ях кунад ва ғайра.

Барои ислоҳ кардани хатогиҳои оддӣ вақти зиёд лозим намешавад. ETL-и хуб метавонад аксарияти онҳоро мустақилона идора кунад.

Хатогиҳои мураккаб зарурати кашф ва санҷиши расмиёти кор бо додаҳо, омӯхтани манбаъҳои додаҳоро талаб мекунанд. Аксар вақт ба зарурати санҷиш ва ҷойгиркунии тағирот оварда мерасонад.

Инак, нисфи тамоми проблемахо ба базаи маълумот вобастаанд. 48% ҳамаи хатогиҳо хатоҳои оддӣ мебошанд.
Сеяки ҳамаи мушкилот бо тағир додани мантиқ ё модели нигоҳдорӣ алоқаманд аст, беш аз нисфи ин хатогиҳо мураккабанд.

Ва камтар аз чоряки ҳамаи мушкилот бо нақшаи вазифаҳо алоқаманд аст, ки 18% хатогиҳои оддӣ мебошанд.

Умуман, 22% ҳамаи хатогиҳое, ки рух медиҳанд, мураккабанд ва ислоҳи онҳо диққати бештар ва вақтро талаб мекунад. Онҳо тақрибан як маротиба дар як ҳафта рӯй медиҳанд. Дар ҳоле ки хатогиҳои оддӣ қариб ҳар рӯз рӯй медиҳанд.

Аён аст, ки мониторинги равандҳои ETL вақте самаранок хоҳад буд, ки макони хато дар гузориш то ҳадди имкон дақиқ нишон дода шавад ва барои дарёфти манбаи мушкилот вақти ҳадди ақал лозим аст.

Мониторинги самаранок

Ман дар раванди мониторинги ETL чиро дидан мехостам?

Мониторинги равандҳои ETL дар анбори хурди додаҳо
Дар оғоз - вақте ки ӯ ба кор шурӯъ кард,
Манбаъ - манбаи маълумот,
Қабат - кадом сатҳи нигоҳдорӣ бор карда мешавад,
Номи кори ETL - тартиби боргузорӣ, ки аз бисёр қадамҳои хурд иборат аст,
Рақами қадам - ​​рақами қадами иҷрошаванда,
Сатрҳои зарардида - чӣ қадар маълумот аллакай коркард шудааст,
Давомнокӣ сония - чӣ қадар вақт мегирад,
Статус - оё ҳамааш хуб аст ё не: ХУШ, ХАТО, ДАВОДА, овезон
Паём - Паёми охирини муваффақ ё тавсифи хато.

Дар асоси ҳолати сабтҳо, шумо метавонед почтаи электронӣ фиристед. мактуб ба дигар аъзоён. Агар ягон хатогӣ вуҷуд надошта бошад, пас ҳарф лозим нест.

Хамин тавр, дар сурати руй додани хатой чои вокеа равшан нишон дода мешавад.

Баъзан чунин мешавад, ки худи асбоби назорат кор намекунад. Дар ин ҳолат мумкин аст, ки намоишро (намоишро) бевосита дар базаи маълумот даъват кард, ки дар асоси он ҳисобот сохта мешавад.

Ҷадвали мониторинги ETL

Барои татбиқи мониторинги равандҳои ETL як ҷадвал ва як намоиш кофӣ аст.

Барои ин, шумо метавонед ба он баргардед захираи хурди шумо ва дар базаи sqlite прототип эҷод кунед.

Ҷадвалҳои DDL

CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
  UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  SID               INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
  LOG_DT            INTEGER NOT NULL DEFAULT 0,  /* Date time */
  LOG_D             INTEGER NOT NULL DEFAULT 0,  /* Date */
  JOB_NAME          TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
  STEP_NAME         TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
  STEP_DESCR        TEXT,                        /* Description of task or error message */
  UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);

Намоиш/Ҳисоботи DDL

CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
  SELECT LOG_D,
    LOG_DT,
    UTL_JOB_STATUS_ID,
    SID,
	CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
	     WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
	     WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
	     WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
	     WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
		 WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
	     WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
	     ELSE 'N/A' END AS LAYER,
	CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
	     WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
	     WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
	     ELSE 'N/A' END AS SOURCE,
    JOB_NAME,
    STEP_NAME,
    CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
    CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
    CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
    STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
	SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
  FROM UTL_JOB_STATUS
  WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
  JB.MIN_LOG_DT AS START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
  JB.SOURCE,
  JB.LAYER,
  JB.JOB_NAME,
  CASE
  WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
  ELSE 'OK'
  END AS STATUS,
  ERR.STEP_LOG     AS STEP_LOG,
  JB.CNT           AS STEP_CNT,
  JB.AFFECTED_ROWS AS AFFECTED_ROWS,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
  JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
  ( SELECT SID, SOURCE, LAYER, JOB_NAME,
           MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
           MAX(START_FLAG)       AS START_FLAG,
           MAX(END_FLAG)         AS END_FLAG,
           MAX(ERROR_FLAG)       AS ERROR_FLAG,
           MIN(LOG_DT)           AS MIN_LOG_DT,
           MAX(LOG_DT)           AS MAX_LOG_DT,
           SUM(1)                AS CNT,
           SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
    FROM SRC
    GROUP BY SID, SOURCE, LAYER, JOB_NAME
  ) JB,
  ( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
    FROM SRC
    WHERE 1 = 1
  ) ERR
WHERE 1 = 1
  AND JB.SID = ERR.SID
  AND JB.JOB_NAME = ERR.JOB_NAME
  AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;

SQL Санҷед, ки оё имкони гирифтани рақами сессияи нав вуҷуд дорад

SELECT SUM (
  CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
	    AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
       THEN 1 ELSE 0
  END ) AS IS_RUNNING
  FROM
    ( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID, 1 AS dummy
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
	    AND STEP_NAME = 'ETL_START'
      GROUP BY JOB_NAME, SID
    ) start_job /* starts */
  ON d_job.dummy = start_job.dummy
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG'  /* job name PARAMETER */
	    AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
      GROUP BY JOB_NAME, SID
    ) end_job /* ends */
  ON start_job.JOB_NAME = end_job.JOB_NAME
     AND start_job.SID = end_job.SID

Хусусиятҳои ҷадвал:

  • оғоз ва анҷоми расмиёти коркарди маълумот бояд бо қадамҳои ETL_START ва ETL_END риоя карда шаванд
  • дар сурати хато, қадами ETL_ERROR бо тавсифи он бояд эҷод карда шавад
  • миқдори маълумоти коркардшуда бояд, масалан, бо ситорачаҳо нишон дода шавад
  • ҳамин равандро дар як вақт бо параметри force_restart=y оғоз кардан мумкин аст, бе он рақами сессия танҳо ба расмиёти анҷомшуда дода мешавад
  • дар ҳолати муқаррарӣ, шумо наметавонед ҳамон як раванди коркарди маълумотро дар баробари иҷро кунед

Амалиёти зарурӣ барои кор бо ҷадвал инҳоянд:

  • гирифтани рақами сессияи тартиби ETL иҷрошаванда
  • ворид кардани вуруд ба ҷадвал
  • гирифтани охирин сабти бомуваффақияти расмиёти ETL

Дар пойгоҳи додаҳо ба монанди Oracle ё Postgres, ин амалиётҳоро метавон ҳамчун функсияҳои дарунсохт иҷро кард. sqlite механизми беруниро талаб мекунад ва дар ин ҳолат он прототип дар PHP.

хулоса

Ҳамин тариқ, паёмҳои хатогӣ дар абзорҳои коркарди додаҳо нақши мега муҳим мебозанд. Аммо онҳоро оптималӣ номидан душвор аст, ки сабаби мушкилотро зуд пайдо кунанд. Вақте ки шумораи равандҳо ба сад наздик мешавад, пас мониторинги раванд ба як лоиҳаи мураккаб табдил меёбад.

Дар мақола намунаи ҳалли имконпазири мушкилот дар шакли прототип оварда шудааст. Тамоми прототипи анбори хурд дар gitlab дастрас аст Utilities SQLite PHP ETL.

Манбаъ: will.com

Илова Эзоҳ