በትንሽ የመረጃ ማከማቻ ውስጥ የኢቲኤል ሂደቶችን መከታተል

ብዙዎች መረጃን ወደ ተዛማጅ የውሂብ ጎታዎች ለማውጣት፣ ለመለወጥ እና ለመጫን ሂደቶችን ለመፍጠር ልዩ መሳሪያዎችን ይጠቀማሉ። የመስሪያ መሳሪያዎች ሂደት ተመዝግቧል, ስህተቶች ተስተካክለዋል.

ስህተት በሚፈጠርበት ጊዜ, ምዝግብ ማስታወሻው መሳሪያው ተግባሩን ማጠናቀቅ ያልቻለው እና የትኞቹ ሞጁሎች (ብዙውን ጊዜ ጃቫ) የት እንደቆሙ መረጃ ይዟል. በመጨረሻዎቹ መስመሮች ውስጥ የውሂብ ጎታ ስህተትን ለምሳሌ የሠንጠረዥ ልዩ ቁልፍ መጣስ ማግኘት ይችላሉ.

የ ETL ስህተት መረጃ ምን ሚና ይጫወታል የሚለውን ጥያቄ ለመመለስ፣ ባለፉት ሁለት ዓመታት የተከሰቱትን ችግሮች በሙሉ በአንድ ትልቅ ማከማቻ ውስጥ መደብኩ።

በትንሽ የመረጃ ማከማቻ ውስጥ የኢቲኤል ሂደቶችን መከታተል

የመረጃ ቋት ስህተቶች በቂ ቦታ አለመኖር፣ የጠፋ ግንኙነት፣ ክፍለ ጊዜ መሰቀል፣ ወዘተ ያካትታሉ።

አመክንዮአዊ ስህተቶች እንደ የሰንጠረዥ ቁልፎች መጣስ፣ ልክ ያልሆኑ ነገሮች፣ የነገሮች መዳረሻ ማጣት፣ ወዘተ.
መርሐግብር አውጪው በሰዓቱ ላይጀምር ይችላል፣ይቀዘቅዛል፣ወዘተ።

ቀላል ስህተቶች ለመጠገን ብዙ ጊዜ አይወስዱም. ጥሩ ኢቲኤል ብዙዎቹን በራሱ ማስተናገድ ይችላል።

ውስብስብ ሳንካዎች ከውሂብ ጋር አብሮ ለመስራት፣ የውሂብ ምንጮችን ለመመርመር ሂደቶችን መፈለግ እና መሞከር አስፈላጊ ያደርገዋል። ብዙውን ጊዜ ወደ ለውጥ መፈተሽ እና ማሰማራት አስፈላጊነት ይመራሉ.

ስለዚህ, ከሁሉም ችግሮች ውስጥ ግማሽ የሚሆኑት ከመረጃ ቋቱ ጋር የተያያዙ ናቸው. ከሁሉም ስህተቶች 48% ቀላል ስህተቶች ናቸው.
ከሁሉም ችግሮች ውስጥ አንድ ሦስተኛው የማከማቻ አመክንዮ ወይም ሞዴልን ከመቀየር ጋር የተያያዘ ነው, ከእነዚህ ስህተቶች ውስጥ ከግማሽ በላይ የሚሆኑት ውስብስብ ናቸው.

እና ከሩብ ያነሱ ችግሮች ከተግባር መርሐግብር ጋር የተያያዙ ናቸው, 18% የሚሆኑት ቀላል ስህተቶች ናቸው.

በአጠቃላይ 22% የሚሆኑት የሚከሰቱ ስህተቶች ውስብስብ ናቸው, እና እርማታቸው ከፍተኛ ትኩረት እና ጊዜ ይጠይቃል. በሳምንት አንድ ጊዜ ይከሰታሉ. ቀላል ስህተቶች በየቀኑ ማለት ይቻላል ይከሰታሉ.

በግልጽ ለማየት እንደሚቻለው የ ETL ሂደቶችን መከታተል ውጤታማ የሚሆነው የስህተት ቦታው በምዝግብ ማስታወሻው ውስጥ በተቻለ መጠን በትክክል ሲገለጽ እና የችግሩን ምንጭ ለማግኘት ዝቅተኛው ጊዜ ያስፈልጋል.

ውጤታማ ክትትል

በETL የክትትል ሂደት ውስጥ ምን ማየት ፈለግሁ?

በትንሽ የመረጃ ማከማቻ ውስጥ የኢቲኤል ሂደቶችን መከታተል
ጀምር - ሥራ ሲጀምር ፣
ምንጭ - የውሂብ ምንጭ,
ንብርብር - ምን ዓይነት ማከማቻ እየተጫነ ነው ፣
ኢቲኤል የሥራ ስም - ብዙ ትናንሽ ደረጃዎችን የያዘ የሰቀላ ሂደት ፣
የእርምጃ ቁጥር - የተከናወነው እርምጃ ቁጥር;
የተጎዱ ረድፎች - ምን ያህል ውሂብ ቀድሞውኑ እንደተሰራ ፣
ቆይታ ሰከንድ - ምን ያህል ጊዜ ይወስዳል,
ሁኔታ - ሁሉም ነገር ጥሩ ነው ወይም አይደለም፡ እሺ፣ ስህተት፣ መሮጥ፣ HANGS
መልእክት - የመጨረሻው የተሳካ መልእክት ወይም የስህተት መግለጫ።

በመዝገቦቹ ሁኔታ ላይ በመመስረት, ኢሜል መላክ ይችላሉ. ለሌሎች አባላት ደብዳቤ. ምንም ስህተቶች ከሌሉ, ደብዳቤው አስፈላጊ አይደለም.

ስለዚህ, ስህተት በሚፈጠርበት ጊዜ, የአደጋው ቦታ በግልጽ ይገለጻል.

አንዳንድ ጊዜ የክትትል መሳሪያው ራሱ አይሰራም. በዚህ ሁኔታ, ሪፖርቱ በተሰራበት መሰረት, በመረጃ ቋቱ ውስጥ በቀጥታ እይታ (እይታ) መደወል ይቻላል.

የኢቲኤል ክትትል ሰንጠረዥ

የ ETL ሂደቶችን መከታተልን ለመተግበር አንድ ጠረጴዛ እና አንድ እይታ በቂ ነው.

ይህንን ለማድረግ ወደ መመለስ ይችላሉ የእርስዎ ትንሽ ማከማቻ እና በ sqlite የውሂብ ጎታ ውስጥ ፕሮቶታይፕ ይፍጠሩ።

የዲዲኤል ጠረጴዛዎች

CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
  UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  SID               INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
  LOG_DT            INTEGER NOT NULL DEFAULT 0,  /* Date time */
  LOG_D             INTEGER NOT NULL DEFAULT 0,  /* Date */
  JOB_NAME          TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
  STEP_NAME         TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
  STEP_DESCR        TEXT,                        /* Description of task or error message */
  UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);

ዲዲኤልን ይመልከቱ/ሪፖርት ያድርጉ

CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
  SELECT LOG_D,
    LOG_DT,
    UTL_JOB_STATUS_ID,
    SID,
	CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
	     WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
	     WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
	     WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
	     WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
		 WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
	     WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
	     ELSE 'N/A' END AS LAYER,
	CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
	     WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
	     WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
	     ELSE 'N/A' END AS SOURCE,
    JOB_NAME,
    STEP_NAME,
    CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
    CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
    CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
    STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
	SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
  FROM UTL_JOB_STATUS
  WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
  JB.MIN_LOG_DT AS START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
  JB.SOURCE,
  JB.LAYER,
  JB.JOB_NAME,
  CASE
  WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
  ELSE 'OK'
  END AS STATUS,
  ERR.STEP_LOG     AS STEP_LOG,
  JB.CNT           AS STEP_CNT,
  JB.AFFECTED_ROWS AS AFFECTED_ROWS,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
  JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
  ( SELECT SID, SOURCE, LAYER, JOB_NAME,
           MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
           MAX(START_FLAG)       AS START_FLAG,
           MAX(END_FLAG)         AS END_FLAG,
           MAX(ERROR_FLAG)       AS ERROR_FLAG,
           MIN(LOG_DT)           AS MIN_LOG_DT,
           MAX(LOG_DT)           AS MAX_LOG_DT,
           SUM(1)                AS CNT,
           SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
    FROM SRC
    GROUP BY SID, SOURCE, LAYER, JOB_NAME
  ) JB,
  ( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
    FROM SRC
    WHERE 1 = 1
  ) ERR
WHERE 1 = 1
  AND JB.SID = ERR.SID
  AND JB.JOB_NAME = ERR.JOB_NAME
  AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;

SQL አዲስ የክፍለ ጊዜ ቁጥር ማግኘት ይቻል እንደሆነ በማጣራት ላይ

SELECT SUM (
  CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
	    AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
       THEN 1 ELSE 0
  END ) AS IS_RUNNING
  FROM
    ( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID, 1 AS dummy
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
	    AND STEP_NAME = 'ETL_START'
      GROUP BY JOB_NAME, SID
    ) start_job /* starts */
  ON d_job.dummy = start_job.dummy
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG'  /* job name PARAMETER */
	    AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
      GROUP BY JOB_NAME, SID
    ) end_job /* ends */
  ON start_job.JOB_NAME = end_job.JOB_NAME
     AND start_job.SID = end_job.SID

የሠንጠረዥ ባህሪያት:

  • የውሂብ ሂደት መጀመሪያ እና መጨረሻ በደረጃዎቹ ETL_START እና ETL_END መከተል አለባቸው
  • ስህተት ከተፈጠረ የETL_ERROR እርምጃ ከመግለጫው ጋር መፈጠር አለበት።
  • የተቀነባበረው መረጃ መጠን ማድመቅ አለበት, ለምሳሌ, በኮከቦች
  • ተመሳሳዩን አሰራር በforce_restart=y ፓራሜትር በተመሳሳይ ጊዜ መጀመር ይቻላል, ያለ እሱ የክፍለ-ጊዜው ቁጥር የሚሰጠው ለተጠናቀቀው ሂደት ብቻ ነው.
  • በመደበኛ ሁነታ, ተመሳሳይ የውሂብ ሂደት ሂደትን በትይዩ ማሄድ አይችሉም

ከጠረጴዛ ጋር ለመስራት አስፈላጊዎቹ ተግባራት እንደሚከተለው ናቸው ።

  • እየሄደ ያለውን ETL ሂደት የክፍለ ጊዜ ቁጥር ማግኘት
  • የምዝግብ ማስታወሻውን ወደ ጠረጴዛው ያስገቡ
  • የኢቲኤል አሰራር የመጨረሻውን የተሳካ ሪከርድ ማግኘት

እንደ Oracle ወይም Postgres ባሉ የውሂብ ጎታዎች ውስጥ እነዚህ ክዋኔዎች እንደ አብሮገነብ ተግባራት ሊተገበሩ ይችላሉ። sqlite ውጫዊ ዘዴን ይጠይቃል, እና በዚህ ሁኔታ ውስጥ በ PHP ውስጥ ተመስሏል.

መደምደሚያ

ስለዚህ በመረጃ ማቀነባበሪያ መሳሪያዎች ውስጥ ያሉ የስህተት መልዕክቶች ሜጋ-ጠቃሚ ሚና ይጫወታሉ። ነገር ግን የችግሩን መንስኤ በፍጥነት ለማግኘት በጣም ጥሩ ብለው መጥራት አስቸጋሪ ነው. የሂደቱ ብዛት ወደ መቶ ሲቃረብ የሂደቱ ክትትል ወደ ውስብስብ ፕሮጀክት ይቀየራል።

ጽሑፉ በፕሮቶታይፕ መልክ ለችግሩ መፍትሄ የሚሆን ምሳሌ ይሰጣል. የጠቅላላው ትንሽ ማከማቻ ፕሮቶታይፕ በgitlab ይገኛል። SQLite PHP ETL መገልገያዎች.

ምንጭ: hab.com

አስተያየት ያክሉ