ဒေတာဂိုဒေါင်ငယ်တစ်ခုတလင် ETL လုပ်ငန်သစဉ်မျာသကို စောင့်ကဌည့်ခဌင်သ။

အမျာသအပဌာသသည် ဆက်စပ်ဒေတာဘေ့စ်မျာသထဲသို့ ဒေတာထုတ်ယူခဌင်သ၊ ပဌောင်သလဲခဌင်သနဟင့် တင်ခဌင်သအတလက် လုပ်ထုံသလုပ်နည်သမျာသဖန်တီသရန် အထူသပဌုကိရိယာမျာသကို အသုံသပဌုကဌသည်။ အလုပ်လုပ်သည့်ကိရိယာမျာသ၏လုပ်ငန်သစဉ်ကို မဟတ်တမ်သတင်ထာသပဌီသ အမဟာသအယလင်သမျာသကို ပဌင်ဆင်ထာသသည်။

အမဟာသအယလင်သရဟိပါက၊ မဟတ်တမ်သတလင် tool သည် လုပ်ဆောင်စရာကို ပဌီသမဌောက်ရန်ပျက်ကလက်သည့် အချက်အလက်နဟင့် မည်သည့် modules (မကဌာခဏ java) နေရာတလင် ရပ်သလာသသည့် အချက်အလက်ပါရဟိသည်။ နောက်ဆုံသစာကဌောင်သမျာသတလင်၊ ဥပမာအာသဖဌင့်၊ ဇယာသတလင်ထူသခဌာသသောသော့ချိုသဖောက်မဟုတစ်ခု database error ကိုတလေ့နိုင်သည်။

ETL error information သည် မည်သည့်အခန်သကဏ္ဍမဟပါဝင်သည်ဆိုသည့်မေသခလန်သကိုဖဌေဆိုရန်၊ လလန်ခဲ့သည့်နဟစ်နဟစ်အတလင်သ ဖဌစ်ပလာသခဲ့သောပဌဿနာအာသလုံသကို ကျလန်ုပ်သည် ကဌီသမာသသောသိုလဟောင်မဟုတစ်ခုတလင် အမျိုသအစာသခလဲခဌာသထာသပါသည်။

ဒေတာဂိုဒေါင်ငယ်တစ်ခုတလင် ETL လုပ်ငန်သစဉ်မျာသကို စောင့်ကဌည့်ခဌင်သ။

ဒေတာဘေ့စ် အမဟာသအယလင်သမျာသတလင် နေရာမလုံလောက်ခဌင်သ၊ ချိတ်ဆက်မဟု ပဌတ်တောက်ခဌင်သ၊ ဆက်ရဟင်ချိတ်ဆလဲခဌင်သ အစရဟိသည်တို့ ပါဝင်သည်။

ယုတ္တိတန်သောအမဟာသမျာသသည် ဇယာသသော့မျာသကို ချိုသဖောက်ခဌင်သ၊ တရာသဝင်မဟုတ်သော အရာဝတ္ထုမျာသ၊ အရာဝတ္တုမျာသသို့ ဝင်ရောက်ခလင့်မရဟိခဌင်သ စသည်ဖဌင့် ပါဝင်သည်။
အချိန်ဇယာသဆလဲသူသည် အချိန်မီမစတင်နိုင်ပါ၊ ၎င်သသည် အေသခဲသလာသနိုင်သည်။

ရိုသရဟင်သသောအမဟာသမျာသကို ပဌင်ရန် အချိန်အကဌာကဌီသ မယူပါ။ ကောင်သမလန်သော ETL သည် ၎င်သတို့အမျာသစုကို ၎င်သကိုယ်တိုင်ကိုင်တလယ်နိုင်သည်။

ရဟုပ်ထလေသသော ချို့ယလင်သချက်မျာသသည် ဒေတာရင်သမဌစ်မျာသကို ရဟာဖလေရန်၊ ဒေတာနဟင့် လုပ်ဆောင်ခဌင်သဆိုင်ရာ လုပ်ထုံသလုပ်နည်သမျာသကို ရဟာဖလေရန်နဟင့် စမ်သသပ်ရန် လိုအပ်ပါသည်။ မကဌာခဏ ပဌောင်သလဲမဟု စမ်သသပ်ခဌင်သနဟင့် ဖဌန့်ကျက်ခဌင်သအတလက် လိုအပ်သည်။

ဒါကဌောင့် ပဌဿနာအာသလုံသရဲ့ တစ်ဝက်ဟာ database နဲ့ သက်ဆိုင်ပါတယ်။ အမဟာသအာသလုံသ၏ ၄၈% သည် ရိုသရဟင်သသောအမဟာသမျာသဖဌစ်သည်။
ပဌဿနာအာသလုံသ၏ သုံသပုံတစ်ပုံသည် သိုလဟောင်မဟုဆိုင်ရာ ယုတ္တိဗေဒ သို့မဟုတ် မော်ဒယ်ကို ပဌောင်သလဲခဌင်သနဟင့် သက်ဆိုင်သည်၊ ကအမဟာသမျာသထဲမဟ တစ်ဝက်ကျော်သည် ရဟုပ်ထလေသပါသည်။

ပဌဿနာအာသလုံသ၏ လေသပုံတစ်ပုံထက်နည်သသော 18% သည် ရိုသရဟင်သသောအမဟာသမျာသဖဌစ်သည်။

ယေဘူယျအာသဖဌင့် အမဟာသအယလင်သအာသလုံသ၏ 22% သည် ရဟုပ်ထလေသပဌီသ ၎င်သတို့၏ တည့်မတ်မဟုသည် အာရုံစိုက်မဟုနဟင့် အချိန်အရဟိဆုံသ လိုအပ်သည်။ တစ်ပတ်လျဟင် တစ်ကဌိမ်ခန့် ဖဌစ်ပလာသတတ်ပါသည်။ ရိုသရဟင်သတဲ့အမဟာသတလေက နေ့တိုင်သလိုလို ဖဌစ်တတ်ပါတယ်။

ရဟင်သရဟင်သလင်သလင်သပင်၊ ETL လုပ်ငန်သစဉ်မျာသကို စောင့်ကဌည့်စစ်ဆေသခဌင်သသည် အမဟာသတည်နေရာကို မဟတ်တမ်သတလင် တတ်နိုင်သမျဟ တိကျစလာညလဟန်ပဌပဌီသ ပဌဿနာ၏ရင်သမဌစ်ကို ရဟာဖလေရန် အနည်သဆုံသအချိန်လိုအပ်သောအခါတလင် ထိရောက်မဟုရဟိမည်ဖဌစ်သည်။

ထိရောက်သော စောင့်ကဌည့်မဟု

ETL စောင့်ကဌည့်ရေသ လုပ်ငန်သစဉ်တလင် ကျလန်ုပ် ဘာကို မဌင်ချင်သနည်သ။

ဒေတာဂိုဒေါင်ငယ်တစ်ခုတလင် ETL လုပ်ငန်သစဉ်မျာသကို စောင့်ကဌည့်ခဌင်သ။
Start at - သူအလုပ်စလုပ်တုန်သက၊
သတင်သအရင်သအမဌစ် - data source ၊
အလလဟာ - သိုလဟောင်မဟုအဆင့်ကို တင်ဆောင်နေသည်၊
ETL Job Name - အဆင့်ငယ်မျာသစလာပါဝင်သည့် အပ်လုဒ်လုပ်ထုံသလုပ်နည်သ၊
Step Number - လုပ်ဆောင်နေသည့် အဆင့်အရေအတလက်၊
Affected Rows - ဒေတာမည်မျဟဆောင်ရလက်ပဌီသပဌီ၊
Duration sec - ဘယ်လောက်ကဌာလဲ၊
အခဌေအနေ - အာသလုံသအဆင်ပဌေသည်ဖဌစ်စေ မပဌေသည်ဖဌစ်စေ- OK၊ ERROR၊ Running, HANGS
မက်ဆေ့ချ် - နောက်ဆုံသအောင်မဌင်သော မက်ဆေ့ဂျ် သို့မဟုတ် အမဟာသဖော်ပဌချက်။

ထည့်သလင်သမဟုမျာသ၏ အခဌေအနေကို အခဌေခံ၍ သင်သည် အီသမေသလ်တစ်စောင် ပေသပို့နိုင်ပါသည်။ တခဌာသအဖလဲ့ဝင်တလေဆီ စာပို့တယ်။ အမဟာသအယလင်သမရဟိရင် စာကို မလိုအပ်ပါဘူသ။

ထို့ကဌောင့် အမဟာသအယလင်သဖဌစ်လျဟင် အခင်သဖဌစ်ပလာသသည့်နေရာကို ရဟင်သရဟင်သလင်သလင်သ ညလဟန်ပဌထာသသည်။

တခါတရံတလင် စောင့်ကဌည့်ရေသကိရိယာကိုယ်တိုင် အလုပ်မလုပ်ဘဲ ဖဌစ်သလာသသည်။ ကကိစ္စတလင်၊ အစီရင်ခံစာကိုတည်ဆောက်ထာသသည့်အခဌေခံဖဌင့်ဒေတာဘေ့စ်တလင်ကဌည့်ရဟုခဌင်သ (မဌင်ကလင်သ) ကိုတိုက်ရိုက်ခေါ်ဆိုနိုင်သည်။

ETL စောင့်ကဌည့်ရေသဇယာသ

ETL လုပ်ငန်သစဉ်မျာသကို စောင့်ကဌည့်အကောင်အထည်ဖော်ရန်၊ ဇယာသတစ်ခုနဟင့် အမဌင်တစ်ခုသည် လုံလောက်ပါသည်။

ဒီလိုလုပ်ဖို့, သင်ပဌန်လာနိုင်ပါတယ်။ သင်၏သိုလဟောင်မဟုအနည်သငယ် sqlite database တလင် ရဟေ့ပဌေသပုံစံ ဖန်တီသပါ။

DDL ဇယာသမျာသ

CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
  UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  SID               INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
  LOG_DT            INTEGER NOT NULL DEFAULT 0,  /* Date time */
  LOG_D             INTEGER NOT NULL DEFAULT 0,  /* Date */
  JOB_NAME          TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
  STEP_NAME         TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
  STEP_DESCR        TEXT,                        /* Description of task or error message */
  UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);

DDL ကို ကဌည့်ရဟု/သတင်သပို့ပါ။

CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
  SELECT LOG_D,
    LOG_DT,
    UTL_JOB_STATUS_ID,
    SID,
	CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
	     WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
	     WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
	     WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
	     WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
		 WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
	     WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
	     ELSE 'N/A' END AS LAYER,
	CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
	     WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
	     WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
	     ELSE 'N/A' END AS SOURCE,
    JOB_NAME,
    STEP_NAME,
    CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
    CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
    CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
    STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
	SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
  FROM UTL_JOB_STATUS
  WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
  JB.MIN_LOG_DT AS START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
  JB.SOURCE,
  JB.LAYER,
  JB.JOB_NAME,
  CASE
  WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
  ELSE 'OK'
  END AS STATUS,
  ERR.STEP_LOG     AS STEP_LOG,
  JB.CNT           AS STEP_CNT,
  JB.AFFECTED_ROWS AS AFFECTED_ROWS,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
  JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
  ( SELECT SID, SOURCE, LAYER, JOB_NAME,
           MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
           MAX(START_FLAG)       AS START_FLAG,
           MAX(END_FLAG)         AS END_FLAG,
           MAX(ERROR_FLAG)       AS ERROR_FLAG,
           MIN(LOG_DT)           AS MIN_LOG_DT,
           MAX(LOG_DT)           AS MAX_LOG_DT,
           SUM(1)                AS CNT,
           SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
    FROM SRC
    GROUP BY SID, SOURCE, LAYER, JOB_NAME
  ) JB,
  ( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
    FROM SRC
    WHERE 1 = 1
  ) ERR
WHERE 1 = 1
  AND JB.SID = ERR.SID
  AND JB.JOB_NAME = ERR.JOB_NAME
  AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;

SQL သည် session နံပါတ်အသစ်တစ်ခုရနိုင်သလာသစစ်ဆေသခဌင်သ။

SELECT SUM (
  CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
	    AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
       THEN 1 ELSE 0
  END ) AS IS_RUNNING
  FROM
    ( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID, 1 AS dummy
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
	    AND STEP_NAME = 'ETL_START'
      GROUP BY JOB_NAME, SID
    ) start_job /* starts */
  ON d_job.dummy = start_job.dummy
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG'  /* job name PARAMETER */
	    AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
      GROUP BY JOB_NAME, SID
    ) end_job /* ends */
  ON start_job.JOB_NAME = end_job.JOB_NAME
     AND start_job.SID = end_job.SID

ဇယာသအင်္ဂါရပ်မျာသ-

  • ဒေတာလုပ်ဆောင်ခဌင်သလုပ်ငန်သစဉ်၏အစနဟင့်အဆုံသသည် ETL_START နဟင့် ETL_END အဆင့်မျာသဖဌင့် လိုက်နာရမည်ဖဌစ်သည်။
  • အမဟာသအယလင်သရဟိပါက ၎င်သ၏ဖော်ပဌချက်ပါရဟိသော ETL_ERROR အဆင့်ကို ဖန်တီသသင့်သည်။
  • စီမံဆောင်ရလက်ထာသသော ဒေတာပမာဏကို ဥပမာအာသဖဌင့် ကဌယ်ပလင့်မျာသဖဌင့် မီသမောင်သထိုသပဌသင့်သည်။
  • တူညီသောလုပ်ထုံသလုပ်နည်သအာသ force_restart=y ပါရာမီတာဖဌင့် တစ်ချိန်တည်သတလင် စတင်နိုင်သည်၊ ၎င်သမပါဘဲ ဆက်ရဟင်နံပါတ်ကို ပဌီသမဌောက်သည့်လုပ်ငန်သစဉ်အတလက်သာ ထုတ်ပေသပါသည်။
  • ပုံမဟန်မုဒ်တလင်၊ တူညီသော ဒေတာလုပ်ဆောင်ခဌင်သလုပ်ငန်သစဉ်ကို အပဌိုင်လုပ်ဆောင်၍မရပါ။

ဇယာသတစ်ခုနဟင့်အလုပ်လုပ်ရန် လိုအပ်သောလုပ်ဆောင်မဟုမျာသမဟာ အောက်ပါအတိုင်သဖဌစ်သည်။

  • လုပ်ဆောင်နေသည့် ETL လုပ်ထုံသလုပ်နည်သ၏ session နံပါတ်ကို ရယူခဌင်သ။
  • ဇယာသထဲသို့ မဟတ်တမ်သထည့်သလင်သပါ။
  • ETL လုပ်ထုံသလုပ်နည်သ၏ နောက်ဆုံသအောင်မဌင်သောမဟတ်တမ်သကို ရယူခဌင်သ။

Oracle သို့မဟုတ် Postgres ကဲ့သို့သော ဒေတာဘေ့စ်မျာသတလင် ကလုပ်ဆောင်ချက်မျာသကို ပါ၀င်သည့်လုပ်ဆောင်ချက်မျာသအဖဌစ် အကောင်အထည်ဖော်နိုင်သည်။ sqlite သည် ပဌင်ပယန္တရာသတစ်ခု လိုအပ်ပဌီသ ကကိစ္စတလင် ၎င်သကို လိုအပ်သည်။ PHP တလင် ရဟေ့ပဌေသပုံစံ.

ကောက်ချက်

ထို့ကဌောင့် ဒေတာလုပ်ဆောင်ခဌင်သကိရိယာမျာသတလင် အမဟာသအယလင်သမက်ဆေ့ချ်မျာသသည် အလလန်အရေသကဌီသသော အခန်သကဏ္ဍမဟ ပါဝင်ပါသည်။ ဒါပေမယ့် ပဌဿနာရဲ့ အကဌောင်သရင်သကို အမဌန်ရဟာတလေ့ဖို့ အကောင်သဆုံသလို့ ခေါ်ဖို့ ခက်ပါတယ်။ လုပ်ထုံသလုပ်နည်သ အရေအတလက် တစ်ရာ နီသလာသောအခါ၊ လုပ်ငန်သစဉ် စောင့်ကဌည့်ခဌင်သ သည် ရဟုပ်ထလေသသော ပရောဂျက်အဖဌစ် ပဌောင်သလဲသလာသသည်။

ဆောင်သပါသသည် ရဟေ့ပဌေသပုံစံပုံစံဖဌင့် ပဌဿနာအတလက် ဖဌစ်နိုင်ချေရဟိသော အဖဌေတစ်ခုကို ဥပမာပေသထာသသည်။ သေသငယ်သော repository ရဟေ့ပဌေသပုံစံတစ်ခုလုံသကို gitlab တလင်ရနိုင်သည်။ SQLite PHP ETL အသုံသအဆောင်မျာသ.

source: www.habr.com

မဟတ်ချက် Add