බොහෝ අය සම්බන්ධිත දත්ත සමුදායන් බවට දත්ත උපුටා ගැනීම, පරිවර්තනය කිරීම සහ පැටවීම සඳහා චර්යාවන් නිර්මාණය කිරීමට විශේෂිත මෙවලම් භාවිතා කරයි. මෙවලම්වල ක්රියාවලිය ලොග් වී ඇත, දෝෂ සටහන් වේ.
දෝෂයක් සිදුවුවහොත්, කාර්යය සම්පූර්ණ කිරීමට මෙවලම අපොහොසත් වූ බවට සහ කුමන මොඩියුල (බොහෝ විට ජාවා) නතර කළේද යන්න පිළිබඳ තොරතුරු ලොගයේ අඩංගු වේ. අවසාන පේළි වලදී ඔබට දත්ත සමුදා දෝෂයක් සොයාගත හැකිය, උදාහරණයක් ලෙස, වගුවක අද්විතීය යතුරක් උල්ලංඝනය කිරීම.
ETL දෝෂ තොරතුරු වල කාර්යභාරය කුමක්ද යන ප්රශ්නයට පිළිතුරු දීමට, මම පසුගිය වසර දෙක තුළ සිදු වූ සියලුම ගැටළු තරමක් විශාල ගබඩාවක වර්ග කළෙමි.
දත්ත සමුදා දෝෂ වලට ඇතුළත් වන්නේ: ප්රමාණවත් ඉඩක් නොතිබීම, සම්බන්ධතාවය නැති වී යාම, සැසිය එල්ලීම යනාදිය.
තාර්කික දෝෂ අතර වගු යතුරු උල්ලංඝනය කිරීම්, වලංගු නොවන වස්තූන්, වස්තූන් වෙත ප්රවේශය නොමැතිකම යනාදිය ඇතුළත් වේ.
උපලේඛනය නියමිත වේලාවට දියත් නොකළ හැකිය, කැටි විය හැක, ආදිය.
සරල වැරදි නිවැරදි කිරීමට වැඩි කාලයක් ගත නොවේ. හොඳ ETL එකකට ඒවායින් බොහොමයක් තනිවම හැසිරවිය හැකිය.
සංකීර්ණ දෝෂ හේතුවෙන් දත්ත හැසිරවීමේ ක්රියා පටිපාටි විවෘත කිරීම සහ පරීක්ෂා කිරීම සහ දත්ත මූලාශ්ර විමර්ශනය කිරීම අවශ්ය වේ. බොහෝ විට වෙනස්කම් පරීක්ෂා කිරීම සහ යෙදවීම සඳහා අවශ්යතාවයට මඟ පාදයි.
ඉතින්, සියලුම ගැටළු වලින් අඩක් දත්ත සමුදායට සම්බන්ධ වේ. සියලුම දෝෂ වලින් 48% සරල දෝෂ වේ.
සියලුම ගැටළු වලින් තුනෙන් එකක් ගබඩා තර්කනයේ හෝ ආකෘතියේ වෙනස්කම් වලට සම්බන්ධ වේ, මෙම දෝෂ වලින් අඩකට වඩා සංකීර්ණ වේ.
සියලුම ගැටළු වලින් හතරෙන් එකකට වඩා අඩු ප්රමාණයක් කාර්ය කාලසටහනට සම්බන්ධ වන අතර එයින් 18% සරල දෝෂ වේ.
සමස්තයක් වශයෙන්, සිදු වන සියලුම දෝෂ වලින් 22% ක් සංකීර්ණ වන අතර නිවැරදි කිරීමට වැඩි අවධානයක් සහ කාලය අවශ්ය වේ. ඒවා සතියකට වරක් පමණ සිදු වේ. සරල වැරදි සෑම දිනකම පාහේ සිදු වන අතර.
පැහැදිලිවම, ETL ක්රියාවලි අධීක්ෂණය කිරීම ඵලදායි වනුයේ දෝෂයේ පිහිටීම ලොගයේ හැකිතාක් නිවැරදිව දක්වා ඇති විට සහ ගැටලුවේ මූලාශ්රය සොයා ගැනීමට අවම කාලයක් අවශ්ය වන විටය.
ඵලදායී අධීක්ෂණය
ETL අධීක්ෂණ ක්රියාවලියේදී මට දැකීමට අවශ්ය වූයේ කුමක්ද?
ආරම්භ කරන්න - මම වැඩ ආරම්භ කළ විට,
මූලාශ්රය - දත්ත මූලාශ්රය,
ස්තරය - කුමන ගබඩා මට්ටම පටවා තිබේද,
ETL රැකියා නම යනු බොහෝ කුඩා පියවරයන්ගෙන් සමන්විත පැටවීමේ ක්රියා පටිපාටියකි,
පියවර අංකය - ක්රියාත්මක වන පියවර ගණන,
බලපෑමට ලක් වූ පේළි - දැනටමත් කොපමණ දත්ත සකස් කර තිබේද,
කාලසීමාව තත්පර - එය ක්රියාත්මක කිරීමට කොපමණ කාලයක් ගතවේද,
තත්ත්වය - සියල්ල හොඳ වුවත් නැතත්: හරි, දෝෂය, ධාවනය, එල්ලී ඇත
පණිවිඩය — අවසන් සාර්ථක පණිවිඩය හෝ දෝෂ විස්තරය.
වාර්තා වල තත්ත්වය මත පදනම්ව, ඔබට විද්යුත් තැපෑලක් යැවිය හැක. අනෙකුත් සහභාගිවන්නන්ට ලිපියක්. දෝෂ නොමැති නම්, ලිපියක් අවශ්ය නොවේ.
මේ ආකාරයෙන්, දෝෂයක් ඇති වූ විට, සිද්ධිය සිදුවූ ස්ථානය පැහැදිලිව දක්වා ඇත.
සමහර විට අධීක්ෂණ මෙවලමම ක්රියා නොකරන බව සිදු වේ. මෙම අවස්ථාවෙහිදී, වාර්තාව ගොඩනගා ඇති පදනම මත, දත්ත සමුදාය තුළ දර්ශනය (දර්ශනය) කෙලින්ම ඇමතීමට හැකිය.
ETL අධීක්ෂණ වගුව
ETL ක්රියාවලි අධීක්ෂණය ක්රියාත්මක කිරීම සඳහා, එක් වගුවක් සහ එක් දසුනක් ප්රමාණවත් වේ.
මෙය සිදු කිරීම සඳහා ඔබට ආපසු යා හැක
DDL වගු
CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
SID INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
LOG_DT INTEGER NOT NULL DEFAULT 0, /* Date time */
LOG_D INTEGER NOT NULL DEFAULT 0, /* Date */
JOB_NAME TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
STEP_NAME TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
STEP_DESCR TEXT, /* Description of task or error message */
UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);
DDL බලන්න/වාර්තා කරන්න
CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
SELECT LOG_D,
LOG_DT,
UTL_JOB_STATUS_ID,
SID,
CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
ELSE 'N/A' END AS LAYER,
CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
ELSE 'N/A' END AS SOURCE,
JOB_NAME,
STEP_NAME,
CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
FROM UTL_JOB_STATUS
WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
JB.MIN_LOG_DT AS START_DT,
strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
JB.SOURCE,
JB.LAYER,
JB.JOB_NAME,
CASE
WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
ELSE 'OK'
END AS STATUS,
ERR.STEP_LOG AS STEP_LOG,
JB.CNT AS STEP_CNT,
JB.AFFECTED_ROWS AS AFFECTED_ROWS,
strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
( SELECT SID, SOURCE, LAYER, JOB_NAME,
MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
MAX(START_FLAG) AS START_FLAG,
MAX(END_FLAG) AS END_FLAG,
MAX(ERROR_FLAG) AS ERROR_FLAG,
MIN(LOG_DT) AS MIN_LOG_DT,
MAX(LOG_DT) AS MAX_LOG_DT,
SUM(1) AS CNT,
SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
FROM SRC
GROUP BY SID, SOURCE, LAYER, JOB_NAME
) JB,
( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
FROM SRC
WHERE 1 = 1
) ERR
WHERE 1 = 1
AND JB.SID = ERR.SID
AND JB.JOB_NAME = ERR.JOB_NAME
AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;
SQL නව සැසි අංකයක් ලබා ගැනීමේ හැකියාව පරීක්ෂා කිරීම
SELECT SUM (
CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
THEN 1 ELSE 0
END ) AS IS_RUNNING
FROM
( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
LEFT OUTER JOIN
( SELECT JOB_NAME, SID, 1 AS dummy
FROM UTL_JOB_STATUS
WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
AND STEP_NAME = 'ETL_START'
GROUP BY JOB_NAME, SID
) start_job /* starts */
ON d_job.dummy = start_job.dummy
LEFT OUTER JOIN
( SELECT JOB_NAME, SID
FROM UTL_JOB_STATUS
WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
GROUP BY JOB_NAME, SID
) end_job /* ends */
ON start_job.JOB_NAME = end_job.JOB_NAME
AND start_job.SID = end_job.SID
වගු විශේෂාංග:
- දත්ත සැකසීමේ ක්රියාවලියේ ආරම්භය සහ අවසානය ETL_START සහ ETL_END පියවර සමඟින් තිබිය යුතුය
- දෝෂයක් ඇති වුවහොත්, එහි විස්තරය සමඟ ETL_ERROR පියවරක් සෑදිය යුතුය
- සැකසූ දත්ත ප්රමාණය උද්දීපනය කළ යුතුය, උදාහරණයක් ලෙස, තරු ලකුණු සමඟ
- එම ක්රියා පටිපාටියම force_restart=y පරාමිතිය සමඟ එකවර ආරම්භ කළ හැක, සැසි අංකය නිකුත් කරනු ලබන්නේ සම්පුර්ණ කරන ලද ක්රියා පටිපාටියට පමණි
- සාමාන්ය ප්රකාරයේදී එකම දත්ත සැකසුම් ක්රියාවලිය සමාන්තරව ක්රියාත්මක කළ නොහැක
වගුව සමඟ වැඩ කිරීම සඳහා අවශ්ය මෙහෙයුම් පහත දැක්වේ:
- දියත් කෙරෙන ETL පටිපාටියේ සැසි අංකය ලබා ගැනීම
- වගුවකට ලොග් සටහනක් ඇතුල් කිරීම
- ETL පටිපාටියක අවසාන සාර්ථක වාර්තාව ලබා ගැනීම
Oracle හෝ Postgres වැනි දත්ත සමුදායන් තුළ, මෙම මෙහෙයුම් ගොඩනඟන ලද කාර්යයන් සමඟ ක්රියාත්මක කළ හැක. sqlite සඳහා බාහිර යාන්ත්රණයක් අවශ්ය වන අතර මේ අවස්ථාවේ දී එය
නිගමනය
මේ අනුව, දත්ත සැකසුම් මෙවලම්වල දෝෂ වාර්තා කිරීම මෙගා-වැදගත් කාර්යභාරයක් ඉටු කරයි. නමුත් ගැටලුවට හේතුව ඉක්මනින් සොයා ගැනීම සඳහා ඒවා ප්රශස්ත ලෙස හැඳින්විය නොහැක. ක්රියා පටිපාටි ගණන සියයකට ළඟා වන විට, ක්රියාවලි අධීක්ෂණය සංකීර්ණ ව්යාපෘතියක් බවට පත්වේ.
ලිපිය මූලාකෘති ස්වරූපයෙන් ගැටලුවට විසඳුමක් සඳහා උදාහරණයක් සපයයි. කුඩා ගබඩාවේ සම්පූර්ණ මූලාකෘතිය gitlab හි ඇත
මූලාශ්රය: www.habr.com