Mnozí používají specializované nástroje k vytváření procedur pro extrakci, transformaci a načítání dat do relačních databází. Proces pracovních nástrojů je protokolován, chyby jsou opraveny.
V případě chyby obsahuje protokol informaci, že nástroji se nepodařilo dokončit úlohu a které moduly (často java) se kde zastavily. V posledních řádcích můžete najít chybu databáze, například porušení jedinečného klíče tabulky.
Abych odpověděl na otázku, jakou roli hrají informace o chybách ETL, klasifikoval jsem všechny problémy, které se vyskytly za poslední dva roky, do poměrně velkého úložiště.
Chyby databáze zahrnují nedostatek místa, ztracené připojení, pozastavení relace atd.
Mezi logické chyby patří porušení klíčů tabulky, neplatné objekty, nedostatečný přístup k objektům atd.
Plánovač se nemusí spustit včas, může zamrznout atd.
Jednoduché chyby na sebe nenechají dlouho čekat. Dobrý ETL většinu z nich zvládne sám.
Kvůli složitým chybám je nutné objevovat a testovat postupy pro práci s daty, prozkoumávat zdroje dat. Často vede k potřebě testování změn a nasazení.
Polovina všech problémů se tedy týká databáze. 48 % všech chyb jsou jednoduché chyby.
Třetina všech problémů souvisí se změnou logiky úložiště nebo modelu, více než polovina těchto chyb je složitých.
A méně než čtvrtina všech problémů souvisí s plánovačem úloh, 18 % z nich jsou jednoduché chyby.
Obecně platí, že 22 % všech chyb, které se vyskytnou, je komplexních a jejich náprava vyžaduje nejvíce pozornosti a času. Konají se zhruba jednou týdně. Zatímco jednoduché chyby se stávají téměř každý den.
Je zřejmé, že monitorování procesů ETL bude účinné, když je místo chyby uvedeno v protokolu co nejpřesněji a pokud je k nalezení zdroje problému vyžadována minimální doba.
Efektivní sledování
Co jsem chtěl vidět v procesu monitorování ETL?
Začni v - když začal pracovat,
Zdroj - zdroj dat,
Vrstva - jaká úroveň úložiště se načítá,
ETL Job Name - postup nahrávání, který se skládá z mnoha malých kroků,
Číslo kroku - číslo prováděného kroku,
Dotčené řádky – kolik dat již bylo zpracováno,
Doba trvání s - jak dlouho to trvá,
Stav - zda je vše v pořádku nebo ne: OK, CHYBA, RUNNING, HANGS
Zpráva – Poslední úspěšná zpráva nebo popis chyby.
Na základě stavu záznamů můžete odeslat e-mail. dopis ostatním členům. Pokud nejsou žádné chyby, pak dopis není nutný.
V případě chyby je tedy jasně uvedeno místo incidentu.
Někdy se stane, že samotný monitorovací nástroj nefunguje. V tomto případě je možné přímo v databázi zavolat pohled (view), na jehož základě je sestava sestavena.
Monitorovací tabulka ETL
Pro implementaci monitorování ETL procesů stačí jedna tabulka a jeden pohled.
Chcete-li to provést, můžete se vrátit k
DDL tabulky
CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
SID INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
LOG_DT INTEGER NOT NULL DEFAULT 0, /* Date time */
LOG_D INTEGER NOT NULL DEFAULT 0, /* Date */
JOB_NAME TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
STEP_NAME TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
STEP_DESCR TEXT, /* Description of task or error message */
UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);
Zobrazit/nahlásit DDL
CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
SELECT LOG_D,
LOG_DT,
UTL_JOB_STATUS_ID,
SID,
CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
ELSE 'N/A' END AS LAYER,
CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
ELSE 'N/A' END AS SOURCE,
JOB_NAME,
STEP_NAME,
CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
FROM UTL_JOB_STATUS
WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
JB.MIN_LOG_DT AS START_DT,
strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
JB.SOURCE,
JB.LAYER,
JB.JOB_NAME,
CASE
WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
ELSE 'OK'
END AS STATUS,
ERR.STEP_LOG AS STEP_LOG,
JB.CNT AS STEP_CNT,
JB.AFFECTED_ROWS AS AFFECTED_ROWS,
strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
( SELECT SID, SOURCE, LAYER, JOB_NAME,
MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
MAX(START_FLAG) AS START_FLAG,
MAX(END_FLAG) AS END_FLAG,
MAX(ERROR_FLAG) AS ERROR_FLAG,
MIN(LOG_DT) AS MIN_LOG_DT,
MAX(LOG_DT) AS MAX_LOG_DT,
SUM(1) AS CNT,
SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
FROM SRC
GROUP BY SID, SOURCE, LAYER, JOB_NAME
) JB,
( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
FROM SRC
WHERE 1 = 1
) ERR
WHERE 1 = 1
AND JB.SID = ERR.SID
AND JB.JOB_NAME = ERR.JOB_NAME
AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;
SQL Kontrola, zda je možné získat nové číslo relace
SELECT SUM (
CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
THEN 1 ELSE 0
END ) AS IS_RUNNING
FROM
( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
LEFT OUTER JOIN
( SELECT JOB_NAME, SID, 1 AS dummy
FROM UTL_JOB_STATUS
WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
AND STEP_NAME = 'ETL_START'
GROUP BY JOB_NAME, SID
) start_job /* starts */
ON d_job.dummy = start_job.dummy
LEFT OUTER JOIN
( SELECT JOB_NAME, SID
FROM UTL_JOB_STATUS
WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
GROUP BY JOB_NAME, SID
) end_job /* ends */
ON start_job.JOB_NAME = end_job.JOB_NAME
AND start_job.SID = end_job.SID
Vlastnosti stolu:
- po zahájení a ukončení procesu zpracování dat musí následovat kroky ETL_START a ETL_END
- v případě chyby by měl být vytvořen krok ETL_ERROR s jeho popisem
- množství zpracovávaných dat je vhodné zvýraznit např. hvězdičkami
- stejná procedura může být spuštěna současně s parametrem force_restart=y, bez něj je číslo relace přiděleno pouze dokončené proceduře
- v normálním režimu nemůžete spustit stejnou proceduru zpracování dat paralelně
Nezbytné operace pro práci s tabulkou jsou následující:
- získání čísla relace běžící procedury ETL
- vložte záznam protokolu do tabulky
- získání posledního úspěšného záznamu procedury ETL
V databázích, jako je Oracle nebo Postgres, lze tyto operace implementovat jako vestavěné funkce. sqlite vyžaduje externí mechanismus a v tomto případě jej
Výkon
Chybová hlášení v nástrojích pro zpracování dat tedy hrají velmi důležitou roli. Těžko je ale označit za optimální pro rychlé nalezení příčiny problému. Když se počet procedur blíží stovce, pak se z monitorování procesů stává komplexní projekt.
V článku je uveden příklad možného řešení problému v podobě prototypu. Celý prototyp malého úložiště je dostupný v gitlabu
Zdroj: www.habr.com