ETL-prosessien seuranta pienessä tietovarastossa

Monet käyttävät erikoistyökaluja luodakseen menetelmiä tietojen purkamiseksi, muuntamiseksi ja lataamiseksi relaatiotietokantoihin. Työkalujen prosessi kirjataan lokiin, virheet korjataan.

Virheen sattuessa loki sisältää tiedot siitä, että työkalu ei suorittanut tehtävää loppuun ja mitkä moduulit (usein java) pysähtyivät missä. Viimeisiltä riveiltä löytyy tietokantavirhe, esimerkiksi taulukon yksilöllisen avaimen rikkomus.

Vastatakseni kysymykseen, mikä rooli ETL-virhetiedolla on, olen luokitellut kaikki viimeisen kahden vuoden aikana ilmenneet ongelmat melko suureen arkistoon.

ETL-prosessien seuranta pienessä tietovarastossa

Tietokantavirheitä ovat esimerkiksi tilan puute, yhteyden katkeaminen, istuntojen katkeaminen jne.

Loogisia virheitä ovat esimerkiksi taulukon avainten rikkomukset, virheelliset objektit, objektien pääsyn puute jne.
Ajastin ei ehkä käynnisty ajoissa, se voi jäätyä jne.

Yksinkertaisten virheiden korjaaminen ei vie kauan. Hyvä ETL pystyy käsittelemään useimmat niistä yksin.

Monimutkaiset bugit edellyttävät tietojen löytämistä ja testaamista, tietolähteiden tutkimista. Ne johtavat usein muutosten testauksen ja käyttöönoton tarpeeseen.

Joten puolet kaikista ongelmista liittyy tietokantaan. 48 % kaikista virheistä on yksinkertaisia ​​virheitä.
Kolmannes kaikista ongelmista liittyy tallennuslogiikan tai -mallin vaihtamiseen, yli puolet näistä virheistä on monimutkaisia.

Ja alle neljännes kaikista ongelmista liittyy tehtävien ajoitukseen, joista 18 % on yksinkertaisia ​​virheitä.

Yleisesti ottaen 22 % kaikista esiintyvistä virheistä on monimutkaisia, ja niiden korjaaminen vaatii eniten huomiota ja aikaa. Niitä tapahtuu noin kerran viikossa. Yksinkertaisia ​​virheitä tapahtuu melkein joka päivä.

Ilmeisesti ETL-prosessien seuranta on tehokasta, kun virheen sijainti ilmoitetaan lokissa mahdollisimman tarkasti ja ongelman lähteen löytämiseen kuluu mahdollisimman vähän aikaa.

Tehokas seuranta

Mitä halusin nähdä ETL-valvontaprosessissa?

ETL-prosessien seuranta pienessä tietovarastossa
Aloita - kun hän aloitti työt,
Lähde - tietolähde,
Kerros - minkä tasoinen tallennustila ladataan,
ETL Job Name - latausprosessi, joka koostuu monista pienistä vaiheista,
Vaiheen numero - suoritettavan vaiheen numero,
Vaikutetut rivit – kuinka paljon dataa on jo käsitelty,
Kesto s - kuinka kauan se kestää,
Tila - onko kaikki hyvin vai ei: OK, VIRHE, KÄYNNISSÄ, RIPUTA
Viesti - Viimeisin onnistunut viesti tai virheen kuvaus.

Tietueiden tilan perusteella voit lähettää sähköpostia. kirje muille jäsenille. Jos virheitä ei ole, kirjettä ei tarvita.

Näin ollen virheen sattuessa tapahtumapaikka ilmoitetaan selvästi.

Joskus käy niin, että itse valvontatyökalu ei toimi. Tällöin on mahdollista kutsua suoraan tietokantaan näkymä (näkymä), jonka perusteella raportti rakennetaan.

ETL-valvontataulukko

ETL-prosessien valvonnan toteuttamiseen riittää yksi taulukko ja yksi näkymä.

Voit tehdä tämän palaamalla kohtaan sinun pieni säilytystila ja luo prototyyppi sqlite-tietokantaan.

DDL taulukot

CREATE TABLE UTL_JOB_STATUS (
/* Table for logging of job execution log. Important that the job has the steps ETL_START and ETL_END or ETL_ERROR */
  UTL_JOB_STATUS_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  SID               INTEGER NOT NULL DEFAULT -1, /* Session Identificator. Unique for every Run of job */
  LOG_DT            INTEGER NOT NULL DEFAULT 0,  /* Date time */
  LOG_D             INTEGER NOT NULL DEFAULT 0,  /* Date */
  JOB_NAME          TEXT NOT NULL DEFAULT 'N/A', /* Job name like JOB_STG2DM_GEO */
  STEP_NAME         TEXT NOT NULL DEFAULT 'N/A', /* ETL_START, ... , ETL_END/ETL_ERROR */
  STEP_DESCR        TEXT,                        /* Description of task or error message */
  UNIQUE (SID, JOB_NAME, STEP_NAME)
);
INSERT INTO UTL_JOB_STATUS (UTL_JOB_STATUS_ID) VALUES (-1);

Näytä/ilmoita DDL

CREATE VIEW IF NOT EXISTS UTL_JOB_STATUS_V
AS /* Content: Package Execution Log for last 3 Months. */
WITH SRC AS (
  SELECT LOG_D,
    LOG_DT,
    UTL_JOB_STATUS_ID,
    SID,
	CASE WHEN INSTR(JOB_NAME, 'FTP') THEN 'TRANSFER' /* file transfer */
	     WHEN INSTR(JOB_NAME, 'STG') THEN 'STAGE' /* stage */
	     WHEN INSTR(JOB_NAME, 'CLS') THEN 'CLEANSING' /* cleansing */
	     WHEN INSTR(JOB_NAME, 'DIM') THEN 'DIMENSION' /* dimension */
	     WHEN INSTR(JOB_NAME, 'FCT') THEN 'FACT' /* fact */
		 WHEN INSTR(JOB_NAME, 'ETL') THEN 'STAGE-MART' /* data mart */
	     WHEN INSTR(JOB_NAME, 'RPT') THEN 'REPORT' /* report */
	     ELSE 'N/A' END AS LAYER,
	CASE WHEN INSTR(JOB_NAME, 'ACCESS') THEN 'ACCESS LOG' /* source */
	     WHEN INSTR(JOB_NAME, 'MASTER') THEN 'MASTER DATA' /* source */
	     WHEN INSTR(JOB_NAME, 'AD-HOC') THEN 'AD-HOC' /* source */
	     ELSE 'N/A' END AS SOURCE,
    JOB_NAME,
    STEP_NAME,
    CASE WHEN STEP_NAME='ETL_START' THEN 1 ELSE 0 END AS START_FLAG,
    CASE WHEN STEP_NAME='ETL_END' THEN 1 ELSE 0 END AS END_FLAG,
    CASE WHEN STEP_NAME='ETL_ERROR' THEN 1 ELSE 0 END AS ERROR_FLAG,
    STEP_NAME || ' : ' || STEP_DESCR AS STEP_LOG,
	SUBSTR( SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), 1, INSTR(SUBSTR(STEP_DESCR, INSTR(STEP_DESCR, '***')+4), '***')-2 ) AS AFFECTED_ROWS
  FROM UTL_JOB_STATUS
  WHERE datetime(LOG_D, 'unixepoch') >= date('now', 'start of month', '-3 month')
)
SELECT JB.SID,
  JB.MIN_LOG_DT AS START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS LOG_DT,
  JB.SOURCE,
  JB.LAYER,
  JB.JOB_NAME,
  CASE
  WHEN JB.ERROR_FLAG = 1 THEN 'ERROR'
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 AND strftime('%s','now') - JB.MIN_LOG_DT > 0.5*60*60 THEN 'HANGS' /* half an hour */
  WHEN JB.ERROR_FLAG = 0 AND JB.END_FLAG = 0 THEN 'RUNNING'
  ELSE 'OK'
  END AS STATUS,
  ERR.STEP_LOG     AS STEP_LOG,
  JB.CNT           AS STEP_CNT,
  JB.AFFECTED_ROWS AS AFFECTED_ROWS,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MIN_LOG_DT, 'unixepoch')) AS JOB_START_DT,
  strftime('%d.%m.%Y %H:%M', datetime(JB.MAX_LOG_DT, 'unixepoch')) AS JOB_END_DT,
  JB.MAX_LOG_DT - JB.MIN_LOG_DT AS JOB_DURATION_SEC
FROM
  ( SELECT SID, SOURCE, LAYER, JOB_NAME,
           MAX(UTL_JOB_STATUS_ID) AS UTL_JOB_STATUS_ID,
           MAX(START_FLAG)       AS START_FLAG,
           MAX(END_FLAG)         AS END_FLAG,
           MAX(ERROR_FLAG)       AS ERROR_FLAG,
           MIN(LOG_DT)           AS MIN_LOG_DT,
           MAX(LOG_DT)           AS MAX_LOG_DT,
           SUM(1)                AS CNT,
           SUM(IFNULL(AFFECTED_ROWS, 0)) AS AFFECTED_ROWS
    FROM SRC
    GROUP BY SID, SOURCE, LAYER, JOB_NAME
  ) JB,
  ( SELECT UTL_JOB_STATUS_ID, SID, JOB_NAME, STEP_LOG
    FROM SRC
    WHERE 1 = 1
  ) ERR
WHERE 1 = 1
  AND JB.SID = ERR.SID
  AND JB.JOB_NAME = ERR.JOB_NAME
  AND JB.UTL_JOB_STATUS_ID = ERR.UTL_JOB_STATUS_ID
ORDER BY JB.MIN_LOG_DT DESC, JB.SID DESC, JB.SOURCE;

SQL Tarkistaa, onko mahdollista saada uusi istuntonumero

SELECT SUM (
  CASE WHEN start_job.JOB_NAME IS NOT NULL AND end_job.JOB_NAME IS NULL /* existed job finished */
	    AND NOT ( 'y' = 'n' ) /* force restart PARAMETER */
       THEN 1 ELSE 0
  END ) AS IS_RUNNING
  FROM
    ( SELECT 1 AS dummy FROM UTL_JOB_STATUS WHERE sid = -1) d_job
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID, 1 AS dummy
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG' /* job name PARAMETER */
	    AND STEP_NAME = 'ETL_START'
      GROUP BY JOB_NAME, SID
    ) start_job /* starts */
  ON d_job.dummy = start_job.dummy
  LEFT OUTER JOIN
    ( SELECT JOB_NAME, SID
      FROM UTL_JOB_STATUS
      WHERE JOB_NAME = 'RPT_ACCESS_LOG'  /* job name PARAMETER */
	    AND STEP_NAME in ('ETL_END', 'ETL_ERROR') /* stop status */
      GROUP BY JOB_NAME, SID
    ) end_job /* ends */
  ON start_job.JOB_NAME = end_job.JOB_NAME
     AND start_job.SID = end_job.SID

Pöydän ominaisuudet:

  • tietojenkäsittelyn alkua ja loppua on seurattava vaiheet ETL_START ja ETL_END
  • virheen sattuessa tulee luoda ETL_ERROR-vaihe kuvausineen
  • käsiteltyjen tietojen määrä tulee korostaa esimerkiksi tähdellä
  • sama proseduuri voidaan käynnistää samaan aikaan parametrilla force_restart=y, ilman sitä istuntonumero annetaan vain valmiille proseduurille
  • normaalitilassa et voi suorittaa samaa tietojenkäsittelyprosessia rinnakkain

Taulukon kanssa työskentelyyn tarvittavat toiminnot ovat seuraavat:

  • saada käynnissä olevan ETL-proseduurin istuntonumero
  • lisää lokimerkintä taulukkoon
  • saada viimeinen onnistunut tietue ETL-menettelystä

Tietokannassa, kuten Oracle tai Postgres, nämä toiminnot voidaan toteuttaa sisäänrakennetuina funktioina. sqlite vaatii ulkoisen mekanismin, ja tässä tapauksessa sen prototyyppi PHP:llä.

johtopäätös

Näin ollen tietojenkäsittelytyökalujen virheilmoituksilla on mega tärkeä rooli. Mutta niitä on vaikea kutsua optimaaliseksi ongelman syyn nopeaan löytämiseen. Kun toimenpiteiden määrä lähestyy sataa, prosessien seuranta muuttuu monimutkaiseksi projektiksi.

Artikkelissa on esimerkki mahdollisesta ratkaisusta ongelmaan prototyypin muodossa. Koko pienen arkiston prototyyppi on saatavilla gitlabissa SQLite PHP ETL -apuohjelmat.

Lähde: will.com

Lisää kommentti