Kísérlet egy ASH analóg létrehozására a PostgreSQL számára
Probléma nyilatkozat
A PostgreSQL-lekérdezések optimalizálásához nagyon szükséges a tevékenységi előzmények, különösen a várakozások, zárolások és táblázatstatisztikák elemzésének képessége.
pgsentinel kiterjesztés :
«Az összes felhalmozott információ csak a RAM-ban tárolódik, és a felhasznált memória mennyiségét az utoljára tárolt rekordok száma szabályozza.
A queryid mező hozzáadásra kerül – ugyanaz a lekérdezési azonosító a pg_stat_statements bővítményből (előzetes telepítés szükséges).«
Ez persze sokat segítene, de a legproblémásabb az első pont.”Az összes felhalmozott információt csak a RAM tárolja ”, azaz. hatással van a célbázisra. Ezenkívül nincs zárolási előzmény és táblázatstatisztika. Azok. a megoldás általában nem teljes: "Még nincs kész csomag a telepítéshez. Javasoljuk, hogy saját maga töltse le a forrásokat és állítsa össze a könyvtárat. Először telepítenie kell a "devel" csomagot a kiszolgálóhoz, és be kell állítania a pg_config elérési utat a PATH változóban.".
Általában nagy a felhajtás, és komoly éles adatbázisok esetén nem biztos, hogy a szerverrel lehet mit kezdeni. Megint ki kell találnunk valamit a magunkéval.
Figyelmeztetés.
A meglehetősen nagy terjedelem és a hiányos tesztelési időszak miatt a cikk elsősorban tájékoztató jellegű, inkább tézisek és köztes eredmények összessége.
Részletesebb anyag a későbbiekben, részletekben készül el
A megoldás követelményeinek tervezete
Olyan eszközt kell kifejleszteni, amely lehetővé teszi a következők tárolását:
pg_stat_activity megtekintési előzmények Munkamenet zárolási előzmények a pg_locks nézet használatával
Megoldási igény– minimalizálja a céladatbázisra gyakorolt hatást.
Alapgondolat– az adatgyűjtő ügynök nem a céladatbázisban, hanem a monitoring adatbázisban, rendszerszolgáltatásként indul el. Igen, lehetséges némi adatvesztés, de ez nem kritikus a jelentéskészítéshez, de nincs hatással a céladatbázisra a memória és a lemezterület tekintetében. A kapcsolatkészlet használata esetén pedig minimális a felhasználói folyamatokra gyakorolt hatás.
A megvalósítás szakaszai
1.Szolgáltató táblák
A táblák tárolására külön sémát használnak, hogy ne bonyolítsák a használt fő táblák elemzését.
DROP SCHEMA IF EXISTS activity_hist ;
CREATE SCHEMA activity_hist AUTHORIZATION monitor ;
Fontos: A séma nem a céladatbázisban, hanem a megfigyelési adatbázisban jön létre.
pg_stat_activity megtekintési előzmények
Egy táblázat a pg_stat_activity nézet aktuális pillanatképeinek tárolására szolgál
activity_hist.history_pg_stat_activity :
--ACTIVITY_HIST.HISTORY_PG_STAT_ACTIVITY
DROP TABLE IF EXISTS activity_hist.history_pg_stat_activity;
CREATE TABLE activity_hist.history_pg_stat_activity
(
timepoint timestamp without time zone ,
datid oid ,
datname name ,
pid integer,
usesysid oid ,
usename name ,
application_name text ,
client_addr inet ,
client_hostname text ,
client_port integer,
backend_start timestamp with time zone ,
xact_start timestamp with time zone ,
query_start timestamp with time zone ,
state_change timestamp with time zone ,
wait_event_type text ,
wait_event text ,
state text ,
backend_xid xid ,
backend_xmin xid ,
query text ,
backend_type text ,
queryid bigint
);
A beillesztés felgyorsítása érdekében - nincs index vagy korlátozás.
Az előzmények tárolásához egy particionált tábla használatos:
activity_hist.archive_pg_stat_activity :
DROP TABLE IF EXISTS activity_hist.archive_pg_stat_activity;
CREATE TABLE activity_hist.archive_pg_stat_activity
(
timepoint timestamp without time zone ,
datid oid ,
datname name ,
pid integer,
usesysid oid ,
usename name ,
application_name text ,
client_addr inet ,
client_hostname text ,
client_port integer,
backend_start timestamp with time zone ,
xact_start timestamp with time zone ,
query_start timestamp with time zone ,
state_change timestamp with time zone ,
wait_event_type text ,
wait_event text ,
state text ,
backend_xid xid ,
backend_xmin xid ,
query text ,
backend_type text ,
queryid bigint
)
PARTITION BY RANGE (timepoint);
Mivel ebben az esetben nincs követelmény a beillesztési sebességre vonatkozóan, néhány index készült a jelentések létrehozásának felgyorsítására.
Munkamenet blokkolási előzmények
Egy táblázat a munkamenet zárolásának aktuális pillanatképeinek tárolására szolgál:
activity_hist.history_locking :
--ACTIVITY_HIST.HISTORY_LOCKING
DROP TABLE IF EXISTS activity_hist.history_locking;
CREATE TABLE activity_hist.history_locking
(
timepoint timestamp without time zone ,
locktype text ,
relation oid ,
mode text ,
tid xid ,
vtid text ,
pid integer ,
blocking_pids integer[] ,
granted boolean
);
Ezenkívül a beillesztés felgyorsítása érdekében nincsenek indexek vagy korlátozások.
Az előzmények tárolásához egy particionált tábla használatos:
activity_hist.archive_locking:
DROP TABLE IF EXISTS activity_hist.archive_locking;
CREATE TABLE activity_hist.archive_locking
(
timepoint timestamp without time zone ,
locktype text ,
relation oid ,
mode text ,
tid xid ,
vtid text ,
pid integer ,
blocking_pids integer[] ,
granted boolean
)
PARTITION BY RANGE (timepoint);
Mivel ebben az esetben nincs követelmény a beillesztési sebességre vonatkozóan, néhány index készült a jelentések létrehozásának felgyorsítására.
2. Az aktuális előzmények kitöltése
A nézet pillanatképeinek közvetlen gyűjtéséhez egy bash szkriptet használnak, amely a plpgsql függvényt futtatja.
plpgsql A dblink függvény eléri a céladatbázis nézeteit, és sorokat szúr be a megfigyelési adatbázis szolgáltatástábláiba.
get_current_activity.sql
CREATE OR REPLACE FUNCTION activity_hist.get_current_activity( current_host text , current_s_name text , current_s_pass text ) RETURNS BOOLEAN AS $$
DECLARE
database_rec record;
dblink_str text ;
BEGIN
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||current_host||' port=5432 dbname=postgres'||
' user='||current_s_name||' password='||current_s_pass|| ' '')';
--------------------------------------------------------------------
--GET pg_stat_activity stats
INSERT INTO activity_hist.history_pg_stat_activity
(
SELECT * FROM dblink('LINK1',
'SELECT
now() ,
datid ,
datname ,
pid ,
usesysid ,
usename ,
application_name ,
client_addr ,
client_hostname ,
client_port ,
backend_start ,
xact_start ,
query_start ,
state_change ,
wait_event_type ,
wait_event ,
state ,
backend_xid ,
backend_xmin ,
query ,
backend_type
FROM pg_stat_activity
')
AS t (
timepoint timestamp without time zone ,
datid oid ,
datname name ,
pid integer,
usesysid oid ,
usename name ,
application_name text ,
client_addr inet ,
client_hostname text ,
client_port integer,
backend_start timestamp with time zone ,
xact_start timestamp with time zone ,
query_start timestamp with time zone ,
state_change timestamp with time zone ,
wait_event_type text ,
wait_event text ,
state text ,
backend_xid xid ,
backend_xmin xid ,
query text ,
backend_type text
)
);
---------------------------------------
--ACTIVITY_HIST.HISTORY_LOCKING
INSERT INTO activity_hist.history_locking
(
SELECT * FROM dblink('LINK1',
'SELECT
now() ,
lock.locktype,
lock.relation,
lock.mode,
lock.transactionid as tid,
lock.virtualtransaction as vtid,
lock.pid,
pg_blocking_pids(lock.pid),
lock.granted
FROM pg_catalog.pg_locks lock LEFT JOIN pg_catalog.pg_database db ON db.oid = lock.database
WHERE NOT lock.pid = pg_backend_pid()
')
AS t (
timepoint timestamp without time zone ,
locktype text ,
relation oid ,
mode text ,
tid xid ,
vtid text ,
pid integer ,
blocking_pids integer[] ,
granted boolean
)
);
PERFORM dblink_disconnect('LINK1');
RETURN TRUE ;
END
$$ LANGUAGE plpgsql;
A nézet pillanatképeinek gyűjtéséhez a systemd szolgáltatást és két szkriptet használunk:
pg_current_activity.service
# /etc/systemd/system/pg_current_activity.service
[Unit]
Description=Collect history of pg_stat_activity , pg_locks
Wants=pg_current_activity.timer
[Service]
Type=forking
StartLimitIntervalSec=0
ExecStart=/home/postgres/pgutils/demon/get_current_activity.sh 10.124.70.40 postgres postgres
[Install]
WantedBy=multi-user.target
pg_current_activity.timer
# /etc/systemd/system/pg_current_activity.timer
[Unit]
Description=Run pg_current_activity.sh every 1 second
Requires=pg_current_activity.service
[Timer]
Unit=pg_current_activity.service
OnCalendar=*:*:0/1
AccuracySec=1
[Install]
WantedBy=timers.target
Kezdjük a szolgáltatással:
# systemctl daemon-reload
# systemctl start pg_current_activity.service
Így a nézetek története másodpercről-másodpercre pillanatfelvételek formájában gyűlik össze. Természetesen, ha mindent úgy hagyunk, ahogy van, az asztalok nagyon gyorsan megnőnek, és a többé-kevésbé produktív munka lehetetlenné válik.
Szükséges az adatarchiválás megszervezése.
3. Archiválási előzmények
Az archiváláshoz a particionált táblák archívumát* használják.
Óránként új partíciók jönnek létre, miközben a régi adatok eltávolításra kerülnek az előzmények* táblákból, így az előzmények* táblák mérete nem sokat változik, és a beillesztési sebesség sem csökken az idő múlásával.
Az új szakaszok létrehozását az activity_hist.archive_current_activity plpgsql függvény végzi. A munka algoritmusa nagyon egyszerű (az archive_pg_stat_activity tábla szakaszának példájával).
Hozzon létre és töltsön ki egy új részt
EXECUTE format(
'CREATE TABLE ' || partition_name ||
' PARTITION OF activity_hist.archive_pg_stat_activity FOR VALUES FROM ( %L ) TO ( %L ) ' ,
to_char(date_trunc('year', partition_min_range ),'YYYY')||'-'||
to_char(date_trunc('month', partition_min_range ),'MM')||'-'||
to_char(date_trunc('day', partition_min_range ),'DD')||' '||
to_char(date_trunc('hour', partition_min_range ),'HH24')||':00',
to_char(date_trunc('year', partition_max_range ),'YYYY')||'-'||
to_char(date_trunc('month', partition_max_range ),'MM')||'-'||
to_char(date_trunc('day', partition_max_range ),'DD')||' '||
to_char(date_trunc('hour', partition_max_range ),'HH24')||':00'
);
INSERT INTO activity_hist.archive_pg_stat_activity
(
SELECT *
FROM activity_hist.history_pg_stat_activity
WHERE timepoint BETWEEN partition_min_range AND partition_max_range
);
Indexek létrehozása
EXECUTE format (
'CREATE INDEX '||index_name||
' ON '||partition_name||' ( wait_event_type , backend_type , timepoint )'
);
EXECUTE format ('CREATE INDEX '||index_name||
' ON '||partition_name||' ( wait_event_type , backend_type , timepoint , queryid )'
);
Régi adatok eltávolítása a history_pg_stat_activity táblából
DELETE
FROM activity_hist.history_pg_stat_activity
WHERE timepoint < partition_max_range;
Természetesen időről időre a régi részeket szükségtelenül töröljük.
Alapvető jelentések
Tulajdonképpen miért történik mindez? Az Oracle AWR-ére nagyon homályosan emlékeztető jelentések beszerzése.
Fontos hozzátenni, hogy a jelentések fogadásához kapcsolatot kell építeni a pg_stat_activity és a pg_stat_statements nézetek között. A táblák összekapcsolása egy "queryid" oszlop hozzáadásával történik a "history_pg_stat_activity", "archive_pg_stat_activity" táblákhoz. Az oszlopérték hozzáadásának módja túlmutat e cikk hatókörén, és itt ismertetjük − pg_stat_statements + pg_stat_activity + loq_query = pg_ash? .
TELJES CPU IDŐ A KÉRDÉSEKHEZ
Kérés :
WITH hist AS
(
SELECT
aa.query ,aa.queryid ,
count(*) * interval '1 second' AS duration
FROM activity_hist.archive_pg_stat_activity aa
WHERE timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND backend_type = 'client backend' AND datname != 'postgres' AND ( aa.wait_event_type IS NULL ) ANDaa.state = 'active'
GROUP BY aa.wait_event_type , aa.wait_event , aa.query ,aa.queryid
UNION
SELECT
ha.query ,ha.queryid,
count(*) * interval '1 second' AS duration
FROM activity_hist.history_pg_stat_activity_for_reports ha
WHERE timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND backend_type = 'client backend' AND datname != 'postgres' AND ( ha.wait_event_type IS NULL )AND ha.state = 'active'
GROUP BY ha.wait_event_type , ha.wait_event , ha.query ,ha.queryid
)
SELECT query , queryid , SUM( duration ) as duration
FROM hist
GROUP BY query , queryid
ORDER BY 3 DESC
WITH hist AS
(
SELECT
aa.query ,aa.queryid ,
count(*) * interval '1 second' AS duration
FROM activity_hist.archive_pg_stat_activity aa
WHERE timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
backend_type = 'client backend' AND datname != 'postgres' AND
( aa.wait_event_type IS NOT NULL )
GROUP BY aa.wait_event_type , aa.wait_event , aa.query ,aa.queryid
UNION
SELECT
ha.query ,ha.queryid,
count(*) * interval '1 second' AS duration
FROM activity_hist.history_pg_stat_activity_for_reports ha
WHERE timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
backend_type = 'client backend' AND datname != 'postgres' AND
( ha.wait_event_type IS NOT NULL )
GROUP BY ha.wait_event_type , ha.wait_event , ha.query ,ha.queryid
)
SELECT query , queryid , SUM( duration ) as duration
FROM hist
GROUP BY query , queryid
ORDER BY 3 DESC
WITH hist AS
(
SELECT
aa.wait_event_type , aa.wait_event
FROM activity_hist.archive_pg_stat_activity aa
WHERE timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
backend_type = 'client backend' AND datname != 'postgres' AND
aa.wait_event IS NOT NULL
GROUP BY aa.wait_event_type , aa.wait_event
UNION
SELECT
ha.wait_event_type , ha.wait_event
FROM activity_hist.history_pg_stat_activity_for_reports ha
WHERE timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
backend_type = 'client backend' AND datname != 'postgres' AND
ha.wait_event IS NOT NULL
GROUP BY ha.wait_event_type , ha.wait_event
)
SELECT wait_event_type , wait_event
FROM hist
GROUP BY wait_event_type , wait_event
ORDER BY 1 ASC,2 ASC
----------------------------------------------------------------------
WITH hist AS
(
SELECT
aa.wait_event_type , aa.wait_event , aa.query ,aa.queryid ,
count(*) * interval '1 second' AS duration
FROM activity_hist.archive_pg_stat_activity aa
WHERE timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
backend_type = 'client backend' AND datname != 'postgres' AND
( aa.wait_event_type = waitings_stat_rec.wait_event_type AND aa.wait_event = waitings_stat_rec.wait_event )
GROUP BY aa.wait_event_type , aa.wait_event , aa.query ,aa.queryid
UNION
SELECT
ha.wait_event_type , ha.wait_event , ha.query ,ha.queryid,
count(*) * interval '1 second' AS duration
FROM activity_hist.history_pg_stat_activity_for_reports ha
WHERE timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
backend_type = 'client backend' AND datname != 'postgres' AND
( ha.wait_event_type = waitings_stat_rec.wait_event_type AND ha.wait_event = waitings_stat_rec.wait_event )
GROUP BY ha.wait_event_type , ha.wait_event , ha.query ,ha.queryid
)
SELECT query , queryid , SUM( duration ) as duration
FROM hist
GROUP BY query , queryid
ORDER BY 3 DESC
SELECT
MIN(date_trunc('second',timepoint)) AS started ,
count(*) * interval '1 second' as duration ,
pid , blocking_pids , relation , mode , locktype
FROM
activity_hist.archive_locking al
WHERE
timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
NOT granted AND
locktype = 'relation'
GROUP BY pid , blocking_pids , relation , mode , locktype
UNION
SELECT
MIN(date_trunc('second',timepoint)) AS started ,
count(*) * interval '1 second' as duration ,
pid , blocking_pids , relation , mode , locktype
FROM
activity_hist.history_locking
WHERE
timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
NOT granted AND
locktype = 'relation'
GROUP BY pid , blocking_pids , relation , mode , locktype
ORDER BY 1
SELECT
blocking_pids
FROM
activity_hist.archive_locking al
WHERE
timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
NOT granted AND
locktype = 'relation'
GROUP BY blocking_pids
UNION
SELECT
blocking_pids
FROM
activity_hist.history_locking
WHERE
timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour') AND
NOT granted AND
locktype = 'relation'
GROUP BY blocking_pids
ORDER BY 1
---------------------------------------------------------------
SELECT
pid , usename , application_name , datname ,
MIN(date_trunc('second',timepoint)) as started ,
count(*) * interval '1 second' as duration ,
state ,
query
FROM activity_hist.archive_pg_stat_activity
WHERE pid= current_pid AND
timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour')
GROUP BY pid , usename , application_name ,
datname ,
state_change,
state ,
query
UNION
SELECT
pid , usename , application_name , datname ,
MIN(date_trunc('second',timepoint)) as started ,
count(*) * interval '1 second' as duration ,
state ,
query
FROM activity_hist.history_pg_stat_activity_for_reports
WHERE pid= current_pid AND
timepoint BETWEEN pg_stat_history_begin+(current_hour_diff * interval '1 hour') AND pg_stat_history_end+(current_hour_diff * interval '1 hour')
GROUP BY pid , usename , application_name ,
datname ,
state_change,
state ,
query
ORDER BY 5 , 1
A megjelenített alapvető lekérdezések és az eredményül kapott jelentések már jelentősen megkönnyítik az életet a teljesítményincidensek elemzésekor.
Az alapvető lekérdezések alapján olyan jelentést kaphat, amely homályosan hasonlít az Oracle AWR-ére. Összefoglaló jelentés példa
+-------------------------------------------------- ------------------------------------ | KONSZOLIDÁLT JELENTÉS A TEVÉKENYSÉGRŐL ÉS VÁRAKOZÁSRÓL.
Folytatjuk. A következő a sorban a zárolási előzmények (pg_stat_locks) létrehozása, amely a táblázatok kitöltésének folyamatának részletesebb leírása.