Monitorovanie výkonu PostgreSQL dotazov. 1. časť - hlásenie

Inžinier – v preklade z latinčiny – inšpirovaný.
Inžinier môže robiť čokoľvek. (c) R. Diesel.
Epigrafy.
Monitorovanie výkonu PostgreSQL dotazov. 1. časť - hlásenie
Alebo príbeh o tom, prečo si správca databázy musí pamätať svoju programátorskú minulosť.

Predslov

Všetky mená boli zmenené. Náhody sú náhodné. Materiál predstavuje výlučne osobný názor autora.

Vylúčenie záruk: Plánovaná séria článkov nebude obsahovať podrobný a presný popis použitých tabuliek a skriptov. Materiály nie je možné použiť okamžite „AKO SÚ“.
Po prvé, kvôli veľkému objemu materiálu,
po druhé, kvôli úzkemu vzťahu s výrobnou základňou skutočného zákazníka.
Preto budú články obsahovať len myšlienky a popisy v najvšeobecnejšej forme.
Možno v budúcnosti systém narastie na úroveň zverejnenia na GitHub, alebo možno nie. Čas ukáže.

Začiatok príbehu -"Pamätáte si, ako to všetko začalo".
Čo sa stalo v dôsledku toho, vo všeobecnosti - “Syntéza ako jedna z metód na zlepšenie výkonu PostgreSQL»

Prečo toto všetko potrebujem?

No po prvé, aby som nezabudol, spomínať na slávne dni na dôchodku.
Po druhé, systematizovať to, čo bolo napísané. Pretože niekedy začínam byť zmätený a zabúdam na niektoré časti.

No a najdôležitejšie je, že sa to niekomu môže hodiť a pomôže mu vyhnúť sa opätovnému vynájdeniu kolesa a nezbieraniu hrable. Inými slovami, zlepšite svoju karmu (nie Khabrovovu). Pretože to najcennejšie na tomto svete sú nápady. Hlavná vec je nájsť nápad. Premeniť myšlienku na realitu je však čisto technická otázka.

Takže začnime postupne...

Formulácia problému.

K dispozícii:

Databáza PostgreSQL(10.5), zmiešaný typ záťaže (OLTP+DSS), stredne ľahká záťaž, umiestnená v cloude AWS.
Chýba monitorovanie databázy, monitorovanie infraštruktúry je zabezpečené formou štandardných nástrojov AWS v minimálnej konfigurácii.

Vyžaduje sa:

Monitorujte výkon a stav databázy, vyhľadajte a majte počiatočné informácie na optimalizáciu náročných databázových dotazov.

Stručný úvod alebo analýza možností riešenia

Na začiatok si skúsme rozobrať možnosti riešenia problému z pohľadu komparatívnej analýzy výhod a nevýhod pre inžiniera a nechajme tých, ktorí na to majú podľa harmonogramu obsadzovania zamestnancov, aby si poradili s výhodami a straty riadenia.

Možnosť 1 – „Práca na požiadanie“

Všetko necháme tak. Ak zákazník nie je spokojný s niečím vo výkone, výkone databázy alebo aplikácie, upozorní na to technikov DBA e-mailom alebo vytvorením incidentu v zásobníku lístkov.
Inžinier po prijatí upozornenia pochopí problém, ponúkne riešenie alebo ho odloží na druhú koľaj v nádeji, že sa všetko vyrieši samo a aj tak sa na všetko čoskoro zabudne.
Medovníky a šišky, modriny a hrbolčekyMedovníky a šišky:
1. Netreba robiť nič navyše.
2. Vždy je možnosť ospravedlniť sa a pokašľať.
3. Veľa času, ktorý môžete stráviť podľa vlastného uváženia.
Modriny a hrbolčeky:
1. Zákazník sa skôr či neskôr zamyslí nad podstatou existencie a univerzálnej spravodlivosti na tomto svete a opäť si položí otázku – prečo im platím svoje peniaze? Dôsledok je vždy rovnaký – otázkou je len to, kedy sa zákazník začne nudiť a mávne rukou na rozlúčku. A podávač bude prázdny. Je to smutné.
2. Vývoj inžinierov - nula.
3. Ťažkosti pri plánovaní práce a nakladaní

Možnosť 2 – „Tanec s tamburínami, naparovanie a obúvanie“

odsek 1-Prečo potrebujeme monitorovací systém, všetko dostaneme so žiadosťami. Spúšťame množstvo najrôznejších dotazov na dátový slovník a dynamické zobrazenia, zapíname všetky druhy počítadiel, všetko ukladáme do tabuliek a pravidelne analyzujeme zoznamy a tabuľky. V dôsledku toho máme krásne alebo nie také krásne grafy, tabuľky, prehľady. Hlavná vec je mať viac, viac.
odsek 2-Vygenerujeme aktivitu a spustíme analýzu toho všetkého.
odsek 3-Pripravujeme určitý dokument, nazývame ho jednoducho - "ako by sme mali vytvoriť databázu."
odsek 4-Zákazník, keď vidí všetku tú nádheru grafov a čísel, je v detskom, naivnom sebavedomí - teraz nám bude všetko fungovať, čoskoro. A ľahko a bezbolestne sa rozlúči so svojimi finančnými prostriedkami. Vedenie je tiež presvedčené, že naši inžinieri pracujú skvele. Zaťaženie na maximum.
odsek 5- Pravidelne opakujte krok 1.
Medovníky a šišky, modriny a hrbolčekyMedovníky a šišky:
1. Život manažérov a inžinierov je jednoduchý, predvídateľný a naplnený aktivitou. Všetko bzučí, všetci sú zaneprázdnení.
2. Zákazníkov život tiež nie je zlý – vždy si je istý, že stačí byť trochu trpezlivý a všetko bude fungovať. Nezlepšuje sa to, no, svet je nespravodlivý, v budúcom živote budeš mať šťastie.
Modriny a hrbolčeky:
1. Skôr či neskôr sa nájde rýchlejší poskytovateľ podobnej služby, ktorý urobí to isté, ale o niečo lacnejšie. A ak je výsledok rovnaký, prečo platiť viac. Čo opäť povedie k zániku podávača.
2. Je to nuda. Aká nudná je akákoľvek nezmyselná činnosť.
3. Rovnako ako v predchádzajúcej verzii nedochádza k žiadnemu vývoju. Ale pre inžiniera je nevýhodou, že na rozdiel od prvej možnosti musíte neustále generovať IBD. A to si vyžaduje čas. Ktoré môžete minúť v prospech svojho blízkeho. Pretože sa o seba nevieš postarať, nikoho to nezaujíma.

Možnosť 3 – Bicykel nemusíte vymýšľať, stačí si ho kúpiť a jazdiť na ňom.

Nie nadarmo inžinieri z iných spoločností jedia pizzu s pivom (ach, časy slávy Petrohradu v 90. rokoch). Využime monitorovacie systémy, ktoré sú vyrobené, odladené a fungujúce a vo všeobecnosti prospešné (teda aspoň pre ich tvorcov).
Medovníky a šišky, modriny a hrbolčekyMedovníky a šišky:
1. Netreba strácať čas vymýšľaním niečoho, čo už bolo vymyslené. Vezmite to a použite to.
2. Monitorovacie systémy nepíšu hlupáci a sú, samozrejme, užitočné.
3. Pracovné monitorovacie systémy zvyčajne poskytujú užitočné filtrované informácie.
Modriny a hrbolčeky:
1. Inžinier v tomto prípade nie je inžinier, ale iba používateľ produktu niekoho iného. Alebo používateľ.
2. Zákazník musí byť presvedčený o potrebe kúpiť niečo, čomu vo všeobecnosti nechce rozumieť a nemal by tomu rozumieť a vo všeobecnosti je rozpočet na rok schválený a nebude sa meniť. Potom musíte prideliť samostatný zdroj a nakonfigurovať ho pre konkrétny systém. Tie. najprv musíte zaplatiť, zaplatiť a znova zaplatiť. A zákazník je lakomý. Toto je norma tohto života.

Čo robiť - Chernyshevsky? Vaša otázka je veľmi aktuálna. (s)

V tomto konkrétnom prípade a súčasnej situácii to môžete urobiť trochu inak - vyrobme si vlastný monitorovací systém.
Monitorovanie výkonu PostgreSQL dotazov. 1. časť - hlásenie
Samozrejme, nie je to systém v plnom zmysle slova, ktorý je príliš hlasný a trúfalý, ale aspoň nejako uľahčite svoju úlohu a zbierajte viac informácií na vyriešenie incidentov s výkonom. Aby ste sa neocitli v situácii - „choďte tam, neviem kam, nájdite niečo, neviem čo“.

Aké sú výhody a nevýhody tejto možnosti:

Pros:
1. Toto je zaujímavé. No, prinajmenšom je to zaujímavejšie ako neustále „zmenšiť dátový súbor, zmeniť tabuľkový priestor atď.
2. Sú to nové zručnosti a nový vývoj. Ktorá vám skôr či neskôr dá zaslúžený perník a šišky.
Nevýhody:
1. Budete musieť pracovať. Ťažko pracovať.
2. Budete musieť pravidelne vysvetľovať význam a perspektívy všetkých aktivít.
3. Niečo bude treba obetovať, pretože jediný zdroj, ktorý má inžinier k dispozícii – čas – je obmedzený Vesmírom.
4. Najhoršia a najnepríjemnejšia vec - výsledkom môžu byť kecy typu "Nie myš, nie žaba, ale neznáme zviera."

Kto neriskuje, nepije šampanské.
Takže - zábava začína.

Všeobecná myšlienka - schematicky

Monitorovanie výkonu PostgreSQL dotazov. 1. časť - hlásenie
(Ilustrácia prevzatá z článku «Syntéza ako jedna z metód na zlepšenie výkonu PostgreSQL»)

vysvetlenie:

  • V cieľovej databáze je nainštalované štandardné rozšírenie PostgreSQL „pg_stat_statements“.
  • V databáze monitorovania vytvárame sadu servisných tabuliek na ukladanie histórie pg_stat_statements v počiatočnej fáze a na nastavenie metrík a monitorovania v budúcnosti
  • Na monitorovacom hostiteľovi vytvoríme sadu bash skriptov vrátane tých na generovanie incidentov v systéme lístkov.

Servisné stoly

Po prvé, schematický zjednodušený ERD, čo sa stalo na konci:
Monitorovanie výkonu PostgreSQL dotazov. 1. časť - hlásenie
Stručný popis tabuliekkoncový bod — hostiteľ, bod pripojenia k inštancii
databázy - parametre databázy
pg_stat_history - historická tabuľka na ukladanie dočasných snímok pohľadu pg_stat_statements cieľovej databázy
metrický_slovník - slovník metrík výkonnosti
metric_config — konfigurácia jednotlivých metrík
metrický — špecifická metrika pre požiadavku, ktorá sa monitoruje
metric_alert_history - história varovaní o výkonnosti
log_query — servisná tabuľka na ukladanie analyzovaných záznamov zo súboru denníka PostgreSQL stiahnutého z AWS
základné — parametre časových období použitých ako základ
kontrolný bod — konfigurácia metrík na kontrolu stavu databázy
checkpoint_alert_history — história varovaní metrík kontroly stavu databázy
pg_stat_db_queries — servisná tabuľka aktívnych požiadaviek
activity_log — servisná tabuľka denníka činností
trap_oid — tabuľka konfigurácie trapu

Fáza 1 – zbierajte štatistické informácie o výkonnosti a prijímajte správy

Na uloženie štatistických informácií sa používa tabuľka pg_stat_history
Štruktúra tabuľky pg_stat_history

                                          Tabuľka "public.pg_stat_history" Stĺpec | Typ | Modifikátory---------------------+--------------------------- -+------------------------------------------ id | celé číslo | nie je null default nextval('pg_stat_history_id_seq'::regclass) snapshot_timestamp | časová pečiatka bez časového pásma | Database_id | celé číslo | dbid | oid | ID užívateľa | oid | queryid | bigint | dotaz | text | hovory | bigint | celkový_čas | dvojitá presnosť | min_time | dvojitá presnosť | max_time | dvojitá presnosť | stredný_čas | dvojitá presnosť | stddev_time | dvojitá presnosť | riadky | bigint | shared_blks_hit | bigint | shared_blks_read | bigint | shared_blks_dirtied | bigint | shared_blks_written | bigint | local_blks_hit | bigint | local_blks_read | bigint | local_blks_dirtied | bigint | local_blks_written | bigint | temp_blks_read | bigint | temp_blks_written | bigint | blk_read_time | dvojitá presnosť | blk_write_time | dvojitá presnosť | baseline_id | celé číslo | Indexy: "pg_stat_history_pkey" PRIMÁRNY KĽÚČ, btree (id) "database_idx" btree (database_id) "queryid_idx" btree (queryid) "snapshot_timestamp_idx" btree (snapshot_timestamp) Obmedzenia cudzieho kľúča (databáza_pre cudzieho kľúča: FEIk ID databázy FOREIFERENCE" FOREIFER ) NA VYMAZANIE KASKÁDY

Ako vidíte, tabuľka predstavuje iba súhrnné údaje o zobrazení pg_stat_statements v cieľovej databáze.

Použitie tejto tabuľky je veľmi jednoduché

pg_stat_history bude predstavovať nahromadenú štatistiku vykonania dotazu za každú hodinu. Na začiatku každej hodiny po vyplnení tabuľky štatistika pg_stat_statements resetovať pomocou pg_stat_statements_reset().
Poznámka: Štatistiky sa zhromažďujú pre dopyty s trvaním vykonania dlhším ako 1 sekunda.
Vypĺňanie tabuľky pg_stat_history

--pg_stat_history.sql
CREATE OR REPLACE FUNCTION pg_stat_history( ) RETURNS boolean AS $$
DECLARE
  endpoint_rec record ;
  database_rec record ;
  pg_stat_snapshot record ;
  current_snapshot_timestamp timestamp without time zone;
BEGIN
  current_snapshot_timestamp = date_trunc('minute',now());  
  
  FOR endpoint_rec IN SELECT * FROM endpoint 
  LOOP
    FOR database_rec IN SELECT * FROM database WHERE endpoint_id = endpoint_rec.id 
	  LOOP
	    
		RAISE NOTICE 'NEW SHAPSHOT IS CREATING';
		
		--Connect to the target DB	  
	    EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||endpoint_rec.host||' dbname='||database_rec.name||' user=USER password=PASSWORD '')';
 
        RAISE NOTICE 'host % and dbname % ',endpoint_rec.host,database_rec.name;
		RAISE NOTICE 'Creating snapshot of pg_stat_statements for database %',database_rec.name;
		
		SELECT 
	      *
		INTO 
		  pg_stat_snapshot
	    FROM dblink('LINK1',
	      'SELECT 
	       dbid , SUM(calls),SUM(total_time),SUM(rows) ,SUM(shared_blks_hit) ,SUM(shared_blks_read) ,SUM(shared_blks_dirtied) ,SUM(shared_blks_written) , 
           SUM(local_blks_hit) , SUM(local_blks_read) , SUM(local_blks_dirtied) , SUM(local_blks_written) , SUM(temp_blks_read) , SUM(temp_blks_written) , SUM(blk_read_time) , SUM(blk_write_time)
	       FROM pg_stat_statements WHERE dbid=(SELECT oid from pg_database where datname=current_database() ) 
		   GROUP BY dbid
  	      '
	               )
	      AS t
	       ( dbid oid , calls bigint , 
  	         total_time double precision , 
	         rows bigint , shared_blks_hit bigint , shared_blks_read bigint ,shared_blks_dirtied bigint ,shared_blks_written	 bigint ,
             local_blks_hit	 bigint ,local_blks_read bigint , local_blks_dirtied bigint ,local_blks_written bigint ,
             temp_blks_read	 bigint ,temp_blks_written bigint ,
             blk_read_time double precision , blk_write_time double precision	  
	       );
		 
		INSERT INTO pg_stat_history
          ( 
		    snapshot_timestamp  ,database_id  ,
			dbid , calls  ,total_time ,
            rows ,shared_blks_hit  ,shared_blks_read  ,shared_blks_dirtied  ,shared_blks_written ,local_blks_hit , 	 	
            local_blks_read,local_blks_dirtied,local_blks_written,temp_blks_read,temp_blks_written, 	
            blk_read_time, blk_write_time 
		  )		  
	    VALUES
	      (
	       current_snapshot_timestamp ,
		   database_rec.id ,
	       pg_stat_snapshot.dbid ,pg_stat_snapshot.calls,
	       pg_stat_snapshot.total_time,
	       pg_stat_snapshot.rows ,pg_stat_snapshot.shared_blks_hit ,pg_stat_snapshot.shared_blks_read ,pg_stat_snapshot.shared_blks_dirtied ,pg_stat_snapshot.shared_blks_written , 
           pg_stat_snapshot.local_blks_hit , pg_stat_snapshot.local_blks_read , pg_stat_snapshot.local_blks_dirtied , pg_stat_snapshot.local_blks_written , 
	       pg_stat_snapshot.temp_blks_read , pg_stat_snapshot.temp_blks_written , pg_stat_snapshot.blk_read_time , pg_stat_snapshot.blk_write_time 	   
	      );		   
		  
        RAISE NOTICE 'Creating snapshot of pg_stat_statements for queries with min_time more than 1000ms';
	
        FOR pg_stat_snapshot IN
          --All queries with max_time greater than 1000 ms
	      SELECT 
	        *
	      FROM dblink('LINK1',
	        'SELECT 
	         dbid , userid ,queryid,query,calls,total_time,min_time ,max_time,mean_time, stddev_time ,rows ,shared_blks_hit ,
			 shared_blks_read ,shared_blks_dirtied ,shared_blks_written , 
             local_blks_hit , local_blks_read , local_blks_dirtied , 
			 local_blks_written , temp_blks_read , temp_blks_written , blk_read_time , 
			 blk_write_time
	         FROM pg_stat_statements 
			 WHERE dbid=(SELECT oid from pg_database where datname=current_database() AND min_time >= 1000 ) 
  	        '

	                  )
	        AS t
	         ( dbid oid , userid oid , queryid bigint ,query text , calls bigint , 
  	           total_time double precision ,min_time double precision	 ,max_time double precision	 , mean_time double precision	 ,  stddev_time double precision	 , 
	           rows bigint , shared_blks_hit bigint , shared_blks_read bigint ,shared_blks_dirtied bigint ,shared_blks_written	 bigint ,
               local_blks_hit	 bigint ,local_blks_read bigint , local_blks_dirtied bigint ,local_blks_written bigint ,
               temp_blks_read	 bigint ,temp_blks_written bigint ,
               blk_read_time double precision , blk_write_time double precision	  
	         )
	    LOOP
		  INSERT INTO pg_stat_history
          ( 
		    snapshot_timestamp  ,database_id  ,
			dbid ,userid  , queryid  , query  , calls  ,total_time ,min_time ,max_time ,mean_time ,stddev_time ,
            rows ,shared_blks_hit  ,shared_blks_read  ,shared_blks_dirtied  ,shared_blks_written ,local_blks_hit , 	 	
            local_blks_read,local_blks_dirtied,local_blks_written,temp_blks_read,temp_blks_written, 	
            blk_read_time, blk_write_time 
		  )		  
	      VALUES
	      (
	       current_snapshot_timestamp ,
		   database_rec.id ,
	       pg_stat_snapshot.dbid ,pg_stat_snapshot.userid ,pg_stat_snapshot.queryid,pg_stat_snapshot.query,pg_stat_snapshot.calls,
	       pg_stat_snapshot.total_time,pg_stat_snapshot.min_time ,pg_stat_snapshot.max_time,pg_stat_snapshot.mean_time, pg_stat_snapshot.stddev_time ,
	       pg_stat_snapshot.rows ,pg_stat_snapshot.shared_blks_hit ,pg_stat_snapshot.shared_blks_read ,pg_stat_snapshot.shared_blks_dirtied ,pg_stat_snapshot.shared_blks_written , 
           pg_stat_snapshot.local_blks_hit , pg_stat_snapshot.local_blks_read , pg_stat_snapshot.local_blks_dirtied , pg_stat_snapshot.local_blks_written , 
	       pg_stat_snapshot.temp_blks_read , pg_stat_snapshot.temp_blks_written , pg_stat_snapshot.blk_read_time , pg_stat_snapshot.blk_write_time 	   
	      );
		  
        END LOOP;

        PERFORM dblink_disconnect('LINK1');  
				
	  END LOOP ;--FOR database_rec IN SELECT * FROM database WHERE endpoint_id = endpoint_rec.id 
    
  END LOOP;

RETURN TRUE;  
END
$$ LANGUAGE plpgsql;

Výsledkom je, že po určitom čase v tabuľke pg_stat_history budeme mať súbor snímok obsahu tabuľky pg_stat_statements cieľová databáza.

Vlastne hlásenie

Pomocou jednoduchých dotazov môžete získať celkom užitočné a zaujímavé prehľady.

Súhrnné údaje za dané časové obdobie

Žiadosť

SELECT 
  database_id , 
  SUM(calls) AS calls ,SUM(total_time)  AS total_time ,
  SUM(rows) AS rows , SUM(shared_blks_hit)  AS shared_blks_hit,
  SUM(shared_blks_read) AS shared_blks_read ,
  SUM(shared_blks_dirtied) AS shared_blks_dirtied,
  SUM(shared_blks_written) AS shared_blks_written , 
  SUM(local_blks_hit) AS local_blks_hit , 
  SUM(local_blks_read) AS local_blks_read , 
  SUM(local_blks_dirtied) AS local_blks_dirtied , 
  SUM(local_blks_written)  AS local_blks_written,
  SUM(temp_blks_read) AS temp_blks_read, 
  SUM(temp_blks_written) temp_blks_written , 
  SUM(blk_read_time) AS blk_read_time , 
  SUM(blk_write_time) AS blk_write_time
FROM 
  pg_stat_history
WHERE 
  queryid IS NULL AND
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
GROUP BY database_id ;

DB čas

to_char(interval '1 milisekunda' * pg_total_stat_history_rec.total_time, 'HH24:MI:SS.MS')

Čas I/O

to_char(interval '1 milisekunda' * ( pg_total_stat_history_rec.blk_read_time + pg_total_stat_history_rec.blk_write_time ), 'HH24:MI:SS.MS')

TOP 10 SQL podľa total_time

Žiadosť

SELECT 
  queryid , 
  SUM(calls) AS calls ,
  SUM(total_time)  AS total_time  	
FROM 
  pg_stat_history
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT 
GROUP BY queryid 
ORDER BY 3 DESC 
LIMIT 10
-------------------------------------------------- ------------------------------------ | TOP10 SQL PODĽA CELKOVÉHO ČASU VYKONANIA | #| queryid| hovory| volá %| celkový_čas (ms) | dbtime % +----------+-----------+-----------+-----------+ ------ --------------------------+----------- | 1| 821760255| 2| .00001|00:03:23.141( 203141.681 ms.)| 5.42 | 2| 4152624390| 2| .00001|00:03:13.929( 193929.215 ms.)| 5.17 | 3| 1484454471| 4| .00001|00:02:09.129( 129129.057 ms.)| 3.44 | 4| 655729273| 1| .00000|00:02:01.869( 121869.981 ms.)| 3.25 | 5| 2460318461| 1| .00000|00:01:33.113( 93113.835 ms.)| 2.48 | 6| 2194493487| 4| .00001|00:00:17.377( 17377.868 ms.)| .46 | 7| 1053044345| 1| .00000|00:00:06.156( 6156.352 ms.)| .16 | 8| 3644780286| 1| .00000|00:00:01.063( 1063.830 ms.)| .03

TOP 10 SQL podľa celkového času I/O

Žiadosť

SELECT 
  queryid , 
  SUM(calls) AS calls ,
  SUM(blk_read_time + blk_write_time)  AS io_time
FROM 
  pg_stat_history
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
GROUP BY  queryid 
ORDER BY 3 DESC 
LIMIT 10
-------------------------------------------------- --------------------------------------- | TOP10 SQL PODĽA CELKOVÉHO ČASU I/O | #| queryid| hovory| volá %| Čas vstupu/výstupu (ms)|db Čas vstupu/výstupu % +----+-----------+-----------+------- -----------+---------------------------------+----- ------ -- | 1| 4152624390| 2| .00001|00:08:31.616( 511616.592 ms.)| 31.06 | 2| 821760255| 2| .00001|00:08:27.099( 507099.036 ms.)| 30.78 | 3| 655729273| 1| .00000|00:05:02.209( 302209.137 ms.)| 18.35 | 4| 2460318461| 1| .00000|00:04:05.981( 245981.117 ms.)| 14.93 | 5| 1484454471| 4| .00001|00:00:39.144( 39144.221 ms.)| 2.38 | 6| 2194493487| 4| .00001|00:00:18.182( 18182.816 ms.)| 1.10 | 7| 1053044345| 1| .00000|00:00:16.611( 16611.722 ms.)| 1.01 | 8| 3644780286| 1| .00000|00:00:00.436( 436.205 ms.)| .03

TOP 10 SQL podľa maximálneho času vykonania

Žiadosť

SELECT 
  id AS snapshotid , 
  queryid , 
  snapshot_timestamp ,  
  max_time 
FROM 
  pg_stat_history 
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
ORDER BY 4 DESC 
LIMIT 10

-------------------------------------------------- ---------------------------------------- | TOP10 SQL PODĽA MAXIMÁLNEHO ČASU VYKONANIA | #| snímka| ID snímky| queryid| max_time (ms) +----+------------------+-----------+--------- --+---------------------------------------- | 1| 05.04.2019 01:03| 4169| 655729273| 00:02:01.869 ( 121869.981 ms.) | 2| 04.04.2019. 17. 00 4153:821760255| 00| 01| 41.570:101570.841:3 ( 04.04.2019 ms.) | 16| 00. 4146. 821760255 00:01| 41.570| 101570.841| 4:04.04.2019:16 ( 00 ms.) | 4144| 4152624390. 00. 01 36.964:96964.607| 5| 04.04.2019| 17:00:4151 (4152624390 ms.) | 00| 01. 36.964. 96964.607 6:05.04.2019| 10| 00| 4188:1484454471:00 (01 ms.) | 33.452| 93452.150. 7. 04.04.2019 17:00| 4150| 2460318461| 00:01:33.113 ( 93113.835 ms.) | 8| 04.04.2019. 15. 00 4140:1484454471| 00| 00| 11.892:11892.302:9 (04.04.2019 ms.) | 16| 00. 4145. 1484454471 00:00| 11.892| 11892.302| 10:04.04.2019:17 ( 00 ms.) | 4152| 1484454471. 00. 00 11.892:11892.302| XNUMX| XNUMX| XNUMX:XNUMX:XNUMX ( XNUMX ms.) | XNUMX| XNUMX. XNUMX. XNUMX XNUMX:XNUMX| XNUMX| XNUMX| XNUMX:XNUMX:XNUMX ( XNUMX ms.)

TOP 10 SQL podľa čítania/zápisu SHARED buffer

Žiadosť

SELECT 
  id AS snapshotid , 
  queryid ,
  snapshot_timestamp , 
  shared_blks_read , 
  shared_blks_written 
FROM 
  pg_stat_history
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT AND
  ( shared_blks_read > 0 OR shared_blks_written > 0 )
ORDER BY 4 DESC  , 5 DESC 
LIMIT 10
-------------------------------------------------- ------------------------------------------- | TOP 10 SQL PODĽA ZDIEĽANEJ VYROVNÁVAcej pamäte ČÍTANIE/ZAPISOVANIE | #| snímka| ID snímky| queryid| zdieľané bloky čítať| zdieľané bloky zápis +----+------------------+-----------+----------- -+---------------------+---------------------- | 1| 04.04.2019. 17. 00 4153:821760255| 797308| 0| 2| 04.04.2019 | 16| 00. 4146. 821760255 797308:0| 3| 05.04.2019| 01| 03 | 4169| 655729273 797158:0| 4| 04.04.2019| 16| 00 | 4144| 4152624390. 756514. 0 5:04.04.2019| 17| 00| 4151| 4152624390 | 756514| 0. 6. 04.04.2019 17:00| 4150| 2460318461| 734117| 0 | 7| 04.04.2019. 17. 00 4155:3644780286| 52973| 0| 8| 05.04.2019 | 01| 03. 4168. 1053044345 52818:0| 9| 04.04.2019| 15| 00 | 4141| 2194493487 52813:0| 10| 04.04.2019| 16| 00 | 4147| 2194493487. 52813. 0 XNUMX:XNUMX| XNUMX| XNUMX| XNUMX| XNUMX | XNUMX| XNUMX. XNUMX. XNUMX XNUMX:XNUMX| XNUMX| XNUMX| XNUMX| XNUMX ------------------------------------------------- --------------------------------------------

Histogram distribúcie požiadaviek podľa maximálneho času realizácie

žiadosti

SELECT  
  MIN(max_time) AS hist_min  , 
  MAX(max_time) AS hist_max , 
  (( MAX(max_time) - MIN(min_time) ) / hist_columns ) as hist_width
FROM 
  pg_stat_history 
WHERE 
  queryid IS NOT NULL AND
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT ;

SELECT 
  SUM(calls) AS calls
FROM 
  pg_stat_history 
WHERE 
  queryid IS NOT NULL AND
  database_id =DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT AND 
  ( max_time >= hist_current_min AND  max_time < hist_current_max ) ;
|-------------------------------------------------- --------------------------------------------- | MAX_TIME HISTOGRAM | VOLANIA SPOLU: 33851920 | MINIMÁLNY ČAS: 00:00:01.063 | MAX. ČAS: 00:02:01.869 ------------------------------------------ ---------------------------------------- | min trvanie| maximálne trvanie | hovory +----------------------------------+------------- ---------------------+----------- | 00:00:01.063 ( 1063.830 ms.) | 00:00:13.144 ( 13144.445 ms.) | 9 | 00:00:13.144 ( 13144.445 ms.) | 00:00:25.225 ( 25225.060 ms.) | 0 | 00:00:25.225 ( 25225.060 ms.) | 00:00:37.305 ( 37305.675 ms.) | 0 | 00:00:37.305 ( 37305.675 ms.) | 00:00:49.386( 49386.290 ms.) | 0 | 00:00:49.386( 49386.290 ms.) | 00:01:01.466 ( 61466.906 ms.) | 0 | 00:01:01.466 ( 61466.906 ms.) | 00:01:13.547 ( 73547.521 ms.) | 0 | 00:01:13.547 ( 73547.521 ms.) | 00:01:25.628 ( 85628.136 ms.) | 0 | 00:01:25.628 ( 85628.136 ms.) | 00:01:37.708 ( 97708.751 ms.) | 4 | 00:01:37.708 ( 97708.751 ms.) | 00:01:49.789 ( 109789.366 ms.) | 2 | 00:01:49.789 ( 109789.366 ms.) | 00:02:01.869 ( 121869.981 ms.) | 0

TOP 10 snímok podľa dopytu za sekundu

žiadosti

--pg_qps.sql
--Calculate Query Per Second 
CREATE OR REPLACE FUNCTION pg_qps( pg_stat_history_id integer ) RETURNS double precision AS $$
DECLARE
 pg_stat_history_rec record ;
 prev_pg_stat_history_id integer ;
 prev_pg_stat_history_rec record;
 total_seconds double precision ;
 result double precision;
BEGIN 
  result = 0 ;
  
  SELECT *
  INTO pg_stat_history_rec
  FROM 
    pg_stat_history
  WHERE id = pg_stat_history_id ;

  IF pg_stat_history_rec.snapshot_timestamp IS NULL 
  THEN
    RAISE EXCEPTION 'ERROR - Not found pg_stat_history for id = %',pg_stat_history_id;
  END IF ;  
  
 --RAISE NOTICE 'pg_stat_history_id = % , snapshot_timestamp = %', pg_stat_history_id , 
 pg_stat_history_rec.snapshot_timestamp ;
  
  SELECT 
    MAX(id)   
  INTO
    prev_pg_stat_history_id
  FROM
    pg_stat_history
  WHERE 
    database_id = pg_stat_history_rec.database_id AND
	queryid IS NULL AND
	id < pg_stat_history_rec.id ;

  IF prev_pg_stat_history_id IS NULL 
  THEN
    RAISE NOTICE 'Not found previous pg_stat_history shapshot for id = %',pg_stat_history_id;
	RETURN NULL ;
  END IF;
  
  SELECT *
  INTO prev_pg_stat_history_rec
  FROM 
    pg_stat_history
  WHERE id = prev_pg_stat_history_id ;
  
  --RAISE NOTICE 'prev_pg_stat_history_id = % , prev_snapshot_timestamp = %', prev_pg_stat_history_id , prev_pg_stat_history_rec.snapshot_timestamp ;    

  total_seconds = extract(epoch from ( pg_stat_history_rec.snapshot_timestamp - prev_pg_stat_history_rec.snapshot_timestamp ));
  
  --RAISE NOTICE 'total_seconds = % ', total_seconds ;    
  
  --RAISE NOTICE 'calls = % ', pg_stat_history_rec.calls ;      
  
  IF total_seconds > 0 
  THEN
    result = pg_stat_history_rec.calls / total_seconds ;
  ELSE
   result = 0 ; 
  END IF;
   
 RETURN result ;
END
$$ LANGUAGE plpgsql;


SELECT 
  id , 
  snapshot_timestamp ,
  calls , 	
  total_time , 
  ( select pg_qps( id )) AS QPS ,
  blk_read_time ,
  blk_write_time
FROM 
  pg_stat_history
WHERE 
  queryid IS NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT AND
  ( select pg_qps( id )) IS NOT NULL 
ORDER BY 5 DESC 
LIMIT 10
|-------------------------------------------------- --------------------------------------------- | TOP 10 snímok zoradených podľa čísel QueryPerSeconds -------------------------------------------- -------------------------------------------------- ------------------------------------------------- | #| snímka| ID snímky| hovory| celkový dbtime| QPS| I/O čas | % času I/O +-----+------------------+-----------+-------- ----+----------------------------------+----------- -+------------------------+------------ | 1| 04.04.2019. 20. 04 4161:5758631| 00| 06| 30.513:390513.926:1573.396( 00 ms.)| 00| 01.470:1470.110:376 ( 2 ms.)| .04.04.2019 | 17| 00. 4149. 3529197 00:11| 48.830| 708830.618| 980.332:00:12 ( 47.834 ms.)| 767834.052| 108.324:3:04.04.2019( 16 ms.)| 00 4143 | 3525360| 00. 10. 13.492 613492.351:979.267| 00| 08| 41.396:521396.555:84.988 ( 4 ms.)| 04.04.2019| 21:03:4163 (2781536 ms.)| 00 | 03| 06.470. 186470.979. 785.745 00:00| 00.249| 249.865| 134:5:04.04.2019 ( 19 ms.)| 03| 4159:2890362:00 ( 03 ms.)| .16.784 | 196784.755| 776.979 00:00| 01.441| 1441.386| 732:6:04.04.2019( 14 ms.)| 00| 4137:2397326:00 ( 04 ms.)| .43.033 | 283033.854| 665.924. 00. 00 00.024:24.505| 009| 7| 04.04.2019:15:00( 4139 ms.)| 2394416| 00:04:51.435 (291435.010 ms.)| .665.116 | 00| 00. 12.025. 12025.895 4.126:8| 04.04.2019| 13| 00:4135:2373043 ( 00 ms.)| 04| 26.791:266791.988:659.179( 00 ms.)| 00 | 00.064| 64.261 024:9| 05.04.2019| 01| 03:4167:4387191 ( 00 ms.)| 06| 51.380:411380.293:609.332( 00 ms.)| .05 | 18.847| 318847.407 77.507:10| 04.04.2019| 18| 01:4157:1145596 ( 00 ms.)| 01| 19.217:79217.372:313.004( 00 ms.)| 00 | 01.319| 1319.676. 1.666. XNUMX XNUMX:XNUMX| XNUMX| XNUMX| XNUMX:XNUMX:XNUMX( XNUMX ms.)| XNUMX| XNUMX:XNUMX:XNUMX ( XNUMX ms.)| XNUMX

Hodinová história vykonávania s QueryPerSeconds a I/O časom

Žiadosť

SELECT 
  id , 
  snapshot_timestamp ,
  calls , 	
  total_time , 
  ( select pg_qps( id )) AS QPS ,
  blk_read_time ,
  blk_write_time
FROM 
  pg_stat_history
WHERE 
  queryid IS NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
ORDER BY 2
|-----------------------------------------------------------------------------------------------
| HOURLY EXECUTION HISTORY  WITH QueryPerSeconds and I/O Time
-----------------------------------------------------------------------------------------------------------------------------------------------
| QUERY PER SECOND HISTORY
|    #|          snapshot| snapshotID|      calls|                      total dbtime|        QPS|                          I/O time| I/O time %
+-----+------------------+-----------+-----------+----------------------------------+-----------+----------------------------------+-----------
|    1|  04.04.2019 11:00|       4131|       3747|  00:00:00.835(       835.374 ms.)|      1.041|  00:00:00.000(          .000 ms.)|       .000
|    2|  04.04.2019 12:00|       4133|    1002722|  00:01:52.419(    112419.376 ms.)|    278.534|  00:00:00.149(       149.105 ms.)|       .133
|    3|  04.04.2019 13:00|       4135|    2373043|  00:04:26.791(    266791.988 ms.)|    659.179|  00:00:00.064(        64.261 ms.)|       .024
|    4|  04.04.2019 14:00|       4137|    2397326|  00:04:43.033(    283033.854 ms.)|    665.924|  00:00:00.024(        24.505 ms.)|       .009
|    5|  04.04.2019 15:00|       4139|    2394416|  00:04:51.435(    291435.010 ms.)|    665.116|  00:00:12.025(     12025.895 ms.)|      4.126
|    6|  04.04.2019 16:00|       4143|    3525360|  00:10:13.492(    613492.351 ms.)|    979.267|  00:08:41.396(    521396.555 ms.)|     84.988
|    7|  04.04.2019 17:00|       4149|    3529197|  00:11:48.830(    708830.618 ms.)|    980.332|  00:12:47.834(    767834.052 ms.)|    108.324
|    8|  04.04.2019 18:01|       4157|    1145596|  00:01:19.217(     79217.372 ms.)|    313.004|  00:00:01.319(      1319.676 ms.)|      1.666
|    9|  04.04.2019 19:03|       4159|    2890362|  00:03:16.784(    196784.755 ms.)|    776.979|  00:00:01.441(      1441.386 ms.)|       .732
|   10|  04.04.2019 20:04|       4161|    5758631|  00:06:30.513(    390513.926 ms.)|   1573.396|  00:00:01.470(      1470.110 ms.)|       .376
|   11|  04.04.2019 21:03|       4163|    2781536|  00:03:06.470(    186470.979 ms.)|    785.745|  00:00:00.249(       249.865 ms.)|       .134
|   12|  04.04.2019 23:03|       4165|    1443155|  00:01:34.467(     94467.539 ms.)|    200.438|  00:00:00.015(        15.287 ms.)|       .016
|   13|  05.04.2019 01:03|       4167|    4387191|  00:06:51.380(    411380.293 ms.)|    609.332|  00:05:18.847(    318847.407 ms.)|     77.507
|   14|  05.04.2019 02:03|       4171|     189852|  00:00:10.989(     10989.899 ms.)|     52.737|  00:00:00.539(       539.110 ms.)|      4.906
|   15|  05.04.2019 03:01|       4173|       3627|  00:00:00.103(       103.000 ms.)|      1.042|  00:00:00.004(         4.131 ms.)|      4.010
|   16|  05.04.2019 04:00|       4175|       3627|  00:00:00.085(        85.235 ms.)|      1.025|  00:00:00.003(         3.811 ms.)|      4.471
|   17|  05.04.2019 05:00|       4177|       3747|  00:00:00.849(       849.454 ms.)|      1.041|  00:00:00.006(         6.124 ms.)|       .721
|   18|  05.04.2019 06:00|       4179|       3747|  00:00:00.849(       849.561 ms.)|      1.041|  00:00:00.000(          .051 ms.)|       .006
|   19|  05.04.2019 07:00|       4181|       3747|  00:00:00.839(       839.416 ms.)|      1.041|  00:00:00.000(          .062 ms.)|       .007
|   20|  05.04.2019 08:00|       4183|       3747|  00:00:00.846(       846.382 ms.)|      1.041|  00:00:00.000(          .007 ms.)|       .001
|   21|  05.04.2019 09:00|       4185|       3747|  00:00:00.855(       855.426 ms.)|      1.041|  00:00:00.000(          .065 ms.)|       .008
|   22|  05.04.2019 10:00|       4187|       3797|  00:01:40.150(    100150.165 ms.)|      1.055|  00:00:21.845(     21845.217 ms.)|     21.812

Text všetkých SQL-selects

Žiadosť

SELECT 
  queryid , 
  query 
FROM 
  pg_stat_history
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
GROUP BY queryid , query

Celkový

Ako vidíte, pomocou pomerne jednoduchých prostriedkov môžete získať veľa užitočných informácií o pracovnom zaťažení a stave databázy.

Poznámka:Ak zaznamenáme queryid v dotazoch, získame históriu pre samostatný dotaz (z dôvodu úspory miesta sú vynechané reporty pre samostatný dotaz).

Štatistické údaje o výkonnosti dopytov sú teda k dispozícii a zbierajú sa.
Prvá etapa „zber štatistických údajov“ je dokončená.

Môžete prejsť do druhej fázy - „nastavenie metrík výkonnosti“.
Monitorovanie výkonu PostgreSQL dotazov. 1. časť - hlásenie

Ale to je ďalší príbeh.

Ak sa chcete pokračovať ...

Zdroj: hab.com

Pridať komentár