Supervisión del rendimiento de las consultas de PostgreSQL. Parte 1 - informes

Ingeniero - traducido del latín - inspirado.
Un ingeniero puede hacer cualquier cosa. (c) R. Diésel.
Epígrafes.
Supervisión del rendimiento de las consultas de PostgreSQL. Parte 1 - informes
O una historia sobre por qué un administrador de base de datos necesita recordar su pasado como programador.

prefacio

Todos los nombres deben ser cambiados. Los partidos son aleatorios. El material es únicamente la opinión personal del autor.

Renuncia de garantías: en la serie de artículos prevista no habrá una descripción detallada y precisa de las tablas y guiones utilizados. Los materiales no se pueden utilizar inmediatamente "TAL CUAL".
En primer lugar, debido a la gran cantidad de material,
en segundo lugar, por la nitidez con la base de producción de un cliente real.
Por lo tanto, solo se darán ideas y descripciones en la forma más general en los artículos.
Tal vez en el futuro el sistema crezca al nivel de publicar en GitHub, o tal vez no. El tiempo lo mostrara.

Comienzo de la historia-¿Recuerdas cómo empezó todo?".
Lo que sucedió como resultado, en los términos más generales...La síntesis como uno de los métodos para mejorar el rendimiento de PostgreSQL»

¿Por qué necesito todo esto?

Bueno, en primer lugar, para no olvidarte de ti mismo, recordando los días gloriosos de la jubilación.
En segundo lugar, sistematizar lo escrito. Ya para mí, a veces empiezo a confundirme y olvido partes separadas.

Bueno, y lo más importante: de repente puede ser útil para alguien y ayudar a no reinventar la rueda y no cobrar un rastrillo. En otras palabras, mejora tu karma (no Khabrovsky). Porque lo más valioso en este mundo son las ideas. Lo principal es encontrar una idea. Y traducir la idea a la realidad ya es una cuestión puramente técnica.

Así que empecemos poco a poco...

Formulación del problema.

Hay:

PostgreSQL (10.5), carga mixta (OLTP+DSS), carga media a ligera, alojado en la nube de AWS.
No hay monitoreo de base de datos, el monitoreo de infraestructura se presenta como herramientas estándar de AWS en una configuración mínima.

Se requiere:

Supervise el rendimiento y el estado de la base de datos, encuentre y tenga información inicial para optimizar las consultas pesadas de la base de datos.

Breve introducción o análisis de soluciones.

Para empezar, intentemos analizar las opciones para resolver el problema desde el punto de vista de un análisis comparativo de los beneficios y los problemas para el ingeniero, y dejemos que los que se supone que están en la lista del personal se ocupen de los beneficios y pérdidas. de gestión

Opción 1 - "Trabajando bajo demanda"

Dejamos todo como está. Si el cliente no está satisfecho con algo en la salud, el rendimiento de la base de datos o la aplicación, lo notificará a los ingenieros de DBA por correo electrónico o creando un incidente en la caja de boletos.
Un ingeniero, al recibir una notificación, comprenderá el problema, ofrecerá una solución o archivará el problema, con la esperanza de que todo se resuelva solo y, de todos modos, todo se olvidará pronto.
Pan de jengibre y donas, moretones y golpesPan de jengibre y donas:
1. Nada extra que hacer
2. Siempre existe la oportunidad de salir y ensuciarse.
3. Mucho tiempo que puedes pasar por tu cuenta.
Contusiones y golpes:
1. Tarde o temprano, el cliente pensará en la esencia del ser y la justicia universal en este mundo y una vez más se hará la pregunta: ¿por qué les pago mi dinero? La consecuencia es siempre la misma: la única pregunta es cuando el cliente se aburre y se despide. Y el alimentador está vacío. Es triste.
2. El desarrollo de un ingeniero es cero.
3. Dificultades en la programación del trabajo y la carga

Opción 2 - “Bailar con panderetas, ponerse y ponerse zapatos”

Párrafo 1-Por qué necesitamos un sistema de monitoreo, recibiremos todas las solicitudes. Lanzamos un montón de todo tipo de consultas al diccionario de datos y vistas dinámicas, activamos todo tipo de contadores, llevamos todo a tablas, analizamos periódicamente listas y tablas, por así decirlo. Como resultado, tenemos hermosos o no muy gráficos, tablas, informes. Lo más importante - que sería más, más.
Párrafo 2-Generar actividad-Ejecutar el análisis de todo ello.
Párrafo 3-Estamos preparando un determinado documento, llamamos a este documento, simplemente - "cómo equipamos la base de datos".
Párrafo 4- El cliente, al ver toda esta magnificencia de gráficos y figuras, tiene una confianza infantil e ingenua: ahora todo funcionará para nosotros, pronto. Y, fácilmente y sin dolor parte de sus recursos financieros. La gerencia también está segura de que nuestros ingenieros están trabajando duro. Carga máxima.
Párrafo 5- Repita el paso 1 regularmente.
Pan de jengibre y donas, moretones y golpesPan de jengibre y donas:
1. La vida de los gerentes e ingenieros es simple, predecible y llena de actividad. Todo está zumbando, todos están ocupados.
2. La vida del cliente tampoco es mala: siempre está seguro de que debe tener un poco de paciencia y todo saldrá bien. No mejorando, bueno, bueno, este mundo es injusto, en la próxima vida, suerte.
Contusiones y golpes:
1. Tarde o temprano, habrá un proveedor más inteligente de un servicio similar que hará lo mismo, pero un poco más barato. Y si el resultado es el mismo, para qué pagar más. Lo que nuevamente conducirá a la desaparición del alimentador.
2. Es aburrido. Qué aburrida cualquier pequeña actividad significativa.
3. Como en la versión anterior, sin desarrollo. Pero para un ingeniero, el inconveniente es que, a diferencia de la primera opción, aquí debe generar constantemente un IDB. Y eso lleva tiempo. Que se puede gastar en beneficio de su ser querido. Porque no puedes cuidarte a ti mismo, todos se preocupan por ti.

Opción 3-No es necesario inventar una bicicleta, es necesario comprarla y andar en ella.

Los ingenieros de otras empresas comen pizza con cerveza a sabiendas (oh, los tiempos gloriosos de San Petersburgo en los años 90). Usemos sistemas de monitoreo que estén hechos, depurados y funcionando, y que en general traen beneficios (bueno, al menos a sus creadores).
Pan de jengibre y donas, moretones y golpesPan de jengibre y donas:
1. No es necesario perder el tiempo inventando lo que ya está inventado. Toma y usa.
2. Los sistemas de monitoreo no están escritos por tontos y, por supuesto, son útiles.
3. Los sistemas de monitoreo en funcionamiento generalmente brindan información filtrada útil.
Contusiones y golpes:
1. El ingeniero en este caso no es un ingeniero, sino simplemente un usuario del producto de otra persona, o un usuario.
2. El cliente debe estar convencido de la necesidad de comprar algo que generalmente no quiere entender, y no debe, y en general el presupuesto del año está aprobado y no cambiará. Luego, debe asignar un recurso separado, configurarlo para un sistema específico. Aquellos. Primero debe pagar, pagar y volver a pagar. Y el cliente es tacaño. Esta es la norma de esta vida.

¿Qué hacer, Chernyshevsky? Tu pregunta es muy pertinente. (Con)

En este caso particular y la situación actual, puede hacerlo un poco diferente: hagamos nuestro propio sistema de monitoreo.
Supervisión del rendimiento de las consultas de PostgreSQL. Parte 1 - informes
Bueno, no es un sistema, por supuesto, en el sentido completo de la palabra, esto es demasiado ruidoso y presuntuoso, pero al menos de alguna manera lo hace más fácil para usted y recopila más información para resolver incidentes de rendimiento. Para no encontrarse en una situación: "ve allí, no sé dónde, encuentra eso, no sé qué".

Cuáles son los pros y los contras de esta opción:

Pros:
1. Es interesante. Bueno, al menos más interesante que la constante "reducir archivo de datos, alterar espacio de tabla, etc."
2. Estas son nuevas habilidades y nuevos desarrollos. Que en el futuro, tarde o temprano, dará merecidos pan de jengibre y donas.
Contras:
1. Tiene que trabajar. Trabajar mucho.
2. Tendrás que explicar periódicamente el sentido y las perspectivas de toda actividad.
3. Habrá que sacrificar algo, porque el único recurso disponible para el ingeniero, el tiempo, está limitado por el Universo.
4. Lo peor y más desagradable - como resultado, puede resultar basura como "No es un ratón, no es una rana, sino un pequeño animal desconocido".

Quien no arriesga algo no bebe champagne.
Entonces, comienza la diversión.

Idea general - esquema

Supervisión del rendimiento de las consultas de PostgreSQL. Parte 1 - informes
(Ilustración tomada del artículo «La síntesis como uno de los métodos para mejorar el rendimiento de PostgreSQL»)

Explicación:

  • La base de datos de destino se instala con la extensión estándar de PostgreSQL "pg_stat_statements".
  • En la base de datos de monitoreo, creamos un conjunto de tablas de servicio para almacenar el historial de pg_stat_statements en la etapa inicial y configurar métricas y monitoreo en el futuro.
  • En el host de monitoreo, creamos un conjunto de scripts bash, incluidos aquellos para generar incidentes en el sistema de tickets.

Mesas de servicio

Para empezar, un ERD esquemáticamente simplificado, lo que sucedió al final:
Supervisión del rendimiento de las consultas de PostgreSQL. Parte 1 - informes
Breve descripción de las tablas.punto final - host, punto de conexión a la instancia
base de datos - opciones de base de datos
pg_stat_historia - tabla histórica para almacenar instantáneas temporales de la vista pg_stat_statements de la base de datos de destino
glosario_metrico - Diccionario de métricas de rendimiento
configuración_métrica - configuración de métricas individuales
métrico - una métrica específica para la solicitud que se está monitoreando
historial_alerta_métrica - historial de advertencias de rendimiento
registro_consulta - tabla de servicio para almacenar registros analizados del archivo de registro de PostgreSQL descargado de AWS
base - parámetros del período de tiempo utilizado como base
control - configuración de métricas para comprobar el estado de la base de datos
checkpoint_alert_history - historial de advertencias de las métricas de verificación del estado de la base de datos
pg_stat_db_consultas — tabla de servicio de solicitudes activas
registro de actividades — tabla de servicio de registro de actividad
trampa_oid - tabla de servicio de configuración de trampas

Etapa 1: recopile estadísticas de rendimiento y obtenga informes

Una tabla se utiliza para almacenar información estadística. pg_stat_historia
estructura de la tabla pg_stat_history

                                          Tabla "public.pg_stat_history" Columna | tipo | Modificadores----------------------+--------------------- --+---- -------------------------------- identificación | entero | no es nulo predeterminado nextval('pg_stat_history_id_seq'::regclass) snapshot_timestamp | marca de tiempo sin zona horaria | id_base_de_datos | entero | oferta | oid | ID de usuario | oid | ID de consulta | grande | consulta | texto | llamadas | grande | tiempo_total | precisión doble | min_time | precisión doble | max_time | precisión doble | hora_media | precisión doble | stddev_time | precisión doble | filas | grande | shared_blks_hit | grande | shared_blks_read | grande | shared_blks_dirtied | grande | bloques_compartidos_escritos | grande | local_blks_hit | grande | local_blks_read | grande | local_blks_dirtied | grande | local_blks_escrito | grande | temp_blks_read | grande | temp_blks_escrito | grande | blk_read_time | precisión doble | blk_write_time | precisión doble | base_id | entero | Índices: "pg_stat_history_pkey" PRIMARY KEY, btree (id) "database_idx" btree (database_id) "queryid_idx" btree (queryid) "snapshot_timestamp_idx" btree (snapshot_timestamp) Restricciones de clave externa: "database_id_fk" FOREIGN KEY (database_id) REFERENCES base de datos (id) ) EN ELIMINAR CASCADA

Como puede ver, la tabla es solo una vista acumulada de datos pg_stat_declaraciones en la base de datos de destino.

El uso de esta tabla es muy sencillo.

pg_stat_historia representará las estadísticas acumuladas de ejecución de consultas para cada hora. Al comienzo de cada hora, después de completar la tabla, las estadísticas pg_stat_declaraciones restablecer con pg_stat_statements_reset().
Nota: se recopilan estadísticas para solicitudes con una duración de más de 1 segundo.
Llenar la tabla pg_stat_history

--pg_stat_history.sql
CREATE OR REPLACE FUNCTION pg_stat_history( ) RETURNS boolean AS $$
DECLARE
  endpoint_rec record ;
  database_rec record ;
  pg_stat_snapshot record ;
  current_snapshot_timestamp timestamp without time zone;
BEGIN
  current_snapshot_timestamp = date_trunc('minute',now());  
  
  FOR endpoint_rec IN SELECT * FROM endpoint 
  LOOP
    FOR database_rec IN SELECT * FROM database WHERE endpoint_id = endpoint_rec.id 
	  LOOP
	    
		RAISE NOTICE 'NEW SHAPSHOT IS CREATING';
		
		--Connect to the target DB	  
	    EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||endpoint_rec.host||' dbname='||database_rec.name||' user=USER password=PASSWORD '')';
 
        RAISE NOTICE 'host % and dbname % ',endpoint_rec.host,database_rec.name;
		RAISE NOTICE 'Creating snapshot of pg_stat_statements for database %',database_rec.name;
		
		SELECT 
	      *
		INTO 
		  pg_stat_snapshot
	    FROM dblink('LINK1',
	      'SELECT 
	       dbid , SUM(calls),SUM(total_time),SUM(rows) ,SUM(shared_blks_hit) ,SUM(shared_blks_read) ,SUM(shared_blks_dirtied) ,SUM(shared_blks_written) , 
           SUM(local_blks_hit) , SUM(local_blks_read) , SUM(local_blks_dirtied) , SUM(local_blks_written) , SUM(temp_blks_read) , SUM(temp_blks_written) , SUM(blk_read_time) , SUM(blk_write_time)
	       FROM pg_stat_statements WHERE dbid=(SELECT oid from pg_database where datname=current_database() ) 
		   GROUP BY dbid
  	      '
	               )
	      AS t
	       ( dbid oid , calls bigint , 
  	         total_time double precision , 
	         rows bigint , shared_blks_hit bigint , shared_blks_read bigint ,shared_blks_dirtied bigint ,shared_blks_written	 bigint ,
             local_blks_hit	 bigint ,local_blks_read bigint , local_blks_dirtied bigint ,local_blks_written bigint ,
             temp_blks_read	 bigint ,temp_blks_written bigint ,
             blk_read_time double precision , blk_write_time double precision	  
	       );
		 
		INSERT INTO pg_stat_history
          ( 
		    snapshot_timestamp  ,database_id  ,
			dbid , calls  ,total_time ,
            rows ,shared_blks_hit  ,shared_blks_read  ,shared_blks_dirtied  ,shared_blks_written ,local_blks_hit , 	 	
            local_blks_read,local_blks_dirtied,local_blks_written,temp_blks_read,temp_blks_written, 	
            blk_read_time, blk_write_time 
		  )		  
	    VALUES
	      (
	       current_snapshot_timestamp ,
		   database_rec.id ,
	       pg_stat_snapshot.dbid ,pg_stat_snapshot.calls,
	       pg_stat_snapshot.total_time,
	       pg_stat_snapshot.rows ,pg_stat_snapshot.shared_blks_hit ,pg_stat_snapshot.shared_blks_read ,pg_stat_snapshot.shared_blks_dirtied ,pg_stat_snapshot.shared_blks_written , 
           pg_stat_snapshot.local_blks_hit , pg_stat_snapshot.local_blks_read , pg_stat_snapshot.local_blks_dirtied , pg_stat_snapshot.local_blks_written , 
	       pg_stat_snapshot.temp_blks_read , pg_stat_snapshot.temp_blks_written , pg_stat_snapshot.blk_read_time , pg_stat_snapshot.blk_write_time 	   
	      );		   
		  
        RAISE NOTICE 'Creating snapshot of pg_stat_statements for queries with min_time more than 1000ms';
	
        FOR pg_stat_snapshot IN
          --All queries with max_time greater than 1000 ms
	      SELECT 
	        *
	      FROM dblink('LINK1',
	        'SELECT 
	         dbid , userid ,queryid,query,calls,total_time,min_time ,max_time,mean_time, stddev_time ,rows ,shared_blks_hit ,
			 shared_blks_read ,shared_blks_dirtied ,shared_blks_written , 
             local_blks_hit , local_blks_read , local_blks_dirtied , 
			 local_blks_written , temp_blks_read , temp_blks_written , blk_read_time , 
			 blk_write_time
	         FROM pg_stat_statements 
			 WHERE dbid=(SELECT oid from pg_database where datname=current_database() AND min_time >= 1000 ) 
  	        '

	                  )
	        AS t
	         ( dbid oid , userid oid , queryid bigint ,query text , calls bigint , 
  	           total_time double precision ,min_time double precision	 ,max_time double precision	 , mean_time double precision	 ,  stddev_time double precision	 , 
	           rows bigint , shared_blks_hit bigint , shared_blks_read bigint ,shared_blks_dirtied bigint ,shared_blks_written	 bigint ,
               local_blks_hit	 bigint ,local_blks_read bigint , local_blks_dirtied bigint ,local_blks_written bigint ,
               temp_blks_read	 bigint ,temp_blks_written bigint ,
               blk_read_time double precision , blk_write_time double precision	  
	         )
	    LOOP
		  INSERT INTO pg_stat_history
          ( 
		    snapshot_timestamp  ,database_id  ,
			dbid ,userid  , queryid  , query  , calls  ,total_time ,min_time ,max_time ,mean_time ,stddev_time ,
            rows ,shared_blks_hit  ,shared_blks_read  ,shared_blks_dirtied  ,shared_blks_written ,local_blks_hit , 	 	
            local_blks_read,local_blks_dirtied,local_blks_written,temp_blks_read,temp_blks_written, 	
            blk_read_time, blk_write_time 
		  )		  
	      VALUES
	      (
	       current_snapshot_timestamp ,
		   database_rec.id ,
	       pg_stat_snapshot.dbid ,pg_stat_snapshot.userid ,pg_stat_snapshot.queryid,pg_stat_snapshot.query,pg_stat_snapshot.calls,
	       pg_stat_snapshot.total_time,pg_stat_snapshot.min_time ,pg_stat_snapshot.max_time,pg_stat_snapshot.mean_time, pg_stat_snapshot.stddev_time ,
	       pg_stat_snapshot.rows ,pg_stat_snapshot.shared_blks_hit ,pg_stat_snapshot.shared_blks_read ,pg_stat_snapshot.shared_blks_dirtied ,pg_stat_snapshot.shared_blks_written , 
           pg_stat_snapshot.local_blks_hit , pg_stat_snapshot.local_blks_read , pg_stat_snapshot.local_blks_dirtied , pg_stat_snapshot.local_blks_written , 
	       pg_stat_snapshot.temp_blks_read , pg_stat_snapshot.temp_blks_written , pg_stat_snapshot.blk_read_time , pg_stat_snapshot.blk_write_time 	   
	      );
		  
        END LOOP;

        PERFORM dblink_disconnect('LINK1');  
				
	  END LOOP ;--FOR database_rec IN SELECT * FROM database WHERE endpoint_id = endpoint_rec.id 
    
  END LOOP;

RETURN TRUE;  
END
$$ LANGUAGE plpgsql;

Como resultado, después de un cierto período de tiempo en la tabla pg_stat_historia tendremos un conjunto de instantáneas del contenido de la tabla pg_stat_declaraciones base de datos de destino.

en realidad informando

Usando consultas simples, puede obtener informes bastante útiles e interesantes.

Datos agregados para un período de tiempo determinado

Solicitud

SELECT 
  database_id , 
  SUM(calls) AS calls ,SUM(total_time)  AS total_time ,
  SUM(rows) AS rows , SUM(shared_blks_hit)  AS shared_blks_hit,
  SUM(shared_blks_read) AS shared_blks_read ,
  SUM(shared_blks_dirtied) AS shared_blks_dirtied,
  SUM(shared_blks_written) AS shared_blks_written , 
  SUM(local_blks_hit) AS local_blks_hit , 
  SUM(local_blks_read) AS local_blks_read , 
  SUM(local_blks_dirtied) AS local_blks_dirtied , 
  SUM(local_blks_written)  AS local_blks_written,
  SUM(temp_blks_read) AS temp_blks_read, 
  SUM(temp_blks_written) temp_blks_written , 
  SUM(blk_read_time) AS blk_read_time , 
  SUM(blk_write_time) AS blk_write_time
FROM 
  pg_stat_history
WHERE 
  queryid IS NULL AND
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
GROUP BY database_id ;

Tiempo DB

to_char(intervalo '1 milisegundo' * pg_total_stat_history_rec.total_time, 'HH24:MI:SS.MS')

Tiempo de E/S

to_char(intervalo '1 milisegundo' * ( pg_total_stat_history_rec.blk_read_time + pg_total_stat_history_rec.blk_write_time ), 'HH24:MI:SS.MS')

TOP10 SQL por tiempo_total

Solicitud

SELECT 
  queryid , 
  SUM(calls) AS calls ,
  SUM(total_time)  AS total_time  	
FROM 
  pg_stat_history
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT 
GROUP BY queryid 
ORDER BY 3 DESC 
LIMIT 10
-------------------------------------------------- ------------------------------------ | TOP10 SQL POR TIEMPO TOTAL DE EJECUCIÓN | #| ID de consulta | llamadas| llamadas %| tiempo_total (ms) | tiempobd % +----+-----------+-----------+-----------+------ -----------+---------- | 1| 821760255| 2| .00001|00:03:23.141( 203141.681 ms.)| 5.42 | 2| 4152624390| 2| .00001|00:03:13.929( 193929.215 ms.)| 5.17 | 3| 1484454471| 4| .00001|00:02:09.129( 129129.057 ms.)| 3.44 | 4| 655729273| 1| .00000|00:02:01.869( 121869.981 ms.)| 3.25 | 5| 2460318461| 1| .00000|00:01:33.113( 93113.835 ms.)| 2.48 | 6| 2194493487| 4| .00001|00:00:17.377( 17377.868 ms.)| .46 | 7| 1053044345| 1| .00000|00:00:06.156( 6156.352 ms.)| .16 | 8| 3644780286| 1| .00000|00:00:01.063( 1063.830 ms.)| .03

TOP10 SQL por tiempo total de E/S

Solicitud

SELECT 
  queryid , 
  SUM(calls) AS calls ,
  SUM(blk_read_time + blk_write_time)  AS io_time
FROM 
  pg_stat_history
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
GROUP BY  queryid 
ORDER BY 3 DESC 
LIMIT 10
-------------------------------------------------- --------------------------------------------- | TOP10 SQL POR TIEMPO TOTAL DE E/S | #| ID de consulta | llamadas| llamadas %| Tiempo de E/S (ms)|db Tiempo de E/S % +----+-----------+-----------+------ -----+--------------------------------+----------- -- | 1| 4152624390| 2| .00001|00:08:31.616( 511616.592 ms.)| 31.06 de junio | 2| 821760255| 2| .00001|00:08:27.099( 507099.036 ms.)| 30.78 | 3| 655729273| 1| .00000|00:05:02.209( 302209.137 ms.)| 18.35 | 4| 2460318461| 1| .00000|00:04:05.981( 245981.117 ms.)| 14.93 | 5| 1484454471| 4| .00001|00:00:39.144( 39144.221 ms.)| 2.38 | 6| 2194493487| 4| .00001|00:00:18.182( 18182.816 ms.)| 1.10 | 7| 1053044345| 1| .00000|00:00:16.611( 16611.722 ms.)| 1.01 | 8| 3644780286| 1| .00000|00:00:00.436( 436.205 ms.)| .03

TOP10 SQL por tiempo máximo de ejecución

Solicitud

SELECT 
  id AS snapshotid , 
  queryid , 
  snapshot_timestamp ,  
  max_time 
FROM 
  pg_stat_history 
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
ORDER BY 4 DESC 
LIMIT 10

-------------------------------------------------- ------------------------------------ | TOP10 SQL POR TIEMPO MÁXIMO DE EJECUCIÓN | #| instantánea| ID de instantánea | ID de consulta | tiempo_máx (ms) +----+------------------+-----------+--------- --+------------------------------------------------------- | 1| 05.04.2019/01/03 4169:655729273| 00| 02| 01.869:121869.981:2( 04.04.2019 ms.) | 17| 00/4153/821760255 00:01| 41.570| 101570.841| 3:04.04.2019:16( 00 ms.) | 4146| 821760255/00/01 41.570:101570.841| 4| 04.04.2019| 16:00:4144( 4152624390 ms.) | 00| 01/36.964/96964.607 5:04.04.2019| 17| 00| 4151:4152624390:00( 01 ms.) | 36.964| 96964.607/6/05.04.2019 10:00| 4188| 1484454471| 00:01:33.452( 93452.150 ms.) | 7| 04.04.2019/17/00 4150:2460318461 | 00| 01| 33.113:93113.835:8( 04.04.2019 ms.) | 15| 00/4140/1484454471 00:00| 11.892| 11892.302| 9:04.04.2019:16( 00 ms.) | 4145| 1484454471/00/00 11.892:11892.302| 10| 04.04.2019| 17:00:4152( 1484454471 ms.) | 00| 00/11.892/11892.302 XNUMX:XNUMX| XNUMX| XNUMX| XNUMX:XNUMX:XNUMX( XNUMX ms.) | XNUMX| XNUMX/XNUMX/XNUMX XNUMX:XNUMX| XNUMX| XNUMX| XNUMX:XNUMX:XNUMX( XNUMX ms.)

TOP10 SQL por lectura/escritura de búfer COMPARTIDO

Solicitud

SELECT 
  id AS snapshotid , 
  queryid ,
  snapshot_timestamp , 
  shared_blks_read , 
  shared_blks_written 
FROM 
  pg_stat_history
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT AND
  ( shared_blks_read > 0 OR shared_blks_written > 0 )
ORDER BY 4 DESC  , 5 DESC 
LIMIT 10
-------------------------------------------------- ------------------------------------ | TOP10 SQL POR BÚFER COMPARTIDO LECTURA/ESCRITURA | #| instantánea| ID de instantánea | ID de consulta | lectura de bloques compartidos| escritura de bloques compartidos +----+------------------+-----------+--------- -----------------------+------------------------------------ | 1| 04.04.2019/17/00 4153:821760255| 797308| 0| 2| 04.04.2019 | 16| 00/4146/821760255 797308:0| 3| 05.04.2019| 01| 03 | 4169| 655729273/797158/0 4:04.04.2019| 16| 00| 4144| 4152624390 | 756514| 0/5/04.04.2019 17:00| 4151| 4152624390| 756514| 0 | 6| 04.04.2019/17/00 4150:2460318461| 734117| 0| 7| 04.04.2019 | 17| 00/4155/3644780286 52973:0| 8| 05.04.2019| 01| 03 | 4168| 1053044345/52818/0 9:04.04.2019| 15| 00| 4141| 2194493487 | 52813| 0/10/04.04.2019 16:00| 4147| 2194493487| 52813| 0 | XNUMX| XNUMX/XNUMX/XNUMX XNUMX:XNUMX| XNUMX| XNUMX| XNUMX| XNUMX | XNUMX| XNUMX/XNUMX/XNUMX XNUMX:XNUMX| XNUMX| XNUMX| XNUMX| XNUMX ------------------------------------------------- -------------------------------------------------

Histograma de distribución de consultas por tiempo máximo de ejecución

solicitudes

SELECT  
  MIN(max_time) AS hist_min  , 
  MAX(max_time) AS hist_max , 
  (( MAX(max_time) - MIN(min_time) ) / hist_columns ) as hist_width
FROM 
  pg_stat_history 
WHERE 
  queryid IS NOT NULL AND
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT ;

SELECT 
  SUM(calls) AS calls
FROM 
  pg_stat_history 
WHERE 
  queryid IS NOT NULL AND
  database_id =DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT AND 
  ( max_time >= hist_current_min AND  max_time < hist_current_max ) ;
|----------------------------------------------------------------- ---------------------------------------- | HISTOGRAMA MAX_TIME | TOTAL LLAMADAS : 33851920 | TIEMPO MIN : 00:00:01.063 | TIEMPO MAX : 00:02:01.869 ---------------------------------- -------- ---------------------------- | duración mínima| duración máxima| llamadas +----------------------------------+------------------- -------------+---------------- | 00:00:01.063( 1063.830 ms.) | 00:00:13.144( 13144.445 ms.) | 9 | 00:00:13.144( 13144.445 ms.) | 00:00:25.225( 25225.060 ms.) | 0 | 00:00:25.225( 25225.060 ms.) | 00:00:37.305( 37305.675 ms.) | 0 | 00:00:37.305( 37305.675 ms.) | 00:00:49.386( 49386.290 ms.) | 0 | 00:00:49.386( 49386.290 ms.) | 00:01:01.466( 61466.906 ms.) | 0 | 00:01:01.466( 61466.906 ms.) | 00:01:13.547( 73547.521 ms.) | 0 | 00:01:13.547( 73547.521 ms.) | 00:01:25.628( 85628.136 ms.) | 0 | 00:01:25.628( 85628.136 ms.) | 00:01:37.708( 97708.751 ms.) | 4 | 00:01:37.708( 97708.751 ms.) | 00:01:49.789( 109789.366 ms.) | 2 | 00:01:49.789( 109789.366 ms.) | 00:02:01.869( 121869.981 ms.) | 0

TOP10 instantáneas por consulta por segundo

solicitudes

--pg_qps.sql
--Calculate Query Per Second 
CREATE OR REPLACE FUNCTION pg_qps( pg_stat_history_id integer ) RETURNS double precision AS $$
DECLARE
 pg_stat_history_rec record ;
 prev_pg_stat_history_id integer ;
 prev_pg_stat_history_rec record;
 total_seconds double precision ;
 result double precision;
BEGIN 
  result = 0 ;
  
  SELECT *
  INTO pg_stat_history_rec
  FROM 
    pg_stat_history
  WHERE id = pg_stat_history_id ;

  IF pg_stat_history_rec.snapshot_timestamp IS NULL 
  THEN
    RAISE EXCEPTION 'ERROR - Not found pg_stat_history for id = %',pg_stat_history_id;
  END IF ;  
  
 --RAISE NOTICE 'pg_stat_history_id = % , snapshot_timestamp = %', pg_stat_history_id , 
 pg_stat_history_rec.snapshot_timestamp ;
  
  SELECT 
    MAX(id)   
  INTO
    prev_pg_stat_history_id
  FROM
    pg_stat_history
  WHERE 
    database_id = pg_stat_history_rec.database_id AND
	queryid IS NULL AND
	id < pg_stat_history_rec.id ;

  IF prev_pg_stat_history_id IS NULL 
  THEN
    RAISE NOTICE 'Not found previous pg_stat_history shapshot for id = %',pg_stat_history_id;
	RETURN NULL ;
  END IF;
  
  SELECT *
  INTO prev_pg_stat_history_rec
  FROM 
    pg_stat_history
  WHERE id = prev_pg_stat_history_id ;
  
  --RAISE NOTICE 'prev_pg_stat_history_id = % , prev_snapshot_timestamp = %', prev_pg_stat_history_id , prev_pg_stat_history_rec.snapshot_timestamp ;    

  total_seconds = extract(epoch from ( pg_stat_history_rec.snapshot_timestamp - prev_pg_stat_history_rec.snapshot_timestamp ));
  
  --RAISE NOTICE 'total_seconds = % ', total_seconds ;    
  
  --RAISE NOTICE 'calls = % ', pg_stat_history_rec.calls ;      
  
  IF total_seconds > 0 
  THEN
    result = pg_stat_history_rec.calls / total_seconds ;
  ELSE
   result = 0 ; 
  END IF;
   
 RETURN result ;
END
$$ LANGUAGE plpgsql;


SELECT 
  id , 
  snapshot_timestamp ,
  calls , 	
  total_time , 
  ( select pg_qps( id )) AS QPS ,
  blk_read_time ,
  blk_write_time
FROM 
  pg_stat_history
WHERE 
  queryid IS NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT AND
  ( select pg_qps( id )) IS NOT NULL 
ORDER BY 5 DESC 
LIMIT 10
|----------------------------------------------------------------- ---------------------------------------- | TOP10 Instantáneas ordenadas por números de QueryPerSeconds -------------------------------------- ------ -------------------------------------------- ------ ------------------------------------------- | #| instantánea| ID de instantánea | llamadas| tiempo total de db| Preguntas frecuentes | tiempo de E/S | % de tiempo de E/S +-----+------------------+-----------+------- ----+------------------------------------+---------- ------------------------------------------+------------------ | 1| 04.04.2019/20/04 4161:5758631| 00| 06| 30.513:390513.926:1573.396( 00 ms.)| 00| 01.470:1470.110:376( 2ms.)| .04.04.2019 | 17| 00/4149/3529197 00:11| 48.830| 708830.618| 980.332:00:12( 47.834 ms.)| 767834.052| 108.324:3:04.04.2019( 16 ms.)| 00 | 4143| 3525360/00/10 13.492:613492.351| 979.267| 00| 08:41.396:521396.555( 84.988 ms.)| 4| 04.04.2019:21:03( 4163 ms.)| 2781536 | 00| 03/06.470/186470.979 785.745:00| 00| 00.249| 249.865:134:5( 04.04.2019 ms.)| 19| 03:4159:2890362( 00 ms.)| .03 | 16.784| 196784.755/776.979/00 00:01.441| 1441.386| 732| 6:04.04.2019:14( 00 ms.)| 4137| 2397326:00:04( 43.033 ms.)| .283033.854 | 665.924| 00/00/00.024 24.505:009| 7| 04.04.2019| 15:00:4139( 2394416 ms.)| 00| 04:51.435:291435.010( 665.116 ms.)| .00 | 00| 12.025/12025.895/4.126 8:04.04.2019| 13| 00| 4135:2373043:00( 04 ms.)| 26.791| 266791.988:659.179:00( 00 ms.)| 00.064 | 64.261| 024/9/05.04.2019 01:03 | 4167| 4387191| 00:06:51.380( 411380.293 ms.)| 609.332| 00:05:18.847( 318847.407 ms.)| .77.507 | 10| 04.04.2019/18/01 4157:1145596| 00| 01| 19.217:79217.372:313.004( 00 ms.)| 00| 01.319:1319.676:1.666( XNUMX ms.)| XNUMX | XNUMX| XNUMX/XNUMX/XNUMX XNUMX:XNUMX| XNUMX| XNUMX| XNUMX:XNUMX:XNUMX( XNUMX ms.)| XNUMX| XNUMX:XNUMX:XNUMX( XNUMX ms.)| XNUMX

Historial de ejecución por hora con QueryPerSeconds y tiempo de E/S

Solicitud

SELECT 
  id , 
  snapshot_timestamp ,
  calls , 	
  total_time , 
  ( select pg_qps( id )) AS QPS ,
  blk_read_time ,
  blk_write_time
FROM 
  pg_stat_history
WHERE 
  queryid IS NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
ORDER BY 2
|-----------------------------------------------------------------------------------------------
| HOURLY EXECUTION HISTORY  WITH QueryPerSeconds and I/O Time
-----------------------------------------------------------------------------------------------------------------------------------------------
| QUERY PER SECOND HISTORY
|    #|          snapshot| snapshotID|      calls|                      total dbtime|        QPS|                          I/O time| I/O time %
+-----+------------------+-----------+-----------+----------------------------------+-----------+----------------------------------+-----------
|    1|  04.04.2019 11:00|       4131|       3747|  00:00:00.835(       835.374 ms.)|      1.041|  00:00:00.000(          .000 ms.)|       .000
|    2|  04.04.2019 12:00|       4133|    1002722|  00:01:52.419(    112419.376 ms.)|    278.534|  00:00:00.149(       149.105 ms.)|       .133
|    3|  04.04.2019 13:00|       4135|    2373043|  00:04:26.791(    266791.988 ms.)|    659.179|  00:00:00.064(        64.261 ms.)|       .024
|    4|  04.04.2019 14:00|       4137|    2397326|  00:04:43.033(    283033.854 ms.)|    665.924|  00:00:00.024(        24.505 ms.)|       .009
|    5|  04.04.2019 15:00|       4139|    2394416|  00:04:51.435(    291435.010 ms.)|    665.116|  00:00:12.025(     12025.895 ms.)|      4.126
|    6|  04.04.2019 16:00|       4143|    3525360|  00:10:13.492(    613492.351 ms.)|    979.267|  00:08:41.396(    521396.555 ms.)|     84.988
|    7|  04.04.2019 17:00|       4149|    3529197|  00:11:48.830(    708830.618 ms.)|    980.332|  00:12:47.834(    767834.052 ms.)|    108.324
|    8|  04.04.2019 18:01|       4157|    1145596|  00:01:19.217(     79217.372 ms.)|    313.004|  00:00:01.319(      1319.676 ms.)|      1.666
|    9|  04.04.2019 19:03|       4159|    2890362|  00:03:16.784(    196784.755 ms.)|    776.979|  00:00:01.441(      1441.386 ms.)|       .732
|   10|  04.04.2019 20:04|       4161|    5758631|  00:06:30.513(    390513.926 ms.)|   1573.396|  00:00:01.470(      1470.110 ms.)|       .376
|   11|  04.04.2019 21:03|       4163|    2781536|  00:03:06.470(    186470.979 ms.)|    785.745|  00:00:00.249(       249.865 ms.)|       .134
|   12|  04.04.2019 23:03|       4165|    1443155|  00:01:34.467(     94467.539 ms.)|    200.438|  00:00:00.015(        15.287 ms.)|       .016
|   13|  05.04.2019 01:03|       4167|    4387191|  00:06:51.380(    411380.293 ms.)|    609.332|  00:05:18.847(    318847.407 ms.)|     77.507
|   14|  05.04.2019 02:03|       4171|     189852|  00:00:10.989(     10989.899 ms.)|     52.737|  00:00:00.539(       539.110 ms.)|      4.906
|   15|  05.04.2019 03:01|       4173|       3627|  00:00:00.103(       103.000 ms.)|      1.042|  00:00:00.004(         4.131 ms.)|      4.010
|   16|  05.04.2019 04:00|       4175|       3627|  00:00:00.085(        85.235 ms.)|      1.025|  00:00:00.003(         3.811 ms.)|      4.471
|   17|  05.04.2019 05:00|       4177|       3747|  00:00:00.849(       849.454 ms.)|      1.041|  00:00:00.006(         6.124 ms.)|       .721
|   18|  05.04.2019 06:00|       4179|       3747|  00:00:00.849(       849.561 ms.)|      1.041|  00:00:00.000(          .051 ms.)|       .006
|   19|  05.04.2019 07:00|       4181|       3747|  00:00:00.839(       839.416 ms.)|      1.041|  00:00:00.000(          .062 ms.)|       .007
|   20|  05.04.2019 08:00|       4183|       3747|  00:00:00.846(       846.382 ms.)|      1.041|  00:00:00.000(          .007 ms.)|       .001
|   21|  05.04.2019 09:00|       4185|       3747|  00:00:00.855(       855.426 ms.)|      1.041|  00:00:00.000(          .065 ms.)|       .008
|   22|  05.04.2019 10:00|       4187|       3797|  00:01:40.150(    100150.165 ms.)|      1.055|  00:00:21.845(     21845.217 ms.)|     21.812

Texto de todas las selecciones de SQL

Solicitud

SELECT 
  queryid , 
  query 
FROM 
  pg_stat_history
WHERE 
  queryid IS NOT NULL AND 
  database_id = DATABASE_ID  AND
  snapshot_timestamp BETWEEN BEGIN_TIMEPOINT AND END_TIMEPOINT
GROUP BY queryid , query

Total

Como puede ver, por medios bastante simples, puede obtener mucha información útil sobre la carga de trabajo y el estado de la base de datos.

Nota:Si corrige el queryid en las consultas, obtendremos el historial para una solicitud separada (para ahorrar espacio, se omiten los informes para una solicitud separada).

Por lo tanto, los datos estadísticos sobre el rendimiento de las consultas están disponibles y se recopilan.
La primera etapa "recopilación de datos estadísticos" está completa.

Puede continuar con la segunda etapa: "configuración de métricas de rendimiento".
Supervisión del rendimiento de las consultas de PostgreSQL. Parte 1 - informes

Pero esta es una historia completamente diferente.

To be continued ...

Fuente: habr.com

Añadir un comentario