Introducción al sistema de respaldo Wal-g PostgreSQL

WAL-G es una herramienta sencilla y eficaz para realizar copias de seguridad de PostgreSQL en las nubes. En cuanto a su funcionalidad principal, es heredera de la popular herramienta WAL-E, pero reescrito en Go. Pero hay una nueva característica importante en WAL-G: las copias delta. copias delta WAL-G almacenar páginas de archivos que han cambiado desde la versión de copia de seguridad anterior. WAL-G implementa muchas tecnologías para paralelizar copias de seguridad. WAL-G es mucho más rápido que WAL-E.

Los detalles sobre cómo funciona wal-g se pueden encontrar en el artículo: Overclockeamos la copia de seguridad. conferencia yandex

El protocolo de almacenamiento S3 se ha vuelto popular para almacenar datos. Una de las ventajas de S3 es la capacidad de acceder a través de API, lo que le permite organizar una interacción flexible con el almacenamiento, incluido el acceso público de lectura, mientras que la actualización de la información en el almacenamiento la realizan solo personas autorizadas.

Existen varias implementaciones de almacenamiento público y privado que utilizan el protocolo S3. Hoy veremos una solución popular para organizar almacenamiento pequeño: Minio.

Un único servidor PostgreSQL está bien para probar wal-g y Minio se utiliza como reemplazo de S3.

Servidor minio

instalación minio

yum -y install yum-plugin-copr
yum copr enable -y lkiesow/minio
yum install -y minio

Edite AccessKey y SecretKey en /etc/minio/minio.conf

vi /etc/minio/minio.conf

Si no va a utilizar nginx antes de Minio, entonces necesita cambiar

--address 127.0.0.1:9000

--address 0.0.0.0:9000

Lanzando Minio

systemctl start minio

Ir a la interfaz web de Minio http://ip-адрес-сервера-minio:9000 y cree un depósito (por ejemplo, pg-backups).

servidor de base de datos

WAL-G en rpm lo ensamblo yo (Anton Patsev). Github, Fedora COPR.

Quien no tenga un sistema basado en RPM, utilice el oficial instrucción mediante instalación.

Junto con el binario wal-g, rpm contiene scripts que importan variables del archivo /etc/wal-gd/server-s3.conf.

backup-fetch.sh
backup-list.sh
backup-push.sh
wal-fetch.sh
wal-g-run.sh
wal-push.sh

Instale la pared.

yum -y install yum-plugin-copr
yum copr enable -y antonpatsev/wal-g
yum install -y wal-g

Comprobando la versión Wal-G.

wal-g --version
wal-g version v0.2.14

Edite /etc/wal-gd/server-s3.conf según sus necesidades.

Los archivos de configuración y los archivos de datos utilizados por un clúster de base de datos se almacenan tradicionalmente juntos en el directorio de datos del clúster, comúnmente conocido como PGDATA

#!/bin/bash

export PG_VER="9.6"

export WALE_S3_PREFIX="s3://pg-backups" # бакет, который мы создали в S3
export AWS_ACCESS_KEY_ID="xxxx" # AccessKey из /etc/minio/minio.conf 
export AWS_ENDPOINT="http://ip-адрес-сервера-minio:9000"
export AWS_S3_FORCE_PATH_STYLE="true"
export AWS_SECRET_ACCESS_KEY="yyyy" # SecretKey из /etc/minio/minio.conf

export PGDATA=/var/lib/pgsql/$PG_VER/data/
export PGHOST=/var/run/postgresql/.s.PGSQL.5432 # Сокет для подключения к PostgreSQL

export WALG_UPLOAD_CONCURRENCY=2 # Кол-во потоков для закачки 
export WALG_DOWNLOAD_CONCURRENCY=2 # Кол-во потоков для скачивания
export WALG_UPLOAD_DISK_CONCURRENCY=2 # Кол-во потоков на диске для закачки
export WALG_DELTA_MAX_STEPS=7
export WALG_COMPRESSION_METHOD=brotli # Какой метод сжатия использовать.

Al configurar WAL-G, especifica WALG_DELTA_MAX_STEPS: la cantidad de pasos que la copia de seguridad delta es máxima desde la copia de seguridad base y especifica la política de copia delta. O hace una copia del último delta existente o hace un delta de la copia de seguridad completa original. Esto es necesario en caso de que el mismo componente de la base de datos cambie siempre en su base de datos y los mismos datos cambien constantemente.

Instalación de la base de datos.

yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.
noarch.rpm
yum install -y postgresql96 postgresql96-server mc

Inicializamos la base de datos.

/usr/pgsql-9.6/bin/postgresql96-setup initdb
Initializing database ... OK

Si está realizando pruebas en 1 servidor, deberá reconfigurar el parámetro wal_level para archivar para PostgreSQL anterior a la versión 10 y replicar para PostgreSQL versión 10 y anteriores.

wal_level = archive

Hagamos una copia de seguridad de los archivos WAL cada 60 segundos utilizando el propio PostgreSQL. Al producirse, tendrá un valor de archive_timeout diferente.

archive_mode = on
archive_command = '/usr/local/bin/wal-push.sh %p'
archive_timeout = 60 # Каждые 60 секунд будет выполнятся команда archive_command.

Iniciando PostgreSQL

systemctl start postgresql-9.6

En una consola separada, miramos los registros de PostgreSQL en busca de errores: (cambie postgresql-Wed.log al actual).

tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Vayamos a psql.

su - postgres
psql

Crear una base de datos en psql

Cree una tabla en la base de datos test1.

create database test1;

Cambie a la prueba de la base de datos.

postgres=# c test1;

Creamos la tabla indexing_table.

test1=# CREATE TABLE indexing_table(created_at TIMESTAMP WITH TIME ZONE DEFAULT NOW());

Agregando datos.

Empezamos a insertar datos. Estamos esperando entre 10 y 20 minutos.

#!/bin/bash
# postgres
while true; do
psql -U postgres -d test1 -c "INSERT INTO indexing_table(created_at) VALUES (CURRENT_TIMESTAMP);"
sleep 60;
done

Asegúrate de hacer una copia de seguridad completa.

su - postgres
/usr/local/bin/backup-push.sh

Miramos los registros en la tabla en la base de datos test1.

select * from indexing_table;
2020-01-29 09:41:25.226198+
2020-01-29 09:42:25.336989+
2020-01-29 09:43:25.356069+
2020-01-29 09:44:25.37381+
2020-01-29 09:45:25.392944+
2020-01-29 09:46:25.412327+
2020-01-29 09:47:25.432564+
2020-01-29 09:48:25.451985+
2020-01-29 09:49:25.472653+
2020-01-29 09:50:25.491974+
2020-01-29 09:51:25.510178+

La cadena es la hora actual.

Ver la lista de copias de seguridad completas

/usr/local/bin/backup-list.sh

Pruebas de recuperación

Recuperación completa con rodadura de todos los WAL disponibles.

Detenga Postgresql.

Elimine todo de la carpeta /var/lib/pgsql/9.6/data.

Ejecute el script /usr/local/bin/backup-fetch.sh como usuario de postgres.

su - postgres
/usr/local/bin/backup-fetch.sh

Extracción de copia de seguridad completa.

Agregue recovery.conf a la carpeta /var/lib/pgsql/9.6/data con el siguiente contenido.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'

Iniciamos PostgreSQL. PostgreSQL iniciará el proceso de recuperación de los WAL archivados y solo entonces se abrirá la base de datos.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Recuperación por un tiempo determinado.

Si queremos restaurar la base de datos hasta un minuto determinado, agregamos el parámetro recovery_target_time a recovery.conf; indicamos a qué hora restaurar la base de datos.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'
recovery_target_time = '2020-01-29 09:46:25'

Después de la recuperación, mire la tabla indexing_table

 2020-01-29 09:41:25.226198+00
 2020-01-29 09:42:25.336989+00
 2020-01-29 09:43:25.356069+00
 2020-01-29 09:44:25.37381+00
 2020-01-29 09:45:25.392944+00

Iniciamos PostgreSQL. PostgreSQL iniciará el proceso de recuperación de los WAL archivados y solo entonces se abrirá la base de datos.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

pruebas

Generando una base de datos de 1 GB como se describe aquí https://gist.github.com/ololobus/5b25c432f208d7eb31051a5f238dffff

Solicitar el tamaño del depósito después de generar 1 GB de datos.

postgres=# SELECT pg_size_pretty(pg_database_size('test1'));
pg_size_pretty
----------------
1003 MB

s4cmd es una herramienta de línea de comandos gratuita para trabajar con datos que residen en el almacenamiento de Amazon S3. La utilidad está escrita en el lenguaje de programación Python y, debido a esto, puede usarse tanto en sistemas operativos Windows como Linux.

Instalando s4cmd

pip install s4cmd

LZ4

s4cmd --endpoint-url=http://ip-адрес-сервера-minio:9000 --access-key=xxxx --secret-key=yyyy du -r s3://pg-backups
840540822       s3://pg-backups/wal_005/
840 МБ в формате lz4 только WAL логов

Полный бекап с lz4 - 1GB данных
time backup_push.sh
real 0m18.582s

Размер S3 бакета после полного бекапа

581480085       s3://pg-backups/basebackups_005/
842374424   s3://pg-backups/wal_005
581 МБ занимает полный бекап

LZMA

После генерации 1ГБ данных
338413694       s3://pg-backups/wal_005/
338 мб логов в формате lzma

Время генерации полного бекапа
time backup_push.sh
real    5m25.054s

Размер бакета в S3
270310495       s3://pg-backups/basebackups_005/
433485092   s3://pg-backups/wal_005/

270 мб занимает полный бекап в формате lzma

Brotli

После генерации 1ГБ данных
459229886       s3://pg-backups/wal_005/
459 мб логов в формате brotli

Время генерации полного бекапа
real    0m23.408s

Размер бакета в S3
312960942       s3://pg-backups/basebackups_005/
459309262   s3://pg-backups/wal_005/

312 мб занимает полный бекап в формате brotli

Comparación de resultados en el gráfico.

Introducción al sistema de respaldo Wal-g PostgreSQL

Como puede ver, Brotli es comparable en tamaño a LZMA, pero la copia de seguridad se realiza en tiempo LZ4.

Chat de la comunidad PostgreSQL de habla rusa: https://t.me/pgsql

Por favor dale una estrella a Github si usas wal-g

Fuente: habr.com

Añadir un comentario