Introduction au système de sauvegarde wal-g PostgreSQL

WA-G est un outil simple et efficace pour sauvegarder PostgreSQL sur les cloud. En termes de fonctionnalités principales, il est l'héritier de l'outil populaire WAL-E, mais réécrit en Go. Mais il y a une nouvelle fonctionnalité importante dans WAL-G : les copies delta. copies delta WA-G stocker les pages de fichiers qui ont été modifiés depuis la version de sauvegarde précédente. WAL-G implémente de nombreuses technologies pour paralléliser les sauvegardes. WAL-G est beaucoup plus rapide que WAL-E.

Des détails sur le fonctionnement de wal-g peuvent être trouvés dans l'article : Nous overclockons la sauvegarde. Conférence Yandex

Le protocole de stockage S3 est devenu populaire pour stocker des données. L'un des avantages de S3 est la possibilité d'accéder via API, qui vous permet d'organiser une interaction flexible avec le stockage, y compris un accès public en lecture, tandis que la mise à jour des informations dans le stockage est effectuée uniquement par des personnes autorisées.

Il existe plusieurs implémentations de stockage public et privé qui utilisent le protocole S3. Aujourd'hui, nous examinerons une solution populaire pour organiser un petit stockage - Minio.

Un seul serveur PostgreSQL convient pour tester wal-g, et Minio est utilisé en remplacement de S3.

Serveur Minio

Installation de Minio

yum -y install yum-plugin-copr
yum copr enable -y lkiesow/minio
yum install -y minio

Modifiez AccessKey et SecretKey dans /etc/minio/minio.conf

vi /etc/minio/minio.conf

Si vous n'utilisez pas nginx avant Minio, vous devez alors modifier

--address 127.0.0.1:9000

--address 0.0.0.0:9000

Lancement de Minio

systemctl start minio

Accédez à l'interface Web de Minio http://ip-адрес-сервера-minio:9000 et créez un bucket (par exemple, pg-backups).

serveur de base de données

WAL-G en RPM est assemblé par moi (Anton Patsev). Github, Fedora COPR.

Qui n'a pas de système basé sur RPM, utilisez le logiciel officiel instruction par installation.

Avec le binaire wal-g, rpm contient des scripts qui importent des variables du fichier /etc/wal-gd/server-s3.conf.

backup-fetch.sh
backup-list.sh
backup-push.sh
wal-fetch.sh
wal-g-run.sh
wal-push.sh

Installez Walg.

yum -y install yum-plugin-copr
yum copr enable -y antonpatsev/wal-g
yum install -y wal-g

Vérification de la version Wal-G.

wal-g --version
wal-g version v0.2.14

Modifiez /etc/wal-gd/server-s3.conf selon vos besoins.

Les fichiers de configuration et les fichiers de données utilisés par un cluster de bases de données sont traditionnellement stockés ensemble dans le répertoire de données du cluster, communément appelé PGDATA

#!/bin/bash

export PG_VER="9.6"

export WALE_S3_PREFIX="s3://pg-backups" # бакет, который мы создали в S3
export AWS_ACCESS_KEY_ID="xxxx" # AccessKey из /etc/minio/minio.conf 
export AWS_ENDPOINT="http://ip-адрес-сервера-minio:9000"
export AWS_S3_FORCE_PATH_STYLE="true"
export AWS_SECRET_ACCESS_KEY="yyyy" # SecretKey из /etc/minio/minio.conf

export PGDATA=/var/lib/pgsql/$PG_VER/data/
export PGHOST=/var/run/postgresql/.s.PGSQL.5432 # Сокет для подключения к PostgreSQL

export WALG_UPLOAD_CONCURRENCY=2 # Кол-во потоков для закачки 
export WALG_DOWNLOAD_CONCURRENCY=2 # Кол-во потоков для скачивания
export WALG_UPLOAD_DISK_CONCURRENCY=2 # Кол-во потоков на диске для закачки
export WALG_DELTA_MAX_STEPS=7
export WALG_COMPRESSION_METHOD=brotli # Какой метод сжатия использовать.

Lors de la configuration de WAL-G, vous spécifiez WALG_DELTA_MAX_STEPS - le nombre d'étapes pendant lequel la sauvegarde delta est maximale à partir de la sauvegarde de base, et spécifiez la politique de copie delta. Soit vous faites une copie à partir du dernier delta existant, soit vous faites un delta à partir de la sauvegarde complète d'origine. Cela est nécessaire dans le cas où le même composant de la base de données change constamment dans votre base de données, les mêmes données changent constamment.

Installation de la base de données.

yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.
noarch.rpm
yum install -y postgresql96 postgresql96-server mc

Nous initialisons la base de données.

/usr/pgsql-9.6/bin/postgresql96-setup initdb
Initializing database ... OK

Si vous testez sur 1 serveur, vous devez reconfigurer le paramètre wal_level pour archiver pour PostgreSQL version antérieure à 10 et réplique pour PostgreSQL version 10 et antérieure.

wal_level = archive

Sauvegardons les archives WAL toutes les 60 secondes en utilisant PostgreSQL lui-même. En production, vous aurez une valeur archive_timeout différente.

archive_mode = on
archive_command = '/usr/local/bin/wal-push.sh %p'
archive_timeout = 60 # Каждые 60 секунд будет выполнятся команда archive_command.

Démarrage de PostgreSQL

systemctl start postgresql-9.6

Dans une console séparée, nous examinons les erreurs dans les journaux PostgreSQL : (remplacez postgresql-Wed.log par celui actuel).

tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Passons à psql.

su - postgres
psql

Créer une base de données dans psql

Créez une table dans la base de données test1.

create database test1;

Passez au test de la base de données.

postgres=# c test1;

Nous créons la table indexing_table.

test1=# CREATE TABLE indexing_table(created_at TIMESTAMP WITH TIME ZONE DEFAULT NOW());

Ajout de données.

Nous commençons à insérer des données. Nous attendons 10 à 20 minutes.

#!/bin/bash
# postgres
while true; do
psql -U postgres -d test1 -c "INSERT INTO indexing_table(created_at) VALUES (CURRENT_TIMESTAMP);"
sleep 60;
done

Assurez-vous de faire une sauvegarde complète.

su - postgres
/usr/local/bin/backup-push.sh

Nous regardons les enregistrements dans le tableau de la base de données test1

select * from indexing_table;
2020-01-29 09:41:25.226198+
2020-01-29 09:42:25.336989+
2020-01-29 09:43:25.356069+
2020-01-29 09:44:25.37381+
2020-01-29 09:45:25.392944+
2020-01-29 09:46:25.412327+
2020-01-29 09:47:25.432564+
2020-01-29 09:48:25.451985+
2020-01-29 09:49:25.472653+
2020-01-29 09:50:25.491974+
2020-01-29 09:51:25.510178+

La chaîne est l'heure actuelle.

Voir la liste des sauvegardes complètes

/usr/local/bin/backup-list.sh

Tests de récupération

Récupération complète avec roulement de tous les WAL disponibles.

Arrêtez Postgresql.

Supprimez tout du dossier /var/lib/pgsql/9.6/data.

Exécutez le script /usr/local/bin/backup-fetch.sh en tant qu'utilisateur postgres.

su - postgres
/usr/local/bin/backup-fetch.sh

Extraction de sauvegarde terminée.

Ajoutez recovery.conf au dossier /var/lib/pgsql/9.6/data avec le contenu suivant.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'

Nous démarrons PostgreSQL. PostgreSQL démarrera le processus de récupération à partir des WAL archivés, et alors seulement la base de données s'ouvrira.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Récupération pendant un certain temps.

Si nous voulons restaurer la base de données jusqu'à une certaine minute, nous ajoutons le paramètre recovery_target_time à recovery.conf - nous indiquons à quelle heure restaurer la base de données.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'
recovery_target_time = '2020-01-29 09:46:25'

Après récupération, regardez la table indexing_table

 2020-01-29 09:41:25.226198+00
 2020-01-29 09:42:25.336989+00
 2020-01-29 09:43:25.356069+00
 2020-01-29 09:44:25.37381+00
 2020-01-29 09:45:25.392944+00

Nous démarrons PostgreSQL. PostgreSQL démarrera le processus de récupération à partir des WAL archivés, et alors seulement la base de données s'ouvrira.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Test

Générer une base de données de 1 Go comme décrit ici https://gist.github.com/ololobus/5b25c432f208d7eb31051a5f238dffff

Demander la taille du bucket après avoir généré 1 Go de données.

postgres=# SELECT pg_size_pretty(pg_database_size('test1'));
pg_size_pretty
----------------
1003 MB

s4cmd est un outil de ligne de commande gratuit permettant de travailler avec des données résidant dans le stockage Amazon S3. L'utilitaire est écrit dans le langage de programmation Python et, de ce fait, il peut être utilisé dans les systèmes d'exploitation Windows et Linux.

Installation de s4cmd

pip install s4cmd

LZ4

s4cmd --endpoint-url=http://ip-адрес-сервера-minio:9000 --access-key=xxxx --secret-key=yyyy du -r s3://pg-backups
840540822       s3://pg-backups/wal_005/
840 МБ в формате lz4 только WAL логов

Полный бекап с lz4 - 1GB данных
time backup_push.sh
real 0m18.582s

Размер S3 бакета после полного бекапа

581480085       s3://pg-backups/basebackups_005/
842374424   s3://pg-backups/wal_005
581 МБ занимает полный бекап

LZMA

После генерации 1ГБ данных
338413694       s3://pg-backups/wal_005/
338 мб логов в формате lzma

Время генерации полного бекапа
time backup_push.sh
real    5m25.054s

Размер бакета в S3
270310495       s3://pg-backups/basebackups_005/
433485092   s3://pg-backups/wal_005/

270 мб занимает полный бекап в формате lzma

Brotli

После генерации 1ГБ данных
459229886       s3://pg-backups/wal_005/
459 мб логов в формате brotli

Время генерации полного бекапа
real    0m23.408s

Размер бакета в S3
312960942       s3://pg-backups/basebackups_005/
459309262   s3://pg-backups/wal_005/

312 мб занимает полный бекап в формате brotli

Comparaison des résultats sur le graphique.

Introduction au système de sauvegarde wal-g PostgreSQL

Comme vous pouvez le constater, Brotli est de taille comparable à LZMA, mais la sauvegarde est effectuée en temps LZ4.

Chat de la communauté PostgreSQL russophone : https://t.me/pgsql

Veuillez donner une étoile à Github si vous utilisez wal-g

Source: habr.com

Ajouter un commentaire