Introduzione al sistema di backup wal-g PostgreSQL

WAL-G è uno strumento semplice ed efficace per eseguire il backup di PostgreSQL sui cloud. In termini di funzionalità principale, è l'erede del popolare strumento WAL-E, ma riscritto in Go. Ma c'è una nuova importante funzionalità in WAL-G: le copie delta. copie delta WAL-G memorizzare pagine di file che sono cambiate rispetto alla versione di backup precedente. WAL-G implementa numerose tecnologie per la parallelizzazione dei backup. WAL-G è molto più veloce di WAL-E.

I dettagli su come funziona wal-g possono essere trovati nell'articolo: Overclockiamo il backup. Lezione Yandex

Il protocollo di archiviazione S3 è diventato popolare per l'archiviazione dei dati. Uno dei vantaggi di S3 è la possibilità di accedere tramite API, che consente di organizzare un'interazione flessibile con lo storage, incluso l'accesso in lettura pubblica, mentre l'aggiornamento delle informazioni nello storage avviene solo da parte delle persone autorizzate.

Esistono diverse implementazioni di archiviazione pubbliche e private che utilizzano il protocollo S3. Oggi esamineremo una soluzione popolare per organizzare piccoli spazi di archiviazione: Minio.

Un singolo server PostgreSQL va bene per testare wal-g e Minio viene utilizzato in sostituzione di S3.

Mini Server

Installazione Minio

yum -y install yum-plugin-copr
yum copr enable -y lkiesow/minio
yum install -y minio

Modifica AccessKey e SecretKey in /etc/minio/minio.conf

vi /etc/minio/minio.conf

Se non utilizzerai nginx prima di Minio, dovrai cambiare

--address 127.0.0.1:9000

--address 0.0.0.0:9000

Avvio di Minio

systemctl start minio

Vai all'interfaccia web di Minio http://ip-адрес-сервера-minio:9000 e creare un bucket (ad esempio, pg-backups).

Server DB

WAL-G in giri è assemblato da me (Anton Patsev). Github, Fedora COPR.

Chi non dispone di un sistema basato su RPM, utilizzi quello ufficiale istruzione per installazione.

Insieme al binario wal-g, rpm contiene script che importano variabili dal file /etc/wal-gd/server-s3.conf.

backup-fetch.sh
backup-list.sh
backup-push.sh
wal-fetch.sh
wal-g-run.sh
wal-push.sh

Installa Walg.

yum -y install yum-plugin-copr
yum copr enable -y antonpatsev/wal-g
yum install -y wal-g

Controllo della versione wal-g.

wal-g --version
wal-g version v0.2.14

Modifica /etc/wal-gd/server-s3.conf in base alle tue esigenze.

I file di configurazione e i file di dati utilizzati da un cluster di database sono tradizionalmente archiviati insieme nella directory dei dati del cluster, comunemente denominata PGDATA

#!/bin/bash

export PG_VER="9.6"

export WALE_S3_PREFIX="s3://pg-backups" # бакет, который мы создали в S3
export AWS_ACCESS_KEY_ID="xxxx" # AccessKey из /etc/minio/minio.conf 
export AWS_ENDPOINT="http://ip-адрес-сервера-minio:9000"
export AWS_S3_FORCE_PATH_STYLE="true"
export AWS_SECRET_ACCESS_KEY="yyyy" # SecretKey из /etc/minio/minio.conf

export PGDATA=/var/lib/pgsql/$PG_VER/data/
export PGHOST=/var/run/postgresql/.s.PGSQL.5432 # Сокет для подключения к PostgreSQL

export WALG_UPLOAD_CONCURRENCY=2 # Кол-во потоков для закачки 
export WALG_DOWNLOAD_CONCURRENCY=2 # Кол-во потоков для скачивания
export WALG_UPLOAD_DISK_CONCURRENCY=2 # Кол-во потоков на диске для закачки
export WALG_DELTA_MAX_STEPS=7
export WALG_COMPRESSION_METHOD=brotli # Какой метод сжатия использовать.

Quando si configura WAL-G, si specifica WALG_DELTA_MAX_STEPS: il numero massimo di passaggi del backup delta rispetto al backup di base e si specifica la policy di copia delta. O si crea una copia dall'ultimo delta esistente oppure si crea un delta dal backup completo originale. Ciò è necessario nel caso in cui lo stesso componente del database cambia continuamente nel tuo database, gli stessi dati cambiano costantemente.

Installazione della banca dati.

yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.
noarch.rpm
yum install -y postgresql96 postgresql96-server mc

Inizializziamo il database.

/usr/pgsql-9.6/bin/postgresql96-setup initdb
Initializing database ... OK

Se stai testando su 1 server, devi riconfigurare il parametro wal_level per archiviare per PostgreSQL inferiore alla versione 10 e replicare per PostgreSQL versione 10 e precedenti.

wal_level = archive

Eseguiamo il backup degli archivi WAL ogni 60 secondi utilizzando PostgreSQL stesso. Al momento della produzione, avrai un valore archive_timeout diverso.

archive_mode = on
archive_command = '/usr/local/bin/wal-push.sh %p'
archive_timeout = 60 # Каждые 60 секунд будет выполнятся команда archive_command.

Avvio di PostgreSQL

systemctl start postgresql-9.6

In una console separata, esaminiamo i log di PostgreSQL per individuare eventuali errori: (cambia postgresql-Wed.log in quello corrente).

tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Andiamo a psql.

su - postgres
psql

Creare un database in psql

Creare una tabella nel database test1.

create database test1;

Passare al test del database.

postgres=# c test1;

Creiamo la tabella tabella_indicizzazione.

test1=# CREATE TABLE indexing_table(created_at TIMESTAMP WITH TIME ZONE DEFAULT NOW());

Aggiunta di dati.

Iniziamo a inserire i dati. Stiamo aspettando 10-20 minuti.

#!/bin/bash
# postgres
while true; do
psql -U postgres -d test1 -c "INSERT INTO indexing_table(created_at) VALUES (CURRENT_TIMESTAMP);"
sleep 60;
done

Assicurati di eseguire un backup completo.

su - postgres
/usr/local/bin/backup-push.sh

Esaminiamo i record nella tabella nel database test1

select * from indexing_table;
2020-01-29 09:41:25.226198+
2020-01-29 09:42:25.336989+
2020-01-29 09:43:25.356069+
2020-01-29 09:44:25.37381+
2020-01-29 09:45:25.392944+
2020-01-29 09:46:25.412327+
2020-01-29 09:47:25.432564+
2020-01-29 09:48:25.451985+
2020-01-29 09:49:25.472653+
2020-01-29 09:50:25.491974+
2020-01-29 09:51:25.510178+

La stringa è l'ora corrente.

Visualizza l'elenco dei backup completi

/usr/local/bin/backup-list.sh

Test di recupero

Ripristino completo con rotazione di tutti i WAL disponibili.

Interrompere PostgreSQL.

Elimina tutto dalla cartella /var/lib/pgsql/9.6/data.

Esegui lo script /usr/local/bin/backup-fetch.sh come utente postgres.

su - postgres
/usr/local/bin/backup-fetch.sh

Estrazione del backup completata.

Aggiungi recovery.conf alla cartella /var/lib/pgsql/9.6/data con il seguente contenuto.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'

Iniziamo PostgreSQL. PostgreSQL avvierà il processo di ripristino dai WAL archiviati e solo allora il database si aprirà.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Recupero per un certo tempo.

Se vogliamo ripristinare il database entro un determinato minuto, aggiungiamo il parametro recovery_target_time a recovery.conf: indichiamo a che ora ripristinare il database.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'
recovery_target_time = '2020-01-29 09:46:25'

Dopo il ripristino, guarda la tabella indexing_table

 2020-01-29 09:41:25.226198+00
 2020-01-29 09:42:25.336989+00
 2020-01-29 09:43:25.356069+00
 2020-01-29 09:44:25.37381+00
 2020-01-29 09:45:25.392944+00

Iniziamo PostgreSQL. PostgreSQL avvierà il processo di ripristino dai WAL archiviati e solo allora il database si aprirà.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Test

Generazione di un database da 1 GB come descritto qui https://gist.github.com/ololobus/5b25c432f208d7eb31051a5f238dffff

Richiesta della dimensione del bucket dopo aver generato 1 GB di dati.

postgres=# SELECT pg_size_pretty(pg_database_size('test1'));
pg_size_pretty
----------------
1003 MB

s4cmd è uno strumento da riga di comando gratuito per lavorare con i dati che risiedono nello storage Amazon S3. L'utilità è scritta nel linguaggio di programmazione Python e per questo può essere utilizzata sia nei sistemi operativi Windows che Linux.

Installazione di s4cmd

pip install s4cmd

LZ4

s4cmd --endpoint-url=http://ip-адрес-сервера-minio:9000 --access-key=xxxx --secret-key=yyyy du -r s3://pg-backups
840540822       s3://pg-backups/wal_005/
840 МБ в формате lz4 только WAL логов

Полный бекап с lz4 - 1GB данных
time backup_push.sh
real 0m18.582s

Размер S3 бакета после полного бекапа

581480085       s3://pg-backups/basebackups_005/
842374424   s3://pg-backups/wal_005
581 МБ занимает полный бекап

LZMA

После генерации 1ГБ данных
338413694       s3://pg-backups/wal_005/
338 мб логов в формате lzma

Время генерации полного бекапа
time backup_push.sh
real    5m25.054s

Размер бакета в S3
270310495       s3://pg-backups/basebackups_005/
433485092   s3://pg-backups/wal_005/

270 мб занимает полный бекап в формате lzma

Brotli

После генерации 1ГБ данных
459229886       s3://pg-backups/wal_005/
459 мб логов в формате brotli

Время генерации полного бекапа
real    0m23.408s

Размер бакета в S3
312960942       s3://pg-backups/basebackups_005/
459309262   s3://pg-backups/wal_005/

312 мб занимает полный бекап в формате brotli

Confronto dei risultati sul grafico.

Introduzione al sistema di backup wal-g PostgreSQL

Come puoi vedere, Brotli ha dimensioni paragonabili a LZMA, ma il backup viene eseguito in tempo LZ4.

Chat della comunità PostgreSQL di lingua russa: https://t.me/pgsql

Per favore, dai una stella a Github se lo usi wal-g

Fonte: habr.com

Aggiungi un commento