Einführung in das wal-g PostgreSQL-Backup-System

WAL-G ist ein einfaches und effektives Tool zum Sichern von PostgreSQL in den Clouds. Von seiner Hauptfunktionalität her ist es der Nachfolger des beliebten Tools WAL-E, aber in Go umgeschrieben. Aber es gibt eine wichtige neue Funktion in WAL-G – Delta-Kopien. Delta-Kopien WAL-G Speichern Sie Seiten von Dateien, die seit der vorherigen Sicherungsversion geändert wurden. WAL-G implementiert eine ganze Reihe von Technologien zur Parallelisierung von Backups. WAL-G ist viel schneller als WAL-E.

Einzelheiten zur Funktionsweise von wal-g finden Sie im Artikel: Wir übertakten das Backup. Yandex-Vortrag

Das S3-Speicherprotokoll hat sich zum Speichern von Daten durchgesetzt. Einer der Vorteile von S3 ist die Möglichkeit des Zugriffs über eine API, die es Ihnen ermöglicht, eine flexible Interaktion mit dem Speicher zu organisieren, einschließlich öffentlichem Lesezugriff, während die Aktualisierung von Informationen im Speicher nur durch autorisierte Personen erfolgt.

Es gibt mehrere öffentliche und private Speicherimplementierungen, die das S3-Protokoll verwenden. Heute schauen wir uns eine beliebte Lösung für die Organisation kleiner Lagerräume an – Minio.

Ein einzelner PostgreSQL-Server eignet sich gut zum Testen von Wal-G, und Minio wird als Ersatz für S3 verwendet.

Minio-Server

Minio-Installation

yum -y install yum-plugin-copr
yum copr enable -y lkiesow/minio
yum install -y minio

Bearbeiten Sie AccessKey und SecretKey in /etc/minio/minio.conf

vi /etc/minio/minio.conf

Wenn Sie Nginx nicht vor Minio verwenden, müssen Sie umsteigen

--address 127.0.0.1:9000

--address 0.0.0.0:9000

Minio starten

systemctl start minio

Gehen Sie zur Minio-Weboberfläche http://ip-адрес-сервера-minio:9000 und erstellen Sie einen Bucket (z. B. pg-backups).

DB-Server

WAL-G in U/min wird von mir (Anton Patsev) zusammengebaut. Github, Fedora COPR.

Wer kein RPM-basiertes System hat, nutzt das offizielle Anweisung durch Installation.

Zusammen mit der Binärdatei wal-g enthält rpm Skripte, die Variablen aus der Datei /etc/wal-gd/server-s3.conf importieren.

backup-fetch.sh
backup-list.sh
backup-push.sh
wal-fetch.sh
wal-g-run.sh
wal-push.sh

Walg installieren.

yum -y install yum-plugin-copr
yum copr enable -y antonpatsev/wal-g
yum install -y wal-g

Überprüfung der Wal-G-Version.

wal-g --version
wal-g version v0.2.14

Bearbeiten Sie /etc/wal-gd/server-s3.conf entsprechend Ihren Anforderungen.

Die von einem Datenbankcluster verwendeten Konfigurationsdateien und Datendateien werden traditionell zusammen im Cluster-Datenverzeichnis gespeichert, das üblicherweise als „Cluster-Datenverzeichnis“ bezeichnet wird PGDATA

#!/bin/bash

export PG_VER="9.6"

export WALE_S3_PREFIX="s3://pg-backups" # бакет, который мы создали в S3
export AWS_ACCESS_KEY_ID="xxxx" # AccessKey из /etc/minio/minio.conf 
export AWS_ENDPOINT="http://ip-адрес-сервера-minio:9000"
export AWS_S3_FORCE_PATH_STYLE="true"
export AWS_SECRET_ACCESS_KEY="yyyy" # SecretKey из /etc/minio/minio.conf

export PGDATA=/var/lib/pgsql/$PG_VER/data/
export PGHOST=/var/run/postgresql/.s.PGSQL.5432 # Сокет для подключения к PostgreSQL

export WALG_UPLOAD_CONCURRENCY=2 # Кол-во потоков для закачки 
export WALG_DOWNLOAD_CONCURRENCY=2 # Кол-во потоков для скачивания
export WALG_UPLOAD_DISK_CONCURRENCY=2 # Кол-во потоков на диске для закачки
export WALG_DELTA_MAX_STEPS=7
export WALG_COMPRESSION_METHOD=brotli # Какой метод сжатия использовать.

Bei der Konfiguration von WAL-G geben Sie WALG_DELTA_MAX_STEPS an – die Anzahl der Schritte, die das Delta-Backup maximal vom Basis-Backup entfernt, und geben die Delta-Kopierrichtlinie an. Entweder erstellen Sie eine Kopie des letzten vorhandenen Deltas oder Sie erstellen ein Delta des ursprünglichen Voll-Backups. Dies ist erforderlich, wenn sich in Ihrer Datenbank ständig dieselbe Komponente der Datenbank ändert und sich dieselben Daten ständig ändern.

Installation der Datenbank.

yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.
noarch.rpm
yum install -y postgresql96 postgresql96-server mc

Wir initialisieren die Datenbank.

/usr/pgsql-9.6/bin/postgresql96-setup initdb
Initializing database ... OK

Wenn Sie auf einem Server testen, müssen Sie den Parameter wal_level neu konfigurieren, um für PostgreSQL-Versionen unter Version 1 zu archivieren und für PostgreSQL-Versionen 10 und älter zu replizieren.

wal_level = archive

Lassen Sie uns WAL-Archive alle 60 Sekunden mit PostgreSQL selbst sichern. Auf prod haben Sie einen anderen archive_timeout-Wert.

archive_mode = on
archive_command = '/usr/local/bin/wal-push.sh %p'
archive_timeout = 60 # Каждые 60 секунд будет выполнятся команда archive_command.

PostgreSQL starten

systemctl start postgresql-9.6

In einer separaten Konsole überprüfen wir die PostgreSQL-Protokolle auf Fehler: (ändern Sie postgresql-Wed.log in das aktuelle).

tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Gehen wir zu psql.

su - postgres
psql

Erstellen Sie eine Datenbank in psql

Erstellen Sie eine Tabelle in der Datenbank test1.

create database test1;

Wechseln Sie zum Datenbanktest.

postgres=# c test1;

Wir erstellen die Tabelle indexing_table.

test1=# CREATE TABLE indexing_table(created_at TIMESTAMP WITH TIME ZONE DEFAULT NOW());

Daten hinzufügen.

Wir beginnen mit dem Einfügen von Daten. Wir warten 10-20 Minuten.

#!/bin/bash
# postgres
while true; do
psql -U postgres -d test1 -c "INSERT INTO indexing_table(created_at) VALUES (CURRENT_TIMESTAMP);"
sleep 60;
done

Stellen Sie sicher, dass Sie ein vollständiges Backup erstellen.

su - postgres
/usr/local/bin/backup-push.sh

Wir schauen uns die Datensätze in der Tabelle in der Datenbank test1 an

select * from indexing_table;
2020-01-29 09:41:25.226198+
2020-01-29 09:42:25.336989+
2020-01-29 09:43:25.356069+
2020-01-29 09:44:25.37381+
2020-01-29 09:45:25.392944+
2020-01-29 09:46:25.412327+
2020-01-29 09:47:25.432564+
2020-01-29 09:48:25.451985+
2020-01-29 09:49:25.472653+
2020-01-29 09:50:25.491974+
2020-01-29 09:51:25.510178+

Die Zeichenfolge ist die aktuelle Uhrzeit.

Sehen Sie sich die Liste der vollständigen Backups an

/usr/local/bin/backup-list.sh

Wiederherstellungstest

Vollständige Wiederherstellung durch Rollieren aller verfügbaren WAL.

Stoppen Sie Postgresql.

Löschen Sie alles aus dem Ordner /var/lib/pgsql/9.6/data.

Führen Sie das Skript /usr/local/bin/backup-fetch.sh als Postgres-Benutzer aus.

su - postgres
/usr/local/bin/backup-fetch.sh

Backup-Extraktion abgeschlossen.

Fügen Sie „recovery.conf“ zum Ordner „/var/lib/pgsql/9.6/data“ mit dem folgenden Inhalt hinzu.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'

Wir starten PostgreSQL. PostgreSQL startet den Wiederherstellungsprozess von den archivierten WALs und erst dann wird die Datenbank geöffnet.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Erholung für eine bestimmte Zeit.

Wenn wir die Datenbank bis zu einer bestimmten Minute wiederherstellen möchten, fügen wir den Parameter „recovery_target_time“ zu „recovery.conf“ hinzu – wir geben an, zu welchem ​​Zeitpunkt die Datenbank wiederhergestellt werden soll.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'
recovery_target_time = '2020-01-29 09:46:25'

Schauen Sie sich nach der Wiederherstellung die Tabelle indexing_table an

 2020-01-29 09:41:25.226198+00
 2020-01-29 09:42:25.336989+00
 2020-01-29 09:43:25.356069+00
 2020-01-29 09:44:25.37381+00
 2020-01-29 09:45:25.392944+00

Wir starten PostgreSQL. PostgreSQL startet den Wiederherstellungsprozess von den archivierten WALs und erst dann wird die Datenbank geöffnet.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Testing

Generieren einer 1-GB-Datenbank wie hier beschrieben https://gist.github.com/ololobus/5b25c432f208d7eb31051a5f238dffff

Anfordern der Bucket-Größe nach der Generierung von 1 GB Daten.

postgres=# SELECT pg_size_pretty(pg_database_size('test1'));
pg_size_pretty
----------------
1003 MB

s4cmd ist ein kostenloses Befehlszeilentool für die Arbeit mit Daten im Amazon S3-Speicher. Das Dienstprogramm ist in der Programmiersprache Python geschrieben und kann daher sowohl in Windows- als auch in Linux-Betriebssystemen verwendet werden.

s4cmd installieren

pip install s4cmd

LZ4

s4cmd --endpoint-url=http://ip-адрес-сервера-minio:9000 --access-key=xxxx --secret-key=yyyy du -r s3://pg-backups
840540822       s3://pg-backups/wal_005/
840 МБ в формате lz4 только WAL логов

Полный бекап с lz4 - 1GB данных
time backup_push.sh
real 0m18.582s

Размер S3 бакета после полного бекапа

581480085       s3://pg-backups/basebackups_005/
842374424   s3://pg-backups/wal_005
581 МБ занимает полный бекап

LZMA

После генерации 1ГБ данных
338413694       s3://pg-backups/wal_005/
338 мб логов в формате lzma

Время генерации полного бекапа
time backup_push.sh
real    5m25.054s

Размер бакета в S3
270310495       s3://pg-backups/basebackups_005/
433485092   s3://pg-backups/wal_005/

270 мб занимает полный бекап в формате lzma

Brotli

После генерации 1ГБ данных
459229886       s3://pg-backups/wal_005/
459 мб логов в формате brotli

Время генерации полного бекапа
real    0m23.408s

Размер бакета в S3
312960942       s3://pg-backups/basebackups_005/
459309262   s3://pg-backups/wal_005/

312 мб занимает полный бекап в формате brotli

Vergleich der Ergebnisse im Diagramm.

Einführung in das wal-g PostgreSQL-Backup-System

Wie Sie sehen, ist Brotli von der Größe her mit LZMA vergleichbar, die Sicherung erfolgt jedoch in LZ4-Zeit.

Chat der russischsprachigen PostgreSQL-Community: https://t.me/pgsql

Bitte geben Sie Github einen Stern, wenn Sie es verwenden wal-g

Source: habr.com

Kommentar hinzufügen