Ievads wal-g PostgreSQL dublēšanas sistēmā

WAL-G ir vienkāršs un efektīvs rīks PostgreSQL dublēšanai mākoņos. Savas galvenās funkcionalitātes ziņā tas ir populārā rīka mantinieks WAL-E, bet pārrakstīts Go. Taču WAL-G ir viena svarīga jauna funkcija – delta kopijas. delta kopijas WAL-G uzglabāt to failu lapas, kas ir mainītas kopš iepriekšējās dublējuma versijas. WAL-G ievieš diezgan daudz tehnoloģiju dublējumu paralēlizēšanai. WAL-G ir daudz ātrāks nekā WAL-E.

Sīkāka informācija par wal-g darbību ir atrodama rakstā: Mēs pārsteidzam dublēšanu. Yandex lekcija

S3 uzglabāšanas protokols ir kļuvis populārs datu glabāšanai. Viena no S3 priekšrocībām ir iespēja piekļūt caur API, kas ļauj organizēt elastīgu mijiedarbību ar krātuvi, tostarp publisko lasīšanas piekļuvi, savukārt informācijas atjaunināšanu krātuvē veic tikai pilnvarotas personas.

Ir vairākas publiskās un privātās krātuves implementācijas, kurās tiek izmantots S3 protokols. Šodien mēs apskatīsim populāru risinājumu nelielas krātuves organizēšanai - Minio.

Viens PostgreSQL serveris ir piemērots wal-g testēšanai, un Minio tiek izmantots kā S3 aizstājējs.

Minio serveris

Mini uzstādīšana

yum -y install yum-plugin-copr
yum copr enable -y lkiesow/minio
yum install -y minio

Rediģējiet AccessKey un SecretKey mapē /etc/minio/minio.conf

vi /etc/minio/minio.conf

Ja neizmantosiet nginx pirms Minio, jums tas ir jāmaina

--address 127.0.0.1:9000

--address 0.0.0.0:9000

Tiek palaists Minio

systemctl start minio

Dodieties uz Minio tīmekļa saskarni http://ip-адрес-сервера-minio:9000 un izveidojiet spaini (piemēram, pg-dublējumi).

DB serveris

WAL-G apgriezienos minūtē esmu samontējis es (Antons Patsevs). GitHub, Fedora COPR.

Kam nav uz RPM balstītas sistēmas, izmantojiet oficiālo instrukcija pēc uzstādīšanas.

Kopā ar bināro wal-g rpm satur skriptus, kas importē mainīgos no /etc/wal-gd/server-s3.conf faila.

backup-fetch.sh
backup-list.sh
backup-push.sh
wal-fetch.sh
wal-g-run.sh
wal-push.sh

Uzstādiet Walg.

yum -y install yum-plugin-copr
yum copr enable -y antonpatsev/wal-g
yum install -y wal-g

Pārbauda wal-g versiju.

wal-g --version
wal-g version v0.2.14

Rediģējiet failu /etc/wal-gd/server-s3.conf atbilstoši savām vajadzībām.

Konfigurācijas faili un datu faili, ko izmanto datu bāzes klasteris, tradicionāli tiek glabāti kopā klastera datu direktorijā, ko parasti dēvē par PGDATA

#!/bin/bash

export PG_VER="9.6"

export WALE_S3_PREFIX="s3://pg-backups" # бакет, который мы создали в S3
export AWS_ACCESS_KEY_ID="xxxx" # AccessKey из /etc/minio/minio.conf 
export AWS_ENDPOINT="http://ip-адрес-сервера-minio:9000"
export AWS_S3_FORCE_PATH_STYLE="true"
export AWS_SECRET_ACCESS_KEY="yyyy" # SecretKey из /etc/minio/minio.conf

export PGDATA=/var/lib/pgsql/$PG_VER/data/
export PGHOST=/var/run/postgresql/.s.PGSQL.5432 # Сокет для подключения к PostgreSQL

export WALG_UPLOAD_CONCURRENCY=2 # Кол-во потоков для закачки 
export WALG_DOWNLOAD_CONCURRENCY=2 # Кол-во потоков для скачивания
export WALG_UPLOAD_DISK_CONCURRENCY=2 # Кол-во потоков на диске для закачки
export WALG_DELTA_MAX_STEPS=7
export WALG_COMPRESSION_METHOD=brotli # Какой метод сжатия использовать.

Konfigurējot WAL-G, jūs norādāt WALG_DELTA_MAX_STEPS — soļu skaitu, kurā delta dublējums ir maksimālais no bāzes dublējuma, un norādiet delta kopēšanas politiku. Vai nu jūs izveidojat kopiju no pēdējās esošās delta, vai arī izveidojat delta no sākotnējās pilnās dublējuma. Tas ir nepieciešams gadījumā, ja jūsu datu bāzē vienmēr mainās viena un tā pati datu bāzes sastāvdaļa, pastāvīgi mainās tie paši dati.

Datu bāzes instalēšana.

yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.
noarch.rpm
yum install -y postgresql96 postgresql96-server mc

Mēs inicializējam datubāzi.

/usr/pgsql-9.6/bin/postgresql96-setup initdb
Initializing database ... OK

Ja veicat testēšanu 1 serverī, jums ir jāpārkonfigurē parametrs wal_level, lai arhivētu PostgreSQL, kas ir jaunāka par 10. versiju, un repliku PostgreSQL versijai 10 un vecākai.

wal_level = archive

Dublēsim WAL arhīvus ik pēc 60 sekundēm, izmantojot pašu PostgreSQL. Prod versijā jums būs cita archive_timeout vērtība.

archive_mode = on
archive_command = '/usr/local/bin/wal-push.sh %p'
archive_timeout = 60 # Каждые 60 секунд будет выполнятся команда archive_command.

Tiek palaists PostgreSQL

systemctl start postgresql-9.6

Atsevišķā konsolē mēs apskatām PostgreSQL žurnālus, lai atrastu kļūdas: (mainīt postgresql-Wed.log uz pašreizējo).

tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Ejam uz psql.

su - postgres
psql

Izveidojiet datu bāzi psql

Izveidojiet tabulu datu bāzē test1.

create database test1;

Pārslēdzieties uz datu bāzes testu.

postgres=# c test1;

Mēs izveidojam tabulu indexing_table.

test1=# CREATE TABLE indexing_table(created_at TIMESTAMP WITH TIME ZONE DEFAULT NOW());

Datu pievienošana.

Mēs sākam ievietot datus. Mēs gaidām 10-20 minūtes.

#!/bin/bash
# postgres
while true; do
psql -U postgres -d test1 -c "INSERT INTO indexing_table(created_at) VALUES (CURRENT_TIMESTAMP);"
sleep 60;
done

Noteikti izveidojiet pilnu dublējumu.

su - postgres
/usr/local/bin/backup-push.sh

Mēs aplūkojam ierakstus tabulā datubāzē test1

select * from indexing_table;
2020-01-29 09:41:25.226198+
2020-01-29 09:42:25.336989+
2020-01-29 09:43:25.356069+
2020-01-29 09:44:25.37381+
2020-01-29 09:45:25.392944+
2020-01-29 09:46:25.412327+
2020-01-29 09:47:25.432564+
2020-01-29 09:48:25.451985+
2020-01-29 09:49:25.472653+
2020-01-29 09:50:25.491974+
2020-01-29 09:51:25.510178+

Virkne ir pašreizējais laiks.

Skatiet pilno dublējumu sarakstu

/usr/local/bin/backup-list.sh

Atveseļošanās pārbaude

Pilnīga atkopšana, izmantojot visu pieejamo WAL.

Apturiet Postgresql.

Izdzēsiet visu no mapes /var/lib/pgsql/9.6/data.

Palaidiet skriptu /usr/local/bin/backup-fetch.sh kā postgres lietotāju.

su - postgres
/usr/local/bin/backup-fetch.sh

Dublējuma izvilkšana ir pabeigta.

Pievienojiet recovery.conf mapei /var/lib/pgsql/9.6/data ar šādu saturu.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'

Mēs sākam PostgreSQL. PostgreSQL sāks atkopšanas procesu no arhivētajiem WAL, un tikai pēc tam tiks atvērta datubāze.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Atveseļošanās uz noteiktu laiku.

Ja vēlamies atjaunot datu bāzi līdz noteiktai minūtei, tad atkopšanas.conf pievienojam parametru recovery_target_time - norādām, kurā laikā datu bāze atjaunot.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'
recovery_target_time = '2020-01-29 09:46:25'

Pēc atkopšanas apskatiet tabulu indexing_table

 2020-01-29 09:41:25.226198+00
 2020-01-29 09:42:25.336989+00
 2020-01-29 09:43:25.356069+00
 2020-01-29 09:44:25.37381+00
 2020-01-29 09:45:25.392944+00

Mēs sākam PostgreSQL. PostgreSQL sāks atkopšanas procesu no arhivētajiem WAL, un tikai pēc tam tiks atvērta datubāze.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Testēšana

1 GB datu bāzes ģenerēšana, kā aprakstīts šeit https://gist.github.com/ololobus/5b25c432f208d7eb31051a5f238dffff

Kopas lieluma pieprasīšana pēc 1 GB datu ģenerēšanas.

postgres=# SELECT pg_size_pretty(pg_database_size('test1'));
pg_size_pretty
----------------
1003 MB

s4cmd ir bezmaksas komandrindas rīks darbam ar datiem, kas atrodas Amazon S3 krātuvē. Lietderība ir uzrakstīta python programmēšanas valodā, un tāpēc to var izmantot gan Windows, gan Linux operētājsistēmās.

Instalējot s4cmd

pip install s4cmd

LZ4

s4cmd --endpoint-url=http://ip-адрес-сервера-minio:9000 --access-key=xxxx --secret-key=yyyy du -r s3://pg-backups
840540822       s3://pg-backups/wal_005/
840 МБ в формате lz4 только WAL логов

Полный бекап с lz4 - 1GB данных
time backup_push.sh
real 0m18.582s

Размер S3 бакета после полного бекапа

581480085       s3://pg-backups/basebackups_005/
842374424   s3://pg-backups/wal_005
581 МБ занимает полный бекап

LZMA

После генерации 1ГБ данных
338413694       s3://pg-backups/wal_005/
338 мб логов в формате lzma

Время генерации полного бекапа
time backup_push.sh
real    5m25.054s

Размер бакета в S3
270310495       s3://pg-backups/basebackups_005/
433485092   s3://pg-backups/wal_005/

270 мб занимает полный бекап в формате lzma

Brotli

После генерации 1ГБ данных
459229886       s3://pg-backups/wal_005/
459 мб логов в формате brotli

Время генерации полного бекапа
real    0m23.408s

Размер бакета в S3
312960942       s3://pg-backups/basebackups_005/
459309262   s3://pg-backups/wal_005/

312 мб занимает полный бекап в формате brotli

Rezultātu salīdzinājums diagrammā.

Ievads wal-g PostgreSQL dublēšanas sistēmā

Kā redzat, Brotli pēc izmēra ir salīdzināms ar LZMA, bet dublēšana tiek veikta LZ4 laikā.

Krievvalodīgās PostgreSQL kopienas tērzēšana: https://t.me/pgsql

Ja izmantojat, lūdzu, piešķiriet Github zvaigznīti wal-g

Avots: www.habr.com

Pievieno komentāru