Giới thiệu về hệ thống sao lưu PostgreSQL wal-g

WAL-G là một công cụ đơn giản và hiệu quả để sao lưu PostgreSQL lên đám mây. Về chức năng chính, nó là người kế thừa công cụ phổ biến WAL-E, nhưng được viết lại bằng Go. Nhưng có một tính năng mới quan trọng trong WAL-G - bản sao delta. bản sao delta WAL-G lưu trữ các trang của tập tin đã thay đổi kể từ phiên bản sao lưu trước đó. WAL-G triển khai khá nhiều công nghệ để sao lưu song song. WAL-G nhanh hơn nhiều so với WAL-E.

Chi tiết về cách hoạt động của wal-g có thể được tìm thấy trong bài viết: Chúng tôi ép xung bản sao lưu. bài giảng Yandex

Giao thức lưu trữ S3 đã trở nên phổ biến để lưu trữ dữ liệu. Một trong những ưu điểm của S3 là khả năng truy cập qua API, cho phép bạn tổ chức tương tác linh hoạt với bộ lưu trữ, bao gồm cả quyền truy cập đọc công khai, trong khi việc cập nhật thông tin trong bộ lưu trữ chỉ được thực hiện bởi những người được ủy quyền.

Có một số triển khai lưu trữ công khai và riêng tư sử dụng giao thức S3. Hôm nay chúng ta sẽ xem xét một giải pháp phổ biến để tổ chức kho lưu trữ nhỏ - Minio.

Một máy chủ PostgreSQL duy nhất có thể phù hợp để thử nghiệm wal-g và Minio được sử dụng để thay thế cho S3.

Máy chủ minio

Cài đặt minio

yum -y install yum-plugin-copr
yum copr enable -y lkiesow/minio
yum install -y minio

Chỉnh sửa AccessKey và SecretKey trong /etc/minio/minio.conf

vi /etc/minio/minio.conf

Nếu bạn không sử dụng nginx trước Minio thì bạn cần thay đổi

--address 127.0.0.1:9000

--address 0.0.0.0:9000

Ra mắt Minio

systemctl start minio

Vào giao diện web Minio http://ip-адрес-сервера-minio:9000 và tạo một nhóm (ví dụ: pg-backups).

máy chủ cơ sở dữ liệu

WAL-G ở tốc độ vòng/phút do tôi (Anton Patsev) lắp ráp. Github, Fedora COPR.

Ai không có hệ thống dựa trên RPM, hãy sử dụng chính thức hướng dẫn bằng cách cài đặt.

Cùng với tệp nhị phân wal-g, vòng/phút chứa các tập lệnh nhập các biến từ tệp /etc/wal-gd/server-s3.conf.

backup-fetch.sh
backup-list.sh
backup-push.sh
wal-fetch.sh
wal-g-run.sh
wal-push.sh

Cài đặt walg.

yum -y install yum-plugin-copr
yum copr enable -y antonpatsev/wal-g
yum install -y wal-g

Đang kiểm tra phiên bản wal-g.

wal-g --version
wal-g version v0.2.14

Chỉnh sửa /etc/wal-gd/server-s3.conf theo nhu cầu của bạn.

Các tệp cấu hình và tệp dữ liệu được cụm cơ sở dữ liệu sử dụng theo truyền thống được lưu trữ cùng nhau trong thư mục dữ liệu cụm, thường được gọi là PGDATA

#!/bin/bash

export PG_VER="9.6"

export WALE_S3_PREFIX="s3://pg-backups" # бакет, который мы создали в S3
export AWS_ACCESS_KEY_ID="xxxx" # AccessKey из /etc/minio/minio.conf 
export AWS_ENDPOINT="http://ip-адрес-сервера-minio:9000"
export AWS_S3_FORCE_PATH_STYLE="true"
export AWS_SECRET_ACCESS_KEY="yyyy" # SecretKey из /etc/minio/minio.conf

export PGDATA=/var/lib/pgsql/$PG_VER/data/
export PGHOST=/var/run/postgresql/.s.PGSQL.5432 # Сокет для подключения к PostgreSQL

export WALG_UPLOAD_CONCURRENCY=2 # Кол-во потоков для закачки 
export WALG_DOWNLOAD_CONCURRENCY=2 # Кол-во потоков для скачивания
export WALG_UPLOAD_DISK_CONCURRENCY=2 # Кол-во потоков на диске для закачки
export WALG_DELTA_MAX_STEPS=7
export WALG_COMPRESSION_METHOD=brotli # Какой метод сжатия использовать.

Khi định cấu hình WAL-G, bạn chỉ định WALG_DELTA_MAX_STEPS - số bước mà bản sao lưu delta là tối đa so với bản sao lưu cơ sở và chỉ định chính sách sao chép delta. Hoặc bạn tạo một bản sao từ delta hiện có cuối cùng hoặc bạn tạo một delta từ bản sao lưu đầy đủ ban đầu. Điều này là cần thiết trong trường hợp cùng một thành phần của cơ sở dữ liệu luôn thay đổi trong cơ sở dữ liệu của bạn, cùng một dữ liệu sẽ liên tục thay đổi.

Cài đặt cơ sở dữ liệu.

yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.
noarch.rpm
yum install -y postgresql96 postgresql96-server mc

Chúng tôi khởi tạo cơ sở dữ liệu.

/usr/pgsql-9.6/bin/postgresql96-setup initdb
Initializing database ... OK

Nếu bạn đang thử nghiệm trên 1 máy chủ thì bạn cần phải cấu hình lại tham số wal_level để lưu trữ cho PostgreSQL phiên bản dưới 10 và bản sao cho PostgreSQL phiên bản 10 trở lên.

wal_level = archive

Hãy sao lưu các kho lưu trữ WAL cứ sau 60 giây bằng chính PostgreSQL. Trong sản phẩm, bạn sẽ có giá trị archive_timeout khác.

archive_mode = on
archive_command = '/usr/local/bin/wal-push.sh %p'
archive_timeout = 60 # Каждые 60 секунд будет выполнятся команда archive_command.

Bắt đầu PostgreSQL

systemctl start postgresql-9.6

Trong một bảng điều khiển riêng biệt, chúng tôi xem xét nhật ký PostgreSQL để tìm lỗi: (thay đổi postgresql-Wed.log thành nhật ký hiện tại).

tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Hãy đi tới psql.

su - postgres
psql

Tạo cơ sở dữ liệu trong psql

Tạo một bảng trong cơ sở dữ liệu test1.

create database test1;

Chuyển sang kiểm tra cơ sở dữ liệu.

postgres=# c test1;

Chúng ta tạo bảng indexing_table.

test1=# CREATE TABLE indexing_table(created_at TIMESTAMP WITH TIME ZONE DEFAULT NOW());

Thêm dữ liệu.

Chúng tôi bắt đầu chèn dữ liệu. Chúng tôi đang đợi trong 10-20 phút.

#!/bin/bash
# postgres
while true; do
psql -U postgres -d test1 -c "INSERT INTO indexing_table(created_at) VALUES (CURRENT_TIMESTAMP);"
sleep 60;
done

Hãy chắc chắn để tạo một bản sao lưu đầy đủ.

su - postgres
/usr/local/bin/backup-push.sh

Chúng tôi xem xét các bản ghi trong bảng trong cơ sở dữ liệu test1

select * from indexing_table;
2020-01-29 09:41:25.226198+
2020-01-29 09:42:25.336989+
2020-01-29 09:43:25.356069+
2020-01-29 09:44:25.37381+
2020-01-29 09:45:25.392944+
2020-01-29 09:46:25.412327+
2020-01-29 09:47:25.432564+
2020-01-29 09:48:25.451985+
2020-01-29 09:49:25.472653+
2020-01-29 09:50:25.491974+
2020-01-29 09:51:25.510178+

Chuỗi là thời gian hiện tại.

Xem danh sách các bản sao lưu đầy đủ

/usr/local/bin/backup-list.sh

Kiểm tra phục hồi

Phục hồi hoàn toàn bằng cách sử dụng tất cả WAL có sẵn.

Dừng Postgresql.

Xóa mọi thứ khỏi thư mục /var/lib/pgsql/9.6/data.

Chạy tập lệnh /usr/local/bin/backup-fetch.sh với tư cách là người dùng postgres.

su - postgres
/usr/local/bin/backup-fetch.sh

Trích xuất sao lưu hoàn tất.

Thêm recovery.conf vào thư mục /var/lib/pgsql/9.6/data với nội dung sau.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'

Chúng tôi khởi động PostgreSQL. PostgreSQL sẽ bắt đầu quá trình khôi phục từ các WAL đã lưu trữ và chỉ khi đó cơ sở dữ liệu mới mở.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Phục hồi trong một thời gian nhất định.

Nếu chúng tôi muốn khôi phục cơ sở dữ liệu đến một phút nhất định, thì chúng tôi thêm tham số recovery_target_time vào recovery.conf - chúng tôi cho biết thời điểm cần khôi phục cơ sở dữ liệu.

restore_command = '/usr/local/bin/wal-fetch.sh "%f" "%p"'
recovery_target_time = '2020-01-29 09:46:25'

Sau khi recovery xong nhìn vào bảng indexing_table

 2020-01-29 09:41:25.226198+00
 2020-01-29 09:42:25.336989+00
 2020-01-29 09:43:25.356069+00
 2020-01-29 09:44:25.37381+00
 2020-01-29 09:45:25.392944+00

Chúng tôi khởi động PostgreSQL. PostgreSQL sẽ bắt đầu quá trình khôi phục từ các WAL đã lưu trữ và chỉ khi đó cơ sở dữ liệu mới mở.

systemctl start postgresql-9.6
tail -fn100 /var/lib/pgsql/9.6/data/pg_log/postgresql-Wed.log

Kiểm tra

Tạo cơ sở dữ liệu 1GB như được mô tả tại đây https://gist.github.com/ololobus/5b25c432f208d7eb31051a5f238dffff

Yêu cầu kích thước nhóm sau khi tạo 1GB dữ liệu.

postgres=# SELECT pg_size_pretty(pg_database_size('test1'));
pg_size_pretty
----------------
1003 MB

s4cmd là công cụ dòng lệnh miễn phí để làm việc với dữ liệu nằm trong bộ lưu trữ Amazon S3. Tiện ích này được viết bằng ngôn ngữ lập trình python và do đó nó có thể được sử dụng trong cả hệ điều hành Windows và Linux.

Đang cài đặt s4cmd

pip install s4cmd

LZ4

s4cmd --endpoint-url=http://ip-адрес-сервера-minio:9000 --access-key=xxxx --secret-key=yyyy du -r s3://pg-backups
840540822       s3://pg-backups/wal_005/
840 МБ в формате lz4 только WAL логов

Полный бекап с lz4 - 1GB данных
time backup_push.sh
real 0m18.582s

Размер S3 бакета после полного бекапа

581480085       s3://pg-backups/basebackups_005/
842374424   s3://pg-backups/wal_005
581 МБ занимает полный бекап

LZMA

После генерации 1ГБ данных
338413694       s3://pg-backups/wal_005/
338 мб логов в формате lzma

Время генерации полного бекапа
time backup_push.sh
real    5m25.054s

Размер бакета в S3
270310495       s3://pg-backups/basebackups_005/
433485092   s3://pg-backups/wal_005/

270 мб занимает полный бекап в формате lzma

Brotli

После генерации 1ГБ данных
459229886       s3://pg-backups/wal_005/
459 мб логов в формате brotli

Время генерации полного бекапа
real    0m23.408s

Размер бакета в S3
312960942       s3://pg-backups/basebackups_005/
459309262   s3://pg-backups/wal_005/

312 мб занимает полный бекап в формате brotli

So sánh kết quả trên biểu đồ.

Giới thiệu về hệ thống sao lưu PostgreSQL wal-g

Như bạn có thể thấy, Brotli có kích thước tương đương với LZMA, nhưng việc sao lưu được thực hiện trong thời gian LZ4.

Trò chuyện của cộng đồng PostgreSQL nói tiếng Nga: https://t.me/pgsql

Vui lòng tặng một ngôi sao cho Github nếu bạn sử dụng wal-g

Nguồn: www.habr.com

Thêm một lời nhận xét