ارسال گزارش های Nginx json با استفاده از Vector به Clickhouse و Elasticsearch

ارسال گزارش های Nginx json با استفاده از Vector به Clickhouse و Elasticsearch

بردار، برای جمع آوری، تبدیل و ارسال داده های گزارش، معیارها و رویدادها طراحی شده است.

→ گیتهاب

که به زبان Rust نوشته شده است، با عملکرد بالا و مصرف رم پایین در مقایسه با آنالوگ های خود مشخص می شود. علاوه بر این، توجه زیادی به عملکردهای مربوط به صحت، به ویژه، توانایی ذخیره رویدادهای ارسال نشده در بافر روی دیسک و چرخش فایل ها می شود.

از نظر معماری، Vector یک روتر رویداد است که پیام‌ها را از یک یا چند مورد دریافت می‌کند منابع، به صورت اختیاری روی این پیام ها اعمال می شود تحولات، و ارسال آنها به یک یا چند زهکشی ها.

وکتور جایگزینی برای filebeat و logstash است، می تواند در هر دو نقش (دریافت و ارسال لاگ ها) عمل کند، جزئیات بیشتر در مورد آنها کاربران آنلاین حاضر در سایت ".

اگر در Logstash زنجیره به عنوان ورودی → فیلتر → خروجی ساخته شده باشد، در Vector است منابعتبدیل می شودغرق

نمونه ها را می توان در مستندات یافت.

این دستورالعمل یک دستورالعمل تجدید نظر شده است ویاچسلاو راخینسکی. دستورالعمل اصلی شامل پردازش geoip است. هنگام تست geoip از یک شبکه داخلی، وکتور خطا داد.

Aug 05 06:25:31.889 DEBUG transform{name=nginx_parse_rename_fields type=rename_fields}: vector::transforms::rename_fields: Field did not exist field=«geoip.country_name» rate_limit_secs=30

اگر کسی نیاز به پردازش geoip دارد، به دستورالعمل های اصلی مراجعه کنید ویاچسلاو راخینسکی.

ما ترکیب Nginx (گزارش‌های دسترسی) → وکتور (کلینت | ضربت فایل) → وکتور (سرور | Logstash) → را به طور جداگانه در Clickhouse و جداگانه در Elasticsearch پیکربندی می‌کنیم. ما 4 سرور نصب خواهیم کرد. اگرچه می توانید با 3 سرور آن را دور بزنید.

ارسال گزارش های Nginx json با استفاده از Vector به Clickhouse و Elasticsearch

طرح چیزی شبیه به این است.

Selinux را در تمام سرورهای خود غیرفعال کنید

sed -i 's/^SELINUX=.*/SELINUX=disabled/g' /etc/selinux/config
reboot

ما یک شبیه ساز سرور HTTP + ابزارهای کمکی را روی همه سرورها نصب می کنیم

ما به عنوان یک شبیه ساز سرور HTTP استفاده خواهیم کرد nodejs-stub-server از ماکسیم ایگناتنکو

Nodejs-stub-server rpm ندارد. اینجا دور در دقیقه برای آن ایجاد کنید. دور در دقیقه با استفاده از فدورا Copr

مخزن antonpatsev/nodejs-stub-server را اضافه کنید

yum -y install yum-plugin-copr epel-release
yes | yum copr enable antonpatsev/nodejs-stub-server

نصب nodejs-stub-server، بنچمارک آپاچی و مالتی پلکسر ترمینال صفحه روی همه سرورها

yum -y install stub_http_server screen mc httpd-tools screen

من زمان پاسخ stub_http_server را در فایل /var/lib/stub_http_server/stub_http_server.js تصحیح کردم تا لاگ های بیشتری وجود داشته باشد.

var max_sleep = 10;

بیایید stub_http_server را راه اندازی کنیم.

systemctl start stub_http_server
systemctl enable stub_http_server

نصب کلیک هاوس روی سرور 3

ClickHouse از مجموعه دستورات SSE 4.2 استفاده می کند، بنابراین، مگر اینکه خلاف آن مشخص شده باشد، پشتیبانی از آن در پردازنده مورد استفاده به یک نیاز سیستم اضافی تبدیل می شود. در اینجا دستوری برای بررسی اینکه آیا پردازنده فعلی از SSE 4.2 پشتیبانی می کند یا خیر وجود دارد:

grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"

ابتدا باید مخزن رسمی را وصل کنید:

sudo yum install -y yum-utils
sudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
sudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64

برای نصب بسته ها باید دستورات زیر را اجرا کنید:

sudo yum install -y clickhouse-server clickhouse-client

به clickhouse-server اجازه دهید به کارت شبکه در فایل /etc/clickhouse-server/config.xml گوش دهد.

<listen_host>0.0.0.0</listen_host>

تغییر سطح ثبت از ردیابی به اشکال زدایی

اشکال زدایی کردن

تنظیمات فشرده سازی استاندارد:

min_compress_block_size  65536
max_compress_block_size  1048576

برای فعال کردن فشرده سازی Zstd، توصیه شد که پیکربندی را لمس نکنید، بلکه از DDL استفاده کنید.

ارسال گزارش های Nginx json با استفاده از Vector به Clickhouse و Elasticsearch

من نتوانستم نحوه استفاده از فشرده سازی zstd از طریق DDL را در گوگل پیدا کنم. بنابراین من آن را همانطور که بود گذاشتم.

همکارانی که از فشرده سازی zstd در Clickhouse استفاده می کنند، لطفاً دستورالعمل ها را به اشتراک بگذارید.

برای راه اندازی سرور به صورت دیمون، اجرا کنید:

service clickhouse-server start

حالا بیایید به راه اندازی Clickhouse برویم

به کلیک هاوس بروید

clickhouse-client -h 172.26.10.109 -m

172.26.10.109 — IP سروری که Clickhouse در آن نصب شده است.

بیایید یک پایگاه داده برداری ایجاد کنیم

CREATE DATABASE vector;

بیایید بررسی کنیم که پایگاه داده وجود دارد.

show databases;

یک جدول vector.logs ایجاد کنید.

/* Это таблица где хранятся логи как есть */

CREATE TABLE vector.logs
(
    `node_name` String,
    `timestamp` DateTime,
    `server_name` String,
    `user_id` String,
    `request_full` String,
    `request_user_agent` String,
    `request_http_host` String,
    `request_uri` String,
    `request_scheme` String,
    `request_method` String,
    `request_length` UInt64,
    `request_time` Float32,
    `request_referrer` String,
    `response_status` UInt16,
    `response_body_bytes_sent` UInt64,
    `response_content_type` String,
    `remote_addr` IPv4,
    `remote_port` UInt32,
    `remote_user` String,
    `upstream_addr` IPv4,
    `upstream_port` UInt32,
    `upstream_bytes_received` UInt64,
    `upstream_bytes_sent` UInt64,
    `upstream_cache_status` String,
    `upstream_connect_time` Float32,
    `upstream_header_time` Float32,
    `upstream_response_length` UInt64,
    `upstream_response_time` Float32,
    `upstream_status` UInt16,
    `upstream_content_type` String,
    INDEX idx_http_host request_http_host TYPE set(0) GRANULARITY 1
)
ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(timestamp)
ORDER BY timestamp
TTL timestamp + toIntervalMonth(1)
SETTINGS index_granularity = 8192;

بررسی می کنیم که جداول ایجاد شده باشند. راه اندازی کنیم clickhouse-client و درخواست بدهید

بیایید به پایگاه داده برداری برویم.

use vector;

Ok.

0 rows in set. Elapsed: 0.001 sec.

بیایید به جداول نگاه کنیم.

show tables;

┌─name────────────────┐
│ logs                │
└─────────────────────┘

نصب elasticsearch در سرور چهارم برای ارسال همان داده ها به Elasticsearch برای مقایسه با Clickhouse

یک کلید rpm عمومی اضافه کنید

rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch

بیایید 2 مخزن ایجاد کنیم:

/etc/yum.repos.d/elasticsearch.repo

[elasticsearch]
name=Elasticsearch repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=0
autorefresh=1
type=rpm-md

/etc/yum.repos.d/kibana.repo

[kibana-7.x]
name=Kibana repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md

elasticsearch و kibana را نصب کنید

yum install -y kibana elasticsearch

از آنجایی که در 1 کپی خواهد بود، باید موارد زیر را به فایل /etc/elasticsearch/elasticsearch.yml اضافه کنید:

discovery.type: single-node

به طوری که آن بردار بتواند داده ها را از سرور دیگری به elasticsearch ارسال کند، اجازه دهید network.host را تغییر دهیم.

network.host: 0.0.0.0

برای اتصال به kibana، پارامتر server.host را در فایل /etc/kibana/kibana.yml تغییر دهید.

server.host: "0.0.0.0"

قدیمی و شامل elasticsearch در autostart

systemctl enable elasticsearch
systemctl start elasticsearch

و کیبانا

systemctl enable kibana
systemctl start kibana

پیکربندی Elasticsearch برای حالت تک گره 1 قطعه، 0 ماکت. به احتمال زیاد شما خوشه ای از تعداد زیادی سرور خواهید داشت و نیازی به انجام این کار ندارید.

برای نمایه های آینده، الگوی پیش فرض را به روز کنید:

curl -X PUT http://localhost:9200/_template/default -H 'Content-Type: application/json' -d '{"index_patterns": ["*"],"order": -1,"settings": {"number_of_shards": "1","number_of_replicas": "0"}}' 

نصب بردار به عنوان جایگزینی برای Logstash در سرور 2

yum install -y https://packages.timber.io/vector/0.9.X/vector-x86_64.rpm mc httpd-tools screen

بیایید Vector را به عنوان جایگزینی برای Logstash تنظیم کنیم. ویرایش فایل /etc/vector/vector.toml

# /etc/vector/vector.toml

data_dir = "/var/lib/vector"

[sources.nginx_input_vector]
  # General
  type                          = "vector"
  address                       = "0.0.0.0:9876"
  shutdown_timeout_secs         = 30

[transforms.nginx_parse_json]
  inputs                        = [ "nginx_input_vector" ]
  type                          = "json_parser"

[transforms.nginx_parse_add_defaults]
  inputs                        = [ "nginx_parse_json" ]
  type                          = "lua"
  version                       = "2"

  hooks.process = """
  function (event, emit)

    function split_first(s, delimiter)
      result = {};
      for match in (s..delimiter):gmatch("(.-)"..delimiter) do
          table.insert(result, match);
      end
      return result[1];
    end

    function split_last(s, delimiter)
      result = {};
      for match in (s..delimiter):gmatch("(.-)"..delimiter) do
          table.insert(result, match);
      end
      return result[#result];
    end

    event.log.upstream_addr             = split_first(split_last(event.log.upstream_addr, ', '), ':')
    event.log.upstream_bytes_received   = split_last(event.log.upstream_bytes_received, ', ')
    event.log.upstream_bytes_sent       = split_last(event.log.upstream_bytes_sent, ', ')
    event.log.upstream_connect_time     = split_last(event.log.upstream_connect_time, ', ')
    event.log.upstream_header_time      = split_last(event.log.upstream_header_time, ', ')
    event.log.upstream_response_length  = split_last(event.log.upstream_response_length, ', ')
    event.log.upstream_response_time    = split_last(event.log.upstream_response_time, ', ')
    event.log.upstream_status           = split_last(event.log.upstream_status, ', ')

    if event.log.upstream_addr == "" then
        event.log.upstream_addr = "127.0.0.1"
    end

    if (event.log.upstream_bytes_received == "-" or event.log.upstream_bytes_received == "") then
        event.log.upstream_bytes_received = "0"
    end

    if (event.log.upstream_bytes_sent == "-" or event.log.upstream_bytes_sent == "") then
        event.log.upstream_bytes_sent = "0"
    end

    if event.log.upstream_cache_status == "" then
        event.log.upstream_cache_status = "DISABLED"
    end

    if (event.log.upstream_connect_time == "-" or event.log.upstream_connect_time == "") then
        event.log.upstream_connect_time = "0"
    end

    if (event.log.upstream_header_time == "-" or event.log.upstream_header_time == "") then
        event.log.upstream_header_time = "0"
    end

    if (event.log.upstream_response_length == "-" or event.log.upstream_response_length == "") then
        event.log.upstream_response_length = "0"
    end

    if (event.log.upstream_response_time == "-" or event.log.upstream_response_time == "") then
        event.log.upstream_response_time = "0"
    end

    if (event.log.upstream_status == "-" or event.log.upstream_status == "") then
        event.log.upstream_status = "0"
    end

    emit(event)

  end
  """

[transforms.nginx_parse_remove_fields]
    inputs                              = [ "nginx_parse_add_defaults" ]
    type                                = "remove_fields"
    fields                              = ["data", "file", "host", "source_type"]

[transforms.nginx_parse_coercer]

    type                                = "coercer"
    inputs                              = ["nginx_parse_remove_fields"]

    types.request_length = "int"
    types.request_time = "float"

    types.response_status = "int"
    types.response_body_bytes_sent = "int"

    types.remote_port = "int"

    types.upstream_bytes_received = "int"
    types.upstream_bytes_send = "int"
    types.upstream_connect_time = "float"
    types.upstream_header_time = "float"
    types.upstream_response_length = "int"
    types.upstream_response_time = "float"
    types.upstream_status = "int"

    types.timestamp = "timestamp"

[sinks.nginx_output_clickhouse]
    inputs   = ["nginx_parse_coercer"]
    type     = "clickhouse"

    database = "vector"
    healthcheck = true
    host = "http://172.26.10.109:8123" #  Адрес Clickhouse
    table = "logs"

    encoding.timestamp_format = "unix"

    buffer.type = "disk"
    buffer.max_size = 104900000
    buffer.when_full = "block"

    request.in_flight_limit = 20

[sinks.elasticsearch]
    type = "elasticsearch"
    inputs   = ["nginx_parse_coercer"]
    compression = "none"
    healthcheck = true
    # 172.26.10.116 - сервер где установен elasticsearch
    host = "http://172.26.10.116:9200" 
    index = "vector-%Y-%m-%d"

می توانید بخش transforms.nginx_parse_add_defaults را تنظیم کنید.

مانند ویاچسلاو راخینسکی از این تنظیمات برای یک CDN کوچک استفاده می کند و می تواند چندین مقدار در upstream_* وجود داشته باشد

به عنوان مثال:

"upstream_addr": "128.66.0.10:443, 128.66.0.11:443, 128.66.0.12:443"
"upstream_bytes_received": "-, -, 123"
"upstream_status": "502, 502, 200"

اگر وضعیت شما اینطور نیست، این بخش را می توان ساده کرد

بیایید تنظیمات سرویس را برای systemd /etc/systemd/system/vector.service ایجاد کنیم

# /etc/systemd/system/vector.service

[Unit]
Description=Vector
After=network-online.target
Requires=network-online.target

[Service]
User=vector
Group=vector
ExecStart=/usr/bin/vector
ExecReload=/bin/kill -HUP $MAINPID
Restart=no
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=vector

[Install]
WantedBy=multi-user.target

پس از ایجاد جداول، می توانید Vector را اجرا کنید

systemctl enable vector
systemctl start vector

گزارش های برداری را می توان به صورت زیر مشاهده کرد:

journalctl -f -u vector

باید چنین ورودی هایی در لاگ ها وجود داشته باشد

INFO vector::topology::builder: Healthcheck: Passed.
INFO vector::topology::builder: Healthcheck: Passed.

روی مشتری (سرور وب) - سرور اول

در سرور با nginx، باید ipv6 را غیرفعال کنید، زیرا جدول گزارش ها در کلیک هاوس از این فیلد استفاده می کند. upstream_addr IPv4، زیرا من از IPv6 در داخل شبکه استفاده نمی کنم. اگر ipv6 خاموش نباشد، خطاهایی وجود دارد:

DB::Exception: Invalid IPv4 value.: (while read the value of key upstream_addr)

شاید خوانندگان، پشتیبانی ipv6 را اضافه کنند.

فایل /etc/sysctl.d/98-disable-ipv6.conf را ایجاد کنید

net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1

اعمال تنظیمات

sysctl --system

بیایید nginx را نصب کنیم.

فایل مخزن nginx /etc/yum.repos.d/nginx.repo اضافه شد

[nginx-stable]
name=nginx stable repo
baseurl=http://nginx.org/packages/centos/$releasever/$basearch/
gpgcheck=1
enabled=1
gpgkey=https://nginx.org/keys/nginx_signing.key
module_hotfixes=true

بسته nginx را نصب کنید

yum install -y nginx

ابتدا باید فرمت log را در Nginx در فایل /etc/nginx/nginx.conf پیکربندی کنیم.

user  nginx;
# you must set worker processes based on your CPU cores, nginx does not benefit from setting more than that
worker_processes auto; #some last versions calculate it automatically

# number of file descriptors used for nginx
# the limit for the maximum FDs on the server is usually set by the OS.
# if you don't set FD's then OS settings will be used which is by default 2000
worker_rlimit_nofile 100000;

error_log  /var/log/nginx/error.log warn;
pid        /var/run/nginx.pid;

# provides the configuration file context in which the directives that affect connection processing are specified.
events {
    # determines how much clients will be served per worker
    # max clients = worker_connections * worker_processes
    # max clients is also limited by the number of socket connections available on the system (~64k)
    worker_connections 4000;

    # optimized to serve many clients with each thread, essential for linux -- for testing environment
    use epoll;

    # accept as many connections as possible, may flood worker connections if set too low -- for testing environment
    multi_accept on;
}

http {
    include       /etc/nginx/mime.types;
    default_type  application/octet-stream;

    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';

log_format vector escape=json
    '{'
        '"node_name":"nginx-vector",'
        '"timestamp":"$time_iso8601",'
        '"server_name":"$server_name",'
        '"request_full": "$request",'
        '"request_user_agent":"$http_user_agent",'
        '"request_http_host":"$http_host",'
        '"request_uri":"$request_uri",'
        '"request_scheme": "$scheme",'
        '"request_method":"$request_method",'
        '"request_length":"$request_length",'
        '"request_time": "$request_time",'
        '"request_referrer":"$http_referer",'
        '"response_status": "$status",'
        '"response_body_bytes_sent":"$body_bytes_sent",'
        '"response_content_type":"$sent_http_content_type",'
        '"remote_addr": "$remote_addr",'
        '"remote_port": "$remote_port",'
        '"remote_user": "$remote_user",'
        '"upstream_addr": "$upstream_addr",'
        '"upstream_bytes_received": "$upstream_bytes_received",'
        '"upstream_bytes_sent": "$upstream_bytes_sent",'
        '"upstream_cache_status":"$upstream_cache_status",'
        '"upstream_connect_time":"$upstream_connect_time",'
        '"upstream_header_time":"$upstream_header_time",'
        '"upstream_response_length":"$upstream_response_length",'
        '"upstream_response_time":"$upstream_response_time",'
        '"upstream_status": "$upstream_status",'
        '"upstream_content_type":"$upstream_http_content_type"'
    '}';

    access_log  /var/log/nginx/access.log  main;
    access_log  /var/log/nginx/access.json.log vector;      # Новый лог в формате json

    sendfile        on;
    #tcp_nopush     on;

    keepalive_timeout  65;

    #gzip  on;

    include /etc/nginx/conf.d/*.conf;
}

برای اینکه پیکربندی فعلی شما خراب نشود، Nginx به شما اجازه می دهد چندین دستورالعمل access_log داشته باشید

access_log  /var/log/nginx/access.log  main;            # Стандартный лог
access_log  /var/log/nginx/access.json.log vector;      # Новый лог в формате json

فراموش نکنید که یک قانون برای ورود به سیستم برای گزارش های جدید اضافه کنید (اگر فایل log به .log ختم نمی شود)

default.conf را از /etc/nginx/conf.d/ حذف کنید

rm -f /etc/nginx/conf.d/default.conf

میزبان مجازی /etc/nginx/conf.d/vhost1.conf را اضافه کنید

server {
    listen 80;
    server_name vhost1;
    location / {
        proxy_pass http://172.26.10.106:8080;
    }
}

میزبان مجازی /etc/nginx/conf.d/vhost2.conf را اضافه کنید

server {
    listen 80;
    server_name vhost2;
    location / {
        proxy_pass http://172.26.10.108:8080;
    }
}

میزبان مجازی /etc/nginx/conf.d/vhost3.conf را اضافه کنید

server {
    listen 80;
    server_name vhost3;
    location / {
        proxy_pass http://172.26.10.109:8080;
    }
}

میزبان مجازی /etc/nginx/conf.d/vhost4.conf را اضافه کنید

server {
    listen 80;
    server_name vhost4;
    location / {
        proxy_pass http://172.26.10.116:8080;
    }
}

هاست های مجازی (IP 172.26.10.106 سروری که nginx در آن نصب شده است) را به همه سرورها به فایل /etc/hosts اضافه کنید:

172.26.10.106 vhost1
172.26.10.106 vhost2
172.26.10.106 vhost3
172.26.10.106 vhost4

و اگر همه چیز آماده است پس

nginx -t 
systemctl restart nginx

حالا بیایید خودمان آن را نصب کنیم بردار

yum install -y https://packages.timber.io/vector/0.9.X/vector-x86_64.rpm

بیایید یک فایل تنظیمات برای systemd /etc/systemd/system/vector.service ایجاد کنیم

[Unit]
Description=Vector
After=network-online.target
Requires=network-online.target

[Service]
User=vector
Group=vector
ExecStart=/usr/bin/vector
ExecReload=/bin/kill -HUP $MAINPID
Restart=no
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=vector

[Install]
WantedBy=multi-user.target

و جایگزین Filebeat را در پیکربندی /etc/vector/vector.toml پیکربندی کنید. آدرس IP 172.26.10.108 آدرس IP سرور گزارش (Vector-Server) است.

data_dir = "/var/lib/vector"

[sources.nginx_file]
  type                          = "file"
  include                       = [ "/var/log/nginx/access.json.log" ]
  start_at_beginning            = false
  fingerprinting.strategy       = "device_and_inode"

[sinks.nginx_output_vector]
  type                          = "vector"
  inputs                        = [ "nginx_file" ]

  address                       = "172.26.10.108:9876"

فراموش نکنید که بردار کاربر را به گروه مناسب اضافه کنید تا بتواند فایل‌های لاگ را بخواند. برای مثال، nginx در centos لاگ‌هایی با دسترسی‌های گروه ادمین ایجاد می‌کند.

usermod -a -G adm vector

بیایید سرویس برداری را شروع کنیم

systemctl enable vector
systemctl start vector

گزارش های برداری را می توان به صورت زیر مشاهده کرد:

journalctl -f -u vector

باید یک ورودی مانند این در گزارش ها وجود داشته باشد

INFO vector::topology::builder: Healthcheck: Passed.

تست استرس

تست با استفاده از معیار آپاچی انجام می شود.

بسته httpd-tools بر روی همه سرورها نصب شد

ما آزمایش را با استفاده از معیار آپاچی از 4 سرور مختلف در صفحه شروع می کنیم. ابتدا مالتی پلکسر ترمینال صفحه را راه اندازی می کنیم و سپس با استفاده از بنچمارک آپاچی شروع به آزمایش می کنیم. نحوه کار با صفحه نمایشی که می توانید در آن پیدا کنید مقاله.

از سرور اول

while true; do ab -H "User-Agent: 1server" -c 100 -n 10 -t 10 http://vhost1/; sleep 1; done

از سرور اول

while true; do ab -H "User-Agent: 2server" -c 100 -n 10 -t 10 http://vhost2/; sleep 1; done

از سرور اول

while true; do ab -H "User-Agent: 3server" -c 100 -n 10 -t 10 http://vhost3/; sleep 1; done

از سرور اول

while true; do ab -H "User-Agent: 4server" -c 100 -n 10 -t 10 http://vhost4/; sleep 1; done

بیایید داده ها را در کلیک هاوس بررسی کنیم

به کلیک هاوس بروید

clickhouse-client -h 172.26.10.109 -m

ایجاد یک پرس و جو SQL

SELECT * FROM vector.logs;

┌─node_name────┬───────────timestamp─┬─server_name─┬─user_id─┬─request_full───┬─request_user_agent─┬─request_http_host─┬─request_uri─┬─request_scheme─┬─request_method─┬─request_length─┬─request_time─┬─request_referrer─┬─response_status─┬─response_body_bytes_sent─┬─response_content_type─┬───remote_addr─┬─remote_port─┬─remote_user─┬─upstream_addr─┬─upstream_port─┬─upstream_bytes_received─┬─upstream_bytes_sent─┬─upstream_cache_status─┬─upstream_connect_time─┬─upstream_header_time─┬─upstream_response_length─┬─upstream_response_time─┬─upstream_status─┬─upstream_content_type─┐
│ nginx-vector │ 2020-08-07 04:32:42 │ vhost1      │         │ GET / HTTP/1.0 │ 1server            │ vhost1            │ /           │ http           │ GET            │             66 │        0.028 │                  │             404 │                       27 │                       │ 172.26.10.106 │       45886 │             │ 172.26.10.106 │             0 │                     109 │                  97 │ DISABLED              │                     0 │                0.025 │                       27 │                  0.029 │             404 │                       │
└──────────────┴─────────────────────┴─────────────┴─────────┴────────────────┴────────────────────┴───────────────────┴─────────────┴────────────────┴────────────────┴────────────────┴──────────────┴──────────────────┴─────────────────┴──────────────────────────┴───────────────────────┴───────────────┴─────────────┴─────────────┴───────────────┴───────────────┴─────────────────────────┴─────────────────────┴───────────────────────┴───────────────────────┴──────────────────────┴──────────────────────────┴────────────────────────┴─────────────────┴───────────────────────

اندازه جداول را در کلیک هاوس بیابید

select concat(database, '.', table)                         as table,
       formatReadableSize(sum(bytes))                       as size,
       sum(rows)                                            as rows,
       max(modification_time)                               as latest_modification,
       sum(bytes)                                           as bytes_size,
       any(engine)                                          as engine,
       formatReadableSize(sum(primary_key_bytes_in_memory)) as primary_keys_size
from system.parts
where active
group by database, table
order by bytes_size desc;

بیایید دریابیم که چه مقدار لاگ در Clickhouse گرفته شده است.

ارسال گزارش های Nginx json با استفاده از Vector به Clickhouse و Elasticsearch

حجم جدول لاگ ها 857.19 مگابایت است.

ارسال گزارش های Nginx json با استفاده از Vector به Clickhouse و Elasticsearch

اندازه همین داده ها در ایندکس در Elasticsearch 4,5 گیگابایت است.

اگر داده ها را در بردار در پارامترها مشخص نکنید، Clickhouse 4500/857.19 = 5.24 برابر کمتر از Elasticsearch می گیرد.

در وکتور، فیلد فشرده سازی به طور پیش فرض استفاده می شود.

چت تلگرام توسط خانه کلیک
چت تلگرام توسط ارزیابی جستجو
چت تلگرام توسط "جمع آوری و تجزیه و تحلیل سیستم پیام ها"

منبع: www.habr.com

خرید هاست قابل اعتماد برای سایت های دارای حفاظت DDoS، سرورهای VPS VDS 🔥 خرید هاستینگ معتبر با محافظت در برابر حملات DDoS، سرورهای VPS و VDS | ProHoster