Nginx json लॉग वेक्टर वापरून Clickhouse आणि Elasticsearch ला पाठवत आहे

Nginx json लॉग वेक्टर वापरून Clickhouse आणि Elasticsearch ला पाठवत आहे

वेक्टर, लॉग डेटा, मेट्रिक्स आणि इव्हेंट गोळा करण्यासाठी, रूपांतरित करण्यासाठी आणि पाठवण्यासाठी डिझाइन केलेले.

→ जिथूब

रस्ट भाषेत लिहिल्या जात असल्याने, त्याच्या अॅनालॉगच्या तुलनेत उच्च कार्यक्षमता आणि कमी RAM वापराद्वारे दर्शविले जाते. याव्यतिरिक्त, अचूकतेशी संबंधित फंक्शन्सवर जास्त लक्ष दिले जाते, विशेषतः, डिस्कवरील बफरमध्ये न पाठवलेल्या घटना जतन करण्याची क्षमता आणि फायली फिरवण्याची क्षमता.

वास्तुशास्त्रीयदृष्ट्या, वेक्टर हा एक इव्हेंट राउटर आहे जो एक किंवा अधिक संदेश प्राप्त करतो स्रोत, वैकल्पिकरित्या या संदेशांवर अर्ज करणे परिवर्तने, आणि त्यांना एक किंवा अधिक पाठवत आहे नाले.

वेक्टर हे फाइलबीट आणि लॉगस्टॅशचे बदली आहे, ते दोन्ही भूमिकांमध्ये कार्य करू शकते (लॉग प्राप्त करणे आणि पाठवणे), त्यावरील अधिक तपशील साइट.

जर लॉगस्टॅशमध्ये साखळी इनपुट → फिल्टर → आउटपुट म्हणून तयार केली असेल तर व्हेक्टरमध्ये ती आहे स्त्रोतरूपांतरबुडणे

उदाहरणे कागदपत्रांमध्ये आढळू शकतात.

ही सूचना कडून सुधारित सूचना आहे व्याचेस्लाव राखिन्स्की. मूळ सूचनांमध्ये जिओआयपी प्रक्रिया समाविष्ट आहे. अंतर्गत नेटवर्कवरून geoip ची चाचणी करताना, वेक्टरने त्रुटी दिली.

Aug 05 06:25:31.889 DEBUG transform{name=nginx_parse_rename_fields type=rename_fields}: vector::transforms::rename_fields: Field did not exist field=«geoip.country_name» rate_limit_secs=30

जर कोणाला geoip वर प्रक्रिया करायची असेल तर मूळ सूचना पहा व्याचेस्लाव राखिन्स्की.

आम्ही Nginx (ऍक्सेस लॉग) → व्हेक्टर (क्लायंट | फाइलबीट) → वेक्टर (सर्व्हर | लॉगस्टॅश) → क्लिकहाऊसमध्ये स्वतंत्रपणे आणि इलास्टिकसर्चमध्ये स्वतंत्रपणे कॉन्फिगर करू. आम्ही 4 सर्व्हर स्थापित करू. जरी आपण ते 3 सर्व्हरसह बायपास करू शकता.

Nginx json लॉग वेक्टर वापरून Clickhouse आणि Elasticsearch ला पाठवत आहे

योजना अशी काहीशी आहे.

तुमच्या सर्व सर्व्हरवर सेलिनक्स अक्षम करा

sed -i 's/^SELINUX=.*/SELINUX=disabled/g' /etc/selinux/config
reboot

आम्ही सर्व सर्व्हरवर HTTP सर्व्हर एमुलेटर + उपयुक्तता स्थापित करतो

HTTP सर्व्हर एमुलेटर म्हणून आम्ही वापरू nodejs-स्टब-सर्व्हर पासून मॅक्सिम इग्नाटेन्को

Nodejs-stub-server मध्ये rpm नाही. तो आहे त्यासाठी rpm तयार करा. rpm वापरून तयार केले जाईल फेडोरा कॉप्र

antonpatsev/nodejs-stub-server repository जोडा

yum -y install yum-plugin-copr epel-release
yes | yum copr enable antonpatsev/nodejs-stub-server

सर्व सर्व्हरवर nodejs-stub-server, Apache बेंचमार्क आणि स्क्रीन टर्मिनल मल्टीप्लेक्सर स्थापित करा

yum -y install stub_http_server screen mc httpd-tools screen

मी /var/lib/stub_http_server/stub_http_server.js फाईलमधील stub_http_server प्रतिसाद वेळ दुरुस्त केला आहे जेणेकरून तेथे अधिक लॉग असतील.

var max_sleep = 10;

चला stub_http_server लाँच करू.

systemctl start stub_http_server
systemctl enable stub_http_server

क्लिकहाऊस स्थापना सर्व्हर 3 वर

ClickHouse SSE 4.2 सूचना संच वापरते, म्हणून अन्यथा निर्दिष्ट केल्याशिवाय, वापरलेल्या प्रोसेसरमध्ये समर्थन ही अतिरिक्त सिस्टम आवश्यकता बनते. सध्याचा प्रोसेसर SSE 4.2 ला सपोर्ट करतो की नाही हे तपासण्यासाठी येथे कमांड आहे:

grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"

प्रथम आपल्याला अधिकृत रेपॉजिटरी कनेक्ट करण्याची आवश्यकता आहे:

sudo yum install -y yum-utils
sudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
sudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64

पॅकेजेस स्थापित करण्यासाठी तुम्हाला खालील आदेश चालवावे लागतील:

sudo yum install -y clickhouse-server clickhouse-client

/etc/clickhouse-server/config.xml फाइलमधील नेटवर्क कार्ड ऐकण्यासाठी clickhouse-server ला अनुमती द्या

<listen_host>0.0.0.0</listen_host>

ट्रेस ते डीबग करण्यासाठी लॉगिंग पातळी बदलत आहे

डीबग

मानक कॉम्प्रेशन सेटिंग्ज:

min_compress_block_size  65536
max_compress_block_size  1048576

Zstd कॉम्प्रेशन सक्रिय करण्यासाठी, कॉन्फिगरेशनला स्पर्श न करण्याचा सल्ला देण्यात आला होता, उलट DDL वापरण्याचा सल्ला देण्यात आला होता.

Nginx json लॉग वेक्टर वापरून Clickhouse आणि Elasticsearch ला पाठवत आहे

Google मध्ये DDL द्वारे zstd कॉम्प्रेशन कसे वापरायचे ते मला सापडले नाही. म्हणून मी ते जसेच्या तसे सोडले.

क्लिकहाऊसमध्ये zstd कॉम्प्रेशन वापरणारे सहकारी, कृपया सूचना शेअर करा.

डिमन म्हणून सर्व्हर सुरू करण्यासाठी, चालवा:

service clickhouse-server start

आता क्लिकहाऊस सेट करण्याकडे वळू

क्लिकहाऊस वर जा

clickhouse-client -h 172.26.10.109 -m

172.26.10.109 — क्लिकहाऊस स्थापित केलेल्या सर्व्हरचा IP.

चला व्हेक्टर डेटाबेस तयार करू

CREATE DATABASE vector;

डेटाबेस अस्तित्वात आहे का ते तपासू.

show databases;

vector.logs सारणी तयार करा.

/* Это таблица где хранятся логи как есть */

CREATE TABLE vector.logs
(
    `node_name` String,
    `timestamp` DateTime,
    `server_name` String,
    `user_id` String,
    `request_full` String,
    `request_user_agent` String,
    `request_http_host` String,
    `request_uri` String,
    `request_scheme` String,
    `request_method` String,
    `request_length` UInt64,
    `request_time` Float32,
    `request_referrer` String,
    `response_status` UInt16,
    `response_body_bytes_sent` UInt64,
    `response_content_type` String,
    `remote_addr` IPv4,
    `remote_port` UInt32,
    `remote_user` String,
    `upstream_addr` IPv4,
    `upstream_port` UInt32,
    `upstream_bytes_received` UInt64,
    `upstream_bytes_sent` UInt64,
    `upstream_cache_status` String,
    `upstream_connect_time` Float32,
    `upstream_header_time` Float32,
    `upstream_response_length` UInt64,
    `upstream_response_time` Float32,
    `upstream_status` UInt16,
    `upstream_content_type` String,
    INDEX idx_http_host request_http_host TYPE set(0) GRANULARITY 1
)
ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(timestamp)
ORDER BY timestamp
TTL timestamp + toIntervalMonth(1)
SETTINGS index_granularity = 8192;

आम्ही तपासतो की टेबल तयार केले आहेत. चला लॉन्च करूया clickhouse-client आणि विनंती करा.

चला वेक्टर डेटाबेसवर जाऊ या.

use vector;

Ok.

0 rows in set. Elapsed: 0.001 sec.

चला टेबल पाहू.

show tables;

┌─name────────────────┐
│ logs                │
└─────────────────────┘

क्लिकहाऊसशी तुलना करण्यासाठी समान डेटा इलास्टिकसर्चला पाठवण्यासाठी चौथ्या सर्व्हरवर इलॅस्टिकसर्च स्थापित करणे

सार्वजनिक rpm की जोडा

rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch

चला 2 रेपो तयार करूया:

/etc/yum.repos.d/elasticsearch.repo

[elasticsearch]
name=Elasticsearch repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=0
autorefresh=1
type=rpm-md

/etc/yum.repos.d/kibana.repo

[kibana-7.x]
name=Kibana repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md

elasticsearch आणि kibana स्थापित करा

yum install -y kibana elasticsearch

ते 1 कॉपीमध्ये असल्याने, तुम्हाला खालील गोष्टी /etc/elasticsearch/elasticsearch.yml फाइलमध्ये जोडणे आवश्यक आहे:

discovery.type: single-node

त्यामुळे व्हेक्टर दुसऱ्या सर्व्हरवरून इलास्टिकसर्चला डेटा पाठवू शकतो, चला network.host बदलू.

network.host: 0.0.0.0

किबानाशी कनेक्ट करण्यासाठी, /etc/kibana/kibana.yml फाइलमध्ये server.host पॅरामीटर बदला

server.host: "0.0.0.0"

ऑटोस्टार्टमध्ये जुने आणि लवचिक शोध समाविष्ट करा

systemctl enable elasticsearch
systemctl start elasticsearch

आणि किबाना

systemctl enable kibana
systemctl start kibana

सिंगल-नोड मोड 1 शार्ड, 0 प्रतिकृतीसाठी इलास्टिकसर्च कॉन्फिगर करत आहे. बहुधा आपल्याकडे मोठ्या संख्येने सर्व्हरचा क्लस्टर असेल आणि आपल्याला हे करण्याची आवश्यकता नाही.

भविष्यातील निर्देशांकांसाठी, डीफॉल्ट टेम्पलेट अद्यतनित करा:

curl -X PUT http://localhost:9200/_template/default -H 'Content-Type: application/json' -d '{"index_patterns": ["*"],"order": -1,"settings": {"number_of_shards": "1","number_of_replicas": "0"}}' 

सेटिंग वेक्टर सर्व्हर 2 वर लॉगस्टॅशचा बदला म्हणून

yum install -y https://packages.timber.io/vector/0.9.X/vector-x86_64.rpm mc httpd-tools screen

लॉगस्टॅशच्या बदली म्हणून व्हेक्टर सेट करू. फाइल संपादित करत आहे /etc/vector/vector.toml

# /etc/vector/vector.toml

data_dir = "/var/lib/vector"

[sources.nginx_input_vector]
  # General
  type                          = "vector"
  address                       = "0.0.0.0:9876"
  shutdown_timeout_secs         = 30

[transforms.nginx_parse_json]
  inputs                        = [ "nginx_input_vector" ]
  type                          = "json_parser"

[transforms.nginx_parse_add_defaults]
  inputs                        = [ "nginx_parse_json" ]
  type                          = "lua"
  version                       = "2"

  hooks.process = """
  function (event, emit)

    function split_first(s, delimiter)
      result = {};
      for match in (s..delimiter):gmatch("(.-)"..delimiter) do
          table.insert(result, match);
      end
      return result[1];
    end

    function split_last(s, delimiter)
      result = {};
      for match in (s..delimiter):gmatch("(.-)"..delimiter) do
          table.insert(result, match);
      end
      return result[#result];
    end

    event.log.upstream_addr             = split_first(split_last(event.log.upstream_addr, ', '), ':')
    event.log.upstream_bytes_received   = split_last(event.log.upstream_bytes_received, ', ')
    event.log.upstream_bytes_sent       = split_last(event.log.upstream_bytes_sent, ', ')
    event.log.upstream_connect_time     = split_last(event.log.upstream_connect_time, ', ')
    event.log.upstream_header_time      = split_last(event.log.upstream_header_time, ', ')
    event.log.upstream_response_length  = split_last(event.log.upstream_response_length, ', ')
    event.log.upstream_response_time    = split_last(event.log.upstream_response_time, ', ')
    event.log.upstream_status           = split_last(event.log.upstream_status, ', ')

    if event.log.upstream_addr == "" then
        event.log.upstream_addr = "127.0.0.1"
    end

    if (event.log.upstream_bytes_received == "-" or event.log.upstream_bytes_received == "") then
        event.log.upstream_bytes_received = "0"
    end

    if (event.log.upstream_bytes_sent == "-" or event.log.upstream_bytes_sent == "") then
        event.log.upstream_bytes_sent = "0"
    end

    if event.log.upstream_cache_status == "" then
        event.log.upstream_cache_status = "DISABLED"
    end

    if (event.log.upstream_connect_time == "-" or event.log.upstream_connect_time == "") then
        event.log.upstream_connect_time = "0"
    end

    if (event.log.upstream_header_time == "-" or event.log.upstream_header_time == "") then
        event.log.upstream_header_time = "0"
    end

    if (event.log.upstream_response_length == "-" or event.log.upstream_response_length == "") then
        event.log.upstream_response_length = "0"
    end

    if (event.log.upstream_response_time == "-" or event.log.upstream_response_time == "") then
        event.log.upstream_response_time = "0"
    end

    if (event.log.upstream_status == "-" or event.log.upstream_status == "") then
        event.log.upstream_status = "0"
    end

    emit(event)

  end
  """

[transforms.nginx_parse_remove_fields]
    inputs                              = [ "nginx_parse_add_defaults" ]
    type                                = "remove_fields"
    fields                              = ["data", "file", "host", "source_type"]

[transforms.nginx_parse_coercer]

    type                                = "coercer"
    inputs                              = ["nginx_parse_remove_fields"]

    types.request_length = "int"
    types.request_time = "float"

    types.response_status = "int"
    types.response_body_bytes_sent = "int"

    types.remote_port = "int"

    types.upstream_bytes_received = "int"
    types.upstream_bytes_send = "int"
    types.upstream_connect_time = "float"
    types.upstream_header_time = "float"
    types.upstream_response_length = "int"
    types.upstream_response_time = "float"
    types.upstream_status = "int"

    types.timestamp = "timestamp"

[sinks.nginx_output_clickhouse]
    inputs   = ["nginx_parse_coercer"]
    type     = "clickhouse"

    database = "vector"
    healthcheck = true
    host = "http://172.26.10.109:8123" #  Адрес Clickhouse
    table = "logs"

    encoding.timestamp_format = "unix"

    buffer.type = "disk"
    buffer.max_size = 104900000
    buffer.when_full = "block"

    request.in_flight_limit = 20

[sinks.elasticsearch]
    type = "elasticsearch"
    inputs   = ["nginx_parse_coercer"]
    compression = "none"
    healthcheck = true
    # 172.26.10.116 - сервер где установен elasticsearch
    host = "http://172.26.10.116:9200" 
    index = "vector-%Y-%m-%d"

तुम्ही transforms.nginx_parse_add_defaults विभाग समायोजित करू शकता.

असल्याने व्याचेस्लाव राखिन्स्की लहान CDN साठी या कॉन्फिगचा वापर करते आणि upstream_* मध्ये अनेक मूल्ये असू शकतात

उदाहरणार्थ:

"upstream_addr": "128.66.0.10:443, 128.66.0.11:443, 128.66.0.12:443"
"upstream_bytes_received": "-, -, 123"
"upstream_status": "502, 502, 200"

ही तुमची परिस्थिती नसल्यास, हा विभाग सरलीकृत केला जाऊ शकतो

चला systemd /etc/systemd/system/vector.service साठी सेवा सेटिंग्ज तयार करूया

# /etc/systemd/system/vector.service

[Unit]
Description=Vector
After=network-online.target
Requires=network-online.target

[Service]
User=vector
Group=vector
ExecStart=/usr/bin/vector
ExecReload=/bin/kill -HUP $MAINPID
Restart=no
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=vector

[Install]
WantedBy=multi-user.target

टेबल तयार केल्यानंतर, तुम्ही वेक्टर चालवू शकता

systemctl enable vector
systemctl start vector

वेक्टर लॉग याप्रमाणे पाहिले जाऊ शकतात:

journalctl -f -u vector

नोंदींमध्ये अशा प्रकारच्या नोंदी असाव्यात

INFO vector::topology::builder: Healthcheck: Passed.
INFO vector::topology::builder: Healthcheck: Passed.

क्लायंटवर (वेब ​​सर्व्हर) - पहिला सर्व्हर

nginx सह सर्व्हरवर, तुम्हाला ipv6 अक्षम करणे आवश्यक आहे, कारण क्लिकहाऊसमधील लॉग टेबल फील्ड वापरते upstream_addr IPv4, कारण मी नेटवर्कमध्ये ipv6 वापरत नाही. ipv6 बंद न केल्यास, त्रुटी असतील:

DB::Exception: Invalid IPv4 value.: (while read the value of key upstream_addr)

कदाचित वाचकहो, ipv6 सपोर्ट जोडा.

फाइल तयार करा /etc/sysctl.d/98-disable-ipv6.conf

net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1

सेटिंग्ज लागू करत आहे

sysctl --system

चला nginx स्थापित करूया.

nginx रेपॉजिटरी फाइल जोडली /etc/yum.repos.d/nginx.repo

[nginx-stable]
name=nginx stable repo
baseurl=http://nginx.org/packages/centos/$releasever/$basearch/
gpgcheck=1
enabled=1
gpgkey=https://nginx.org/keys/nginx_signing.key
module_hotfixes=true

nginx पॅकेज स्थापित करा

yum install -y nginx

प्रथम, आम्हाला /etc/nginx/nginx.conf फाइलमध्ये Nginx मध्ये लॉग फॉरमॅट कॉन्फिगर करणे आवश्यक आहे.

user  nginx;
# you must set worker processes based on your CPU cores, nginx does not benefit from setting more than that
worker_processes auto; #some last versions calculate it automatically

# number of file descriptors used for nginx
# the limit for the maximum FDs on the server is usually set by the OS.
# if you don't set FD's then OS settings will be used which is by default 2000
worker_rlimit_nofile 100000;

error_log  /var/log/nginx/error.log warn;
pid        /var/run/nginx.pid;

# provides the configuration file context in which the directives that affect connection processing are specified.
events {
    # determines how much clients will be served per worker
    # max clients = worker_connections * worker_processes
    # max clients is also limited by the number of socket connections available on the system (~64k)
    worker_connections 4000;

    # optimized to serve many clients with each thread, essential for linux -- for testing environment
    use epoll;

    # accept as many connections as possible, may flood worker connections if set too low -- for testing environment
    multi_accept on;
}

http {
    include       /etc/nginx/mime.types;
    default_type  application/octet-stream;

    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';

log_format vector escape=json
    '{'
        '"node_name":"nginx-vector",'
        '"timestamp":"$time_iso8601",'
        '"server_name":"$server_name",'
        '"request_full": "$request",'
        '"request_user_agent":"$http_user_agent",'
        '"request_http_host":"$http_host",'
        '"request_uri":"$request_uri",'
        '"request_scheme": "$scheme",'
        '"request_method":"$request_method",'
        '"request_length":"$request_length",'
        '"request_time": "$request_time",'
        '"request_referrer":"$http_referer",'
        '"response_status": "$status",'
        '"response_body_bytes_sent":"$body_bytes_sent",'
        '"response_content_type":"$sent_http_content_type",'
        '"remote_addr": "$remote_addr",'
        '"remote_port": "$remote_port",'
        '"remote_user": "$remote_user",'
        '"upstream_addr": "$upstream_addr",'
        '"upstream_bytes_received": "$upstream_bytes_received",'
        '"upstream_bytes_sent": "$upstream_bytes_sent",'
        '"upstream_cache_status":"$upstream_cache_status",'
        '"upstream_connect_time":"$upstream_connect_time",'
        '"upstream_header_time":"$upstream_header_time",'
        '"upstream_response_length":"$upstream_response_length",'
        '"upstream_response_time":"$upstream_response_time",'
        '"upstream_status": "$upstream_status",'
        '"upstream_content_type":"$upstream_http_content_type"'
    '}';

    access_log  /var/log/nginx/access.log  main;
    access_log  /var/log/nginx/access.json.log vector;      # Новый лог в формате json

    sendfile        on;
    #tcp_nopush     on;

    keepalive_timeout  65;

    #gzip  on;

    include /etc/nginx/conf.d/*.conf;
}

तुमचे वर्तमान कॉन्फिगरेशन खंडित न करण्यासाठी, Nginx तुम्हाला अनेक access_log निर्देशांची परवानगी देतो

access_log  /var/log/nginx/access.log  main;            # Стандартный лог
access_log  /var/log/nginx/access.json.log vector;      # Новый лог в формате json

नवीन लॉगसाठी लॉगरोटेट करण्यासाठी नियम जोडण्यास विसरू नका (जर लॉग फाइल .log ने समाप्त होत नसेल)

/etc/nginx/conf.d/ वरून default.conf काढा

rm -f /etc/nginx/conf.d/default.conf

आभासी होस्ट /etc/nginx/conf.d/vhost1.conf जोडा

server {
    listen 80;
    server_name vhost1;
    location / {
        proxy_pass http://172.26.10.106:8080;
    }
}

आभासी होस्ट /etc/nginx/conf.d/vhost2.conf जोडा

server {
    listen 80;
    server_name vhost2;
    location / {
        proxy_pass http://172.26.10.108:8080;
    }
}

आभासी होस्ट /etc/nginx/conf.d/vhost3.conf जोडा

server {
    listen 80;
    server_name vhost3;
    location / {
        proxy_pass http://172.26.10.109:8080;
    }
}

आभासी होस्ट /etc/nginx/conf.d/vhost4.conf जोडा

server {
    listen 80;
    server_name vhost4;
    location / {
        proxy_pass http://172.26.10.116:8080;
    }
}

/etc/hosts फाईलमध्ये सर्व सर्व्हरवर व्हर्च्युअल होस्ट (सर्व्हरचे 172.26.10.106 ip जेथे nginx स्थापित आहे) जोडा:

172.26.10.106 vhost1
172.26.10.106 vhost2
172.26.10.106 vhost3
172.26.10.106 vhost4

आणि जर सर्वकाही तयार असेल तर

nginx -t 
systemctl restart nginx

आता ते स्वतः स्थापित करूया वेक्टर

yum install -y https://packages.timber.io/vector/0.9.X/vector-x86_64.rpm

systemd /etc/systemd/system/vector.service साठी सेटिंग्ज फाइल तयार करू.

[Unit]
Description=Vector
After=network-online.target
Requires=network-online.target

[Service]
User=vector
Group=vector
ExecStart=/usr/bin/vector
ExecReload=/bin/kill -HUP $MAINPID
Restart=no
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=vector

[Install]
WantedBy=multi-user.target

आणि /etc/vector/vector.toml कॉन्फिगरमध्ये Filebeat रिप्लेसमेंट कॉन्फिगर करा. IP पत्ता 172.26.10.108 हा लॉग सर्व्हरचा IP पत्ता आहे (वेक्टर-सर्व्हर)

data_dir = "/var/lib/vector"

[sources.nginx_file]
  type                          = "file"
  include                       = [ "/var/log/nginx/access.json.log" ]
  start_at_beginning            = false
  fingerprinting.strategy       = "device_and_inode"

[sinks.nginx_output_vector]
  type                          = "vector"
  inputs                        = [ "nginx_file" ]

  address                       = "172.26.10.108:9876"

व्हेक्टर वापरकर्त्याला आवश्यक गटामध्ये जोडण्यास विसरू नका जेणेकरून तो लॉग फाइल्स वाचू शकेल. उदाहरणार्थ, centos मधील nginx adm गट अधिकारांसह लॉग तयार करते.

usermod -a -G adm vector

चला वेक्टर सेवा सुरू करूया

systemctl enable vector
systemctl start vector

वेक्टर लॉग याप्रमाणे पाहिले जाऊ शकतात:

journalctl -f -u vector

नोंदींमध्ये अशी नोंद असावी

INFO vector::topology::builder: Healthcheck: Passed.

ताण चाचणी

Apache बेंचमार्क वापरून चाचणी केली जाते.

httpd-tools पॅकेज सर्व सर्व्हरवर स्थापित केले होते

आम्ही स्क्रीनमधील 4 भिन्न सर्व्हरवरून Apache बेंचमार्क वापरून चाचणी सुरू करतो. प्रथम, आम्ही स्क्रीन टर्मिनल मल्टीप्लेक्सर लाँच करतो, आणि नंतर आम्ही Apache बेंचमार्क वापरून चाचणी सुरू करतो. आपण शोधू शकता अशा स्क्रीनसह कसे कार्य करावे लेख.

1ल्या सर्व्हरवरून

while true; do ab -H "User-Agent: 1server" -c 100 -n 10 -t 10 http://vhost1/; sleep 1; done

2ल्या सर्व्हरवरून

while true; do ab -H "User-Agent: 2server" -c 100 -n 10 -t 10 http://vhost2/; sleep 1; done

3ल्या सर्व्हरवरून

while true; do ab -H "User-Agent: 3server" -c 100 -n 10 -t 10 http://vhost3/; sleep 1; done

4ल्या सर्व्हरवरून

while true; do ab -H "User-Agent: 4server" -c 100 -n 10 -t 10 http://vhost4/; sleep 1; done

क्लिकहाऊसमधील डेटा तपासूया

क्लिकहाऊस वर जा

clickhouse-client -h 172.26.10.109 -m

SQL क्वेरी करत आहे

SELECT * FROM vector.logs;

┌─node_name────┬───────────timestamp─┬─server_name─┬─user_id─┬─request_full───┬─request_user_agent─┬─request_http_host─┬─request_uri─┬─request_scheme─┬─request_method─┬─request_length─┬─request_time─┬─request_referrer─┬─response_status─┬─response_body_bytes_sent─┬─response_content_type─┬───remote_addr─┬─remote_port─┬─remote_user─┬─upstream_addr─┬─upstream_port─┬─upstream_bytes_received─┬─upstream_bytes_sent─┬─upstream_cache_status─┬─upstream_connect_time─┬─upstream_header_time─┬─upstream_response_length─┬─upstream_response_time─┬─upstream_status─┬─upstream_content_type─┐
│ nginx-vector │ 2020-08-07 04:32:42 │ vhost1      │         │ GET / HTTP/1.0 │ 1server            │ vhost1            │ /           │ http           │ GET            │             66 │        0.028 │                  │             404 │                       27 │                       │ 172.26.10.106 │       45886 │             │ 172.26.10.106 │             0 │                     109 │                  97 │ DISABLED              │                     0 │                0.025 │                       27 │                  0.029 │             404 │                       │
└──────────────┴─────────────────────┴─────────────┴─────────┴────────────────┴────────────────────┴───────────────────┴─────────────┴────────────────┴────────────────┴────────────────┴──────────────┴──────────────────┴─────────────────┴──────────────────────────┴───────────────────────┴───────────────┴─────────────┴─────────────┴───────────────┴───────────────┴─────────────────────────┴─────────────────────┴───────────────────────┴───────────────────────┴──────────────────────┴──────────────────────────┴────────────────────────┴─────────────────┴───────────────────────

क्लिकहाऊसमधील टेबल्सचा आकार शोधा

select concat(database, '.', table)                         as table,
       formatReadableSize(sum(bytes))                       as size,
       sum(rows)                                            as rows,
       max(modification_time)                               as latest_modification,
       sum(bytes)                                           as bytes_size,
       any(engine)                                          as engine,
       formatReadableSize(sum(primary_key_bytes_in_memory)) as primary_keys_size
from system.parts
where active
group by database, table
order by bytes_size desc;

क्लिकहाऊसमध्ये किती लॉग घेतले ते शोधूया.

Nginx json लॉग वेक्टर वापरून Clickhouse आणि Elasticsearch ला पाठवत आहे

लॉग टेबलचा आकार 857.19 MB आहे.

Nginx json लॉग वेक्टर वापरून Clickhouse आणि Elasticsearch ला पाठवत आहे

Elasticsearch मधील निर्देशांकातील समान डेटाचा आकार 4,5GB आहे.

जर तुम्ही पॅरामीटर्समध्ये वेक्टरमध्ये डेटा निर्दिष्ट केला नाही, तर क्लिकहाऊस इलास्टिकसर्चच्या तुलनेत 4500/857.19 = 5.24 पट कमी घेते.

वेक्टरमध्ये, कॉम्प्रेशन फील्ड डीफॉल्टनुसार वापरले जाते.

द्वारे टेलिग्राम चॅट क्लिकहाऊस
द्वारे टेलिग्राम चॅट Elasticsearch
"द्वारे टेलीग्राम चॅटप्रणालीचे संकलन आणि विश्लेषण संदेश"

स्त्रोत: www.habr.com

एक टिप्पणी जोडा