Clickhouse සහ Elasticsearch වෙත Vector භාවිතයෙන් Nginx json ලොග යැවීම

Clickhouse සහ Elasticsearch වෙත Vector භාවිතයෙන් Nginx json ලොග යැවීම

දෛශික, ලඝු දත්ත, ප්‍රමිතික සහ සිදුවීම් එකතු කිරීමට, පරිවර්තනය කිරීමට සහ යැවීමට නිර්මාණය කර ඇත.

→ Github

රස්ට් භාෂාවෙන් ලියා ඇති බැවින්, එහි ඇනෙලොග් වලට සාපේක්ෂව ඉහළ කාර්ය සාධනයක් සහ අඩු RAM පරිභෝජනයක් මගින් සංලක්ෂිත වේ. ඊට අමතරව, නිවැරදිභාවය සම්බන්ධ කාර්යයන් කෙරෙහි වැඩි අවධානයක් යොමු කෙරේ, විශේෂයෙන්, නොයවන ලද සිදුවීම් තැටියේ බෆරයකට සුරැකීමට සහ ගොනු කරකවීමේ හැකියාව.

වාස්තු විද්‍යාත්මකව, Vector යනු එක් හෝ වැඩි ගණනකින් පණිවිඩ ලැබෙන සිදුවීම් රවුටරයකි මූලාශ්ර, විකල්ප වශයෙන් මෙම පණිවිඩ මත අයදුම් කිරීම පරිවර්තනයන්, සහ ඒවා එකකට හෝ වැඩි ගණනකට යැවීම කාණු.

දෛශිකය යනු filebeat සහ logstash සඳහා ආදේශකයකි, එයට භූමිකාවන් දෙකෙහිම ක්‍රියා කළ හැකිය (ලඝු සටහන ලැබීම සහ යැවීම), ඒවා පිළිබඳ වැඩි විස්තර වෙබ් අඩවිය.

Logstash හි දාමය ආදානය → filter → output ලෙස ගොඩනගා ඇත්නම් එය දෛශිකයේ වේ. ආරංචි මාර්ගපරිණාමනයගිලෙයි

උදාහරණ ලේඛනවල සොයාගත හැකිය.

මෙම උපදෙස් සංශෝධිත උපදෙස් වේ Vyacheslav Rakhinsky. මුල් උපදෙස් වල geoip සැකසුම් අඩංගු වේ. අභ්යන්තර ජාලයකින් geoip පරීක්ෂා කිරීමේදී, දෛශිකය දෝෂයක් ලබා දුන්නේය.

Aug 05 06:25:31.889 DEBUG transform{name=nginx_parse_rename_fields type=rename_fields}: vector::transforms::rename_fields: Field did not exist field=«geoip.country_name» rate_limit_secs=30

යමෙකුට geoip සැකසීමට අවශ්‍ය නම්, මුල් උපදෙස් වෙත යොමු වන්න Vyacheslav Rakhinsky.

අපි Nginx (ප්‍රවේශ ලඝු-සටහන්) → දෛශික (සේවාලාභියා | ෆයිල්බීට්) → දෛශික (සේවාදායකය | ලොග්ස්ටෑෂ්) → → එකතුව Clickhouse හි සහ වෙන වෙනම Elasticsearch හි වින්‍යාස කරන්නෙමු. අපි සේවාදායකයන් 4 ක් ස්ථාපනය කරන්නෙමු. ඔබට එය සේවාදායකයන් 3 කින් මඟ හැරිය හැකි වුවද.

Clickhouse සහ Elasticsearch වෙත Vector භාවිතයෙන් Nginx json ලොග යැවීම

යෝජනා ක්රමය මේ වගේ දෙයක්.

ඔබගේ සියලුම සර්වර් වල Selinux අක්‍රීය කරන්න

sed -i 's/^SELINUX=.*/SELINUX=disabled/g' /etc/selinux/config
reboot

අපි සියලුම සර්වර් වල HTTP server emulator + utilities ස්ථාපනය කරමු

HTTP සේවාදායක ඉමුලේටරයක් ​​ලෙස අපි භාවිතා කරන්නෙමු nodejs-stub-server от මැක්සිම් ඉග්නාටෙන්කෝ

Nodejs-stub-server හට rpm එකක් නොමැත. එය ඒ සඳහා rpm සාදන්න. rpm භාවිතා කරමින් සම්පාදනය කරනු ලැබේ Fedora Copr

antonpatsev/nodejs-stub-server ගබඩාව එක් කරන්න

yum -y install yum-plugin-copr epel-release
yes | yum copr enable antonpatsev/nodejs-stub-server

සියලුම සේවාදායකයන් මත nodejs-stub-server, Apache මිණුම් ලකුණ සහ තිර පර්යන්ත බහුකාර්යය ස්ථාපනය කරන්න

yum -y install stub_http_server screen mc httpd-tools screen

මම stub_http_server ප්‍රතිචාර කාලය /var/lib/stub_http_server/stub_http_server.js ගොනුව තුළ නිවැරදි කළ නිසා තවත් ලඝු-සටහන් ඇති විය.

var max_sleep = 10;

අපි stub_http_server දියත් කරමු.

systemctl start stub_http_server
systemctl enable stub_http_server

ක්ලික්හවුස් ස්ථාපනය සේවාදායකය 3 මත

ClickHouse SSE 4.2 උපදෙස් මාලාව භාවිතා කරයි, එබැවින් වෙනත් ආකාරයකින් නිශ්චිතව දක්වා නොමැති නම්, භාවිතා කරන ප්‍රොසෙසරය සඳහා සහය අතිරේක පද්ධති අවශ්‍යතාවයක් බවට පත්වේ. වත්මන් ප්‍රොසෙසරය SSE 4.2 සඳහා සහය දක්වන්නේ දැයි පරීක්ෂා කිරීමට විධානය මෙන්න:

grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"

පළමුව ඔබ නිල ගබඩාව සම්බන්ධ කළ යුතුය:

sudo yum install -y yum-utils
sudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
sudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64

පැකේජ ස්ථාපනය කිරීමට ඔබ පහත විධානයන් ක්‍රියාත්මක කළ යුතුය:

sudo yum install -y clickhouse-server clickhouse-client

/etc/clickhouse-server/config.xml ගොනුවේ ඇති ජාල කාඩ්පතට සවන් දීමට clickhouse-server හට ඉඩ දෙන්න

<listen_host>0.0.0.0</listen_host>

ලොග් මට්ටම හෝඩුවාවේ සිට දෝෂහරණය දක්වා වෙනස් කිරීම

දෝශනිරාකරණ වාර්ථා

සම්මත සම්පීඩන සැකසුම්:

min_compress_block_size  65536
max_compress_block_size  1048576

Zstd සම්පීඩනය සක්‍රිය කිරීම සඳහා, වින්‍යාසය ස්පර්ශ නොකරන ලෙස උපදෙස් දෙන නමුත් DDL භාවිතා කරන ලෙස උපදෙස් දෙන ලදී.

Clickhouse සහ Elasticsearch වෙත Vector භාවිතයෙන් Nginx json ලොග යැවීම

Google හි DDL හරහා zstd සම්පීඩනය භාවිතා කරන්නේ කෙසේදැයි මට සොයා ගැනීමට නොහැකි විය. ඒ නිසා මම ඒක එහෙමම දාලා ගියා.

Clickhouse හි zstd සම්පීඩනය භාවිතා කරන සගයන්, කරුණාකර උපදෙස් බෙදා ගන්න.

සේවාදායකය ඩීමන් ලෙස ආරම්භ කිරීමට, ධාවනය කරන්න:

service clickhouse-server start

දැන් අපි Clickhouse පිහිටුවීමට යමු

Clickhouse වෙත යන්න

clickhouse-client -h 172.26.10.109 -m

172.26.10.109 — Clickhouse ස්ථාපනය කර ඇති සේවාදායකයේ IP.

අපි දෛශික දත්ත සමුදායක් නිර්මාණය කරමු

CREATE DATABASE vector;

දත්ත සමුදාය තිබේදැයි පරීක්ෂා කර බලමු.

show databases;

vector.logs වගුවක් සාදන්න.

/* Это таблица где хранятся логи как есть */

CREATE TABLE vector.logs
(
    `node_name` String,
    `timestamp` DateTime,
    `server_name` String,
    `user_id` String,
    `request_full` String,
    `request_user_agent` String,
    `request_http_host` String,
    `request_uri` String,
    `request_scheme` String,
    `request_method` String,
    `request_length` UInt64,
    `request_time` Float32,
    `request_referrer` String,
    `response_status` UInt16,
    `response_body_bytes_sent` UInt64,
    `response_content_type` String,
    `remote_addr` IPv4,
    `remote_port` UInt32,
    `remote_user` String,
    `upstream_addr` IPv4,
    `upstream_port` UInt32,
    `upstream_bytes_received` UInt64,
    `upstream_bytes_sent` UInt64,
    `upstream_cache_status` String,
    `upstream_connect_time` Float32,
    `upstream_header_time` Float32,
    `upstream_response_length` UInt64,
    `upstream_response_time` Float32,
    `upstream_status` UInt16,
    `upstream_content_type` String,
    INDEX idx_http_host request_http_host TYPE set(0) GRANULARITY 1
)
ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(timestamp)
ORDER BY timestamp
TTL timestamp + toIntervalMonth(1)
SETTINGS index_granularity = 8192;

වගු නිර්මාණය කර ඇත්දැයි අපි පරීක්ෂා කරමු. අපි දියත් කරමු clickhouse-client සහ ඉල්ලීමක් කරන්න.

අපි දෛශික දත්ත ගබඩාවට යමු.

use vector;

Ok.

0 rows in set. Elapsed: 0.001 sec.

අපි මේස දෙස බලමු.

show tables;

┌─name────────────────┐
│ logs                │
└─────────────────────┘

Clickhouse හා සැසඳීම සඳහා Elasticsearch වෙත එම දත්ත යැවීමට 4 වන සේවාදායකයේ elasticsearch ස්ථාපනය කිරීම

පොදු rpm යතුරක් එක් කරන්න

rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch

අපි repo 2ක් නිර්මාණය කරමු:

/etc/yum.repos.d/elasticsearch.repo

[elasticsearch]
name=Elasticsearch repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=0
autorefresh=1
type=rpm-md

/etc/yum.repos.d/kibana.repo

[kibana-7.x]
name=Kibana repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md

elasticsearch සහ kibana ස්ථාපනය කරන්න

yum install -y kibana elasticsearch

එය 1 පිටපතක ඇති බැවින්, ඔබ /etc/elasticsearch/elasticsearch.yml ගොනුවට පහත සඳහන් දෑ එක් කළ යුතුය:

discovery.type: single-node

ඒ නිසා දෛශිකයට වෙනත් සේවාදායකයකින් elasticsearch වෙත දත්ත යැවිය හැක, අපි network.host වෙනස් කරමු.

network.host: 0.0.0.0

කිබානා වෙත සම්බන්ධ වීමට, /etc/kibana/kibana.yml ගොනුවේ server.host පරාමිතිය වෙනස් කරන්න

server.host: "0.0.0.0"

පැරණි සහ ස්වයංක්‍රීය ආරම්භයේ ඉලාස්ටික් සෙවුම් ඇතුළත් කරන්න

systemctl enable elasticsearch
systemctl start elasticsearch

සහ කිබානා

systemctl enable kibana
systemctl start kibana

තනි-නෝඩ් මාදිලිය 1 ෂාර්ඩ්, 0 අනුරුව සඳහා ඉලාස්ටික් සෙවුම් වින්‍යාස කිරීම. බොහෝ දුරට ඔබට සේවාදායකයන් විශාල සංඛ්‍යාවක් ඇති අතර ඔබට මෙය කිරීමට අවශ්‍ය නොවේ.

අනාගත දර්ශක සඳහා, පෙරනිමි අච්චුව යාවත්කාලීන කරන්න:

curl -X PUT http://localhost:9200/_template/default -H 'Content-Type: application/json' -d '{"index_patterns": ["*"],"order": -1,"settings": {"number_of_shards": "1","number_of_replicas": "0"}}' 

ස්ථාපනය දෛශික සේවාදායකය 2 හි Logstash වෙනුවට ආදේශකයක් ලෙස

yum install -y https://packages.timber.io/vector/0.9.X/vector-x86_64.rpm mc httpd-tools screen

Logstash සඳහා ආදේශකයක් ලෙස Vector සකසමු. ගොනුව සංස්කරණය කිරීම /etc/vector/vector.toml

# /etc/vector/vector.toml

data_dir = "/var/lib/vector"

[sources.nginx_input_vector]
  # General
  type                          = "vector"
  address                       = "0.0.0.0:9876"
  shutdown_timeout_secs         = 30

[transforms.nginx_parse_json]
  inputs                        = [ "nginx_input_vector" ]
  type                          = "json_parser"

[transforms.nginx_parse_add_defaults]
  inputs                        = [ "nginx_parse_json" ]
  type                          = "lua"
  version                       = "2"

  hooks.process = """
  function (event, emit)

    function split_first(s, delimiter)
      result = {};
      for match in (s..delimiter):gmatch("(.-)"..delimiter) do
          table.insert(result, match);
      end
      return result[1];
    end

    function split_last(s, delimiter)
      result = {};
      for match in (s..delimiter):gmatch("(.-)"..delimiter) do
          table.insert(result, match);
      end
      return result[#result];
    end

    event.log.upstream_addr             = split_first(split_last(event.log.upstream_addr, ', '), ':')
    event.log.upstream_bytes_received   = split_last(event.log.upstream_bytes_received, ', ')
    event.log.upstream_bytes_sent       = split_last(event.log.upstream_bytes_sent, ', ')
    event.log.upstream_connect_time     = split_last(event.log.upstream_connect_time, ', ')
    event.log.upstream_header_time      = split_last(event.log.upstream_header_time, ', ')
    event.log.upstream_response_length  = split_last(event.log.upstream_response_length, ', ')
    event.log.upstream_response_time    = split_last(event.log.upstream_response_time, ', ')
    event.log.upstream_status           = split_last(event.log.upstream_status, ', ')

    if event.log.upstream_addr == "" then
        event.log.upstream_addr = "127.0.0.1"
    end

    if (event.log.upstream_bytes_received == "-" or event.log.upstream_bytes_received == "") then
        event.log.upstream_bytes_received = "0"
    end

    if (event.log.upstream_bytes_sent == "-" or event.log.upstream_bytes_sent == "") then
        event.log.upstream_bytes_sent = "0"
    end

    if event.log.upstream_cache_status == "" then
        event.log.upstream_cache_status = "DISABLED"
    end

    if (event.log.upstream_connect_time == "-" or event.log.upstream_connect_time == "") then
        event.log.upstream_connect_time = "0"
    end

    if (event.log.upstream_header_time == "-" or event.log.upstream_header_time == "") then
        event.log.upstream_header_time = "0"
    end

    if (event.log.upstream_response_length == "-" or event.log.upstream_response_length == "") then
        event.log.upstream_response_length = "0"
    end

    if (event.log.upstream_response_time == "-" or event.log.upstream_response_time == "") then
        event.log.upstream_response_time = "0"
    end

    if (event.log.upstream_status == "-" or event.log.upstream_status == "") then
        event.log.upstream_status = "0"
    end

    emit(event)

  end
  """

[transforms.nginx_parse_remove_fields]
    inputs                              = [ "nginx_parse_add_defaults" ]
    type                                = "remove_fields"
    fields                              = ["data", "file", "host", "source_type"]

[transforms.nginx_parse_coercer]

    type                                = "coercer"
    inputs                              = ["nginx_parse_remove_fields"]

    types.request_length = "int"
    types.request_time = "float"

    types.response_status = "int"
    types.response_body_bytes_sent = "int"

    types.remote_port = "int"

    types.upstream_bytes_received = "int"
    types.upstream_bytes_send = "int"
    types.upstream_connect_time = "float"
    types.upstream_header_time = "float"
    types.upstream_response_length = "int"
    types.upstream_response_time = "float"
    types.upstream_status = "int"

    types.timestamp = "timestamp"

[sinks.nginx_output_clickhouse]
    inputs   = ["nginx_parse_coercer"]
    type     = "clickhouse"

    database = "vector"
    healthcheck = true
    host = "http://172.26.10.109:8123" #  Адрес Clickhouse
    table = "logs"

    encoding.timestamp_format = "unix"

    buffer.type = "disk"
    buffer.max_size = 104900000
    buffer.when_full = "block"

    request.in_flight_limit = 20

[sinks.elasticsearch]
    type = "elasticsearch"
    inputs   = ["nginx_parse_coercer"]
    compression = "none"
    healthcheck = true
    # 172.26.10.116 - сервер где установен elasticsearch
    host = "http://172.26.10.116:9200" 
    index = "vector-%Y-%m-%d"

ඔබට transforms.nginx_parse_add_defaults කොටස සීරුමාරු කළ හැක.

සිට Vyacheslav Rakhinsky කුඩා CDN සඳහා මෙම වින්‍යාස භාවිතා කරන අතර upstream_* හි අගයන් කිහිපයක් තිබිය හැක

උදාහරණ වශයෙන්:

"upstream_addr": "128.66.0.10:443, 128.66.0.11:443, 128.66.0.12:443"
"upstream_bytes_received": "-, -, 123"
"upstream_status": "502, 502, 200"

මෙය ඔබගේ තත්වය නොවේ නම්, මෙම කොටස සරල කළ හැකිය

අපි systemd /etc/systemd/system/vector.service සඳහා සේවා සැකසුම් නිර්මාණය කරමු.

# /etc/systemd/system/vector.service

[Unit]
Description=Vector
After=network-online.target
Requires=network-online.target

[Service]
User=vector
Group=vector
ExecStart=/usr/bin/vector
ExecReload=/bin/kill -HUP $MAINPID
Restart=no
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=vector

[Install]
WantedBy=multi-user.target

වගු සෑදීමෙන් පසු, ඔබට Vector ධාවනය කළ හැකිය

systemctl enable vector
systemctl start vector

දෛශික ලඝු-සටහන් මේ ආකාරයට බැලිය හැක:

journalctl -f -u vector

ලඝු-සටහන් වල මෙවැනි ඇතුළත් කිරීම් තිබිය යුතුය

INFO vector::topology::builder: Healthcheck: Passed.
INFO vector::topology::builder: Healthcheck: Passed.

සේවාදායකයා මත (වෙබ් සේවාදායකය) - 1 වන සේවාදායකය

ක්ලික්හවුස් හි ලොග් වගුව ක්ෂේත්‍රය භාවිතා කරන බැවින් nginx සමඟ සේවාදායකයේ, ඔබ ipv6 අක්‍රිය කළ යුතුය. upstream_addr IPv4, මම ජාලය තුළ ipv6 භාවිතා නොකරන නිසා. ipv6 අක්‍රිය කර නොමැති නම්, දෝෂ ඇතිවේ:

DB::Exception: Invalid IPv4 value.: (while read the value of key upstream_addr)

සමහරවිට පාඨකයින්, ipv6 සහය එක් කරන්න.

/etc/sysctl.d/98-disable-ipv6.conf ගොනුව සාදන්න

net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1

සැකසුම් යෙදීම

sysctl --system

අපි nginx ස්ථාපනය කරමු.

nginx ගබඩා ගොනුව /etc/yum.repos.d/nginx.repo එකතු කරන ලදී

[nginx-stable]
name=nginx stable repo
baseurl=http://nginx.org/packages/centos/$releasever/$basearch/
gpgcheck=1
enabled=1
gpgkey=https://nginx.org/keys/nginx_signing.key
module_hotfixes=true

nginx පැකේජය ස්ථාපනය කරන්න

yum install -y nginx

පළමුව, අපි /etc/nginx/nginx.conf ගොනුවේ Nginx හි ලොග් ආකෘතිය වින්‍යාසගත කළ යුතුය.

user  nginx;
# you must set worker processes based on your CPU cores, nginx does not benefit from setting more than that
worker_processes auto; #some last versions calculate it automatically

# number of file descriptors used for nginx
# the limit for the maximum FDs on the server is usually set by the OS.
# if you don't set FD's then OS settings will be used which is by default 2000
worker_rlimit_nofile 100000;

error_log  /var/log/nginx/error.log warn;
pid        /var/run/nginx.pid;

# provides the configuration file context in which the directives that affect connection processing are specified.
events {
    # determines how much clients will be served per worker
    # max clients = worker_connections * worker_processes
    # max clients is also limited by the number of socket connections available on the system (~64k)
    worker_connections 4000;

    # optimized to serve many clients with each thread, essential for linux -- for testing environment
    use epoll;

    # accept as many connections as possible, may flood worker connections if set too low -- for testing environment
    multi_accept on;
}

http {
    include       /etc/nginx/mime.types;
    default_type  application/octet-stream;

    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';

log_format vector escape=json
    '{'
        '"node_name":"nginx-vector",'
        '"timestamp":"$time_iso8601",'
        '"server_name":"$server_name",'
        '"request_full": "$request",'
        '"request_user_agent":"$http_user_agent",'
        '"request_http_host":"$http_host",'
        '"request_uri":"$request_uri",'
        '"request_scheme": "$scheme",'
        '"request_method":"$request_method",'
        '"request_length":"$request_length",'
        '"request_time": "$request_time",'
        '"request_referrer":"$http_referer",'
        '"response_status": "$status",'
        '"response_body_bytes_sent":"$body_bytes_sent",'
        '"response_content_type":"$sent_http_content_type",'
        '"remote_addr": "$remote_addr",'
        '"remote_port": "$remote_port",'
        '"remote_user": "$remote_user",'
        '"upstream_addr": "$upstream_addr",'
        '"upstream_bytes_received": "$upstream_bytes_received",'
        '"upstream_bytes_sent": "$upstream_bytes_sent",'
        '"upstream_cache_status":"$upstream_cache_status",'
        '"upstream_connect_time":"$upstream_connect_time",'
        '"upstream_header_time":"$upstream_header_time",'
        '"upstream_response_length":"$upstream_response_length",'
        '"upstream_response_time":"$upstream_response_time",'
        '"upstream_status": "$upstream_status",'
        '"upstream_content_type":"$upstream_http_content_type"'
    '}';

    access_log  /var/log/nginx/access.log  main;
    access_log  /var/log/nginx/access.json.log vector;      # Новый лог в формате json

    sendfile        on;
    #tcp_nopush     on;

    keepalive_timeout  65;

    #gzip  on;

    include /etc/nginx/conf.d/*.conf;
}

ඔබගේ වත්මන් වින්‍යාසය බිඳ නොදැමීම සඳහා, Nginx ඔබට access_log විධාන කිහිපයක් ලබා ගැනීමට ඉඩ දෙයි

access_log  /var/log/nginx/access.log  main;            # Стандартный лог
access_log  /var/log/nginx/access.json.log vector;      # Новый лог в формате json

නව ලොග් සඳහා ලොග්‍රොටේට් කිරීමට රීතියක් එක් කිරීමට අමතක නොකරන්න (ලොග් ගොනුව .log වලින් අවසන් නොවන්නේ නම්)

/etc/nginx/conf.d/ වෙතින් default.conf ඉවත් කරන්න

rm -f /etc/nginx/conf.d/default.conf

අතථ්‍ය සත්කාරක /etc/nginx/conf.d/vhost1.conf එක් කරන්න

server {
    listen 80;
    server_name vhost1;
    location / {
        proxy_pass http://172.26.10.106:8080;
    }
}

අතථ්‍ය සත්කාරක /etc/nginx/conf.d/vhost2.conf එක් කරන්න

server {
    listen 80;
    server_name vhost2;
    location / {
        proxy_pass http://172.26.10.108:8080;
    }
}

අතථ්‍ය සත්කාරක /etc/nginx/conf.d/vhost3.conf එක් කරන්න

server {
    listen 80;
    server_name vhost3;
    location / {
        proxy_pass http://172.26.10.109:8080;
    }
}

අතථ්‍ය සත්කාරක /etc/nginx/conf.d/vhost4.conf එක් කරන්න

server {
    listen 80;
    server_name vhost4;
    location / {
        proxy_pass http://172.26.10.116:8080;
    }
}

අථත්‍ය ධාරක (nginx ස්ථාපනය කර ඇති සේවාදායකයේ 172.26.10.106 ip) /etc/hosts ගොනුවට සියලුම සේවාදායකයන් වෙත එක් කරන්න:

172.26.10.106 vhost1
172.26.10.106 vhost2
172.26.10.106 vhost3
172.26.10.106 vhost4

සහ සියල්ල සූදානම් නම්

nginx -t 
systemctl restart nginx

දැන් අපි එය අප විසින්ම ස්ථාපනය කරමු දෛශික

yum install -y https://packages.timber.io/vector/0.9.X/vector-x86_64.rpm

අපි systemd /etc/systemd/system/vector.service සඳහා සැකසුම් ගොනුවක් සාදා ගනිමු.

[Unit]
Description=Vector
After=network-online.target
Requires=network-online.target

[Service]
User=vector
Group=vector
ExecStart=/usr/bin/vector
ExecReload=/bin/kill -HUP $MAINPID
Restart=no
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=vector

[Install]
WantedBy=multi-user.target

Filebeat ආදේශනය /etc/vector/vector.toml වින්‍යාසය තුළ වින්‍යාස කරන්න. IP ලිපිනය 172.26.10.108 යනු ලොග් සේවාදායකයේ IP ලිපිනයයි (Vector-Server)

data_dir = "/var/lib/vector"

[sources.nginx_file]
  type                          = "file"
  include                       = [ "/var/log/nginx/access.json.log" ]
  start_at_beginning            = false
  fingerprinting.strategy       = "device_and_inode"

[sinks.nginx_output_vector]
  type                          = "vector"
  inputs                        = [ "nginx_file" ]

  address                       = "172.26.10.108:9876"

දෛශික පරිශීලකයා අවශ්‍ය කණ්ඩායමට එක් කිරීමට අමතක නොකරන්න එවිට ඔහුට ලොග් ගොනු කියවිය හැකිය. උදාහරණයක් ලෙස, centos හි nginx adm සමූහ හිමිකම් සමඟ ලොග නිර්මාණය කරයි.

usermod -a -G adm vector

අපි දෛශික සේවාව ආරම්භ කරමු

systemctl enable vector
systemctl start vector

දෛශික ලඝු-සටහන් මේ ආකාරයට බැලිය හැක:

journalctl -f -u vector

ලඝු-සටහන් වල මෙවැනි ප්‍රවේශයක් තිබිය යුතුය

INFO vector::topology::builder: Healthcheck: Passed.

ආතතිය පරීක්ෂා කිරීම

අපි Apache මිණුම් ලකුණ භාවිතයෙන් පරීක්ෂණ සිදු කරන්නෙමු.

httpd-tools පැකේජය සියලුම සේවාදායකයන් මත ස්ථාපනය කර ඇත

අපි තිරයේ ඇති විවිධ සේවාදායක 4කින් Apache මිණුම් ලකුණ භාවිතයෙන් පරීක්ෂා කිරීමට පටන් ගනිමු. පළමුව, අපි තිර පර්යන්ත බහුකාර්යය දියත් කරන්නෙමු, පසුව අපි Apache මිණුම් ලකුණ භාවිතයෙන් පරීක්ෂා කිරීමට පටන් ගනිමු. ඔබට සොයා ගත හැකි තිරය සමඟ වැඩ කරන ආකාරය ලිපියයි.

1 වන සේවාදායකයෙන්

while true; do ab -H "User-Agent: 1server" -c 100 -n 10 -t 10 http://vhost1/; sleep 1; done

2 වන සේවාදායකයෙන්

while true; do ab -H "User-Agent: 2server" -c 100 -n 10 -t 10 http://vhost2/; sleep 1; done

3 වන සේවාදායකයෙන්

while true; do ab -H "User-Agent: 3server" -c 100 -n 10 -t 10 http://vhost3/; sleep 1; done

4 වන සේවාදායකයෙන්

while true; do ab -H "User-Agent: 4server" -c 100 -n 10 -t 10 http://vhost4/; sleep 1; done

අපි Clickhouse හි දත්ත පරීක්ෂා කරමු

Clickhouse වෙත යන්න

clickhouse-client -h 172.26.10.109 -m

SQL විමසුමක් සෑදීම

SELECT * FROM vector.logs;

┌─node_name────┬───────────timestamp─┬─server_name─┬─user_id─┬─request_full───┬─request_user_agent─┬─request_http_host─┬─request_uri─┬─request_scheme─┬─request_method─┬─request_length─┬─request_time─┬─request_referrer─┬─response_status─┬─response_body_bytes_sent─┬─response_content_type─┬───remote_addr─┬─remote_port─┬─remote_user─┬─upstream_addr─┬─upstream_port─┬─upstream_bytes_received─┬─upstream_bytes_sent─┬─upstream_cache_status─┬─upstream_connect_time─┬─upstream_header_time─┬─upstream_response_length─┬─upstream_response_time─┬─upstream_status─┬─upstream_content_type─┐
│ nginx-vector │ 2020-08-07 04:32:42 │ vhost1      │         │ GET / HTTP/1.0 │ 1server            │ vhost1            │ /           │ http           │ GET            │             66 │        0.028 │                  │             404 │                       27 │                       │ 172.26.10.106 │       45886 │             │ 172.26.10.106 │             0 │                     109 │                  97 │ DISABLED              │                     0 │                0.025 │                       27 │                  0.029 │             404 │                       │
└──────────────┴─────────────────────┴─────────────┴─────────┴────────────────┴────────────────────┴───────────────────┴─────────────┴────────────────┴────────────────┴────────────────┴──────────────┴──────────────────┴─────────────────┴──────────────────────────┴───────────────────────┴───────────────┴─────────────┴─────────────┴───────────────┴───────────────┴─────────────────────────┴─────────────────────┴───────────────────────┴───────────────────────┴──────────────────────┴──────────────────────────┴────────────────────────┴─────────────────┴───────────────────────

Clickhouse හි වගු වල ප්‍රමාණය සොයා ගන්න

select concat(database, '.', table)                         as table,
       formatReadableSize(sum(bytes))                       as size,
       sum(rows)                                            as rows,
       max(modification_time)                               as latest_modification,
       sum(bytes)                                           as bytes_size,
       any(engine)                                          as engine,
       formatReadableSize(sum(primary_key_bytes_in_memory)) as primary_keys_size
from system.parts
where active
group by database, table
order by bytes_size desc;

Clickhouse හි කොපමණ ලොග් ප්‍රමාණයක් ලබාගෙන ඇත්දැයි සොයා බලමු.

Clickhouse සහ Elasticsearch වෙත Vector භාවිතයෙන් Nginx json ලොග යැවීම

ලොග වගු විශාලත්වය 857.19 MB වේ.

Clickhouse සහ Elasticsearch වෙත Vector භාවිතයෙන් Nginx json ලොග යැවීම

Elasticsearch හි දර්ශකයේ එකම දත්තවල ප්‍රමාණය 4,5GB වේ.

ඔබ පරාමිතිවල දෛශිකයේ දත්ත සඳහන් නොකරන්නේ නම්, Clickhouse විසින් Elasticsearch වලට වඩා 4500/857.19 = 5.24 ගුණයකින් අඩු වේ.

දෛශිකයේ, සම්පීඩන ක්ෂේත්රය පෙරනිමියෙන් භාවිතා වේ.

ටෙලිග්‍රාම් කතාබස් කළේ ක්ලික්හවුස්
ටෙලිග්‍රාම් කතාබස් කළේ Elasticsearch
ටෙලිග්‍රාම් කතාබස් කරන්නේ "පද්ධතිය එකතු කිරීම සහ විශ්ලේෂණය පණිවිඩ"

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න