Nginx json -lokien lähettäminen Vectorilla Clickhouselle ja Elasticsearchille

Nginx json -lokien lähettäminen Vectorilla Clickhouselle ja Elasticsearchille

vektori, suunniteltu keräämään, muuttamaan ja lähettämään lokitietoja, mittareita ja tapahtumia.

→ Github

Rust-kielellä kirjoitettuna sille on ominaista korkea suorituskyky ja alhainen RAM-muistin kulutus verrattuna sen analogeihin. Lisäksi kiinnitetään paljon huomiota oikeellisuuteen liittyviin toimintoihin, erityisesti mahdollisuuteen tallentaa lähettämättömät tapahtumat levyllä olevaan puskuriin ja kiertää tiedostoja.

Arkkitehtonisesti Vector on tapahtumareititin, joka vastaanottaa viestejä yhdeltä tai useammalta lähteet, valinnaisesti sovelletaan näihin viesteihin muunnoksiaja lähettää ne yhdelle tai useammalle viemärit.

Vector korvaa filebeatin ja logstash, se voi toimia molemmissa rooleissa (vastaanottaa ja lähettää lokeja), lisätietoja niistä Online.

Jos Logstashissa ketju rakennetaan tuloksi → suodatin → ulostuloksi, niin Vectorissa se on lähteetmuunnoksianielujen

Esimerkkejä löytyy dokumentaatiosta.

Tämä ohje on tarkistettu ohje Vjatšeslav Rakhinsky. Alkuperäiset ohjeet sisältävät geoip-käsittelyn. Testattaessa geoippiä sisäisestä verkosta, vektori antoi virheen.

Aug 05 06:25:31.889 DEBUG transform{name=nginx_parse_rename_fields type=rename_fields}: vector::transforms::rename_fields: Field did not exist field=«geoip.country_name» rate_limit_secs=30

Jos jonkun on käsiteltävä geoippiä, katso alkuperäiset ohjeet osoitteesta Vjatšeslav Rakhinsky.

Määritämme yhdistelmän Nginx (käyttölokit) → Vector (Client | Filebeat) → Vector (palvelin | Logstash) → erikseen Clickhousessa ja erikseen Elasticsearchissa. Asennamme 4 palvelinta. Vaikka voit ohittaa sen 3 palvelimella.

Nginx json -lokien lähettäminen Vectorilla Clickhouselle ja Elasticsearchille

Kaava on jotain tämän kaltaista.

Poista Selinux käytöstä kaikilla palvelimillasi

sed -i 's/^SELINUX=.*/SELINUX=disabled/g' /etc/selinux/config
reboot

Asennamme HTTP-palvelinemulaattorin + apuohjelmat kaikille palvelimille

Käytämme HTTP-palvelinemulaattorina nodejs-stub-server alkaen Maxim Ignatenko

Nodejs-stub-serverillä ei ole rpm:ää. Täällä luo sille rpm. rpm rakennetaan käyttämällä Fedora Copr

Lisää arkisto antonpatsev/nodejs-stub-server

yum -y install yum-plugin-copr epel-release
yes | yum copr enable antonpatsev/nodejs-stub-server

Asenna nodejs-stub-server, Apache-benchmark ja näytön päätemultiplekseri kaikille palvelimille

yum -y install stub_http_server screen mc httpd-tools screen

Korjasin stub_http_server-vasteajan /var/lib/stub_http_server/stub_http_server.js-tiedostossa niin, että lokeja oli enemmän.

var max_sleep = 10;

Käynnistä stub_http_server.

systemctl start stub_http_server
systemctl enable stub_http_server

Clickhousen asennus palvelimella 3

ClickHouse käyttää SSE 4.2 -käskysarjaa, joten ellei toisin mainita, sen tuki käytettävässä prosessorissa tulee lisäjärjestelmävaatimuksena. Tässä on komento tarkistaaksesi, tukeeko nykyinen prosessori SSE 4.2:ta:

grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"

Ensin sinun on yhdistettävä virallinen arkisto:

sudo yum install -y yum-utils
sudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
sudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64

Pakettien asentamiseksi sinun on suoritettava seuraavat komennot:

sudo yum install -y clickhouse-server clickhouse-client

Salli clickhouse-server kuunnella verkkokorttia tiedostossa /etc/clickhouse-server/config.xml

<listen_host>0.0.0.0</listen_host>

Kirjaustason muuttaminen jäljityksestä virheenkorjaukseen

korjata virheet jstk

Vakiopakkausasetukset:

min_compress_block_size  65536
max_compress_block_size  1048576

Zstd-pakkauksen aktivoimiseksi kehotettiin olemaan koskematta konfiguraatioon, vaan käyttämään DDL:ää.

Nginx json -lokien lähettäminen Vectorilla Clickhouselle ja Elasticsearchille

En löytänyt zstd-pakkauksen käyttöä DDL:n kautta Googlesta. Joten jätin sen sellaisenaan.

Kollegat, jotka käyttävät zstd-pakkausta Clickhousessa, jaa ohjeet.

Käynnistä palvelin demonina suorittamalla:

service clickhouse-server start

Siirrytään nyt Clickhousen perustamiseen

Mene Clickhouseen

clickhouse-client -h 172.26.10.109 -m

172.26.10.109 — Sen palvelimen IP-osoite, johon Clickhouse on asennettu.

Luodaan vektoritietokanta

CREATE DATABASE vector;

Tarkistetaan, että tietokanta on olemassa.

show databases;

Luo vector.logs-taulukko.

/* Это таблица где хранятся логи как есть */

CREATE TABLE vector.logs
(
    `node_name` String,
    `timestamp` DateTime,
    `server_name` String,
    `user_id` String,
    `request_full` String,
    `request_user_agent` String,
    `request_http_host` String,
    `request_uri` String,
    `request_scheme` String,
    `request_method` String,
    `request_length` UInt64,
    `request_time` Float32,
    `request_referrer` String,
    `response_status` UInt16,
    `response_body_bytes_sent` UInt64,
    `response_content_type` String,
    `remote_addr` IPv4,
    `remote_port` UInt32,
    `remote_user` String,
    `upstream_addr` IPv4,
    `upstream_port` UInt32,
    `upstream_bytes_received` UInt64,
    `upstream_bytes_sent` UInt64,
    `upstream_cache_status` String,
    `upstream_connect_time` Float32,
    `upstream_header_time` Float32,
    `upstream_response_length` UInt64,
    `upstream_response_time` Float32,
    `upstream_status` UInt16,
    `upstream_content_type` String,
    INDEX idx_http_host request_http_host TYPE set(0) GRANULARITY 1
)
ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(timestamp)
ORDER BY timestamp
TTL timestamp + toIntervalMonth(1)
SETTINGS index_granularity = 8192;

Tarkistamme, että taulukot on luotu. Aloitetaan clickhouse-client ja tee pyyntö.

Siirrytään vektoritietokantaan.

use vector;

Ok.

0 rows in set. Elapsed: 0.001 sec.

Katsotaanpa taulukoita.

show tables;

┌─name────────────────┐
│ logs                │
└─────────────────────┘

Elasticsearchin asentaminen 4. palvelimelle lähettääksesi samat tiedot Elasticsearchille vertailua varten Clickhousen kanssa

Lisää julkinen rpm-avain

rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch

Luodaan 2 repoa:

/etc/yum.repos.d/elasticsearch.repo

[elasticsearch]
name=Elasticsearch repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=0
autorefresh=1
type=rpm-md

/etc/yum.repos.d/kibana.repo

[kibana-7.x]
name=Kibana repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md

Asenna elasticsearch ja kibana

yum install -y kibana elasticsearch

Koska siitä tulee yksi kopio, sinun on lisättävä /etc/elasticsearch/elasticsearch.yml-tiedostoon seuraava:

discovery.type: single-node

Jotta tämä vektori voi lähettää dataa elasticsearchiin toiselta palvelimelta, muutetaan verkko.host.

network.host: 0.0.0.0

Muodosta yhteys kibanaan muuttamalla server.host-parametria tiedostossa /etc/kibana/kibana.yml

server.host: "0.0.0.0"

Vanha ja sisällytä elasticsearch automaattiseen käynnistykseen

systemctl enable elasticsearch
systemctl start elasticsearch

ja kibana

systemctl enable kibana
systemctl start kibana

Elasticsearchin määrittäminen yhden solmun tilassa 1 sirpale, 0 replikaa. Todennäköisesti sinulla on suuren määrän palvelimia sisältävä klusteri, eikä sinun tarvitse tehdä tätä.

Päivitä tulevia indeksejä varten oletusmalli:

curl -X PUT http://localhost:9200/_template/default -H 'Content-Type: application/json' -d '{"index_patterns": ["*"],"order": -1,"settings": {"number_of_shards": "1","number_of_replicas": "0"}}' 

Asennus vektori korvaa Logstash palvelimella 2

yum install -y https://packages.timber.io/vector/0.9.X/vector-x86_64.rpm mc httpd-tools screen

Asetetaan Vector korvaamaan Logstash. Muokkaa tiedostoa /etc/vector/vector.toml

# /etc/vector/vector.toml

data_dir = "/var/lib/vector"

[sources.nginx_input_vector]
  # General
  type                          = "vector"
  address                       = "0.0.0.0:9876"
  shutdown_timeout_secs         = 30

[transforms.nginx_parse_json]
  inputs                        = [ "nginx_input_vector" ]
  type                          = "json_parser"

[transforms.nginx_parse_add_defaults]
  inputs                        = [ "nginx_parse_json" ]
  type                          = "lua"
  version                       = "2"

  hooks.process = """
  function (event, emit)

    function split_first(s, delimiter)
      result = {};
      for match in (s..delimiter):gmatch("(.-)"..delimiter) do
          table.insert(result, match);
      end
      return result[1];
    end

    function split_last(s, delimiter)
      result = {};
      for match in (s..delimiter):gmatch("(.-)"..delimiter) do
          table.insert(result, match);
      end
      return result[#result];
    end

    event.log.upstream_addr             = split_first(split_last(event.log.upstream_addr, ', '), ':')
    event.log.upstream_bytes_received   = split_last(event.log.upstream_bytes_received, ', ')
    event.log.upstream_bytes_sent       = split_last(event.log.upstream_bytes_sent, ', ')
    event.log.upstream_connect_time     = split_last(event.log.upstream_connect_time, ', ')
    event.log.upstream_header_time      = split_last(event.log.upstream_header_time, ', ')
    event.log.upstream_response_length  = split_last(event.log.upstream_response_length, ', ')
    event.log.upstream_response_time    = split_last(event.log.upstream_response_time, ', ')
    event.log.upstream_status           = split_last(event.log.upstream_status, ', ')

    if event.log.upstream_addr == "" then
        event.log.upstream_addr = "127.0.0.1"
    end

    if (event.log.upstream_bytes_received == "-" or event.log.upstream_bytes_received == "") then
        event.log.upstream_bytes_received = "0"
    end

    if (event.log.upstream_bytes_sent == "-" or event.log.upstream_bytes_sent == "") then
        event.log.upstream_bytes_sent = "0"
    end

    if event.log.upstream_cache_status == "" then
        event.log.upstream_cache_status = "DISABLED"
    end

    if (event.log.upstream_connect_time == "-" or event.log.upstream_connect_time == "") then
        event.log.upstream_connect_time = "0"
    end

    if (event.log.upstream_header_time == "-" or event.log.upstream_header_time == "") then
        event.log.upstream_header_time = "0"
    end

    if (event.log.upstream_response_length == "-" or event.log.upstream_response_length == "") then
        event.log.upstream_response_length = "0"
    end

    if (event.log.upstream_response_time == "-" or event.log.upstream_response_time == "") then
        event.log.upstream_response_time = "0"
    end

    if (event.log.upstream_status == "-" or event.log.upstream_status == "") then
        event.log.upstream_status = "0"
    end

    emit(event)

  end
  """

[transforms.nginx_parse_remove_fields]
    inputs                              = [ "nginx_parse_add_defaults" ]
    type                                = "remove_fields"
    fields                              = ["data", "file", "host", "source_type"]

[transforms.nginx_parse_coercer]

    type                                = "coercer"
    inputs                              = ["nginx_parse_remove_fields"]

    types.request_length = "int"
    types.request_time = "float"

    types.response_status = "int"
    types.response_body_bytes_sent = "int"

    types.remote_port = "int"

    types.upstream_bytes_received = "int"
    types.upstream_bytes_send = "int"
    types.upstream_connect_time = "float"
    types.upstream_header_time = "float"
    types.upstream_response_length = "int"
    types.upstream_response_time = "float"
    types.upstream_status = "int"

    types.timestamp = "timestamp"

[sinks.nginx_output_clickhouse]
    inputs   = ["nginx_parse_coercer"]
    type     = "clickhouse"

    database = "vector"
    healthcheck = true
    host = "http://172.26.10.109:8123" #  Адрес Clickhouse
    table = "logs"

    encoding.timestamp_format = "unix"

    buffer.type = "disk"
    buffer.max_size = 104900000
    buffer.when_full = "block"

    request.in_flight_limit = 20

[sinks.elasticsearch]
    type = "elasticsearch"
    inputs   = ["nginx_parse_coercer"]
    compression = "none"
    healthcheck = true
    # 172.26.10.116 - сервер где установен elasticsearch
    host = "http://172.26.10.116:9200" 
    index = "vector-%Y-%m-%d"

Voit säätää transforms.nginx_parse_add_defaults-osiota.

Kuin Vjatšeslav Rakhinsky käyttää näitä määrityksiä pienelle CDN:lle ja ylävirran puolella voi olla useita arvoja_*

Esimerkiksi:

"upstream_addr": "128.66.0.10:443, 128.66.0.11:443, 128.66.0.12:443"
"upstream_bytes_received": "-, -, 123"
"upstream_status": "502, 502, 200"

Jos tilanne ei ole tämä, tätä osaa voidaan yksinkertaistaa

Luodaan palveluasetukset tiedostolle systemd /etc/systemd/system/vector.service

# /etc/systemd/system/vector.service

[Unit]
Description=Vector
After=network-online.target
Requires=network-online.target

[Service]
User=vector
Group=vector
ExecStart=/usr/bin/vector
ExecReload=/bin/kill -HUP $MAINPID
Restart=no
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=vector

[Install]
WantedBy=multi-user.target

Kun olet luonut taulukot, voit suorittaa Vectorin

systemctl enable vector
systemctl start vector

Vektorilokit voidaan tarkastella seuraavasti:

journalctl -f -u vector

Lokeissa pitäisi olla tällaisia ​​merkintöjä

INFO vector::topology::builder: Healthcheck: Passed.
INFO vector::topology::builder: Healthcheck: Passed.

Asiakkaalla (Web-palvelin) - 1. palvelin

Palvelimella, jossa on nginx, sinun on poistettava ipv6 käytöstä, koska clickhousen lokitaulukko käyttää kenttää upstream_addr IPv4, koska en käytä ipv6:ta verkossa. Jos ipv6:ta ei ole kytketty pois päältä, tulee virheitä:

DB::Exception: Invalid IPv4 value.: (while read the value of key upstream_addr)

Ehkä lukijat, lisää ipv6-tuki.

Luo tiedosto /etc/sysctl.d/98-disable-ipv6.conf

net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1

Asetusten käyttöönotto

sysctl --system

Asennataan nginx.

Lisätty nginx-arkistotiedosto /etc/yum.repos.d/nginx.repo

[nginx-stable]
name=nginx stable repo
baseurl=http://nginx.org/packages/centos/$releasever/$basearch/
gpgcheck=1
enabled=1
gpgkey=https://nginx.org/keys/nginx_signing.key
module_hotfixes=true

Asenna nginx-paketti

yum install -y nginx

Ensin meidän on määritettävä lokimuoto Nginxissä tiedostossa /etc/nginx/nginx.conf

user  nginx;
# you must set worker processes based on your CPU cores, nginx does not benefit from setting more than that
worker_processes auto; #some last versions calculate it automatically

# number of file descriptors used for nginx
# the limit for the maximum FDs on the server is usually set by the OS.
# if you don't set FD's then OS settings will be used which is by default 2000
worker_rlimit_nofile 100000;

error_log  /var/log/nginx/error.log warn;
pid        /var/run/nginx.pid;

# provides the configuration file context in which the directives that affect connection processing are specified.
events {
    # determines how much clients will be served per worker
    # max clients = worker_connections * worker_processes
    # max clients is also limited by the number of socket connections available on the system (~64k)
    worker_connections 4000;

    # optimized to serve many clients with each thread, essential for linux -- for testing environment
    use epoll;

    # accept as many connections as possible, may flood worker connections if set too low -- for testing environment
    multi_accept on;
}

http {
    include       /etc/nginx/mime.types;
    default_type  application/octet-stream;

    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';

log_format vector escape=json
    '{'
        '"node_name":"nginx-vector",'
        '"timestamp":"$time_iso8601",'
        '"server_name":"$server_name",'
        '"request_full": "$request",'
        '"request_user_agent":"$http_user_agent",'
        '"request_http_host":"$http_host",'
        '"request_uri":"$request_uri",'
        '"request_scheme": "$scheme",'
        '"request_method":"$request_method",'
        '"request_length":"$request_length",'
        '"request_time": "$request_time",'
        '"request_referrer":"$http_referer",'
        '"response_status": "$status",'
        '"response_body_bytes_sent":"$body_bytes_sent",'
        '"response_content_type":"$sent_http_content_type",'
        '"remote_addr": "$remote_addr",'
        '"remote_port": "$remote_port",'
        '"remote_user": "$remote_user",'
        '"upstream_addr": "$upstream_addr",'
        '"upstream_bytes_received": "$upstream_bytes_received",'
        '"upstream_bytes_sent": "$upstream_bytes_sent",'
        '"upstream_cache_status":"$upstream_cache_status",'
        '"upstream_connect_time":"$upstream_connect_time",'
        '"upstream_header_time":"$upstream_header_time",'
        '"upstream_response_length":"$upstream_response_length",'
        '"upstream_response_time":"$upstream_response_time",'
        '"upstream_status": "$upstream_status",'
        '"upstream_content_type":"$upstream_http_content_type"'
    '}';

    access_log  /var/log/nginx/access.log  main;
    access_log  /var/log/nginx/access.json.log vector;      # Новый лог в формате json

    sendfile        on;
    #tcp_nopush     on;

    keepalive_timeout  65;

    #gzip  on;

    include /etc/nginx/conf.d/*.conf;
}

Jotta nykyinen kokoonpanosi ei riko, Nginx antaa sinulle mahdollisuuden käyttää useita access_log-komentoja

access_log  /var/log/nginx/access.log  main;            # Стандартный лог
access_log  /var/log/nginx/access.json.log vector;      # Новый лог в формате json

Muista lisätä uusien lokien logrotate-sääntö (jos lokitiedoston lopussa ei ole .log)

Poista default.conf tiedostosta /etc/nginx/conf.d/

rm -f /etc/nginx/conf.d/default.conf

Lisää virtuaalinen isäntä /etc/nginx/conf.d/vhost1.conf

server {
    listen 80;
    server_name vhost1;
    location / {
        proxy_pass http://172.26.10.106:8080;
    }
}

Lisää virtuaalinen isäntä /etc/nginx/conf.d/vhost2.conf

server {
    listen 80;
    server_name vhost2;
    location / {
        proxy_pass http://172.26.10.108:8080;
    }
}

Lisää virtuaalinen isäntä /etc/nginx/conf.d/vhost3.conf

server {
    listen 80;
    server_name vhost3;
    location / {
        proxy_pass http://172.26.10.109:8080;
    }
}

Lisää virtuaalinen isäntä /etc/nginx/conf.d/vhost4.conf

server {
    listen 80;
    server_name vhost4;
    location / {
        proxy_pass http://172.26.10.116:8080;
    }
}

Lisää virtuaaliset isännät (palvelimen 172.26.10.106 ip, johon nginx on asennettu) kaikkiin palvelimiin /etc/hosts-tiedostoon:

172.26.10.106 vhost1
172.26.10.106 vhost2
172.26.10.106 vhost3
172.26.10.106 vhost4

Ja jos kaikki on valmis

nginx -t 
systemctl restart nginx

Nyt asennetaan se itse vektori

yum install -y https://packages.timber.io/vector/0.9.X/vector-x86_64.rpm

Luodaan asetustiedosto tiedostolle systemd /etc/systemd/system/vector.service

[Unit]
Description=Vector
After=network-online.target
Requires=network-online.target

[Service]
User=vector
Group=vector
ExecStart=/usr/bin/vector
ExecReload=/bin/kill -HUP $MAINPID
Restart=no
StandardOutput=syslog
StandardError=syslog
SyslogIdentifier=vector

[Install]
WantedBy=multi-user.target

Ja määritä Filebeat-korvaus tiedostossa /etc/vector/vector.toml. IP-osoite 172.26.10.108 on lokipalvelimen (Vector-Server) IP-osoite.

data_dir = "/var/lib/vector"

[sources.nginx_file]
  type                          = "file"
  include                       = [ "/var/log/nginx/access.json.log" ]
  start_at_beginning            = false
  fingerprinting.strategy       = "device_and_inode"

[sinks.nginx_output_vector]
  type                          = "vector"
  inputs                        = [ "nginx_file" ]

  address                       = "172.26.10.108:9876"

Älä unohda lisätä vektorikäyttäjää vaadittuun ryhmään, jotta hän voi lukea lokitiedostoja. Esimerkiksi nginx in centos luo lokeja adm-ryhmäoikeuksilla.

usermod -a -G adm vector

Aloitetaan vektoripalvelu

systemctl enable vector
systemctl start vector

Vektorilokit voidaan tarkastella seuraavasti:

journalctl -f -u vector

Lokeissa pitäisi olla tällainen merkintä

INFO vector::topology::builder: Healthcheck: Passed.

Stressitestaus

Testaus suoritetaan Apache benchmarkilla.

httpd-tools-paketti asennettiin kaikille palvelimille

Aloitamme testaamisen Apache-benchmarkilla neljältä eri palvelimelta näytöllä. Ensin käynnistämme näyttöpäätteen multiplekserin ja sitten alamme testata Apache-benchmarkilla. Kuinka työskennellä näytön kanssa, löydät kohdasta статье.

1. palvelimelta

while true; do ab -H "User-Agent: 1server" -c 100 -n 10 -t 10 http://vhost1/; sleep 1; done

2. palvelimelta

while true; do ab -H "User-Agent: 2server" -c 100 -n 10 -t 10 http://vhost2/; sleep 1; done

3. palvelimelta

while true; do ab -H "User-Agent: 3server" -c 100 -n 10 -t 10 http://vhost3/; sleep 1; done

4. palvelimelta

while true; do ab -H "User-Agent: 4server" -c 100 -n 10 -t 10 http://vhost4/; sleep 1; done

Tarkastetaan Clickhousen tiedot

Mene Clickhouseen

clickhouse-client -h 172.26.10.109 -m

SQL-kyselyn tekeminen

SELECT * FROM vector.logs;

┌─node_name────┬───────────timestamp─┬─server_name─┬─user_id─┬─request_full───┬─request_user_agent─┬─request_http_host─┬─request_uri─┬─request_scheme─┬─request_method─┬─request_length─┬─request_time─┬─request_referrer─┬─response_status─┬─response_body_bytes_sent─┬─response_content_type─┬───remote_addr─┬─remote_port─┬─remote_user─┬─upstream_addr─┬─upstream_port─┬─upstream_bytes_received─┬─upstream_bytes_sent─┬─upstream_cache_status─┬─upstream_connect_time─┬─upstream_header_time─┬─upstream_response_length─┬─upstream_response_time─┬─upstream_status─┬─upstream_content_type─┐
│ nginx-vector │ 2020-08-07 04:32:42 │ vhost1      │         │ GET / HTTP/1.0 │ 1server            │ vhost1            │ /           │ http           │ GET            │             66 │        0.028 │                  │             404 │                       27 │                       │ 172.26.10.106 │       45886 │             │ 172.26.10.106 │             0 │                     109 │                  97 │ DISABLED              │                     0 │                0.025 │                       27 │                  0.029 │             404 │                       │
└──────────────┴─────────────────────┴─────────────┴─────────┴────────────────┴────────────────────┴───────────────────┴─────────────┴────────────────┴────────────────┴────────────────┴──────────────┴──────────────────┴─────────────────┴──────────────────────────┴───────────────────────┴───────────────┴─────────────┴─────────────┴───────────────┴───────────────┴─────────────────────────┴─────────────────────┴───────────────────────┴───────────────────────┴──────────────────────┴──────────────────────────┴────────────────────────┴─────────────────┴───────────────────────

Ota selvää Clickhousen pöytien koosta

select concat(database, '.', table)                         as table,
       formatReadableSize(sum(bytes))                       as size,
       sum(rows)                                            as rows,
       max(modification_time)                               as latest_modification,
       sum(bytes)                                           as bytes_size,
       any(engine)                                          as engine,
       formatReadableSize(sum(primary_key_bytes_in_memory)) as primary_keys_size
from system.parts
where active
group by database, table
order by bytes_size desc;

Selvitetään kuinka paljon tukia vei Clickhousessa.

Nginx json -lokien lähettäminen Vectorilla Clickhouselle ja Elasticsearchille

Lokitaulukon koko on 857.19 MB.

Nginx json -lokien lähettäminen Vectorilla Clickhouselle ja Elasticsearchille

Saman datan koko Elasticsearchin hakemistossa on 4,5 Gt.

Jos et määritä dataa vektorissa parametreissa, Clickhouse ottaa 4500/857.19 = 5.24 kertaa vähemmän kuin Elasticsearchissa.

Vektorissa pakkauskenttää käytetään oletuksena.

Telegram chat by clickhouse
Telegram chat by Elasticsearch
Telegram-keskustelu: "Järjestelmän kerääminen ja analysointi viestejä"

Lähde: will.com

Lisää kommentti